当前位置:网站首页>人人都能用的多语种大模型来了!支持59种语言,参数1760亿,1000名科学家联合发起
人人都能用的多语种大模型来了!支持59种语言,参数1760亿,1000名科学家联合发起
2022-07-21 20:46:00 【量子位】
丰色 发自 凹非寺 量子位 | 公众号 QbitAI
一直以来,很多大模型都由造它们出来的大型私营科技公司垄断着。
比如GPT-3等,对于普通人来说,再香也只能眼巴巴看着。
不过现在,为了给你解馋,由近1000名科学家联合发起的一个志愿项目,耗时一年多炼出了一个号称和GPT-3一样强大的语言模型。
它的名字叫BLOOM,参数1760亿,不光支持英文或者中文,连西班牙语、法语等59种语言都支持,是目前最大的多语言开源语言模型。
是的,从现在起,从代码到数据集,BLOOM全部对外开放,所有人都可使用。
动用法国超算、花费384块A100
BLOOM是一个BigScience项目,去年5月启动,由Hugging Face主导,收到了700万美元的公共捐款。
共有来自全球60个国家、超过250个机构,以及超过1000名研究人员参与其中,其中包括以个人名义参加的Meta、谷歌等大厂员工。
它的训练在法国超级计算机Jean Zay上进行,共花费了384块A100 GPU,其中每块有80 GB内存,训练吞吐量约150 TFLOP(该超算由低碳的核能提供动力,释放的热量还用来给学校供暖)。
相关推特账号从3月14日起,每天记录BLOOM的进度。
随着进度条渐渐拉满,每天去点赞的人数也越来越多。
不过,到了102%它才正式停下——
7月2号,耗时117天的BLOOM宣告完成,恰好在预期计划时间内。
最终,BLOOM:
- 拥有1760亿参数,比GPT-3还多10亿
- 包含70层,每层112个注意力头
- token序列长度为2048
- 采用GeLU激活函数
- 数据集共计3416亿条token(1.5TB文本数据)
- 支持13种编程语言、46种语言
其中,对于很多语言来说,比如法语、西班牙语和阿拉伯语等,都是首次有了自己的开源模型(有网友发现日语目前还不支持)。
此外,为了让BLOOM最后的生成结果尽可能地减少偏见,参与人员还费了不少功夫抓取到的数据还进行了一遍人工过滤。
目前,BLOOM的训练对硬件也还是有一些要求:
为了保证效果,最好是准备8块80GB或者16块40GB的的A100。
这导致只有稍微大点的团队才能用。
当然也可以选择在云上训练,最高每小时40美元。
最后,BLOOM表示还会降低使用门槛,并准备开发一个分布式系统,允许实验室在其服务器之间共享模型。
它声称自己将会成为一个模型家族,不会一劳永逸。
Hugging Face地址: https://huggingface.co/bigscience/bloom
参考链接: [1]https://twitter.com/evanmiltenburg/status/1546792818269732864 [2]https://techcrunch.com/2022/07/12/a-year-in-the-making-bigsciences-ai-language-model-is-finally-available/
— 完 —
「人工智能」、「智能汽车」微信社群邀你加入!
欢迎关注人工智能、智能汽车的小伙伴们加入我们,与AI从业者交流、切磋,不错过最新行业发展&技术进展。
ps.加好友请务必备注您的姓名-公司-职位哦~
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见~
边栏推荐
- Opencv & crop video into image sets with a specified frame rate
- Pyinstaller打包 && 关于Enum34的问题解决 && 降低版本
- _TensorBase(45个张量基础后置函数总结) && Pytorch官方文件 && NOTEBOOK(NINE)
- 你为什么会做测试/开发程序员?各路伙伴描述......
- Call the "Transformers pipeline API created by the face hugging team" & quickly train and fine tune your own model through pre training model
- Example interview - Zeng yuluo: gain experience from lectures
- 基于PyTorch深度学习遥感影像地物分类与目标检测、分割及遥感影像问题深度学习优化
- 同花顺平台安全吗 华泰证券开户app
- AcWing 1184. Euler circuit problem solving (Euler circuit)
- PHP利用Redis 事务实现商品秒杀
猜你喜欢
嵌入式分享合集18
Leetcode skimming -- bit by bit record 019
Sentinel vs Hystrix 对比,你怎么选?
Use of PHP generator yield performance optimization
BGP的基本配置
(PC+WAP)织梦模板防护口罩类网站
Human resource management software makes every employee's records within reach
(pc+wap) dream weaving template protective mask website
伙伴云戴志康:如何利用低代码提升研发和IT效能
Introduction to nodes
随机推荐
基于JSP+Servlet+MySQL的新闻博客发布系统
Call the "Transformers pipeline API created by the face hugging team" & quickly train and fine tune your own model through pre training model
【uniCloud】云对象的应用与提升
MySQL插入数据insert ignore和replace into
Interview shock 67: talk about tcp/ip protocol? And the role of each layer?
即看即用 && 比较操作(Comparison Ops) && Pytorch官方文档总结 && 笔记 (七)
What is the value of continuous delivery?
TZC 1283: 简单排序 —— 快速排序
lc marathon 7.21
nodes 簡介
调用“抱抱脸团队打造的Transformers pipeline API” && 通过预训练模型,快速训练和微调自己的模型
PHP利用Redis 事务实现商品秒杀
Dokcer running Nacos container automatic exit problem
基于PyTorch深度学习遥感影像地物分类与目标检测、分割及遥感影像问题深度学习优化
Memorize these interview questions, and you will be half successful in any technical aspect
文件夹下搜索匹配文件或目录 glob()
Based on pytorch deep learning, remote sensing image feature classification and target detection, segmentation and remote sensing image problem deep learning optimization
TX2显存与内存之间数据传递原理
Classic interview questions of interface testing: what is the difference between session, cookie and token?
基于SSM+MySQL+Bootstrap+JQuery的在线购物商城电子商务系统