当前位置:网站首页>机器翻译做到头了?Meta开源NLLB翻译模型,支持200种语言互译
机器翻译做到头了?Meta开源NLLB翻译模型,支持200种语言互译
2022-07-19 11:56:00 【夕小瑶】
文 | Alex(凹非寺)
源 | 量子位
这个翻译模型,不仅支持200+语言之间任意两两互译,还是开源的。Meta AI在发布开源大型预训练模型OPT之后,再次发布最新成果NLLB。
NLLB的全称为No Language Left Behind,如果套用某著名电影,可以翻译成“一个语言都不能少”。

这其中,中文分为简体繁体和粤语三种,而除了中英法日语等常用语种外,还包括了许多小众语言。

由于这些语言之间都可以两两互译,所以咱们能用NLLB把阿斯图里亚语、卢甘达语、乌尔都语等地球上的小众语言直接译成中文了。

一位用粤语的靓仔看到这里直接喜大普奔。

要知道,此前的众多语言模型,要么不支持这么多种语言,要么不能直接完成小众语言之间的两两翻译。
有了NLLB,世界各地的人都有机会以自己的母语访问和分享网络内容;并且无论他们的语言偏好如何,都可以与他人在任意地方沟通。
Meta称,他们计划先将这个技术应用于Facebook和Instagram,以提升这些平台上小众语言的计算机翻译水平。
同时,这也是他们元宇宙计划的一部分。而这项成果正式开源的消息,也受到广受好评。

除了AI业内关心他们如何支持语料稀缺的冷门语言,以及如何在BLEU基准测试上提高7个点以外。也有来自西非的网友认为,语言障碍正是全球互联网用户数量进一步增长的关键。

在Hacker News论坛上,大家也对这个AI议论纷纷。一个前端开发者说,自己的母语就是非常小众的那种,仅有约一百万人使用。
这位开发者此前从未见过对这种语言好用的AI翻译软件,而NLLB给他带来了希望。
不过他认为,连著名的谷歌AI在处理“德-英-德”这样语料丰富的语言翻译时,都常常会出问题,所以他暂且对这个声称能翻译好小众语言的新模型持保留态度。

有网友给这位开发者支招儿,告诉他Meta开放了有支持翻译的儿童书籍,可以去看看翻译效果。

还有人补充道,许多小众语言有许多不同的自然变体,更偏于口语化,而没有特定书面化标准,可以用多种文字书写。所以,如何对小众语言进行标准化是个棘手的问题。

怎么支持语料少的语言
这个掌握了200多种语言的AI模型是怎么训练的?
据Meta AI介绍,他们的AI研究人员主要通过3个方面来解决一些语言语料少的问题。
其一是为语料少的语言自动构建高质量的数据集。研究者建立了一个多对多的多语言数据集Flores-200。专业的真人翻译员和审稿人采用统一的标准,来保质保量地建立这个数据集。
首先,译员们翻译Flores-200的全部句子,并检查;然后,独立审查员小组开始审查翻译质量,根据他们的评估将一些译文送去进行后期编辑。

如果质量评估表明,质量在90%以上,则认为该语言可以被纳入Flores-200中。

最终,Flores-200中包含了842篇不同文章的翻译,共3001个句子。
其二,是对200种语言建模:研究者开发了一个语言识别系统LID(language identification systems),标记出某段文字是用哪种语言写的。
用监督方式训练的LID模型在看似流畅的句子上,可能难以识别处不正确语法和不完整的字符串。
此外,LID很容易学习到没有意义的相关性。所以,在这个LID开发的不同阶段,工程师们都和语言学家们保持着紧密合作来尽量规避这些问题。
为了对小众语言进行较好的建模,研究者开发了一种“学生-教师挖掘法” (Student-Teacher Mining)该方法的内容是:让一个大规模的多语言句子编码器的教师模型,与几个语料少的学生模型相互学习整合。

这样能够在不和多语料语言争夺容量的情况下,丰富小众语言的训练数据,保持了多语言嵌入空间的兼容性,避免从头开始重新训练整个模型。
其三,是将一个人工翻译的评估基准:FLORES的覆盖范围扩大2倍,来评估每一种语言的翻译质量。虽然自动评分是推动该研究的重要工具,但人工评价对于翻译质量的评估也是必不可少的。
通过整合AI自动评分和人工评估,能够广泛量化翻译水平,便于提升整理的翻译质量。
为了让更多程序员和工程师们能够使用或完善NLLB,Meta开放了所有的评估基准(FLORES-200、NLLB-MD、Toxicity-200)、LID模型和训练代码,以及最终的NLLB-200模型和其小型提炼版本等。
Meta AI已将这些内容开源,就在fariseq仓库里面,感兴趣的小伙伴们可以去看看。
论文地址:
https://research.facebook.com/publications/no-language-left-behind/
开源地址:
https://github.com/facebookresearch/fairseq/tree/nllb
后台回复关键词【入群】
加入卖萌屋NLP、CV、搜广推与求职讨论群

[1]https://ai.facebook.com/research/no-language-left-behind/
[2]https://news.ycombinator.com/item?id=32005942
[3]https://twitter.com/MetaAI/status/1544791067567996935
边栏推荐
- 4EVERLAND存储节点入口网络设计
- 和Leo一起做爱数学的好孩子之容斥 【SCOI2010】幸运数字
- IDEA中如何安装插件和宝贝插件的推荐
- Input and output characteristic curve and gm/id simulation curve of MOS tube (cadence ic617)
- Eolink 和 JMeter 接口测试对比
- Who else can't answer the three MQ interview questions that an interviewer must ask??
- Ask a question: scenario: the cumulative window is used in Flink SQL. The window size is one day, and the cumulative of the current day is counted every minute
- 云图说丨数字资产链:您的数字资产产权保护神
- South Korean universities have arrived at the Consulate General in Gwangju in the summer to remind Chinese students to pay attention to safety
- 科技云报道:零信任和SASE有什么不一样?答案其实并不重要
猜你喜欢
Jsd-2204-weibo project (completion) -day16
【历史上的今天】7 月 4 日:第一本电子书问世;磁条卡的发明者出生;掌上电脑先驱诞生
1小时搭建全栈Web应用框架,支持二次开发,随时更新扩展
Build a full stack web application framework in 1 hour, support secondary development, and update and expand at any time
QR code intelligent inspection system makes the inspection of power station equipment more intelligent
【历史上的今天】6 月 29 日:SGI 和 MIPS 合并;微软收购 PowerPoint 开发商;新闻集团出售 Myspace
容斥【玲珑杯】咸鱼值
Uncover the data enhancement potential of MAE, and Shanghai Communications & Huawei proposes masking reconstruction data enhancement based on MAE
省选专练之GCD生成树
CBC 模式和 ECB 模式解读
随机推荐
好书推荐|《产业数字化转型精要:方法与实践》
省选专练之 [HAOI2009]毛毛虫
OneFlow v0.8.0正式发布
CB insights released seven trends in the AI industry: synthetic data and the rise of multimodal AI
二维码智能巡检系统让电站设备巡检更智能
1小时搭建全栈Web应用框架,支持二次开发,随时更新扩展
南方CASS 10.1软件安装包下载及安装教程
The difference between mouseenter and mouseover
EXCRT/扩展中国剩余定理学习笔记
Cloud native core technology: implementation of service mesh istio
Meiker Studio - Huawei 14 day Hongmeng equipment development practical notes 5
Performance area: the more you know, the more you don't know
云原生、Intel Arch及云原生机密计算 3 大 SIG 在线分享!今天见 | 第 32-34 期
Week 5 Image Classification、Bag of Visual Words (Bag of Features) and Multi-Layer Neural Networks
Comparison of eolink and JMeter interface tests
[cloud native] event publishing and subscription in Nacos -- observer mode
LINK : fatal error LNK1104: 无法打开文件“ucrtd.lib” 解决方法 Visual Studio
请教一个问题:场景:flink sql 中使用累计窗口,窗口大小一天,每分钟统计一次当日累计
Devops has been practiced for many years. What is the most painful thing?
请问,现在有什么短期的理财产品值得买?