金沙js0888_首頁(欢迎您)

  • <td id="dgejl"><strike id="dgejl"></strike></td>
        1. 谷歌130亿参数多语言模型mT5重磅来袭,101种语言轻松迁移

          作者: 佚名 2020-10-28 10:38:08

          Facebook刚刚开源多语种机器翻译模型「M2M-100」,这边谷歌也来了。谷歌宣布,基于T5的mT5多语言模型正式开源,最大模型130亿参数,与Facebook的M2M相比,参数少了,而且支持更多语种。

          前几天,Facebook发了一个百种语言互译的模型M2M-100,这边谷歌着急了,翻译可是我的老本行啊。

          刚刚,谷歌也放出了一个名为 mT5的模型,在一系列英语自然处理任务上制服了各种SOTA。

          你发,我也发,你支持100种,我支持101种!(虽然多这一种没有多大意义,但气势上不能输)

          mT5是谷歌 T5模型的多语种变体,训练的数据集涵盖了101种语言,包含3亿至130亿个参数,从参数量来看,的确是一个超大模型。

          多语言模型是AI的桥梁,但难以避免「有毒」输出

          世界上成体系的语言现在大概有7000种,纵然人工智能在计算机视觉、语音识别等领域已经超越了人类,但只局限在少数几种语言。

          想把通用的AI能力,迁移到一个小语种上,几乎相当于从头再来,有点得不偿失。

          所以跨语种成为了AI能力迁移的重要桥梁。

          多语言人工智能模型设计的目标就是建立一个能够理解世界上大部分语言的模型。

          多语言人工智能模型可以在相似的语言之间共享信息,降低对数据和资源的依赖,并且允许少样本或零样本学习。随着模型规模的扩大,往往需要更大的数据集。

          C4是从公共网站获得的大约750gb 的英文文本的集合,mC4是 C4的一个变体,C4数据集主要为英语任务设计,mC4搜集了过去71个月的网页数据,涵盖了107种语言,这比 C4使用的源数据要多得多。

          mC4中各种语言的网页数量

          有证据表明,语言模型会放大数据集中存在的偏差。

          虽然一些研究人员声称,目前的机器学习技术难以避免「有毒」的输出,但是谷歌的研究人员一直在试图减轻 mT5的偏见,比如过滤数据中含有偏激语言的页面,使用 cld3检测页面的语言,将置信度低于70% 的页面直接删除。

          mT5:使用250000词汇,多语言数据采样策略是关键

          mT5的模型架构和训练过程与T5十分相似,mT5基于T5中的一些技巧,比如使用GeGLU的非线性(Shazeer,2020年),在较大模型中缩放dmodel而不是dff来对T5进行改进,并且仅对未标记的数据进行预训练而不会出现信息丢失。

          训练多语言模型的最重要的一点是如何从每种语言中采样数据。

          但是,这种选择是零和博弈:如果对低资源语言的采样过于频繁,则该模型可能会过拟合;如果对高资源语言的训练不够充分,则模型的通用性会受限。

          因此,研究团队采用Devlin和Arivazhagan等人使用的方法,并根据概率p(L)∝ | L |^α,对资源较少的语言进行采样。其中p(L)是在预训练期间从给定语言中采样的概率,| L |是该语言中样本的数量,α是个超参数,谷歌经过实验发现α取0.3的效果最好。

          为了适应更多的语言,mT5将词汇量增加到250,000个单词。与T5一样,使用SentencePiece和wordPiece来训练模型。

          Sentencepiece示意

          那采样之后有的字符没覆盖到怎么办?

          研究团队为了适应具有大字符集的语言(比如中文),使用了0.99999的字符覆盖率,但还启用了SentencePiece的「字节后退」功能,以确保可以唯一编码任何字符串。

          为了让结果更直观,研究人员与现有的大规模多语言预训练语言模型进行了简要比较,主要是支持数十种语言的模型。

          mT5专治各种SOTA,但基准测试未必能代表实力

          截至2020年10月,实验中最大 mT5模型拥有130亿个参数,超过了所有测试基准,包括来自 XTREME 多语言基准测试的5个任务,涵盖14种语言的 XNLI 衍生任务,分别有10种、7种和11种语言的 XQuAD、 MLQA 和 TyDi QA/阅读理解基准测试,以及有7种语言的 PAWS-X 释义识别。

          实验结果可以看到,在阅读理解、机器问答等各项基准测试中mT5模型都优于之前的预训练语言模型。

          至于基准测试能否充分反映模型在生产环境中的表现,就另当别论了。

          对预训练语言模型最直白的测试方法就是开放域问答,看训练后的模型能否回答没见过的新问题,目前来看,即使强如GPT-3,也经常答非所问。

          但是谷歌的研究人员断言,mT5是向功能强大的模型迈出的一步,而这些模型不需要复杂的建模技术。

          总的来说,mT5展示出了跨语言表征学习中的重要性,并表明了通过过滤、并行数据或其他一些调优技巧,实现跨语言能力迁移是可行的。

          这个源自T5的模型,完全适用于多语言环境。

          谷歌 模型 机器翻译
          上一篇:Hinton预言的「AI将拥有常识」如何实现?剑桥最新研究:从小狗学起 下一篇:出行的未来:智能、可持续和高效
          评论
          取消
          暂无评论,快去成为第一个评论的人吧

          更多资讯推荐

          机器学习5种特征选择的方法!

          特征选择是从原始特征中选择出一些最有效特征以降低数据集维度、提高法性能的方法。

          机器猫 ·? 2021-04-01 22:19:54
          奥赛冠军都做不对的题,却被拿来考ML模型?GPT-3:我不行

          为了衡量机器学习模型的数学求解能力,来自 UC 伯克利和芝加哥大学的研究者提出了一个包含 12, 500 道数学竞赛难题的新型数据集 MATH,以及帮助模型学习数学基础知识的预训练数据集 AMPS。

          机器之心 ·? 2021-03-16 14:16:03
          谷歌解雇伦理学家后三个月,AI伦理研究会议暂停谷歌赞助

          ACM公平、责任与透明度大会(FAccT)的会议赞助商联合主席兼Boise State University助理教授Michael Ekstrand于今天证实,该会议已决定中止与Google的赞助关系。

          大数据文摘 ·? 2021-03-10 23:29:22
          机器人会梦见电子羊吗:谷歌 AI 员工离职事件,能看出哪些 AI 伦理问题

          对于一个充满黑箱和未知的技术,AI 值得人们探讨的问题还有很多。谷歌是第一家爆发激烈讨论的公司,但它绝不会是最后一家。

          脸脸 ·? 2021-03-08 07:02:11
          Facebook新AI模型SEER实现自监督学习,LeCun大赞最有前途

          刚刚,Facebook宣布了一个在10亿张图片上训练的AI模型——SEER,是自监督(Self-supervised)的缩写。

          新智元 ·? 2021-03-05 12:58:31
          AutoML大提速,谷歌开源自动化寻找最优ML模型新平台

          为了帮助研究者自动、高效地开发最佳机器学习模型,谷歌开源了一个不针对特定领域的 AutoML 平台。

          机器之心 ·? 2021-02-21 14:08:15
          机器学习中分类任务的常用评估指标和Python代码实现

          假设您的任务是训练ML模型,以将数据点分类为一定数量的预定义类。 一旦完成分类模型的构建,下一个任务就是评估其性能。 有许多指标可以帮助您根据用例进行操作。 在此文章中,我们将尝试回答诸如何时使用? 它是什么? 以及如何实施?

          deephub ·? 2021-02-14 14:31:35
          简单有效,新型对抗性攻击方法成功攻破热门安卓APP中DL模型

          本文研究者提出了一种简单却有效的攻击 APP 中深度学习模型的方法,并在实验中得到了验证。

          黄宇津 ·? 2021-01-26 16:02:58
          Copyright?2005-2021 51CTO.COM 版权所有 未经许可 请勿转载
          金沙js0888