Transformer 堪称是近年 NLP 领域关注度颇高的模型之一。2017 年,Google公开发表为题“Attention Is All You Need”的论文,明确提出了几乎基于注意力机制(attentionmechanism)的网络框架 Transformer。2018 年,Google 开源了基于 Transformer 的 BERT 模型,在 NLP 领域大火。
2019 年,机器学习领域仅次于的趋势之一乃是基于 Transformer 的自然语言模型的持续增长和蔓延。2020 年,根据自然语言处置领域数据集 GLUE 的排行榜,一些展现出最佳的模型——还包括 Nvidia 的 Megatron、Google 的 XLNet、微软公司的 MT-DNN 和 Facebook 的 Roberta——都基于 Transformer。近日,Google 又发售了 Transformer 的“Ultra”——Reformer。【 图片来源:VentureBeat 所有者:VentureBeat 】比 Transformer 更加高效对人工智能和机器学习模型来说,不管是语言、音乐、语音还是视频,序列数据都很差解读——特别是在是在普遍的环境中。
例如,如果一个人或一个物体从视频中消失很久后才新的经常出现,许多算法就不会忘记它的样子。因此,Google 研发了机器翻译模型 Transformer,期望解决问题这一问题。
Transformer 是一个扩展到数千个单词的架构,很大地提高了在已完成作曲、图像制备、逐句文本翻译成和文档概要等任务时的性能。与所有深度神经网络一样,Transformer 包括相连层中的神经元(数学函数),可传输来自输出数据的信号,并较慢调整每个相连的神经元强度(权重),这是所有人工智能模型萃取特征和自学预测的方式,但是 Transformer 能独有地注意到每个输入元素都与每个输出元素相关联,它们之间的权重实质上是动态计算出来的。不过,Transformer 并不是极致的——将其扩展到更大的环境中就能显著显现出局限性。
大窗口应用程序的内存从千兆字节到兆兆字节平均,也就是说模型不能吸取几段文本或分解部分段音乐。基于此,Google 发售 Reformer 作为 Transformer 的演变,Reformer 需要处置多达 100 万字的环境,仅有用 16GB 的存储器就能在单个 AI 加速器芯片上运营。【 图片来源:论文】(公众号:)了解到,涉及论文“Reformer:The Efficient Transformer”已被将于 2020 年 4 月在埃塞俄比亚举办的自然语言处置顶会 ICLR-2020(International Conference on Learning Representations)接管,当前模型也已开源。
根据论文,Reformer 主要包括以下技术:第一,共轭层在整个模型中只存储转录函数的单个副本,因此 N 因子消失;第二,在前馈层内合并转录函数,并展开分段处置,避免 dff 因子,节省前馈层内存;第三,利用局部脆弱哈希(录: LSH,即一种哈希算法,主要运用到高维海量数据的较慢近似于查询)。具体来讲,哈希函数即一种将给定大小的数据同构到相同大小的值的函数,该函数给定相近的向量(即回应机器学习中人类可读数据的代数结构),而不是在所有有可能的向量对中搜寻。例如,在翻译成任务中,来自网络第一层的每个向量回应一个词,对应于有所不同语言中完全相同词的向量可以取得完全相同的哈希值。
当分配哈希时,序列不会重新排列,接着按元素的哈希值分类,构建并行处理,这样减少了长序列的复杂度,很大地增加了计算出来负荷。Reformer 可处置整部小说为检验 Reformer 显然需要在单个 GPU 上运营,并可在长序列上较慢训练,研究人员在 enwik8 和 imagenet64 数据集上对 20 层的 Reformer 模型展开了训练。
实验指出,Reformer 能超过与 Transformer 完全相同的性能,并且内存效率更高,在长序列任务上训练更加慢。【 图片来源:论文】另外,研究小组还对基于 Reformer 的图像和文本模型展开了实验,用它们分解图像中缺陷的细节,还处置了小说《罪与罚》(包括大约 211591 个单词)全文。
研究指出,Reformer 需要弃像素地分解仅有帧图像,并且需要在单轮训练中接管小说长度的文本。Google 科学家 Łukasz Kaiser 和加州大学伯克利分校学生 Nikita Kitaev 都对这项研究做出了贡献,他们在一篇博客中写到:由于 Reformer 效率极高,它可以必要应用于上下文窗口远大于当前完全所有最先进设备文本域的数据,Reformer 处置如此可观数据集的能力有可能也不会性刺激社区创立数据集。据报,论文作者们还不会更进一步将该其应用于更加辽阔的领域(如时间序列预测及音乐、图像、视频分解),并改良对方位编码的处置。Łukasz Kaiser 和 Nikita Kitaev 补足说道:我们坚信 Reformer 为将来用于 Transformer 模型对长文本和自然语言处置以外的应用于也奠定了基础。
2019 年年底,外媒 VentureBeat 曾专访过 Google 高级副总裁 Jeff Dean,他在专访中回应:Google 依然期望能创建更好的情境模型,就像现在一样,BERT 等模型可以处置数百个单词,但无法处置 1 万个单词。所以这不会是 Google 未来主要注目的方向。
而 Reformer 或许是朝着这一方向迈进的充满希望的第一步。
本文来源:天博tb·综合体育-www.jnxfd.com