欢迎访问:沃派博客 每天不定时发布IT文章相关资讯
当前位置:沃派博客-沃派网 > IT文章 > 正文

一文概述 2018 年深度学习 NLP 十大创新思路

01-05 IT文章

原标题:一文概述 2018 年深度学习 NLP 十大创新思路

雷锋网 AI 科技评论按:Sebastian Ruder 是一位 NLP 方向的博士生、研究科学家,目前供职于一家做 NLP 相关服务的爱尔兰公司 AYLIEN,同时,他也是一位活跃的博客作者,发表了多篇机器学习、NLP 和深度学习相关的文章。最近,他基于十几篇经典论文盘点了 2018 年 NLP 领域十个令人激动并具有影响力的想法,并将文章发布在 Facebook 上。雷锋网 AI 科技评论编译如下:

今年,我发现了 十个令人激动并具有影响力的想法,并将其汇总成了这篇文章。在未来,我们可能还会对它们有更多了解。

对于每个想法,我都挑选 1-2 篇对该想法执行良好的论文。我试图保持这份清单的简洁性,因此如果没有覆盖到所有相关工作,还请大家见谅。这份清单包含主要与迁移学习相关的想法及其概述,不过也必然会带有一定的主观性。其中的大部分(一些例外)并不是一种趋势(但我预测其中的一些想法在 2019 年会变得更具趋势性)。最后,我希望在评论区中看到你的精彩评论或者其他领域的精彩文章。

1)无监督的机器翻译翻译(Unsupervised MT)

ICLR 2018 收录的两篇关于无监督机器翻译翻译的论文()中,无监督机器翻译的整个过程的表现好得让人感到惊讶,但结果却不如监督系统。在 EMNLP 2018,两篇同样来自这两个团队的论文()显著改进了之前的方法,让无监督的机器翻译取得了进展。代表性论文:

《基于短语和神经的无监督机器翻译》(EMNLP 2018)

Phrase-Based & Neural Unsupervised Machine Translation

论文地址:

这篇论文很好地为无监督机器翻译提取了三个关键要求:良好的初始化、语言建模以及你想任务建模(通过反向翻译)。我们在下文中会看到,这三项要求同样对其他的无监督场景有益。反向任务建模要求循环的一致性,其已在不同方法(尤其是 CycleGAN,)中得到应用。这篇论文甚至在两个低资源语言对——英语-乌尔都语以及英语-罗马尼亚语上进行了广泛的实验和评估。未来我们有希望看到更多针对资源匮乏类语言的工作。

无监督机器翻译三项原则的插图说明:A)两个单语数据集;B)初始化;C)语言建模;D)反向翻译 (Lample et al., 2018)。

2)预训练的语言模型(Pretrained language models)

使用预训练的语言模型可能是今年最重要的 NLP 趋势,因此我在这里就不过多描述。针对预训练的语言模型,这里有很多让人印象深刻的方法:ELMo(), ULMFiT()、 OpenAI Transformer()以及 BERT()。代表性论文:

《深度的语境化词语表示》(NAACL-HLT 2018)

《Deep contextualized word representations》

论文地址:

这篇论文介绍了 ELMo,颇受好评。除了实证结果让人印象深刻,这篇论文的详细的分析部分也非常显眼,该部分梳理了各类因素的影响,并且分析了在表示中所捕获的信息。词义消歧(WSD)分析自身(下图左)也执行得很好。这两者都表明,机器学习本身就提供了接近最新技术的词义消歧和词性标注性能。

一文概述 2018 年深度学习 NLP 十大创新思路

与基线相比的第一层和第二层双向语言模型的词义消歧(左)和词性标注(右)结果(Peters et al., 2018)。

3)常识推理数据集(Common sense inference datasets)

将常识融入模型是向前发展的最重要方向之一。然而,创建好的数据集并不容易,甚至最常用的那些好的数据集还存在很大的偏差。今年出现了一些执行良好的数据集,它们试图教模型一些常识,比如同样都源自华盛顿大学的 Event2Mind()和 SWAG()。其中,SWAG 学到常识的速度出乎意料地快()。代表性论文:

《视觉常识推理》(arXiv 2018)

Visual Commonsense Reasoning

论文地址:

这是第一个包含了每个答案所对应的基本原理(解释)的视觉 QA 数据集。此外,问题要求复杂的推理。创建者通过确保每个答案正确的先验概率为 25%(每个答案在整个数据集中出现 4 次,其中,错误答案出现 3 次,正确答案出现 1 次)来不遗余力地解决可能存在的偏差;这就要求使用计算相关性和相似性的模型来解决约束优化问题。我希望,在创建数据集时预防可能的偏倚可以成为未来研究人员们的常识。最终,看看数据精彩地呈现出来就可以了。

VCR:给定一张图片、一个区域列表和一个问题,模型必须回答这个问题,并给出一个可解释其答案为何正确的理由。 (Zellers et al., 2018).

4)元学习(Meta-learning)

版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/21888.html