视觉AI领域已巨头林立，NLP 的春天为何迟迟不来？

03-15 IT文章

图片来源：视觉中国

在被称为AI 落地元年的2018年，以“AI+视觉”为主的CV（Computer Vision）领域大放异彩。不论是通过图像、人脸识别向安防、自动驾驶、零售等领域的广泛拓张，还是商汤、云从、旷视、依图“CV四小巨头”的兴起，计算机视觉已成为人工智能发展进程中实现领先的一条赛道。

然而，与视觉识别相对的语言、语义识别领域，即NLP（Natural Language Processing 自然语言处理），虽然起源时间更早，但发展程度与落地表现却稍逊于前者。

早在“人工智能”概念在1956年达特茅斯会议提出后，科学家们开始寄希望于用计算机模拟大脑理解语言学的过程。1962年，“机器翻译与计算语言学学会”（后更名为国际计算机语言学委员会，简称“ACL”）在美国成立，标志着学界对机器翻译、语义理解等AI技术深入研究的开端。

不过，按照中科院研究院博士生导师宗成庆的说法，“机器翻译遇到了很多难以克服的语义障碍，甚至一度进入低迷状态。”

2013年，宗成庆成为国内至今唯一一位加入 ACL 的华人科学家。在他看来，在语音语义理解的机器翻译操作中，需要面临诸如“口音、标点识别不准导致语句翻译出错”、“政治经济等专业术语机器无法胜任”等诸多挑战。

然而，随着底层技术的持续突破，与商用场景的进一步扩展，包含语音交互、TTS（文本转换）等内容的NLP也即将迎来新的“春天”。

“接下来这两年，NLP领域一定有更多机会。” 微软亚洲研究院自然语言计算组资深研究员韦福如在近期对钛媒体表示。

从武汉大学计算机学院获得博士学位，到2010年加入微软亚洲研究院自然语言计算组工作至今，韦福如已在NLP领域从事十年有余。今年春节期间，微软平台联合央视新闻推出H5交互产品《你的生活，AI为你唱作》，就融入了韦福如所在团队深耕多年的NLP技术。

钛媒体也试用了这则H5应用：

在上传照片后，系统会对照片内容如环境、人物、颜色、表情等进行分析；然后基于对照片的理解，歌词创作系统会自动谱写符合该照片内容的歌词；最后，由语音合成技术模拟的央视主持人康辉或微软智能女声晓晓，则可以根据歌词内容结合配乐伴奏进行演唱，用户就得到了一首专属定制的MP3歌曲。

视觉AI领域已巨头林立，NLP 的春天为何迟迟不来？

春节期间，微软平台联合央视新闻推出H5交互产品《你的生活，AI为你唱作》

“图片-歌词转化”是韦福如团队负责攻克的重点环节。当中的难点，首先在于对用户输入图片的理解，比如年纪相仿的男女是否可以对应爱情，或者是大笑的表情可以对应相关的歌词内容等；

再一个难点是对歌词基调的把握——由于该产品推出时机是猪年春节，微软团队希望“这一H5产品表达出的感情基调是更积极的”——这就需要技术人员在后端算法上进行调试。

事实上，除了韦福如团队所代表的自然语言处理，《你的生活，AI为你唱作》中还包含了微软在去年发布的深度神经网络语音合成服务、以及在后端支持数据高并发的微软Azure云服务等，可以说，以这则H5为代表的微软跨部门方案协作背后，是由整个微软NLP、语音合成、云服务等完整方案的商用缩影。

技术突破

关于NLP 的发展阻力，目前担任微软亚洲研究院副院长的周明曾谈到技术“阈值”的理论。

周明拿图像识别中的安防场景举例，由于该领域“人证比对”的需求极度旺盛，一旦深度学习将计算机视觉的水平提高至一定的阈值，该场景的巨大需求就会立刻激活。

然而，由于NLP的技术难度实在太大，机器翻译水平始终没能达到该场景的阈值，再加上自然语言处理的场景并不像安防那样有着迫切需求，NLP始终在落地到商业化的路径上面临挑战。

为了提升NLP的技术阈值，韦福如也带领团队始终专注在机器阅读理解上的深入研究和系统开发。

2018年1月，在斯坦福大学发起的SQuAD文本理解挑战赛中，韦福如所带领的团队所开发的端到端的深度神经网络模型r-net在EM值上以82.650的最高分占据榜首，首次超越人类成绩82.304。

此后，韦福如团队再次获得突破，升级后的nlnet模型在EM值和F1值两个维度上，以85.954和91.677的分数首次全面超越人类在SQuAD数据集上的表现。2019年1月，他们基于BERT开发的最新系统又在SQuAD 2.0和交互式、多轮阅读理解数据集CoQA上名列榜首。

版权保护: 本文由沃派博客-沃派网编辑，转载请保留链接: http://www.bdice.cn/html/44441.html