挑战机器阅读理解界的“ImageNet”，微软亚洲研究院重回榜单第一-资讯

挑战机器阅读理解界的“ImageNet”，微软亚洲研究院重回榜单第一

发布日期：2018-01-15 05:33:50 浏览次数：300

导读

斯坦福大学NLP小组发推特称，微软提交了最新一次SQuAD的测试成绩，再次夺回得了该数据集测试榜单第一的位置。自然语音理解长期以来被誉为“人工智能皇冠上的明珠”，让机器学会阅读和理解人类语言一直是研究者和业界

斯坦福大学NLP小组发推特称，微软提交了最新一次SQuAD的测试成绩，再次夺回得了该数据集测试榜单第一的位置。

自然语音理解长期以来被誉为“人工智能皇冠上的明珠”，让机器学会阅读和理解人类语言一直是研究者和业界关注的对象，今年以来更是受到了极大的追捧，热度不减。

由斯坦福大学李飞飞教授发起的ImagNet，是目前世界上图像识别最大的数据库，试图让冰冷的机器读懂照片背后的故事。而在斯坦福大学自然语言组发起的挑战赛SQuAD，行业内公认的机器阅读理解标准水平测试，也是该领域的顶级赛事，更是被誉为机器阅读理解界的”ImageNet”。

参赛者来自全球学术界和产业界的研究团队，包括微软亚洲研究院、艾伦研究院、IBM、Salesforce、Facebook、谷歌以及卡内基·梅隆大学、斯坦福大学等知名企业研究机构和高校，赛事对自然语言理解领域的学术进步和人才选拔都起到重要作用。

SQuAD比赛规则是怎样？对于机器的阅读理解，如何作答和评判？

SQuAD挑战赛通过众包的方式构建了一个大规模的机器阅读理解数据集（包含10万个问题），就是将一篇几百词左右的短文给人工标注者阅读，让标注人员提出最多5个基于文章内容的问题并提供正确答案；短文原文则来源于500多篇维基百科文章。

参赛者提交的系统模型在阅读完数据集中的一篇短文之后，回答若干个基于文章内容的问题，然后与人工标注的答案进行比对，得出精确匹配（ExactMatch）和模糊匹配（F1-score）的结果。得益于SQuAD提供的大规模高质量的训练数据以及层出不穷的模型，该挑战赛的榜单一次又一次刷新。

以下是最新排名，MSRA位居第一：

微软亚洲研究院常务副院长、NLP小组组长周明曾表示，从这个数据集成立之初MSRA就开始有所关注，这个数据集的规则是需要不停刷新排名，隔一段时间就要提交最新的测试成绩。MSAR连续多次位居数据集排名第一。

“虽然偶尔有一两天其它团队超过了我们的成绩，但我们也有最新的算法能够很快地进行更新，并取得更好的成绩，对于这一点我们的团队始终十分自信。”机器阅读理解研究的主要负责人、微软亚洲研究院自然语言计算研究组主管研究员韦福如曾这样说。

此外，国内业界代表科大讯飞也在关注并参与该数据集的比赛，7月份科大讯飞与哈工大联合实验室(HFL)提交的系统模型在测试中夺得第一名，同样实力不俗。足以可见自然语言处理领域竞争十分激烈。

自然语言处理领域一直是实现人机交互、人工智能的重要技术基石，机器阅读理解正是这一领域的一个研究焦点。如今异常火热的智能语音助手，最关键的除了“听清”就是“听懂”，语音技术在不断完善，而自然语言理解的进展则相对较为缓慢。万里长征可谓刚刚起步，NLP产业界和学术界均任重道远。

(文/小编)

• 电工自动化仪表是用于电力系统中对电量和非电量	• 英文名为flowmeter，是用于测量管道或明渠中流
• 分析仪器是用于测定物质的组成、结构、性质及含	• 畜饲养业生产过程中使用的各种机械设备涵盖饲料
• 染色机器是用于对纺织纤维、纱线、织物等	• 电频率和电压是电学中的两个重要概念
• 电源管理是指对电能的产生、传输、分配和使用进	• 逻辑比较器是一种用于比较两个逻辑值（通常为0
• 非金属矿产是指经加工后可提取有用成分？	• 重有色金属是指密度大于4.5g/cm³的有色金属？
• 彩涂板，又称彩色涂层钢板，有新型建筑材料和工	• 热轧钢板、工业领域的中流砥柱？
• 探寻钢材厂家、钢铁脊梁撑起现代发展大厦	• 电子设备、重塑生活与科技引擎之心
• 建矿设备、开启矿业发展的先锋力量	• 装修建材五金、构筑品质空间的幕后功臣
• 精密运转的幕后英雄轴承机床	• 大型板材拆剪时需要注意什么？
• 路边的广告牌怎么立起来的？	• 零添加还能吃吗

挑战机器阅读理解界的“ImageNet”，微软亚洲研究院重回榜单第一