讯飞与哈工大联合实验室刷新SQuAD成绩，两项指标均大幅提升-资讯

讯飞与哈工大联合实验室刷新SQuAD成绩，两项指标均大幅提升

发布日期：2018-01-24 22:18:10 浏览次数：292

导读

原标题：讯飞与哈工大联合实验室刷新SQuAD成绩，两项指标均大幅提升雷锋网AI科技评论按：科大讯飞与哈工大联合实验室（HFL）在 SQuAD 上又刷新了成绩，不仅在精确匹配（Exact Match，下称 EM）指标上超过人类平均水

原标题：讯飞与哈工大联合实验室刷新SQuAD成绩，两项指标均大幅提升

雷锋网AI科技评论按：科大讯飞与哈工大联合实验室（HFL）在 SQuAD 上又刷新了成绩，不仅在精确匹配（Exact Match，下称 EM）指标上超过人类平均水平，模糊匹配（F1-score，下称 F1）指标也首次达到 89.281 。

SQuAD（Stanford Question Answering Dataset）为斯坦福大学发起的文本理解挑战赛，是行业内公认的机器阅读理解领域的顶级水平测试，它构建了一个包含十万个问题的大规模机器阅读理解数据集，选取超过 500 篇的维基百科文章。

在阅读数据集内的文章后，机器需要回答若干与文章内容相关的问题，并通过与标准答案的比对，得到 EM 和 F1 的结果。

在 2018 年 1 月初，以阿里巴巴、微软亚洲研究院（下称 MSRA）为代表的中国研究团队相继刷新了 SQuAD 的 EM 纪录，机器阅读能力的准确率首次超越人类。而在今天，科大讯飞与哈工大联合实验室也在 SQuAD 上获得了超越人类的 EM 分数，并在 F1 上也获得了第一名的成绩。

早在 2017 年 7 月，科大讯飞与哈工大联合实验室( HFL )在 SQuAD 上提交的系统模型就曾夺得第一，这也是中国本土研究机构首次取得该比赛的冠军。为此，雷锋网 AI 科技评论专访了科大讯飞研究院副院长王士进，当时他指出，成为世界第一，只是阅读理解系统万里长征的第一步。

虽然国内研究机构所提交的系统相继在 SQuAD 中超过了人类平均水平，相比往期毫无疑问是一个巨大的进步，但这并不能代表机器在阅读理解任务上「完全」战胜人类。毕竟在认知推理层面，机器仍然没有达到人类所具备的真实能力。

阅读理解是 NLP 领域里一个公认的难题，也是未来一个非常重要的趋势。据了解，讯飞与哈工大联合实验室提交的融合式层叠注意力系统（Hybrid Attention-over-Attention Reader）融合了基于上下文的文本表示、自适应转随机梯度下降的优化方法等前沿技术。王士进在此前的采访中表示，在 7 月份向 SQuAD 提交结果前，科大讯飞与哈工大联合实验室团队在该数据集中花了四个多月的时间，主要采用的方法还是主流的深度学习。

原来的做法是，系统会给出一些训练集，包括包括篇章、问题和对应的答案，然后通过神经网络去学习，自动构建找到问题和答案的对应关系的一个方式。但我们做法有两点不一样的地方：

一个是我们的“基于交互式层叠注意力模型”，一开始她可能先锁定住一些片段，然后通过多轮迭代的方式进行过滤，进一步锁定筛选出更精准的一些内容，去除整篇文章的干扰，最终得出问题的答案。

第二，我们采用了模型融合的方式。对于问题我们会提出不同的模型，然后对这些模型进行一个融合（ensamble）。因为我们知道，一般来说单一模型的性能并不是特别好，我们其实研究的是如何把多个不同机理的模型融合和在一起产生最好的效果。

(文/小编)

• 电工自动化仪表是用于电力系统中对电量和非电量	• 英文名为flowmeter，是用于测量管道或明渠中流
• 分析仪器是用于测定物质的组成、结构、性质及含	• 畜饲养业生产过程中使用的各种机械设备涵盖饲料
• 染色机器是用于对纺织纤维、纱线、织物等	• 电频率和电压是电学中的两个重要概念
• 电源管理是指对电能的产生、传输、分配和使用进	• 逻辑比较器是一种用于比较两个逻辑值（通常为0
• 非金属矿产是指经加工后可提取有用成分？	• 重有色金属是指密度大于4.5g/cm³的有色金属？
• 彩涂板，又称彩色涂层钢板，有新型建筑材料和工	• 热轧钢板、工业领域的中流砥柱？
• 探寻钢材厂家、钢铁脊梁撑起现代发展大厦	• 电子设备、重塑生活与科技引擎之心
• 建矿设备、开启矿业发展的先锋力量	• 装修建材五金、构筑品质空间的幕后功臣
• 精密运转的幕后英雄轴承机床	• 大型板材拆剪时需要注意什么？
• 路边的广告牌怎么立起来的？	• 零添加还能吃吗

金牌

推广服务

讯飞与哈工大联合实验室刷新SQuAD成绩，两项指标均大幅提升