大赛项目
COMPETITION ITEM
观点型问题阅读理解
项目简介
机器阅读理解(Machine Reading Comprehension)是指让机器阅读文本,然后回答和阅读内容相关的问题。阅读理解是自然语言处理和人工智能领域的重要前沿课题,对于提升机器智能水平、使机器具有持续知识获取能力具有重要价值,近年来受到学术界和工业界的广泛关注。
本次竞赛设立了面向观点型问题的机器阅读理解任务,旨在为研究者提供开放的学术交流平台,进一步提升阅读理解的研究水平,推动语言理解和人工智能领域技术和应用的发展。面向观点型问题的机器阅读理解源于真实的应用场景:在智能搜索问答等产品中,针对用户输入的观点型问题,搜索引擎首先会检索相关候选文档,然后从候选文档中抽取出能够回答用户问题的答案段落摘要,最后给出答案段落摘要所包含的是非观点。本次任务聚焦于预测答案段落摘要中所表述的是非观点极性。
Figure 1 面向观点型问题的机器阅读理解技术在智能搜索问答中的应用示例
评价指标
竞赛基于测试集人工标注的观点答案,采用答案分类的准确率(Accuracy)作为评价指标:
竞赛测试数据集及使用规定
本次竞赛提供基于DuReader的中文是非观点型问题阅读理解数据集。DuReader是一个面向真实应用的、开放域的、最大规模的中文问答阅读理解数据集。DuReader的优势是数据来源真实:DuReader的问题是百度搜索中用户提出的真实问题,文档来自于百度搜索和百度知道,并且答案都是人工标注的。本次竞赛的数据集来自DuReader中的观点型问题,包含7万问答对以及人工标注的答案段落摘要和相应的是非观点极性。
本次竞赛中可以使用当前提供的训练数据集进行训练,模型所使用的数据和字段不做限制。在本次竞赛中不允许使用额外的有标注的是非观点训练数据,至于少量的人工标注规则、其他启发式规则数据等需要在竞赛报告中体现。
任务输入输出格式
1. 任务输入数据:
对于给定的一个观点型问题q,通过q使用搜索引擎检索出的候选文档集合D=d1, d2, ..., dn,以及人工抽取答案P。要求参评系统自动对问题、候选文档以及答案段落摘要进行分析,输出每个答案段落摘要所表述的是非观点极性A。其中,A分为三类 {Yes, No, Depends},此三类对应字符串明文,输出的答案与测试集中进行全匹配,请注意其中的大小写。下图给出了一个示例。
提供的训练、开发及测试集合将会以对应的一个文档形式提供。其中文档中的每一行为一个样本的数据,数据为json格式化信息,文档编码为utf-8。json数据具体格式如下:
{
"documents":[
{
"title":"香蕉能放冰箱吗 香蕉剥皮冷冻保存_健康贴士_保健_99健康网",
"paragraphs":[
"本文导读:............."
]
}
],
"yesno_answer":"No",
"question":"香蕉能放冰箱吗",
"answer":"香蕉不能放冰箱,香蕉如果放冰箱里,会更容易变坏,会发黑腐烂。",
"id":293
}其中各字段的意义为:
l id:为样本的唯一编号,类型为int;
l question:用户提出的是非观点类问题,类型为string;
l answer 为人工从相关文档中提取出的答案片段,类型为string;
l yesno_answer:为答案对应的是非观点极性,类型为string,并且仅有三个合法的值,其集合为:{“ Yes”, “No“, “Depends“};
l documents:为搜索引擎根据question检索找到的含有答案来源的相关文档,类型为数组,其中每个文档会含有对应的的页面title(string格式)及段落内容(列表格式);
2. 任务输出数据:
竞赛输出结果期望保存在一个文本文件中,其中每个样本的结果为一个json格式的数据,编码为utf-8,其中 json数据的格式如下(为展示已将一行json进行分行展开):
{
"yesno_answer":"No",
"id":293
}其中:输出中的id和yesno_answer字段均必须存在。
l id为测试集中提供的样本编号,类型int。用于匹配问题和答案信息,该信息必须和测试集中提供的保持一致;
l yesno_answer:为答案对应的是非观点极性,类型为string,对应内容为集合{“ Yes”, “No“, “Depends“}的其中一个,且大小写应完全一致。
竞赛数据范围
数据集范围:所有问题均为搜索引擎中按照用户行为分布的观点类的问题,对应的文档为搜索引擎搜索出来的网页,答案片段摘要是经过人工标注的回答此问题的答案片段,是非观点极性是此答案片段摘要相对于问题的观点极性。
是非观点极性:所有极性均在{“ Yes”, “No“, “Depends“}集合中,对应的含义为:
Yes:肯定观点,肯定观点指的是答案给出了较为明确的肯定态度。有客观事实的从客观事实的角度出发,主观态度类的从答案的整体态度来判断。
No:否定观点,否定观点通常指的是答案较为明确的给出了与问题相反的态度。
Depends:无法确定/分情况,主要指的是事情本身存在多种情况,不同情况下对应的观点不一致;或者答案本身对问题表示不确定,要具体具体情况才能判断。
-
观点型问题阅读理解中国人工智能大赛·语言与知识技术竞赛样例数据.zip247.00KB竞赛数据说明:竞赛数据说明:各竞赛项目提供样例数据和测试数据,不提供训练数据。下载