观点型问题阅读理解

项目简介

机器阅读理解(Machine Reading Comprehension)是指让机器阅读文本,然后回答和阅读内容相关的问题。阅读理解是自然语言处理和人工智能领域的重要前沿课题,对于提升机器智能水平、使机器具有持续知识获取能力具有重要价值,近年来受到学术界和工业界的广泛关注。

本次竞赛设立了面向观点型问题的机器阅读理解任务,旨在为研究者提供开放的学术交流平台进一步提升阅读理解的研究水平,推动语言理解和人工智能领域技术和应用的发展。面向观点型问题的机器阅读理解源于真实的应用场景:在智能搜索问答等产品中,针对用户输入的观点型问题,搜索引擎首先会检索相关候选文档,然后从候选文档中抽取出能够回答用户问题的答案段落摘要,最后给出答案段落摘要所包含的是非观点。本次任务聚焦于预测答案段落摘要中所表述的是非观点极性。

图片1 

Figure 1 面向观点型问题的机器阅读理解技术在智能搜索问答中的应用示例

 

评价指标

竞赛基于测试集人工标注的观点答案,采用答案分类的准确率(Accuracy)作为评价指标

QQ截图20191217163953

 

竞赛测试数据集及使用规定

本次竞赛提供基于DuReader的中文是非观点型问题阅读理解数据集。DuReader是一个面向真实应用的、开放域的、最大规模的中文问答阅读理解数据集。DuReader的优势是数据来源真实:DuReader的问题是百度搜索中用户提出的真实问题,文档来自于百度搜索和百度知道,并且答案都是人工标注的。本次竞赛的数据集来自DuReader中的观点型问题,包含7万问答对以及人工标注的答案段落摘要和相应的是非观点极性。

本次竞赛中可以使用当前提供的训练数据集进行训练,模型所使用的数据和字段不做限制。在本次竞赛中不允许使用额外的有标注的是非观点训练数据,至于少量的人工标注规则、其他启发式规则数据等需要在竞赛报告中体现。

 

任务输入输出格式

1. 任务输入数据:

对于给定的一个观点型问题q,通过q使用搜索引擎检索出的候选文档集合D=d1, d2, ..., dn,以及人工抽取答案P。要求参评系统自动对问题候选文档以及答案段落摘要进行分析,输出每个答案段落摘要所表述的是非观点极性A其中,A分为三类 {Yes, No, Depends},此三类对应字符串明文,输出的答案与测试集中进行全匹配,请注意其中的大小写。下图给出了一个示例。

提供的训练、开发及测试集合将会以对应的一个文档形式提供。其中文档中的每一行为一个样本的数据,数据为json格式化信息,文档编码为utf-8。json数据具体格式如下:

{
    "documents":[
        {
            "title":"香蕉能放冰箱 香蕉皮冷保存_健康_保健_99健康网",
            "paragraphs":[
                "本文导读:............."
            ]
        }
    ],
    "yesno_answer":"No",
    "question":"香蕉能放冰箱",
    "answer":"香蕉不能放冰箱,香蕉如果放冰箱里,会更容易变坏,会发黑腐",
    "id":293  
}

其中各字段的意义为:

id样本的唯一号,类型为int;

question:用户提出的是非观点类问题,类型为string;

answer 为人工从相关文档中提取出的答案片段,类型为string;

yesno_answer:为答案对应的是非点极性,类型string,并且仅有三个合法的值,其集合为:{ Yes”, “No“, “Depends“}

documents:为搜索引擎根据question检索找到的含有答案来源的相关文档,类型为数组,其中每个文档会含有对应的的页面title(string格式)及段落内容(列表格式);

2. 任务输出数据:

竞赛输出结果期望保存在一个文本文件中,其中每个样本的结果为一个json格式的数据,编码为utf-8,其中 json数据的格式如下(为展示已将一行json进行分行展开):

{
    "yesno_answer":"No",
    "id":293
}

其中:输出中的id和yesno_answer字段均必须存在。

id为测试集中提供的样本号,类型int。用于匹配问题和答案信息,该信息必须和测试集中提供的保持一致;

yesno_answer:为答案对应的是非点极性,类型string,对应内容为集合{ Yes”, “No“, “Depends“}的其中一个,且大小写应完全一致。

竞赛数据范围

数据集范围:所有问题均为搜索引擎中按照用户行为分布的观点类的问题,对应的文档为搜索引擎搜索出来的网页,答案片段摘要是经过人工标注的回答此问题的答案片段,是非观点极性是此答案片段摘要相对于问题的观点极性。

是非观点极性:所有极性均在{“ Yes”, “No“, “Depends“}集合中,对应的含义为:

Yes:肯定观点,肯定观点指的是答案给出了较为明确的肯定态度。有客观事实的从客观事实的角度出发,主观态度类的从答案的整体态度来判断。

No:否定观点,否定观点通常指的是答案较为明确的给出了与问题相反的态度。

Depends:无法确定/分情况,主要指的是事情本身存在多种情况,不同情况下对应的观点不一致;或者答案本身对问题表示不确定,要具体具体情况才能判断。

  • 观点型问题阅读理解
    中国人工智能大赛·语言与知识技术竞赛样例数据.zip
    247.00KB
    竞赛数据说明:竞赛数据说明:各竞赛项目提供样例数据和测试数据,不提供训练数据。
    下载