问答类型

数据集

语言

问题 数量

文章 数量

问题来源

文章来源

网址

抽取型

TriviaQA [11]

英文

4万

66万

搜索日志

百科、网络文本

http://nlp.cs.washington.edu/triviaqa/

NewsQA [12]

英文

10万

1万

众包

新闻

https://datasets.maluuba.com/NewsQA

SQuAD [10]

英文

10万

536

众包

百科

https://rajpurkar.github.io/SQuAD-explorer/

SearchQA [13]

英文

14万

6902万

搜索日志

网络文本

https://github.com/nyu-dl/SearchQA

DRCD [14]

中文

3万

1万

众包

百科

https://github.com/DRCKnowledgeTeam/DRCD

CMRC 2018 [15]

中文

2万

3507

众包

百科

https://hfl-rc.github.io/cmrc2018/

CJRC [16]

中文

5万

1万

人工合成

裁判文书

http://cail.cipsc.org.cn/

多项选择

RACE [17]

英文

87万

5万

英语考试

英语考试

http://www.cs.cmu.edu/glai1/data/race/

MCTest [6]

英文

2000

500

众包

虚假故事

http://research.microsoft.com/mct

完形填空

CNN/Daily Mail [3]

英文

140万

30万

人工合成

新闻

https://cs.nyu.edu/~kcho/DMQA/

CBT [18]

英文

68万

108

人工合成

儿童读物

http://fb.ai/babi/

HLF-RC [19]

中文

10万

2.8万

人工合成

新闻、儿童故事

https://github.com/ymcui/Chinese-Cloze-RC

生成型

NarrativeQA [20]

英文

4.6万

1500

众包

书籍、电影

http://deepmind.com/publications

MSMARCO [21]

英文

10万

20万

搜索日志

网络文本

http://www.msmarco.org

DuReader [22]

中文

20万

100万

搜索日志

网络文本

http://ai.baidu.com/broad/download?dataset=dureader

多跳推理

HotpotQA [23]

英文

11.3万

-

众包

百科

https://HotpotQA.github.io