中文机器阅读理解数据集

在人工智能快速发展的今天,机器阅读理解(Machine Reading Comprehension, MRC)作为自然语言处理领域的核心任务之一,正受到学术界和工业界的广泛关注。机器阅读理解要求模型能够理解给定的文档内容,并基于文档信息回答相关问题,这一能力对于构建智能问答系统、信息检索系统和对话系统具有重要的研究价值和实际应用意义。

中文机器阅读理解数据集为研究人员和开发者提供了丰富的训练和评估资源。该数据集涵盖了来自搜索引擎和知识问答平台的真实场景数据,不仅包含问题、文档和答案等核心要素,还提供了分词结果、答案位置标注、问题类型分类等丰富的标注信息。这些标注信息为模型训练提供了强有力的监督信号,有助于提升模型在理解、推理和生成等方面的能力。

该数据集对于推动中文自然语言处理技术的发展具有重要意义。首先,数据集规模较大,包含7000条高质量问答对,能够满足深度学习模型训练的数据需求。其次,数据集来源于真实应用场景,问题类型多样,涵盖描述性问题、是否类问题和实体类问题,能够全面评估模型在不同类型任务上的表现。最后,数据集提供了丰富的标注信息,包括分词结果、答案跨度、文档相关性评分等,为模型训练和评估提供了多维度的支持。

参考数据:机器阅读理解数据集

数据基本信息

数据规模

数据集类型 文件名称 数据量 用途
搜索训练集 search.train.json 2000条 模型训练
搜索验证集 search.valid.json 1000条 模型验证
知道训练集 zhidao.train.json 2000条 模型训练
知道验证集 zhidao.valid.json 1000条 模型验证
知道测试集 zhidao.test.json 1000条 模型测试
总计 - 7000条 -

数据格式

数据集采用JSON格式存储,每行一个JSON对象,使用UTF-8编码。

数据字段说明

字段名称 数据类型 字段说明
question String 问题文本,用户的原始问题
segmented_question List[String] 分词后的问题,按词切分的结果
question_type String 问题类型,包括DESCRIPTION(描述性)、YES_NO(是否类)、ENTITY(实体类)
question_id Integer 问题的唯一标识符
fact_or_opinion String 问题属性,FACT表示事实性问题,OPINION表示观点性问题
documents List[Object] 相关文档列表,每个问题对应多个候选文档
answers List[String] 答案列表,一个问题可能有多个答案
segmented_answers List[List[String]] 分词后的答案列表
answer_spans List[List[Integer]] 答案在文档中的位置,格式为[起始位置, 结束位置]
answer_docs List[Integer] 包含答案的文档索引列表
fake_answers List[String] 虚假答案列表,用于负样本生成
match_scores List[Float] 文档与问题的匹配分数

文档字段说明

字段名称 数据类型 字段说明
title String 文档标题
segmented_title List[String] 分词后的标题
paragraphs List[String] 文档段落列表,原始文本
segmented_paragraphs List[List[String]] 分词后的段落列表
is_selected Boolean 是否为选中文档(包含答案)
most_related_para Integer 最相关段落的索引

数据统计信息

统计项 数值
总数据量 7000条
平均文档数 4-5个/问题
平均问题长度 9个字符
平均答案长度 130个字符
问题类型分布 DESCRIPTION、YES_NO、ENTITY
事实/观点分布 FACT: 2567条 (36.7%), OPINION: 4433条 (63.3%)

数据优势

优势项 详细说明
数据规模大 包含7000条高质量问答对,满足深度学习模型训练需求
场景多样化 涵盖搜索引擎(search)和知识问答(zhidao)两种真实应用场景
问题类型丰富 包含描述性问题、是否类问题和实体类问题,全面覆盖不同类型任务
标注信息完整 提供分词结果、答案位置、文档相关性等丰富的标注信息
数据质量高 来源于真实用户问题,答案经过人工标注,质量可靠
格式规范统一 采用JSON格式,数据结构清晰,便于数据加载和处理
支持多种任务 可用于阅读理解、问答系统、信息检索等多种NLP任务
包含负样本 提供虚假答案(fake_answers),支持负样本训练和对比学习
匹配分数标注 提供文档与问题的匹配分数,支持检索-阅读联合训练
分词结果完整 提供完整的分词结果,支持基于词级别的模型训练

数据样例

以下展示了数据集的一个样例,样例保持原始格式,包括所有字段:

样例 1 (search验证集)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
{
"documents": [
{
"is_selected": true,
"title": "秋占生女是啥意思_百度知道",
"most_related_para": 0,
"segmented_title": [
"秋",
"占",
"生",
"女",
"是",
"啥",
"意思",
"_",
"百度",
"知道"
],
"segmented_paragraphs": [
[
"这",
"是",
"求",
"了",
"观音灵签",
"的",
"以",
"支",
"中签",
",",
"在",
"网上",
"查",
"到",
"的",
"解释",
"是",
":",
"1",
"此",
"卦",
"屋",
"好",
"墙壁",
"之",
"象",
"凡事",
"稳当",
"无",
"险",
"也",
"。",
"2",
"曰",
":",
"改",
"旧",
"成",
"新",
"寒",
"花",
"遇",
"春",
"从前",
"阻滞",
"今",
"得",
"称心",
":",
"自身",
"吉",
":",
"宜守常则",
"四",
"季",
"平静",
"若问",
"申",
"宫",
"用",
"守",
"常",
",",
"今生",
"运",
"限",
"主",
"雌",
"强",
";",
"早"
]
],
"paragraphs": [
"这是求了观音灵签的以支中签,在网上查到的解释是:1此卦屋好墙壁之象 凡事稳当无险也。2曰:改旧成新 寒花遇春 从前阻滞 今得称心: 自身吉:宜守常则四季平静 若问申宫用守常,今生运限主雌强;早"
]
},
{
"is_selected": false,
"title": "预示生女,秋占生男是什么意思???秋占是什么意思?????_百度知道",
"most_related_para": 1,
"segmented_title": [
"预示",
"生",
"女",
",",
"秋",
"占",
"生",
"男",
"是什么",
"意思",
"?",
"?",
"?",
"秋",
"占",
"是",
"什么",
"意思",
"?",
"?",
"?",
"?",
"?",
"_",
"百度",
"知道"
],
"segmented_paragraphs": [
[
"看",
"八字",
"就",
"知道"
],
[
"忌",
"用",
"“",
"丑陋",
"”",
"的"
]
],
"paragraphs": [
"看八字就知道",
"忌用“丑陋”的"
]
},
{
"is_selected": true,
"title": "秋占生女什么意思_百度知道",
"most_related_para": 0,
"segmented_title": [
"秋",
"占",
"生",
"女",
"什么",
"意思",
"_",
"百度",
"知道"
],
"segmented_paragraphs": [
[
"就是",
"秋",
"占",
"生",
"的",
"女儿",
"的",
"意思",
"。"
],
[
"短时间",
"交易",
"里面",
",",
"不要",
"用",
"周易",
"了"
]
],
"paragraphs": [
"就是秋占生的女儿的意思。",
"短时间交易里面,不要用周易了"
]
},
{
"is_selected": false,
"title": "预示生男,秋占生女是什么意思_百度宝宝知道",
"most_related_para": 0,
"segmented_title": [
"预示",
"生",
"男",
",",
"秋",
"占",
"生",
"女",
"是什么",
"意思",
"_",
"百度",
"宝宝",
"知道"
],
"segmented_paragraphs": [
[
"不要",
"太",
"迷信",
"了",
"太阳",
"2016",
"-",
"12",
"-",
"13",
"10",
":",
"40"
],
[
"这个",
"还是",
"顺其自然",
"比较好",
"177",
"***",
"*",
"*",
"933",
"_",
"gfST",
"2016",
"-",
"12",
"-",
"13",
"10",
":",
"54"
],
[
"迷信",
"不可信",
"!"
]
],
"paragraphs": [
"不要太迷信了 太阳👑 2016-12-13 10:40",
"这个还是顺其自然比较好 177*****933_gfST 2016-12-13 10:54",
"迷信不可信!"
]
},
{
"is_selected": false,
"title": "秋占生女什么意思?_百度知道",
"most_related_para": 0,
"segmented_title": [
"秋",
"占",
"生",
"女",
"什么",
"意思",
"?",
"_",
"百度",
"知道"
],
"segmented_paragraphs": [
[
"就是",
"秋",
"占",
"生",
"的",
"女儿",
"的",
"意思",
"。"
],
[
"秋天",
"占卦",
"应该",
"是",
"女孩"
]
],
"paragraphs": [
"就是秋占生的女儿的意思。",
"秋天占卦应该是女孩"
]
}
],
"answer_spans": [
[
0,
8
]
],
"fake_answers": [
"就是秋占生的女儿的意思。"
],
"question": "秋占生女是什么意思",
"segmented_answers": [
[
"这",
"是",
"求",
"了",
"观音灵签",
"的",
"以",
"支",
"中签",
",",
"在",
"网上",
"查",
"到",
"的",
"解释",
"是",
":",
"1",
".",
"此",
"卦",
"屋",
"好",
"墙壁",
"之",
"象",
"凡事",
"稳当",
"无",
"险",
"也",
"。",
"2",
".",
"曰",
":",
"改",
"旧",
"成",
"新",
"、",
"寒",
"花",
"遇",
"春",
"、",
"从前",
"阻滞",
"、",
"今",
"得",
"称心",
":",
"自身",
"吉",
":",
"宜守常则",
"四",
"季",
"平静",
"。",
"若问",
"申",
"宫",
"用",
"守",
"常",
",",
"今生",
"运",
"限",
"主",
"雌",
"强",
";",
"早",
"。"
],
[
"就是",
"秋",
"占",
"生",
"的",
"女儿",
"的",
"意思",
"。"
]
],
"answers": [
"这是求了观音灵签的以支中签,在网上查到的解释是:1.此卦屋好墙壁之象 凡事稳当无险也。2.曰:改旧成新、寒花遇春、从前阻滞、今得称心:自身吉:宜守常则四季平静。 若问申宫用守常,今生运限主雌强;早。",
"就是秋占生的女儿的意思。"
],
"answer_docs": [
2
],
"segmented_question": [
"秋",
"占",
"生",
"女",
"是什么",
"意思"
],
"question_type": "DESCRIPTION",
"question_id": 181577,
"fact_or_opinion": "FACT",
"match_scores": [
1.0
],
"source_file": "search验证集"
}

应用场景

1. 机器阅读理解模型训练

该数据集为机器阅读理解模型的训练提供了丰富的资源。机器阅读理解是自然语言处理领域的重要任务,要求模型能够理解给定的文档内容,并基于文档信息回答相关问题。数据集包含了7000条高质量问答对,涵盖了描述性问题、是否类问题和实体类问题等多种类型,能够全面训练模型在不同场景下的理解能力。数据集提供了完整的标注信息,包括答案在文档中的位置、文档与问题的匹配分数等,这些信息为模型训练提供了强有力的监督信号。通过在该数据集上训练,模型可以学习到如何从长文档中提取关键信息、如何理解问题的意图、如何匹配问题与文档段落等核心能力。这些能力对于构建智能问答系统、信息检索系统等应用具有重要意义。

2. 智能问答系统开发

该数据集可以用于开发智能问答系统,帮助系统理解用户问题并从相关文档中提取答案。智能问答系统是当前人工智能应用的重要方向,广泛应用于客服机器人、知识库问答、教育辅助等领域。数据集来源于真实的搜索引擎和知识问答平台,问题类型多样,涵盖了用户在实际使用中可能遇到的各种问题类型。通过在该数据集上训练模型,可以提升问答系统在理解问题意图、检索相关文档、提取准确答案等方面的能力。数据集提供的文档匹配分数可以帮助优化检索模块,答案位置标注可以帮助优化答案提取模块,分词结果可以帮助优化中文处理流程。这些功能使得开发出的问答系统能够更准确地理解用户需求,提供更精准的答案。

3. 信息检索系统优化

该数据集可以用于优化信息检索系统,提升系统在检索相关文档、排序搜索结果等方面的性能。信息检索是搜索引擎、推荐系统等应用的核心技术,其性能直接影响用户体验。数据集提供了文档与问题的匹配分数,这些分数反映了文档与问题的相关程度,可以用于训练检索模型和排序模型。通过分析匹配分数与文档内容的关系,可以优化检索算法,提升检索结果的准确性和相关性。数据集包含的问题类型多样,涵盖了不同类型的信息需求,可以帮助系统在不同场景下都能提供高质量的检索结果。此外,数据集提供的分词结果可以帮助优化中文分词和索引构建,提升检索效率。

4. 自然语言处理算法研究

该数据集为自然语言处理算法的研究提供了丰富的实验数据。自然语言处理是人工智能领域的重要研究方向,涉及文本理解、语义分析、信息抽取等多个子任务。数据集提供了完整的分词结果、答案位置标注、问题类型分类等信息,这些信息可以用于研究不同的NLP算法。例如,可以利用分词结果研究中文分词算法,可以利用答案位置标注研究序列标注算法,可以利用问题类型分类研究文本分类算法。数据集规模较大,包含7000条数据,能够满足深度学习模型训练的需求,可以用于研究各种深度学习方法在NLP任务上的表现。数据集来源于真实场景,能够更好地反映实际应用中的挑战,有助于推动NLP算法在实际应用中的发展。

5. 对话系统和聊天机器人开发

该数据集可以用于开发对话系统和聊天机器人,提升系统在理解用户意图、生成合理回复等方面的能力。对话系统是当前人工智能应用的热点,广泛应用于智能客服、智能助手、娱乐聊天等场景。数据集包含的问题类型多样,涵盖了用户在对话中可能提出的各种问题,可以帮助系统学习如何理解不同类型的用户意图。数据集提供的答案可以作为回复生成的参考,帮助系统学习如何生成合理、准确的回复。通过在该数据集上训练,系统可以学习到如何从文档中提取信息、如何组织答案内容、如何根据问题类型调整回复策略等能力。这些能力对于构建高质量的对话系统具有重要意义。

6. 知识图谱构建和知识库问答

该数据集可以用于构建知识图谱和开发知识库问答系统。知识图谱是当前人工智能应用的重要基础设施,广泛应用于搜索引擎、推荐系统、智能问答等应用。数据集包含的问题和答案涉及各种知识领域,可以用于提取实体、关系和属性,构建知识图谱。数据集提供的实体类问题可以帮助识别实体,描述性问题可以帮助提取关系,是否类问题可以帮助验证事实。通过分析问题和答案的内容,可以提取出丰富的知识,用于构建或扩充知识图谱。此外,数据集可以用于开发知识库问答系统,帮助系统理解用户问题并从知识库中检索和生成答案。

结尾

本数据集作为中文机器阅读理解领域的重要资源,为研究人员和开发者提供了丰富的训练和评估数据。数据集规模较大,包含7000条高质量问答对,能够满足深度学习模型训练的数据需求。数据集来源于真实应用场景,涵盖了搜索引擎和知识问答平台两种场景,问题类型多样,包括描述性问题、是否类问题和实体类问题,能够全面评估模型在不同类型任务上的表现。数据集提供了丰富的标注信息,包括分词结果、答案位置、文档相关性评分等,为模型训练和评估提供了多维度的支持。

该数据集具有重要的研究价值和实际应用意义。在学术研究方面,数据集可以用于研究机器阅读理解、信息检索、自然语言处理等领域的各种算法和方法。在实际应用方面,数据集可以用于开发智能问答系统、信息检索系统、对话系统等应用,推动人工智能技术在实际场景中的应用。数据集格式规范,数据结构清晰,便于数据加载和处理,为研究人员和开发者提供了便利。

本数据集为中文自然语言处理技术的发展提供了有力支持,有助于推动相关领域的研究和应用。通过使用本数据集,研究人员和开发者可以训练出更高质量的模型,开发出更智能的应用,推动人工智能技术在实际场景中的应用和发展。有需要可私信获取更多信息。


中文机器阅读理解数据集
https://zhyyao.me/2025/12/14/dianshu/中文机器阅读理解数据集/
作者
zhyyao
发布于
2025年12月14日
许可协议