其他数据论文 II 区论文(已发表) 版本 ZH3 Vol 9 (1) 2024
下载
面向机器阅读理解的医学域数据集MedicalQA
MedicalQA: A dataset of medical domain for machine reading comprehension
 >>
: 2022 - 03 - 30
: 2023 - 04 - 07
: 2022 - 08 - 09
: 2024 - 02 - 28
Baidu
map
5732 26 0
摘要&关键词
摘要:机器阅读理解旨在利用算法让计算机理解段落语义并回答用户提出的问题,该任务所用数据集的质量可直接影响模型的实验结果。为丰富机器阅读理解的医学领域数据集,本文以爬虫和人工标注的方式构建了面向机器阅读理解的医学域数据集MedicalQA。本数据集以寻医问药网和39健康网两大医疗平台为主要数据来源,包含19502个段落、问题和答案,内容涉及内科、外科、妇产科等9大科室。数据集形式为excel文件,由5列组成,第一列为段落ID,第二列为段落所属科室,第三列为段落内容,第四列为问题,第五列为问题对应答案。本数据集的构建,有利于机器阅读理解模型的鲁棒性研究以及医学问答系统的构建,也能促进机器阅读理解领域的医学数据集共享。
关键词:机器阅读理解;医学域;数据集
Abstract & Keywords
Abstract: Machine reading comprehension aims to make the computer understand the paragraph semantics and answer the questions raised by users using algorithms. The quality of the dataset used in this task can directly affect the experimental results of the model. In order to enrich the medical domain dataset of machine reading comprehension, this paper constructs MedicalQA, a medical domain dataset for machine reading comprehension, employing a combination of web crawlers and manual annotation techniques. The dataset takes two medical platforms (i.e. Xunyiwenyao Network and 39 Health Network) as main data sources, and includes 19,502 paragraphs and Q & A pairs, covering 9 medical departments, such as internal medicine, surgery, obstetrics and gynecology. The dataset is formatted as an Excel file, organized with 5e columns. The first column denotes the paragraph ID; the second column indicates the department to which the paragraph belongs; the third column contains the paragraph content; the fourth column lists the questions, and the fifth column provides corresponding answers to the questions. The construction of this dataset is conducive to the establishment of machine reading comprehension models in the medical domain, and can also promote the sharing of medical datasets in the field of machine reading comprehension.
Keywords: machine reading comprehension; medical domain; dataset
数据库(集)基本信息简介
数据库(集)名称面向机器阅读理解的医学域数据集MedicalQA
数据通信作者吕文蓉
数据作者吕文蓉(1923184625@qq.com)
数据量38.8 MB
数据格式*.xlsx
数据服务系统网址https://dx.doi.org/10.11922/sciencedb.j00001.00411
基金项目国家自然科学基金(61762076)
数据库(集)组成数据集共包括19502条数据,其中的数据可根据科室不同划分为内科、外科、妇产科、儿科、皮肤科、性病科、五官科、中医科、传染科9大类。数据项主要包括科室、段落、问题和答案。
Dataset Profile
TitleMedicalQA: A dataset of medical domain for machine reading comprehension
Data corresponding authorLV Wenrong (1923184625@qq.com)
Data authorLV Wenrong
Data volume38.8 MB
Data format*.xlsx
Data service system<https://dx.doi.org/10.11922/sciencedb.j00001.00411>
Source of fundingNational Natural Science Foundation of China (61762076)
Dataset compositionThe dataset contains 19,502 entries, categorized into 9 different departments: internal medicine, surgery, gynecology and obstetrics, pediatrics, dermatology, venereal diseases, facial features, traditional Chinese medicine and infectious diseases. Data items mainly include department, paragraph, question and answer.
Baidu
引 言
机器阅读理解是受数据集驱动的研究领域,其目标是让机器在理解段落内容的基础上能正确回答相关问题。该领域数据集可分为完形填空式数据集、多项选择式数据集、区域预测式数据集、自由作答式数据集[1]。完形填空式和多项选择式阅读理解任务与考试试题相类似,数据收集与处理相对简单,其代表性数据集有文本开放域的机器阅读理解数据集MCTest[2]和基于监督学习的阅读理解语料CNN/Daily Mail[3],这两类问题基本可以采用浅层语义匹配[4]或多分类模型[5]解决,因此与之相关的众多相关神经网络模型已经达到性能瓶颈。自由作答式阅读理解答案形式多种多样,与现实人类作答习惯最为贴近,但该领域挑战难度大,模型生成的答案难以评价,且现有模型仍未达到实际应用层次,其代表性数据集有基于整本书或整部电影的大规模数据集NarrativeQA[6]和开放域问答数据集SearchQA[7]。区域预测式阅读理解难度适中,模型生成的答案易于评价,而且在中英文领域都有高质量数据集支撑,比如,中文机器阅读理解的跨度抽取数据集CMRC[8]、基于百度搜索和百度知道的DuReader[9]数据集、斯坦福大学推出的SQuAD[10]数据集以及在其基础上进一步扩增的SQuAD2.0[11]数据集。同时,区域预测式阅读理解任务也是文本问答、信息抽取等领域的重要子任务,具有较高的研究和探索价值。
我国正处于医学数据建设和应用阶段,该领域数据资源类型十分丰富,且应用规模不断扩大。我国拥有全球数量最多的医学数据,但没有统一的医学数据共享平台,使高质量数据汇聚度不高,存在大量数据孤岛。为缓解上述问题,本文以寻医问药网和39健康网两大医疗平台的文本数据为基础,考虑实际应用场景和问题所属科室等因素,构建了一个面向机器阅读理解的医学域数据集Medical QA。
1   数据采集和处理方法
1.1   数据来源和采集
本数据集的原始数据分别来源于寻医问药网[16]和39健康网[17],每个网站都拥有上千多家医院级企业会员以及数万名注册医生,为网站内医学数据的正确性提供了坚实可靠的保障。
本文原始数据采集流程主要包括:分析问题数据所在URL并确定后续URL访问规则,解析页面数据并使用XPath方法找到所需节点,获取该节点对应的问题文本及回答文本所属URL,最后再次进行上述步骤获取该问题对应的回答文本。本文最终获得近两万条问答对,根据科室不同共划分为内科、外科、妇产科、儿科、皮肤科、性病科、五官科、中医科、传染科9大类。原始数据如图1和图2所示。


图1   寻医问药网原始数据
Figure 1 Original data of Xunyiwenyao Internet


图2   39健康网原始数据
Figure 2 Original data of 39 Health Internet
1.2   数据分析和处理
本文爬取的原始数据在汇总时会不可避免地出现错误。常常存在格式混乱、数据冗余等问题,因此本文对原始数据的处理参考了DuReader等常见机器阅读理解数据集的格式,并根据机器阅读理解任务要求对原始数据进行处理。针对本文原始数据存在数据冗余、非法字符和无用信息这三种问题,主要通过正则表达式进行解决。
原始数据中的数据冗余主要是指爬取的文本中偶尔会出现重复的词语或句子,这些冗余信息对机器阅读理解任务的完成没有任何帮助,本文使用正则表达式依次对问题文本和回答文本进行去除冗余操作。
原始数据的一部分来源于普通网络用户,其中存在非正式交流字符或者非法字符,这些信息会影响模型对段落的理解,进而导致模型性能变差,因此需要使用正则表达式将这些非法字符过滤掉。
原始数据的无用信息主要是指爬取文本中存在无用的网址信息或其他标签信息,这些信息对模型理解段落内容没有任何帮助,也不需要作为问题的答案,因此需要使用正则表达式对这些无用信息进行过滤。具体错误情况如表1所示。
表1   数据错误情况示例
错误类型错误示例说明效果
数据冗余全全身上下关节总是咔咔响,大概与平常不爱运动相关,常不运动,关节就会出现退变,突然活动时就会出现关节咔咔响,也有大概是骨质疏松症引发的,平常要多锻炼。词语“全”冗余,在Java中使用正则表达式s.replaceAll("(.)\\1+","$1")去除冗余信息。全身上下关节总是咔咔响,大概与平常不爱运动相关,常不运动,关节就会出现退变,突然活动时就会出现关节咔咔响,也有大概是骨质疏松症引发的,平常要多锻炼。
非法字符通常来讲,第一跖骨骨折愈合需要<2-3>个月的时候,只要当骨折完整愈合以后能够选择下地负重行走。“<”“>”是非法字符,在python中使用正则表达式re.sub('[\/:*?"<>|]','-',string)去除非法字符。通常来讲,第一跖骨骨折愈合需要2-3个月的时候,只要当骨折完整愈合以后能够选择下地负重行走。
无用信息退行性骨关节病之用药可采用非甾体类(http://yao.xywy.com/goods/13039.htm)或抗风湿药品,加用活血祛瘀的中药医治,止痛后果好。“(http://yao.xywy.com/goods/13039.htm)”是无用信息,使用正则表达式re.sub(r'[\S]+\.(net|com|org|info|edu|gov|uk|de|ca|jp|fr|au|us|ru|ch|it|nel|se|no|es|mil)[\S]*\s?','',string)过滤掉。退行性骨关节病之用药可采用非甾体类或抗风湿药品,加用活血祛瘀的中药医治,止痛后果好。
上述错误处理完成后,还需要对文本进行数字标准化、特殊符号标准化以及英文标准化处理,三种标准化示例如表2所示。
表2   标准化情况示例
标准化类型标准化前标准化后
数字标准化多吃水果蔬菜、均衡饮食①多吃含维生素C、E及红色的食物,这是因为维生素C和维生素E抗化,红色食物富含铁,它们都能提高我们的抵抗力。②多吃洋葱和大蒜,具有杀菌消毒功效,可以帮助人体预防流感;③多吃白萝卜,因为白萝卜含有大量的有机硫磺化合物和丰富的维生素C(抗化)、微量元素锌(能促进食欲提高免疫力)多吃水果蔬菜、均衡饮食1多吃含维生素C、E及红色的食物,这是因为维生素C和维生素E抗化,红色食物富含铁,它们都能提高我们的抵抗力。2多吃洋葱和大蒜,具有杀菌消毒功效,可以帮助人体预防流感;3多吃白萝卜,因为白萝卜含有大量的有机硫磺化合物和丰富的维生素C(抗化)、微量元素锌(能促进食欲提高免疫力)
英文标准化动物的肝脏含有丰富的维生素Ḁ和维生素D,也含有丰富的铁元素。因此说,吃肝并不能补肝,反而能改善视力,改善人体的钙代谢以及防治缺铁性贫血。动物的肝脏含有丰富的维生素a和维生素D,也含有丰富的铁元素。因此说,吃肝并不能补肝,反而能改善视力,改善人体的钙代谢以及防治缺铁性贫血。
特殊符号标准化3、肾型:有严重的皮肤损害外,还有较重or持续的肾脏改变,多数患者预后较好,有10%左右的患者发展为肾功能衰竭。3、肾型:有严重的皮肤损害外,还有较重或持续的肾脏改变,多数患者预后较好,有10%左右的患者发展为肾功能衰竭。
数字标准化是将不同形式的具有数字意义的符号类型统一转换为标准的数字符号格式。例如:“①”“(1)”“Ⅰ”“➊”“壹”等符号都需要转换为标准的数字符号格式“1”。为了实现数字标准化,我们查看了具有数字意义的不同类型符号的Unicode编码,然后根据数字字符编码的有序性,构建了非标准数字符号格式与标准数字符号格式之间的对应关系,然后根据构建的对应关系进行数字标准化。
英文标准化是将各种类型不同但表达语义相同的英文符号统一转换为对应的标准小写英文格式。例如:“Ô“Ḁ”等符号都需要转换为标准的英文字符格式“a”。由于相似英文字符的Unicode编码不具备规律性,因此无法像数字标准化那样进行统一转换,所以我们通过构建字典的方式实现英文的标准格式和非标准格式之间的转换。
特殊符号标准化是将一些含有语义信息的符号转换为代表相对应语义的文字。例如:“/”“or”等表达“或者”的符号均可转换为中文文字“或”,“十”等形似“+”的符号均可转换为中文文字“加”。由于这些特殊符号代表了具体语义信息,所以它们需要进行转换而不可直接删除。由于这些特殊符号的Unicode编码同样不具备规律性,因此仍然需要通过构建字典的方式实现标准格式和非标准格式之间的转换。
寻医问药网原始数据中的回答大多由三部分组成,分别是问题对应答案、答案解析以及建议,本文将原始数据中的回答作为数据集中需要阅读的段落,回答的第一部分作为数据集的答案。数据初步处理完成后,还需对数据进行进一步筛选和检查,对于那些不合格的数据,需要进行修改或删除。处理后的数据如图3所示。


图3   处理后的寻医问药网数据
Figure 3 Processed data of Xunyiwenyao Internet
在39健康网原始数据中,问题所对应的确切答案往往被包含在整段回答中,所以在数据处理时,本文作者通过阅读方法对数据进行校验和审查,修改不通顺的语句或清除审核不达标的数据,之后再根据问题人工抽取答案。处理后的数据如图4所示。


图4   处理后的39健康网数据
Figure 4 Processed data of 39 Health Network
2   数据样本描述
本数据集使用一个名为MedicalQA的Excel文件进行存储,其中第一列为序号,第二列为段落所属科室,第三列为段落内容,第四列为问题,第五列为问题对应答案,数据样本展示如图5所示。


图5   面向机器阅读理解的医学域数据集(Excel格式)
Figure 5 Dataset of medical domain for machine reading comprehension (Excel format)
我们还统计了各科室的数据量,如表3所示。
表3   各科室数据量
序号科室大小(以条为单位)
1内科3828
2外科3923
3妇产科3978
4儿科1814
5皮肤科1386
6性病科1267
7五官科1400
8中医科559
9传染科1347
10总数19502
3   数据质量控制和评估
本数据集的质量依赖于所获数据的准确性。寻医问药网由中国医师协会主办,其中医生和医院资源经过了20多年的沉淀积累,问题的答案大多由来自三级甲等医院的医生,所以在该网站获取的原始数据能得到可靠的保证。39健康网已成为中国最大的健康类网站之一,被中国互联网协会评为“中国互联网产业健康第一名”,网站内注册医生人数多达20000多人,并且拥有医院级企业会员3600多家,所以在该网站获取的原始数据具有一定的可信度。
在数据处理上,我们使用正则匹配算法针对原始数据的不规范等问题做了进一步处理,将原始数据中的一些冗余信息或冗余标签替换成空白符,并删除原始数据中的一些无用信息和非法字符以及不合格数据,最终得到了可以使用的处理数据。同时,邀请了本校的5名医学专业老师和10名医学专业学生对数据进行审查。审查过程分为两步:第一步是由医学专业学生阅读数据集中所有问题和答案。如果认为答案有误,将根据对应段落对其进行修正,而如果答案无法修正,会判定该条答案与对应段落和问题为“不合格”数据,而“不合格”数据将会被删除。第二步是根据对数据进行审查的学生,将数据集分为5组。每个组抽取5%的数据交由医学专业老师再次检查,如果准确性低于90%,则相应的学生需要再次修改答案,直到整体精度达到90%,以此来保证数据集的质量。
最后,为统计数据集质量,本文对数据集进行抽样核查,随机抽取500条数据对数据集内容的准确率进行判断,又随机抽取2000条数据对其重复率和无用信息比例进行判断,如表4所示。
表4   数据质量描述
度量指标抽取数据大小(条为单位)百分比
准确率50097.40%
重复率20000.20%
无用信息比例20000.05%
4   数据价值
本数据集的发布有利于促进机器阅读理解的医学域数据集共享和机器阅读理解模型在医学域的发展。本数据集可用于训练医学领域的机器阅读理解模型,可用于评价机器阅读理解模型的鲁棒性[12](如模型的泛化性能),也可用于构建医学问答系统,具有一定的科研价值和实用价值。
5   数据使用方法和建议
本数据可用于机器阅读理解模型的训练任务和测试任务,也可用于医学问答系统的建立。本数据集的使用方法与用于机器阅读理解任务的标准数据集一致。总体步骤如图6所示。


图6   数据集使用流程
Figure 6 Process of using the dataset
对数据的预处理,可仿照SQuAD或DuReader等数据集的构造方法,处理后得到json格式文件,进而完成模型训练,之后用测试集验证模型性能,计算EM值[13]和F1值[14]等,也可构建医学问答系统。
本数据集也可以根据实际任务要求进行设计和修改,用于模型创新,泛化测试和问答实现等任务。机器阅读理解任务使用的模型在不断发展,现有的经典模型被不断完善和修改,产生了许多效果和稳定性都较高的改进模型,如RoBERTa[4],BERT-wwm[15]等。此文不再进一步赘述。
[1]
王小捷, 白子薇, 李可, 等. 机器阅读理解的研究进展[J]. 北京邮电大学学报, 2019, 42(6): 1–9. DOI:10.13190/j.jbupt.2019-111. [WANG X J, BAI Z W, LI K, et al. Survey on machine reading comprehension[J]. Journal of Beijing University of Posts and Telecommunications, 2019, 42(6): 1–9. DOI:10.13190/j.jbupt.2019-111.]
[2]
RICHARDSON M, BURGES C, RENSHAW E. MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text[C]// Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2013.
[3]
HERMANN K M, KOČISKÝ T, GREFENSTETTE E, et al. Teaching machines to read and comprehend[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems - Volume 1. New York: ACM, 2015: 1693–1701.https://dl.acm.org/doi/abs/10.5555/2969239.2969428.
[4]
LEE G G, SEO J, LEE S, et al. SiteQ: Engineering High Performance QA system Using Lexico-Semantic Pattern Matching and Shallow NLP[C]// Text REtrieval Conference. National Institute of Standards and Technology, 2001.
[5]
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84–90. DOI:10.1145/3065386.
[6]
KOČISKÝ T, SCHWARZ J, BLUNSOM P, et al. The NarrativeQA reading comprehension challenge[J]. Transactions of the Association for Computational Linguistics, 2018, 6: 317–328. DOI:10.1162/tacl_a_00023.https://doi.org/10.1162/tacl_a_00023.
[7]
DUNN M, SAGUN L, HIGGINS M, et al. SearchQA: A New Q&A Dataset Augmented with Context from a Search Engine[J]. 2017.
[8]
CUI Y M, LIU T, CHE W X, et al. A span-extraction dataset for Chinese machine reading comprehension[EB/OL]. 2018: arXiv: 1810.07366. https://arxiv.org/abs/1810.07366.
[9]
HE W, LIU K, LIU J, et al. DuReader: a Chinese machine reading comprehension dataset from real-world applications[EB/OL]. 2017: arXiv: 1711.05073. https://arxiv.org/abs/1711.05073.
[10]
RAJPURKAR P, ZHANG J, LOPYREV K, et al. SQuAD: 100,000+ Questions for Machine Comprehension of Text[J]. 2016.
[11]
RAJPURKAR P, JIA R, LIANG P. Know what You don't know: unanswerable questions for SQuAD[EB/OL]. 2018: arXiv: 1806.03822. https://arxiv.org/abs/1806.03822.
[12]
李烨秋, 唐竑轩, 钱锦, 等. 中文机器阅读理解的鲁棒性研究[J]. 北京大学学报(自然科学版), 2021, 57(1): 16–22. DOI:10.13209/j.0479-8023.2020.088. [LI Y Q, TANG H X, QIAN J, et al. Robustness of Chinese machine reading comprehension[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2021, 57(1): 16–22. DOI:10.13209/j.0479-8023.2020.088.]
[13]
WU X D, KUMAR V, QUINLAN J R, et al. Top 10 algorithms in data mining[J]. Knowledge and Information Systems, 2008, 14(1): 1–37. DOI:10.1007/s10115-007-0114-2.
[14]
张超然, 裘杭萍, 孙毅, 等. 基于预训练模型的机器阅读理解研究综述[J]. 计算机工程与应用, 2020, 56(11): 17–25. DOI:10.3778/j.issn.1002-8331.2001-0285. [ZHANG C R, QIU H P, SUN Y, et al. Review of machine reading comprehension based on pre-training language model[J]. Computer Engineering and Applications, 2020, 56(11): 17–25. DOI:10.3778/j.issn.1002-8331.2001-0285.]
[15]
CUI Y M, CHE W X, LIU T, et al. Pre-training with whole word masking for Chinese BERT[EB/OL]. 2019: arXiv: 1906.08101. https://arxiv.org/abs/1906.08101.
[16]
已解决的按科室分类的问答数据. 寻医问药网[EB/OL]. [2022-03-11]. http://www.xywy.com/. [Solved question and answer data categorized by department. Xunyiwenyao Internet [EB/OL]. [2022-03-11]. http://www.xywy.com/.]
[17]
已解决的不同科室的医疗问题. 39健康网[EB/OL]. [2022-03-14]. http://www.39.net/. [Solved medical issues in different departments. 39 Health Internet [EB/OL]. [2022-03-14]. http://www.39.net/.]
数据引用格式
马宁, 吕文蓉, 郭泽晨. 面向机器阅读理解的医学域数据集MedicalQA[DS/OL]. Science Data Bank, 2022. (2022-08-08). DOI: 10.11922/sciencedb.j00001.00411.
Baidu
稿件与作者信息
论文引用格式
马宁, 吕文蓉, 郭泽晨. 面向机器阅读理解的医学域数据集MedicalQA[J/OL]. 中国科学数据, 2024, 9(1). (2024-02-23). DOI: 10.11922/11-6035.csd.2022.0030.zh.
马宁
MA Ning
主要承担工作:数据校对、数据质量控制、数据综合管理。
(1981—),男,宁夏吴中人,博士,教授,研究方向为自然语言处理。
吕文蓉
LV Wenrong
主要承担工作:数据采集、数据预处理、数据整合、数据校对、论文撰写。
1923184625@qq.com
(1998—),女,山东烟台人,硕士研究生,研究方向为自然语言处理。
郭泽晨
GUO Zechen
主要承担工作:数据校对、数据质量控制。
(1998—),男,宁夏银川人,硕士研究生,研究方向为自然语言处理。
国家自然科学基金(61762076)
National Natural Science Foundation of China (61762076)
Baidu
出版历史
I区发布时间:2022年8月9日 ( 版本ZH2
II区出版时间:2024年2月28日 ( 版本ZH3
参考文献列表中查看
中国科学数据
csdata
Baidu
map