其他数据论文 II 区论文(已发表) 版本 ZH1 Vol 8 (2) 2023
下载
中国奶牛疫病知识图谱构建数据集
A dataset of dairy cow diseases for knowledge graph construction in China
 >>
: 2022 - 09 - 26
: 2023 - 02 - 17
: 2022 - 12 - 19
: 2023 - 06 - 29
Baidu
map
3210 16 0
摘要&关键词
摘要:奶牛养殖业作为我国畜牧业发展的重点,在促进农业结构调整、带动社会经济发展等方面发挥着举足轻重的作用。奶牛疫病的发生不仅给畜牧业带来较大经济损失,而且严重威胁食品安全和人类健康,疫病防控任务重要而艰巨。奶牛疫病知识图谱的构建是进行疫病防控的基础性工作,对畜牧业发展具有重要的意义。中国奶牛疫病知识图谱构建数据集,基于奶牛疫病类型的图书和网站,通过Python爬虫以及OCR技术将数据进行采集、清洗、整理、合并,最终形成5类奶牛疫病261条数据,包括传染病42种、寄生虫病16种、内科病111种、外科病54种、产科病38种。本数据集可以用作奶牛疫病知识图谱的构建,为我国奶牛疫病防控建设提供基础数据支持。
关键词:奶牛疫病;疫病防控;知识图谱;Python爬虫
Abstract & Keywords
Abstract: As a key area of China’s animal husbandry development, dairy farming plays a pivotal role in promoting agricultural structural adjustment and driving social and economic development. The occurrence of dairy cow disease not only brings great economic losses to animal husbandry, but also seriously threatens food safety and human health. The task of disease prevention and control is important and arduous. The construction of dairy cow disease knowledge graph is the basis of disease prevention and control, which is of great significance to the development of animal husbandry. In the dataset of dairy cow diseases in China for knowledge graph construction, based on books and websites of dairy cow disease types, we carried out data collecting, cleansing, organizing and merging to obtain 261 data of 5 types of dairy cow disease, including 42 infectious diseases, 16 kinds of parasitic diseases, 111 kinds of internal diseases, 54 kinds of surgical diseases, and 38 kinds of obstetric diseases. This dataset can be used to construct a knowledge graph of dairy cow diseases, and provide basic data support for the construction of dairy cow disease prevention and control in China.
Keywords: dairy cow disease; disease control; knowledge graph; python crawler
数据库(集)基本信息简介
数据库(集)名称中国奶牛疫病知识图谱构建数据集
数据作者孙伟
数据通信作者曹姗姗(caoshanshan@caas.cn);孙伟(sunwei02@caas.cn)
数据时间范围2022年
地理区域中国
数据量229 KB,261条10个字段
数据格式*.xlsx
数据服务系统网址http://dx.doi.org/10.12205/A0007.20221101.00.ds.2534
基金项目中国农业科学院创新工程(CAAS-ASTIP-2016-AII,CAAS-ASTIP-2023-AII);中央级公益性科研院所基本科研业务费专项(JBYW-AII-2023-23,JBYW-AII-2023-35)。
数据库(集)组成本数据集为一张Excel表,该表共包含261条记录,由10个字段(疫病名、别称、描述、疫病一级类别、疫病二级类别、症状、病因、诊断、预防措施、治疗措施)组成。
Dataset Profile
TitleA dataset of dairy cow diseases for knowledge graph construction in China
Data corresponding authorCAO Shanshan (caoshanshan@caas.cn); SUN Wei (sunwei02@caas.cn)
Data authorsSUN Wei
Time range2022
Geographical scopeChina
Data volume10 fields, 261 species, 229KB
Data format*.xlsx
Data service system<http://dx.doi.org/10.12205/A0007.20221101.00.ds.2534>
Sources of fundingInnovation Project of Chinese Academy of Agricultural Sciences (CAAS-ASTIP-2016-AII,CAAS-ASTIP-2023-AII), Central Public-interest Scientific Institution Basal Research Fund (JBYW-AII-2023-23,JBYW-AII-2023-35).
Dataset compositionThis dataset is an Excel data table containing 261 records of 10 fields (disease name, alias, description, primary category of disease, secondary category of disease, symptoms, etiology, diagnosis, preventive measures, and treatment measures).
Baidu
引 言
据国家统计局数据,2020年牛奶产量达3440.0万吨,同比增长7.5%,创2008年以来的历史新高,比十年前增长10.6%。据农业农村部监测,2020年全国奶牛年均单产达8.6吨,比2014年增长了3.1吨[1]。牛奶作为奶牛的主要产物,富含多种营养,可以加工成风格多变的奶制品,成为日常饮食消费中不可或缺的重要组成部分。牛奶及奶制品生产的源头是奶牛养殖,奶牛养殖过程中的疫病防控水平则直接关系着牛奶及奶制品原料供应的可靠性,以及产品的安全性[2]。因此,当遇到奶牛疫病问题时,养殖户需要快速准确地获取奶牛疫病相关知识,以实现奶牛疫病的及时预防和有效治疗。
奶牛疫病的知识早期呈现于相关纸质书籍和文献中,这增加了广大养殖户及时获取奶牛疫病知识的难度。随着互联网时代的到来和快速发展,奶牛疫病数据的不断增大为养殖户随时获取信息提供了保障,但是如何从海量奶牛数据中获取有效的知识成为难点和重点[3]。传统搜索引擎往往是根据养殖户提出奶牛问题的相似字符串进行查找,依赖相似程度返回一系列的网页链接,养殖户还需要进一步在这些网页链接中筛选自己需要的信息[4]。传统搜索引擎在一定程度上帮助奶牛养殖户解决了获取信息困难的问题,但在搜索信息的过程中,时常出现大量冗余的数据,以及与答案无关的数据,这不仅花费了养殖户大量的时间和精力,还可能导致因信息繁多而产生数据不可信的问题。随着科技的不断发展,奶牛养殖户对降低时间成本以及提高信息准确性的需求进一步提升。
2012年,Google首次提出知识图谱[5]这一概念,并使用通用知识图谱来优化搜索引擎的查询结果,取得突破性的进展。但因知识图谱是通用型[6]的,奶牛养殖户仍需要对结果进行筛选。随着科技的进步与人工智能的发展,垂直领域知识图谱的构建以及垂直领域知识图谱的应用成为当下研究的热潮[7]。在医疗领域方面,孙敏敏等[8]以寻医问药网数据为基础,利用Python爬虫技术获取肺部疾病的结构化数据,经过数据清洗及处理,借助知识图谱构建技术实现了基于Neo4j图数据库的肺部疾病知识图谱可视化,可以帮助医生或患者及时发现病情,提高就诊效率。任燕春[9]等以百科网站作为知识的主要数据来源构建新冠肺炎知识图谱,并以该知识图谱为基础,实现基于新冠肺炎知识图谱的智能问答系统,并基于BERT-BiLSTM-CRF命名实体识别模型,验证了BIOE(Begin Inside Outside End)标注方案的优越性,其F1值(F1 Score)高达97%。张兴等[10]基于万方医学网以及儿童病相关领域的书籍构建了儿童医疗知识图谱,并与提出的多模型融合问答方法TIBD-QA进行融合,形成最终的基于知识图谱的儿童病问答系统,提高了中文儿童医疗领域答案查询的精准度,解决了搜索引擎缺乏对用户问题的理解而导致耗时耗力以及答案查询不准确的问题。
中国奶牛疫病知识图谱构建数据集较图书、文献与网络中的奶牛疫病数据更为凝练,并且结构清晰、便于查询与更新,符合快速构建奶牛疫病知识图谱的要求,有利于奶牛养殖产业信息化与智能化建设。本研究基于《奶牛场兽医师手册》[11]、《奶牛疾病学》[12-13]、《奶牛疾病诊治技术》[14]、《新编奶牛疾病诊断与防治》[15]、《奶牛养殖与疾病防治》[16]以及奶牛疫病相关学术期刊,奶牛疫病相关网站,通过Python爬虫和OCR技术,对奶牛疫病数据进行采集、清洗、整合,并进行专家知识核对,建立了一个中国奶牛疫病知识图谱构建数据集,为后期继续研究我国奶牛疫病知识图谱智能问答领域提供基础数据支持。
1   数据采集和处理方法
2022年2月至2022年7月,项目组按照如下操作流程,进行数据采集及处理工作,进而完成中国奶牛疫病知识图谱构建数据集的制作。
(1)选定奶牛疫病相关图书和学术论文,进行数据采集与处理
根据奶牛疫病专家的推荐,选用下列图书,《奶牛场兽医师手册》[11]、《奶牛疾病学》[12-13]、《奶牛疾病诊治技术》[14]、《新编奶牛疾病诊断与防治》[15]、《奶牛养殖与疾病防治》[16];使用超星汇雅电子书(http://www.sslibrary.com/)进行搜索并下载,下载的图书格式为pdz格式,需使用超星阅读器进行阅读查看;在阅读查看的同时通过QQ截图的屏幕识图功能采集奶牛疫病相关数据;另外根据中国知网(https://www.cnki.net/)下载高质量的奶牛疫病学术论文作为补充数据。补充后的数据通过讯飞智检(https://zj.xfyun.cn/)完成文字矫正处理工作,此时得到数据集1。
(2)选定奶牛疫病相关网站,进行数据采集与处理
奶牛疫病相关网站和平台众多,通过考察和奶牛疫病专家推荐,最终确定参考国内较为权威和专业的“农业专业知识服务系统”(http://agri.ckcest.cn/index.html)。目前该网站内的畜禽疾病百科模块里具有奶牛疫病的数据信息,共215条。根据要爬取的奶牛疫病信息,以及该网站畜禽疾病百科网页和奶牛疫病数据条网页的结构,编写特定的Python爬虫脚本进行数据采集。爬虫爬出到的奶牛疫病数据,通过数据清洗解决数据冗余以及表达不规范的问题,此时得到数据集2。
(3)整理数据,进行合并
将上述数据集1和数据集2进行整理,两者互为补充,对于相同的奶牛疾病数据对比选择最优数据合并为一条,对于不同的疾病直接合并。数据合并完成后需要送与奶牛疫病专家进行检查核对,并根据专家意见进行相应修改,保证奶牛疫病数据信息的准确性,最终形成中国奶牛疫病知识图谱构建数据集。
2   数据样本描述
中国奶牛疫病知识图谱构建数据集是由261条奶牛疫病数据组成的一张数据信息表,表中共有10个字段,包括疫病名、别称、描述、疫病一级类别、疫病二级类别、症状、病因、诊断、预防措施、治疗措施(图1)。


图1   中国奶牛疫病知识图谱构建数据集
Table 1 Statistics and proportions of primary categories of dairy cow diseases
中国奶牛疫病知识图谱构建数据集包括5大疫病一级类别,其中传染病42种,寄生虫病16种,内科病111种,外科病54种,产科病38种,分别占比16.09%、7.28%、42.53%、20.69%、14.56%(表1)。
表1   奶牛疫病一级类别统计及其占比
序号疫病一级类别数目占比/%
1传染病4216.09
2寄生虫病167.28
3内科病11142.53
4外科病5420.69
5产科病3814.56
中国奶牛疫病知识图谱构建数据集可快速构建奶牛疫病知识图谱,实现知识图谱的可视化,部分奶牛疫病数据的知识图谱可视化如图2所示。


图2   奶牛疫病知识图谱可视化
Figure 2 Visualization of the knowledge graph of dairy cow diseases
3   数据质量控制和评估
在数据采集阶段,本数据集的数据来自专业书籍和文献以及国内权威网站,数据源本身的可信度较高,保证每条疫病数据采集有凭证可依。在数据处理阶段,采取数据清洗以及文字校正,保证数据的准确性。在数据整理合并阶段,比对不同来源的数据,进行互补合并,保证数据采集量与数据质量。整理出的数据集,邀请奶牛疫病专家进行检查核对和提出修改意见。根据专家意见和专业资料进一步修改完善。
4   数据价值
本数据集基于奶牛疫病相关专业书籍、文献和权威网站,通过编写Python爬虫脚本和OCR技术,采取自动化和人工并行的数据采集和处理方法,以及专家的检查核对,获得真实有效的高质量中国奶牛疫病知识图谱构建数据。目前,国内尚没有构建基于奶牛疫病数据的知识图谱,或基于中国奶牛疫病知识图谱的智能问答系统,本数据集可用来填补我国在奶牛疫病知识图谱构建与应用相关领域数据的空白。本数据集能够用来快速构建中国奶牛疫病知识图谱,基于此知识图谱,结合自然语言处理技术,进一步构建中国奶牛疫病知识图谱智能问答系统,有助于推动奶牛养殖产业智能化和现代化的发展,有助于推进畜牧业知识智能服务平台的构建,加快人工智能技术在畜牧业领域的应用步伐。
[1]
孙志华,张丹辉,刘浩. 2020年国际奶业发展概况及我国奶业形势分析展望[J]. 中国奶牛, 2021(05): 51-54. [SUN Z H,ZHANG D H,LIU H. Overview of the development of the international dairy industry in 2020 and China's dairy industry situation analysis outlook[J]. China Dairy Cattle, 2021(05): 51-54.]
[2]
曲杰来. 奶牛主要疫病流行状况与防控技术[J]. 饲料博览, 2020(08): 62. [QU J L. The epidemiological situation of major diseases in dairy cattle and prevention and control techniques[J]. Feed Review, 2020(08): 62.]
[3]
闫丽华. 基于知识图谱的葡萄病虫害自动问答系统[D]. 西北农林科技大学, 2021. [YAN L H. Knowledge graph-based automatic question and answer system for grape pests and diseases[D]. Northwest A&F University, 2021.]
[4]
徐帅博. 基于枸杞病虫害知识图谱的问答系统研究与实现[D]. 宁夏: 宁夏大学, 2020. [XU S B. Research and implementation of a question and answer system based on the knowledge graph of wolfberry pests and diseases[D]. Ningxia: Ningxia University, 2020.]
[5]
AMIT S. Introducing the knowledge graph[R]. America: Official Blog of Google,2012.
[6]
覃晓,廖兆琪,施宇,等. 知识图谱技术进展及展望[J]. 广西科学院学报, 2020, 36(03): 242-251. DOI:10.13657/j.cnki.gxkxyxb.20201027.009. [QIN X, LIAO Z Q, SHI Y, et al. Progress and prospects of knowledge graph technology[J]. Journal of Guangxi Academy of Sciences, 2020, 36(03): 242-251. DOI:10.13657/j.cnki.gxkxyxb.20201027.009.]
[7]
付雷杰,曹岩,白瑀,等. 国内垂直领域知识图谱发展现状与展望[J]. 计算机应用研究, 2021, 38(11): 3201-3214. DOI:10.19734/j.issn.1001-3695.2021.04.0095. [FU L J, CAO Y, BAI Y, et al. Current situation and prospect of domestic vertical domain knowledge graph development[J]. Application Research of Computers, 2021, 38(11): 3201-3214. DOI:10.19734/j.issn.1001-3695.2021.04.0095.]
[8]
孙敏敏,毛雪岷. 基于Neo4j的肺部疾病知识图谱构建[C]. //第十五届(2020)中国管理学年会论文集. 2020: 1-6. [SUN M M, MAO X M. Neo4j-based knowledge graph construction for lung diseases[C]. //Proceedings of the 15th (2020) Annual Conference on Management in China. 2020: 1-6.]
[9]
任燕春.基于新冠肺炎知识图谱的智能问答系统研究[D]. 内蒙古科技大学, 2021. DOI:10.27724/d.cnki.gnmgk.2021.000507. [REN Y C. Research on an intelligent question and answer system based on the knowledge graph of New Crown Pneumonia[D]. lnner Mongolia University of Science and Technology, 2021. DOI:10.27724/d.cnki.gnmgk.2021.000507.]
[10]
张兴, 王海荣, 李明亮, 等. 基于知识图谱的儿童病问答模型构建[J]. 郑州大学学报(理学版), 2022, 54(02): 74-80. DOI:10.13705/j.issn.1671-6841.2021317. [ZHANG X, WANG H Y, LI M L, et al. The construction of children's disease question and answer model based on knowledge graph[J]. Journal of Zhengzhou University(Natural Science Edition) , 2022, 54(02): 74-80. DOI:10.13705/j.issn.1671-6841.2021317.]
[11]
王春璈主编. 奶牛场兽医师手册[M]. 北京: 金盾出版社, 2008. [WANG C A. Dairy farm veterinarian manual[M]. Beijing: Jindun Press, 2008.]
[12]
齐长明主编. 奶牛疾病学 上[M]. 北京: 中国农业科学技术出版社, 2006. [QI C M. Upper part of cow disease[M]. Beijing: China Agricultural Scientech Press, 2006.]
[13]
齐长明主编. 奶牛疾病学 下[M]. 北京: 中国农业科学技术出版社, 2006. [QI C M. Lower part of cow disease[M]. Beijing: China Agricultural Scientech Press, 2006.]
[14]
王进国等主编. 奶牛疾病诊治技术[M]. 北京: 中国农业出版社, 1999. [WANG J G. Diagnosis and treatment technology of cow diseases[M]. Beijing: China Agriculture Press, 1999.]
[15]
侯引绪主编. 新编奶牛疾病诊断与防治[M]. 赤峰: 内蒙古科学技术出版社, 2004. [HOU Y X. Diagnosis and prevention of cow diseases newly compiled. Chifeng: Inner Mongolia Science And Technology Press, 2004.]
[16]
肖定汉主编. 奶牛养殖与疾病防治[M]. 北京: 中国农业大学出版社, 2004. [XIAO D H. Dairy cow breeding and disease prevention[M]. Beijing: China Agricultural University Press, 2004.]
数据引用格式
孙伟. 中国奶牛疫病知识图谱构建数据集[DS/OL]. 中国农业科学院农业信息研究所. 国家农业科学数据中心, 2022.(2022-11-01).DOI:10.12205/A0007.20221101.00.ds.2534.
Baidu
稿件与作者信息
论文引用格式
张朋朋, 李全胜, 孔繁涛, 等. 中国奶牛疫病知识图谱构建数据集[J/OL]. 中国科学数据, 2023, 8(2). (2023-06-29). DOI:10.11922/11-6035.nasdc.2022.0011.zh.
张朋朋
ZHANG Pengpeng
数据采集处理与论文撰写。
男,安徽亳州人,硕士生,研究方向为知识图谱。
李全胜
LI Quansheng
数据处理及汇总校对。
男,新疆库尔勒人,硕士,副教授,研究方向为农业信息化。
孔繁涛
KONG Fantao
数据整理与数据质量评估。
男,山东滕州人,博士,研究员,研究方向为农业信息技术。
满芮
MAN Rui
数据整理。
女,北京人,博士,助理研究员,研究方向为科学数据管理。
曹姗姗
CAO Shanshan
数据审核与数据质量评估。
caoshanshan@caas.cn
女,黑龙江哈尔滨人,博士,副研究员,研究方向为农林时空信息智能分析。
孙伟
SUN Wei
研究思路设计与数据审核。
sunwei02@caas.cn
男,山东海阳人,博士,副研究员,研究方向为农林时空信息智能分析。
中国农业科学院创新工程(CAAS-ASTIP-2016-AII,CAAS-ASTIP-2023-AII);中央级公益性科研院所基本科研业务费专项(JBYW-AII-2023-23,JBYW-AII-2023-35)
Innovation Project of Chinese Academy of Agricultural Sciences (CAAS-ASTIP-2016-AII,CAAS-ASTIP-2023-AII), Central Public-interest Scientific Institution Basal Research Fund (JBYW-AII-2023-23,JBYW-AII-2023-35)
Baidu
出版历史
II区出版时间:2023年6月29日 ( 版本ZH1
参考文献列表中查看
中国科学数据
csdata
Baidu
map