其他数据论文 II 区论文(已发表) 版本 ZH4 Vol 8 (3) 2023
下载
中医舌诊染苔图像数据集
A dataset of stained tongue fur images of TCM
 >>
: 2023 - 06 - 06
: 2023 - 07 - 28
: 2023 - 06 - 19
: 2023 - 08 - 22
Baidu
map
15448 132 0
摘要&关键词
摘要:舌诊是中医特色的诊察方法之一,也是中医诊断病证的重要依据,主要包括舌质和舌苔两方面内容。其中舌苔主要包括苔质和苔色,尤其苔色是辨别疾病性质的重要指标。临床上舌苔易被药物、食物染色,产生颜色假象,极易引起误诊。本数据集记录了中医染苔与非染苔两种舌象,平均每个类别的舌苔图像约1000余张。其中染苔数据包含不同人群健康状态下进食染色食物后5分钟、10分钟、30分钟的舌苔颜色变化图像,其颜色主要分为白、黄、灰黑3种,以黄色居多。非染苔数据包含不同患者的病理性舌苔图像,分为白苔、黄苔和灰黑苔3种。本数据集可为舌诊方向研究提供可靠的分类依据,有效解决染苔假象问题,也在一定程度上为开发更智能的舌诊仪提供数据支持。
关键词:中医;舌诊;染苔
Abstract & Keywords
Abstract: Tongue diagnosis is a distinctive diagnostic technique for traditional Chinese medicine (TCM). It plays an important role as a fundamental basis for diagnosing diseases and syndromes in TCM, focusing on tongue texture and tongue fur. Tongue fur mainly includes tongue fur texture and tongue fur color. Especially latter is an important indicator to identify the nature of the disease. In clinical practice, tongue fur can easily be influenced by medications and dietary intake, resulting in color illusion and misdiagnosis. This dataset records two types of tongue images of TCM, namely stained tongue fur and non-stained tongue fur, with an average of about 1,000 tongue images for each type. The stained tongue fur data include the color change images of the tongue fur captured at intervals of 5 minutes, 10 minutes, and 30 minutes after consuming food that causes staining in health conditions of different populations. The colors are can be primarily categorized into three categories: white, yellow, and gray/black, with yellow being the most prevalent. Non-stained tongue fur data include pathological tongue fur images of different populations, falling into white, yellow, and gray/black. This dataset can serve as a reliable classification basis for the research in the field of tongue diagnosis and effectively solve the problem of tongue fur artifacts. Moreover, it can provide valuable data to support the advancement of more intelligent tongue diagnosis instruments.
Keywords: Traditional Chinese Medicine; tongue inspection; stained tongue fur
数据库(集)基本信息简介
数据库(集)名称中医舌诊染苔图像数据集
数据通信作者梁昊(lianghao@hnucm.edu.cn)
数据作者钟俐芹,辛国江,彭清华,刘旺华,吴莹洁,盛丹,朱磊,隋强,梁昊
数据量113.08 MB
数据格式.JPG
数据服务系统网址https://doi.org/10.57760/sciencedb.j00001.00822
基金项目国家自然科学基金面上项目(82274411);湖南省自然科学基金面上项目(2022JJ40300);湖南中医药大学科研基金“揭榜挂帅”专项(2022XJJB002);湖南省青年科技创新人才项目(2022RC1021);国家重点研发计划项目“中医智能舌诊系统研发”(SQ2017YFC170323)。
数据库(集)组成本数据集由健康人的染苔图像和病理状态下的非染苔图像组成。数据集按染苔和非染苔分为2个文件夹,图像数量分别为1001张和1007张,共有JPG图像数据2008张。
Dataset Profile
TitleA dataset of stained tongue fur images of TCM
Data corresponding authorLIANG Hao (lianghao@hnucm.edu.cn)
Data authorsZHONG Liqin, XIN Guojiang, PENG Qinghua, LIU Wanghua, WU Yingjie, SHENG Dan, ZHU Lei, SUI Qiang, LIANG Hao
Data volume113.08 MB
Data format.JPG
Data service systemhttps://doi.org/10.57760/sciencedb.j00001.00822
Source of fundingNational Natural Science Foundation of China (82274411); Hunan Provincial Natural Science Foundation (2022JJ40300); Leading Research Project of Hunan University of Chinese Medicine (2022XJJB002); Hunan Provincial Youth Science and Technology Innovation Talent Project (2022RC1021); National Key Research and Development Program of China “Research on the Intelligent Tongue Diagnosis System in Traditional Chinese Medicine” (SQ2017YFC170323).
Dataset compositionThe dataset consists of stained tongue fur images from healthy individuals and non-stained tongue fur images from individuals with pathological conditions. The dataset comprises 2 folders of 2,008 JPG images according to the classification of stained tongue fur images (1,001) and non-stained tongue fur images (1,007).
Baidu
引 言
中医诊断的客观化研究,是现代中医规范化和标准化发展的一项重要任务[1]。舌诊作为中医望诊中最具临床特色的诊法之一,也是最有可能实现客观化并在临床上获得应用的指标。舌诊是通过观察舌头的色泽、形态的变化辅助诊断及鉴别的方法,包括舌质和舌苔两方面内容。《辨舌指南·辨舌总论》云:“辨舌质,可决五脏之虚实;视舌苔,可察六淫之浅深。”舌象是反映机体生理功能及病理变化的一面“镜子”,通过观察舌象可以直观了解人体内阴阳盛衰、气血调和、津液存亡等情况,这对中医辨证论治及判断疾病的预后有着重要的指导意义。
中医临床诊断证明,病人舌苔的变化切实地反映了疾病的变化,且在疾病发展变化的过程中,舌苔的色泽是辨证的重要依据之一,通过观察舌苔的特征,能够更好地了解病情变化[2-4]。而望舌涉及病人的所处环境、饮食因素、医生的经验和主观因素,这就造成了对舌苔的判别会因人因地而异[5]。例如病理性舌苔,即非染苔,一般分为白色、黄色和灰黑色3种;而食用某些食物或服用某些药物也会使舌苔染色,出现舌苔假象,即染苔[6],在临床中可能与病理性舌苔相混淆。具体而言,饮用牛奶、椰汁等可使舌苔变白、变厚;食用坚果类如杏仁、腰果、松仁等富含脂肪的食品,可在短时间内使舌面附着黄白色渣滓,易与腐腻苔相混;食用芒果、橘子、黄连素等,可将舌苔染成黄色;食用各种黑褐色保健品或乌梅、桑葚,以及长期吸烟等,可使舌苔染成灰色、黑色。因此在望舌时要注意鉴别苔色之真假,有效区分染苔和病理性舌苔,正确诊断病情。
然而,临床上舌苔变化迅速、影响因素多,除染苔因素外,个人舌质差异也会影响舌苔识别。传统上医生通过肉眼识别舌苔的方法,以人的主观判断作为标准,其诊断结果不仅依赖于医生的专业知识水平、经验丰富程度,还受到光线、饮食等外部因素的影响,这些因素可能会使诊断结果无法达到研究上的可重复要求[7-9];另外,某些食物或药物造成的染苔与病理性舌苔十分相似,即便是专业人士仍然难以快速分辨是否染苔。而目前现有的舌图像公开数据集采集标准未统一,大多包含不同设备采集的原始图像,且在采集过程中没有专门针对染苔图像进行采集;目前的数据集主要基于疾病、中医证候和舌图分割,在图像识别分类方面还需要进一步完善[10-11]。因此,本团队基于上述不完善之处建立中医舌诊染苔数据集,一方面为中医舌诊客观化研究提供可靠的数据支撑及分类依据;另一方面解决染苔假象问题,为中医临床诊断提供参考,减少漏诊误诊。
1   数据采集和处理方法
1.1   数据来源
本数据集分为染苔和非染苔两部分,其中染苔数据来源于湖南中医药大学2022级中医学院本科生和硕士研究生,采集染苔图像1255张,并从中筛选出有颜色变化的图像1001张;非染苔数据来源于国家重点研发计划项目“中医智能舌诊系统研发”[SQ2017YFC170323],在湖南中医药大学几所附属医院收集标准舌诊图像11700余张,并从中筛选出疾病状态下、有舌苔颜色改变的图像1007张。本研究经上海中医药大学附属曙光医院机构伦理委员会批准(2018-626-55-01),并获得所有参与者的书面知情同意。已在中国临床试验注册中心注册(注册号:ChiCTR1900026008)。
1.2   采集舌图像方法
运用舌面诊测信息采集系统(DS01-B,上海道生医疗科技有限公司)采集。该设备主要是由舌面诊测信息系统采集箱、外置隔离电源(隔离变压器)、软件(版本号:1.1)和附件等组成,相机型号为佳能1200D,采集最大像素1500万,光源为LED冷光源,色温6500 k。设置拍摄参数为M模式,快门速度1/200 s,光圈5.6,ISO感光度200。被采集者采用正坐位,下颚放在仪器的托架上,前额顶住靠架,面向光亮处自然伸舌,充分暴露舌体,照相机镜头以约45度的俯角对准舌体,近距离(约40 cm)闪光拍照。染苔图像的采集方法为研究对象口服容易染苔的食物,规定固体食物每次摄入大小为3 cm3,液体每次摄入量约5 mL左右(根据实际情况适当调整),食物咀嚼1–2分钟,液体含服2分钟以上,直至舌苔出现相应的颜色,饮后和食后均观察半小时,每隔5分钟、10分钟、30分钟采集一次。非染苔图像主要采集患者病理状态下的舌象。
1.3   舌图像识别与舌体分割
首先对收集的舌图像进行数据清洗,过滤掉与舌部信息无关的图片,然后进行人工筛选,剔除图像模糊、伸舌姿势不正确以及染色效果不好的图片,最后将纳入的合格图像进行目标识别和舌体分割工作。在光照环境中利用目标检测算法GCYTD(GELU-CA-YOLO Tongue Detection)[12]获取舌体位置信息,再使用改进型DeepLab V3+方法[13]进行舌体分割工作。具体步骤如下:输入的舌图像先通过GCYTD算法获取特征信息,快速定位舌体;再通过DeepLab V3+方法提取舌图像的高纬度语义特征信息,并将其传输到解码器模块,舌图像的语义特征依次经过双线性上采样层、3×3卷积层和批量归一化层以及ReLU激活函数等处理,最后输出语义分割结果图。舌图像处理流程如图1所示。


图1   舌图像处理流程
Figure 1 Processing process of tongue images
2   数据样本描述
本数据集包含染苔与非染苔两种不同舌象,每种舌象的图像数据为一个文件夹。这些图像数据经过预处理步骤已分离舌苔区域与背景,每个类别约1000余张图像,共有JPG图像数据2008张。染苔数据文件命名规则为“序号_染色食物.JPG”,非染苔数据文件命名规则为“序号.JPG”,所有数据文件压缩为“中医舌诊染苔数据.zip”。本数据集的部分样本示例如图2所示。

(a)


(b)


(c)


(d)


(e)


(f)

图2   染苔与非染苔图像数据集中的样本示例(a)非染苔(白苔)(b)染苔(白苔)(c)非染苔(黄苔)(d)染苔(黄苔)(e)非染苔(灰黑苔)(f)染苔(灰黑苔)
Figure 2 Examples of stained and non-stained tongue fur images in the dataset
2.1   染苔数据样本
染苔图像是采集不同人群健康状态下口服容易染苔食物后的舌象。在现实生活中,容易染色的食物有很多,例如红心火龙果、芒果、蓝莓等。但在临床上非染苔(病理性舌苔)分白苔、黄苔和灰黑苔3种,为了对比染苔和非染苔这两种不同的舌象,本团队在选用染苔材料时优先考虑将舌苔染成白色、黄色和灰黑色的食物。因此染苔图像的颜色主要分为白、黄、灰黑3种,以黄色居多。由于个人体质差异和时间变化,染色效果因人因时而异,所以在染苔数据中也有少量其他颜色分布。具体颜色分类与数量如表1所示。总体而言,染苔图像具有3个典型特征:(1)颜色分布不均匀,边缘清晰;(2)某些食物残渣留于舌苔表面,苔色浮于浅表;(3)某些色泽过于鲜艳。
2.2   非染苔数据样本
非染苔图像是采集患者病理状态下的舌象,切实反映了人体内气血津液、寒热变化情况,苔色随病情发展而变化,故颜色分布大多均匀,边缘模糊,不同颜色间过渡自然;与染苔图像相比,非染苔图像的苔色较深,与舌体接触面积大,无明显食物残渣。
表1   染苔与非染苔图像的颜色分类与数量
数据类别舌苔颜色分类图片总数
染苔118
571
灰黑246
其他66
非染苔260
669
灰黑78
3   数据质量控制和评估
对于图像数据的质量,本研究中采集的染苔和非染苔图像主要来源于舌面诊信息采集系统规范化拍摄,拍摄的色温为6500 k,统一伸舌姿势,准确记录患者的病理性舌苔和健康人的染苔情况,同时保证舌苔图像的分类准确性,在中医专业指导老师的严格质控下进行,后期对采集的图像进行多次筛选,将图像分辨率低、舌体信息不全、伸舌姿势不正确等图像文件排除。
为保证染苔数据集的可靠性和有效性,我们还对数据进行了相关验证。首先使用H-iQstest图像质量综合测试软件对图像分辨率、量化锐度和色差等指标进行分析。如图3所示,CA表示色差标准,用来衡量图像的色差水平,测量值为0;10%–90% rise可用来测量图像的清晰度,测量值为146.97。


图3   H-iQstest图像质量分析结果
Figure 3 Quality analysis results of H-iQstest images
其次,我们使用深度学习图像识别模型Resnet来进行染苔识别,将数据集按照7:2:1的比例划分为训练集、验证集和测试集(1400:400:208)。通过训练集和验证集训练模型,通过测试集评估模型的识别效果。loss曲线如图4所示,随着训练次数的增加,平均损失在逐渐减小趋于稳定,未见明显过拟合。模型在测试集的准确率为92%,召回率为91%,F1值为92%。这表明本数据集在常规的深度学习图像分类模型即可取得比较好的分类效果,图像数据集验证有效。


图4   模型分类准确率与损失曲线
Figure 4 Model classification accuracy and loss curve
4   数据使用方法和建议
本数据集中包含了大量染苔与非染苔图像,已做好分类标注,分别存放于染苔和非染苔两个文件夹中,使用者可以根据需求来获取所需要的图像数据。同时经过多次人工筛选工作,研究人员可将本数据集作为训练和评估数据,用于图像智能分类处理,如利用人工智能算法对不同舌苔进行区分,在观察分类效果时也可避免染苔因素影响其判断。本数据集也可为中医舌诊教学、临床实习做参考,丰富教学内容,提升中医可信度。
5   数据价值
目前少有使用染苔图像进行自动化识别的研究,且缺乏染苔图像的公开数据集。近年来,随着现代科学尤其是人工智能技术的成熟,机器学习在很多方面有了突破性的进展,其中以深度学习为代表借鉴人脑的多层结构、神经元的连接交互信息的逐层分析处理机制,自适应、自学习的强大并行信息处理能力,在图像识别领域尤其适用[14],它能采集图像的细微特征并对图像特征进行精准判定,实现了快速、高效、准确的舌图像智能分析,有效推进了中医舌象的客观化诊断进程,也为染苔的智能识别研究提供了参考性。本数据集的公开,可为中医临床、教学和科研提供方便,促进中医文化传承和学术交流;同时,建立中医舌诊染苔数据集,可以通过深度学习算法研究染苔图像识别方法,为舌诊方向的研究人员提供可靠的分类依据,有效解决染苔假象问题,也在一定程度上为开发更智能、更准确的舌诊仪提供数据支持。
[1]
SUI D, ZHANG L, YANG F. Data-driven based four examinations in TCM: a survey[J]. Digital Chinese Medicine, 2022, 5(4): 377–385. DOI: 10.1016/j.dcmed.2022.12.004.
[2]
高利, 刘萍, 罗玉敏. 舌苔的研究进展[J]. 中西医结合心脑血管病杂志, 2011, 9(9): 1102–1103. DOI: 10.3969/j.issn.1672-1349.2011.09.042. [GAO L, LIU P, LUO Y M. Research progress of tongue coating[J]. Chinese Journal of Integrative Medicine on Cardio-/Cerebrovascular Disease, 2011, 9(9): 1102–1103. DOI: 10.3969/j.issn.1672-1349.2011.09.042.]
[3]
赵诗语, 张君. 舌苔微生态在各种疾病中研究进展[J]. 实用中医内科杂志, 2020, 34(7): 18–21. DOI: 10.13729/j.issn.1671-7813.Z20191044. [ZHAO S Y, ZHANG J. Recent progress in study of tongue coating microecology in various diseases[J]. Journal of Practical Traditional Chinese Internal Medicine, 2020, 34(7): 18–21. DOI: 10.13729/j.issn.1671-7813.Z20191044.]
[4]
熊明月, 王怡. 舌苔本质的现代研究进展[J]. 陕西中医, 2020, 41(9): 1335–1338. DOI: 10.3969/j.issn.1000-7369.2020.09.044. [XIONG M Y, WANG Y. Modern research progress on the essence of tongue coating[J]. Shaanxi Journal of Traditional Chinese Medicine, 2020, 41(9): 1335–1338. DOI: 10.3969/j.issn.1000-7369.2020.09.044.]
[5]
王洋, 李书楠, 王昌恩, 等. 中医疗效评价中舌象研究重要性探析[J]. 中华中医药杂志, 2017, 32(10): 4347–4349. DOI: 10.3969/j.issn.1007-8134.2010.05.008. [WANG Y, LI S N, WANG C E, et al. Importance of tongue manifestation in TCM therapeutic evaluation[J]. China Journal of Traditional Chinese Medicine and Pharmacy, 2017, 32(10): 4347–4349. DOI: 10.3969/j.issn.1007-8134.2010.05.008.]
[6]
吴祖春, 陈群. 染苔及其鉴别[J]. 云南中医中药杂志, 2012, 33(1): 81–82. DOI: 10.3969/j.issn.1007-2349.2012.01.047. [WU Z C, CHEN Q. Moss staining and its identification[J]. Yunnan Journal of Traditional Chinese Medicine and Materia Medica, 2012, 33(1): 81–82. DOI: 10.3969/j.issn.1007-2349.2012.01.047.]
[7]
王静, 常佩芬, 关静, 等. 中医舌诊客观化研究[J]. 中国中医基础医学杂志, 2022, 28(9): 1531–1534. [WANG J, CHANG P F, GUAN J, et al. Study on the objectification of tongue diagnosis in traditional Chinese medicine[J]. Chinese Journal of Basic Medicine in Traditional Chinese Medicine, 2022, 28(9): 1531–1534.]
[8]
瞿婷婷, 夏春明, 王忆勤, 等. 基于Gabor小波变换的舌苔腐腻识别[J]. 计算机应用与软件, 2016, 33(10): 162–166. DOI: 10.3969/j.issn.1000-386x.2016.10.036. [QU T T, XIA C M, WANG Y Q, et al. Recognition of greasy or curdy tongue coating based on Gabor wavelet transformation[J]. Computer Applications and Software, 2016, 33(10): 162–166. DOI: 10.3969/j.issn.1000-386x.2016.10.036.]
[9]
商子梦, 关贝, 马赟, 等. 舌诊信息数字化采集和特征分析的研究进展[J]. 中华中医药杂志, 2021, 36(10): 6010–6013. DOI: 10.16383/j.aas.c180807. [SHANG Z M, GUAN B, MA Y, et al. Research progress of digital collection and feature analysis of tongue diagnosis information[J]. China Journal of Traditional Chinese Medicine and Pharmacy, 2021, 36(10): 6010–6013. DOI: 10.16383/j.aas.c180807.]
[10]
KUSAKUNNIRAN W, BORWARNGINN P, KARNJANAPREECHAKORN S, et al. Encoder-decoder network with RMP for tongue segmentation[J]. Medical & Biological Engineering & Computing, 2023, 61(5): 1193–1207. DOI: 10.1007/s11517-022-02761-3.
[11]
SHI D, TANG C L, BLACKLEY S V, et al. An annotated dataset of tongue images supporting geriatric disease diagnosis[J]. Data in Brief, 2020, 32: 106153. DOI: 10.1016/j.dib.2020.106153.
[12]
ZHU L, XIN G J, WANG X, et al. A fast tongue detection and location algorithm in natural environment[J]. Computers, Materials & Continua, 2022, 73(3): 4727–4742. DOI: 10.32604/cmc.2022.028187.
[13]
杨志秀, 韩建宁, 于本知, 等. 一种改进的DeepLab V3+的医学图像分割方法[J]. 国外电子测量技术, 2021, 40(9): 18–23. [YANG Z X, HAN J N, YU B Z, et al. Improved medical image segmentation method based on DeepLab V3 +[J]. Foreign Electronic Measurement Technology, 2021, 40(9): 18–23.]
[14]
周昀锴. 机器学习及其相关算法简介[J]. 科技传播, 2019, 11(6): 153–154, 165. DOI: 10.3969/j.issn.1674-6708.2019.06.090. [ZHOU Y K. Brief introduction of machine learning and its related algorithms[J]. Public Communication of Science & Technology, 2019, 11(6): 153–154, 165. DOI: 10.3969/j.issn.1674-6708.2019.06.090.]
数据引用格式
钟俐芹, 辛国江, 彭清华, 等. 中医舌诊染苔图像数据集[DS/OL]. Science Data Bank, 2023. (2023-07-27). DOI: 10.57760/sciencedb.j00001.00822.
Baidu
稿件与作者信息
论文引用格式
钟俐芹, 辛国江, 彭清华, 等. 中医舌诊染苔图像数据集[J/OL]. 中国科学数据, 2023, 8(3). (2023-08-22). DOI: 10.11922/11-6035.csd.2023.0114.zh.
钟俐芹
ZHANG Liqin
数据采集、数据集设计、论文撰写。
(1997—),女,湖南张家界人,硕士研究生,研究方向为中医诊断学。
辛国江
XIN Guojiang
舌体分割。
(1979—),男,辽宁大连人,博士,副教授,硕士研究生导师,研究方向为图像处理。
彭清华
PENG Qinghua
数据集设计与构建。
(1964—),男,湖南宁乡人,博士,教授,博士生导师,研究方向为中医诊断学。
刘旺华
LIU Wanghua
数据汇总整理。
(1973—),男,湖南益阳人,博士,教授,硕士研究生导师,研究方向为中医诊断学。
吴莹洁
WU Yingjie
数据采集。
(1997—),女,河南洛阳人,硕士研究生,研究方向为中医诊断学。
盛丹
SHENG Dan
数据汇总整理。
(1999—),女,湖南常德人,硕士研究生,研究方向为中医诊断学。
朱磊
ZHU Lei
舌体分割。
(1997—),男,湖南双峰人,硕士研究生,研究方向为图像处理。
隋强
SUI Qiang
舌象预处理。
(1981—),男,黑龙江桦川人,硕士,工程师,研究方向为计算机视觉。
梁昊
LIANG Hao
数据集设计与构建,论文撰写指导。
lianghao@hnucm.edu.cn
(1986—),男,河北保定人,博士,副教授,硕士研究生导师,研究方向为医学人工智能。
国家自然科学基金面上项目(82274411);湖南省自然科学基金面上项目(2022JJ40300);湖南中医药大学科研基金“揭榜挂帅”专项(2022XJJB002);湖南省青年科技创新人才项目(2022RC1021);国家重点研发计划项目“中医智能舌诊系统研发”(SQ2017YFC170323)。
National Natural Science Foundation of China (82274411); Hunan Provincial Natural Science Foundation (2022JJ40300); Leading Research Project of Hunan University of Chinese Medicine (2022XJJB002); Hunan Provincial Youth Science and Technology Innovation Talent Project (2022RC1021); National Key Research and Development Program of China “Research on the Intelligent Tongue Diagnosis System in Traditional Chinese Medicine” (SQ2017YFC170323).
Baidu
出版历史
I区发布时间:2023年6月19日 ( 版本ZH2
II区出版时间:2023年8月22日 ( 版本ZH4
参考文献列表中查看
中国科学数据
csdata
Baidu
map