其他数据论文 II 区论文(已发表) 版本 ZH3 Vol 8 (4) 2023
下载
2022年山西农谷番茄小镇温室串番茄果实数据集
A dataset of greenhouse cluster tomato fruit in the Tomato Town of Jinzhong National Agricultural High-tech Industries Demonstration Zone in 2022
 >>
: 2022 - 10 - 27
: 2023 - 03 - 31
: 2023 - 02 - 10
: 2023 - 10 - 25
Baidu
map
3430 32 0
摘要&关键词
摘要:串番茄果实的快速、高精度识别,是提升番茄采摘机器人采摘效率、可靠运行的关键技术之一。构建串番茄实时准确检测识别模型,需要有大量的串番茄图像数据进行深度的学习训练。2022年7–8月期间,在山西省晋中市太谷区范村镇格子头村山西农谷番茄小镇对玻璃温室中的串番茄进行数据采集,分别在晴天、阴天,在不同时间段,从不同光位,使用不同型号手机对串番茄进行了多角度、多方位拍摄,经过整理筛查共选出3665张图像,其大小为5.31 GB。使用LabelImg工具对选出的图像标注了成熟(mature)、未成熟(raw)、成熟被遮挡(cover)三类标签,并存储为支持yolo格式的TXT文档,其大小为0.8 MB。按训练集:验证集:测试集为8:1:1的比例对所有图像随机分类,使用yolo工具训练并测试串番茄数据集,测试结果的各项性能指标均有不同程度的提升,保证了串番茄数据集的真实有效。本数据集还适用于构建串番茄不同成熟度的卷积神经网络模型,以进一步精准实现串番茄产量预测及成熟度采摘判定等研究。
关键词:串番茄;图像;数据集;标注;设施农业
Abstract & Keywords
Abstract: The rapid and high-precision identification of tomato fruit is one of the key technologies to enhancing the picking efficiency and reliable operation of tomato picking robots. Therefore, a substantial volume of tomato image data is essential for in-depth learning and training to build a real-time and accurate identification model of tomato clusters. From July to August 2022, we collected the data of cluster tomato in the glass greenhouse in the Tomato Town of Jinzhong National Agricultural High-tech Industries Demonstration Zone, Getou Village, Fancun Town, Taigu District, Jinzhong City, Shanxi Province. We took pictures of cluster tomato in different angles and directions with different models of mobile phones in different light positionsat different times of the day on sunny days and cloudy days. After sorting and screening, we selected 3,665 images with a size of 5.31 GB. LabelImg tool was used to label the selected images with three types of labels: mature, raw and cover, which are stored as TXT documents supporting yolo format, with a size of 0.8MB. We randomly categorized all the images according to an 8:1:1 ratio for the training set, validation set, and test set, respectively. We further adopted yolo tools to train and test the tomato cluster dataset. All performance indicators of the test results have been improved to varying degrees, thereby ensuring the authenticity and effectiveness of the tomato cluster dataset. This dataset can be effectively used for constructing the convolution neural network model of cluster tomato at various stages of maturity, so as to further accurately realize the research on yield prediction and maturity-based picking decisions of cluster tomato.
Keywords: cluster tomato; image; dataset; tagging; facility agriculture
数据库(集)基本信息简介
数据库(集)名称2022年山西农谷番茄小镇温室串番茄果实数据集
数据作者石岩、王建、景超、罗改芳、孙胜、李一诺
数据通信作者宋国柱(songgz@sxau.edu.cn);王晓丽(wangxiaoli@caas.cn)
数据时间范围2022年7月至2022年8月
地理区域112°28'–113°01′E,37°12′–37°3′2N
数据量5.31 GB
数据格式*.jpg,*.txt
数据服务系统网址http://dx.doi.org/10.57760/sciencedb.05228
基金项目山西省基础研究计划项目(202103021224173)山西省科技厅重点研发项目(202102140601015)晋中国家农高区水果番茄智慧标准化技术研究教授、博士工作站资助(JZNGQBSGZZ004)。
数据库(集)组成数据集共包括1个数据压缩文件tomato.rar,该压缩文件中images文件夹存放串番茄图像数据,labels文件夹存放串番茄标注数据。
Dataset Profile
TitleA dataset of greenhouse cluster tomato fruit in the Tomato Town of Jinzhong National Agricultural High-tech Industries Demonstration Zone in 2022
Data corresponding authorSONG Guozhu (songgz@sxau.edu.cn); WANG Xiaoli (wangxiaoli@caas.cn)
Data authorsSHI yan, WANG Jian, JING chao, LUO Gaifang, SUN Sheng, LI Yinuo
Time rangeJuly 2022–August 2022
Geographical scope112°28'–113°01′E,37°12′–37°3′2N
Data volume5.31 GB
Data format* .jpg, *.txt
Data service system<http://dx.doi.org/10.57760/sciencedb.05228>
Sources of fundingBasic Research Program of Shanxi Province (202103021224173); the Key Research and Development Project of Shanxi Province (202102140601015); supported by Professor and Doctor Workstation of Fruit and Tomato Intelligent Standardization Technology Research in Jinzhong National Agricultural High Tech Zone (JZNGQBSGZZ004).
Dataset compositionThe dataset includes a total of one data compression file (i.e., tomato.rar). The images folder in the compressed file stores cluster tomato image data, and the labels folder stores cluster tomato label data.
Baidu
引 言
我国是设施农业面积最大的国家。2020年我国设施蔬菜种植面积达6150万亩,其中番茄种植面积达1157.2万亩,占设施蔬菜种植总面积的18.82%[1]。番茄采摘主要依靠人工完成,采摘费用为1.05×104元/hm2,占生产总成本的33%~50%[2],劳动力投入占整个种植环节中的50%~70%[3]。随着农业从业人口减少、规模化工厂化种植盛行,人工采摘难满足市场需求,严重制约我国番茄产业发展。番茄采摘机器人可提高生产力,缓解劳动力不足,降低劳动强度,改善舒适性,降低成本,促进经济效益提升,且有助于实现农业规模化、多样化、精准化生产,加速智能化设施农业发展。然而,番茄果实的快速高精度识别是提升机器人效率、可靠运行的关键技术。
山东农业大学李天华等[4]提出了一种基于YOLO v4与HSV相结合的识别方法,以实现自然环境下成熟期番茄的准确识别。实验将16%作为成熟期番茄识别算法的占比,其准确率为94.77%,从深度相机到检测到第一个目标番茄的时间为1.48 s。孙碧玉[5]提出了一种基于改进Cascade RCNN网络的番茄果实目标检测技术,结果表明该技术可以准确地识别番茄果实,同时针对有遮挡的番茄提出了改进ENet网络的成熟番茄串图像语义分割技术,为后续采摘点定位的研究提供了基础。
本文从研发具备采摘收获番茄功能的采摘机器人出发,通过拍摄、整理、筛查、标注、训练、验证测试等环节建立了能为机器学习建模提供训练、验证及测试样本的串番茄图像数据集。此次公开的数据集在不同时间段,从不同角度,使用不同型号手机对串番茄进行了多角度、多方位拍摄,为番茄采摘机器人视觉系统的高精度识别及可靠运行提供数据支撑,同时可供目标检测识别、采摘点定位、产量预测、数字孪生等研究领域的研究者使用。
1   数据采集和处理方法
串番茄数据集的获取过程主要涉及图像数据的拍摄、整理、筛查、标注、训练、验证及测试等环节。
1.1   数据采集方法
为便于分析串番茄的特性及提高训练模型的鲁棒性,采用多设备、多角度、多方位等进行图像数据采集。图像采集使用iPhone 13 Pro Max、华为P30、华为Nova 5z及OPPO A91手机进行拍摄,其分辨率最小为2736×3648像素,最大为3000×4000像素,同时设定拍摄方案为:
(1)以过串番茄果实且平行番茄垄、垂直地面的平面为基准面;
(2)正对串番茄果实以夹角10°、45°、90°、135°、170°各拍摄一张,如图1(a)所示;
(3)正对基准面45°俯视串番茄、往前绕串番茄45°、往后绕串番茄45°各拍摄一张,如图1(b)所示。
通过拍摄方案实现每串番茄拍摄8张一套的图像数据。除了根据拍摄方案进行拍摄外,还拍摄了空白对比图像。所有图像均是在自然光照环境下拍摄的串番茄,也未经过任何后期处理。

(a)


(b)

图1   拍摄示意图
Figure 1 Shooting diagram
1.2   数据处理方法
对拍摄的图像进行整理,剔除不符合要求的图像,如抖动导致图像模糊不清等,最终得到3665张图像。
使用LabelImg开源软件对串番茄图像果实进行标注,标注存储格式为yolo支持的TXT文档,其标注方案为:
(1)一串番茄中果实全红或有1~2颗果实带黄但不显示绿色则标注为成熟(mature),其余串番茄则标注为未成熟(raw);
(2)串番茄被枝蔓或叶遮挡,但能明显看出已成熟,则标注成熟被遮挡(cover);
(3)只标注图像中最近一垄上的串番茄,后面的不标注,对于图像中过远或过小的串番茄也不进行标注。
1.3   数据验证方法
对整理、筛查及标注出的3665张图像按训练集、验证集及测试集进行随机分类,其比例为训练集:验证集:测试集=8:1:1,使用yolo工具对其进行训练、验证及测试,实验结果的各项性能指标均有不同程度的提升,表明该串番茄数据集真实有效。
2   数据样本描述
串番茄图像数据样本为番茄维纳果,采集于山西省晋中市太谷区范村镇格子头村山西农谷番茄小镇。该地属于山西田森杜氏番茄科技有限公司番茄生产基地,目前有15万平方米的全环境智能控制玻璃温室种植环境。
数据样本采集日期为2022年7月23日至2022年8月10日,分别在晴天、阴天,在不同时间段(早晨、上午、中午、下午和黄昏),从不同光位(顺光、逆光、顶光),使用不同型号手机对串番茄进行了多角度、多方位拍摄,经过整理共筛选出3665张图像,其大小为5.31 GB。
串番茄图像数据存放在images文件夹,使用LabelImg软件标注生成的TXT文件(含类别和anchor的坐标)存放在labels文件夹。
不同时间段(早晨、上午、中午、下午和黄昏)拍摄的串番茄图像如图2所示。

(a)


(b)


(c)


(d)


(e)

图2   不同时间段拍摄的串番茄图像
Figure 2 Images of cluster tomato taken in different time periods
顺光、逆光、顶光等不同光位拍摄的串番茄图像如图3所示。

(a)


(b)


(c)

图3   不同光位拍摄的串番茄图像
Figure 3 Images of cluster tomato taken at different light levels
不同角度、不同方位拍摄的串番茄图像如图4所示。

(a)


(b)


(c)


(d)


(e)


(f)


(g)


(h)

图4   不同角度、不同方位拍摄的串番茄图像
Figure 4 Images of cluster tomato taken from different angles and directions
3   数据质量控制和评估
串番茄图像数据采集于玻璃温室,培训后按规定要求进行图像拍摄,保证了图像数据的真实性和可靠性。采用高清手机对串番茄进行图像拍摄,并在特定时间内完成图像拍摄任务,图像格式为标准的JPG格式。
在图像整理筛查过程中,采用人工核准的方式控制图像数据质量。在人工核准过程中,因抖动导致图像模糊,及其他原因导致图像不清晰等,则认为图像数据不符合标准,对其进行删除,对曝光过度或不足导致颜色过明、过暗的图像不做任何加工并予以保留。
对所有图像标注人员进行培训,建立统一的标注规范,督促其在标注过程中及时进行自查,全部数据标注完成后标注人员之间相互校对,对不规范的图像标注进行二次修正。
数据质量控制和评估流程如下:
(1)筛查阶段:开展初始数据合理性筛查,对异常图像进行删除操作;之后开展图像标注工作,在此基础上进行第二次合理性筛查,发现问题及时校对,并完成串番茄数据集质量评定。
(2)审查阶段:对串番茄图像及其标注数据进行合理性抽查,抽样比例不小于30%。
(3)验证阶段:对数据集按一定比例随机进行分类,使用yolo工具对数据集进行训练测试,根据各项指标的结果,对串番茄数据质量进行有效评估。
4   数据价值
串番茄数据集为番茄采摘机器人的目标检测识别研究提供了数据支撑,便于进行更深度的学习训练,还可以构建适用于番茄不同成熟度的卷积神经网络模型,以进一步精准实现串番茄产量预测及成熟度采摘判定等研究。
串番茄图像数据集是提升番茄采摘机器人视觉系统识别精度的基础数据,是提高番茄采摘效率及可靠运行的基础保障,为后续相关的研究提供数据支撑。
[1]
熊征, 李惠玲, 侯露, 等. 面向机器人采摘的樱桃番茄力学特性研究[J]. 现代农业装备, 2020, 41(3): 24–28. [XIONG Z, LI H L, HOU L, et al. Mechanical? Properties? of? Cherry? Tomato? for? Harvesting? Robot[J]. Modern Agricultural Equipments, 2020, 41(3): 24–28.]
[2]
王海楠, 弋景刚, 张秀花. 番茄采摘机器人识别与定位技术研究进展[J]. 中国农机化学报, 2020, 41(5): 188–196. DOI: 10.13733/j.jcam.issn.2095-5553.2020.05.031. [WANG H N, YI J G, ZHANG X H. Research progress on recognition and localization technology of tomato picking robot[J]. Journal of Chinese Agricultural Mechanization, 2020, 41(5): 188–196. DOI: 10.13733/j.jcam.issn.2095-5553.2020.05.031.]
[3]
宋健, 张铁中, 徐丽明, 等. 果蔬采摘机器人研究进展与展望[J]. 农业机械学报, 2006, 37(5): 158–162. DOI: 10.3969/j.issn.1000-1298.2006.05.042. [SONG J, ZHANG T Z, XU L M, et al. Research actuality and prospect of picking robot for fruits and vegetables[J]. Transactions of the Chinese Society for Agricultural Machinery, 2006, 37(5): 158–162. DOI: 10.3969/j.issn.1000-1298.2006.05.042.]
[4]
李天华, 孙萌, 丁小明, 等. 基于YOLOv4+HSV的成熟期番茄识别方法[J]. 农业工程学报, 2021, 37(21): 183–190. DOI: 10.11975/j.issn.1002-6819.2021.21.021. [LI T H, SUN M, DING X M, et al. Tomato recognition method at the ripening stage based on YOLO v4 and HSV[J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(21): 183–190. DOI: 10.11975/j.issn.1002-6819.2021.21.021.]
[5]
孙碧玉. 基于深度学习的番茄果实目标检测和番茄串采摘点定位技术研究[D].天津:天津理工大学,2021. [SUN B Y. Research on deep learning based tomato fruit target detection and tomato bunch picking point localization technology[D]. Tianjin: Tianjin University of Science and Technology, 2021.]
数据引用格式
宋国柱, 石岩, 王建, 等. 2022年山西农谷番茄小镇串番茄数据集[DS/OL]. Science Data Bank, 2022. (2023-10-25). DOI:10.57760/sciencedb.05228.
Baidu
稿件与作者信息
论文引用格式
宋国柱, 石岩, 王建, 等. 2022年山西农谷番茄小镇温室串番茄果实数据集[J/OL]. 中国科学数据, 2023, 8(4). (2023-10-25). DOI: 10.11922/11-6035.nasdc.2022.0020.zh.
宋国柱
SONG Guozhu
论文撰写及数据采集技术指导。
songgz@sxau.edu.cn
男,山西榆次人,硕士研究生,副教授,研究方向为番茄采摘机器人相关技术。
石岩
SHI Yan
论文撰写、数据采集整理、筛查、标注及验证。
女,山西山阴县人,在读硕士研究生,研究方向为目标检测识别。
王建
WANG Jian
数据整理、筛查及标注。
女,内蒙古乌兰察布市化德县人,在读硕士研究生,研究方向为目标检测识别。
景超
JING Chao
指导串番茄图像标注。
男,山西长治人,在读博士研究生,讲师,研究方向为模式识别。
罗改芳
LUO Gaifang
培训并指导研究生进行图像拍摄。
女,山西朔州人,硕士研究生,助教,研究方向为模式识别。
孙胜
SUN Sheng
番茄基地相关工作协调及番茄成熟度判定。
男,吉林榆树人,博士研究生,教授,研究方向为番茄育种及栽培技术。
王晓丽
WANG Ciaoli
数据整理和论文撰写。
wangxiaoli@caas.cn
女,河北石家庄人,博士研究生,助理研究员,主要研究方向为科学数据管理。
李一诺
LI Yinuo
串番茄图像标注。
女,山西襄垣人,在读大学本科生。
山西省基础研究计划项目(202103021224173)山西省科技厅重点研发项目(202102140601015)晋中国家农高区水果番茄智慧标准化技术研究教授、博士工作站资助(JZNGQBSGZZ004)。
Basic Research Program of Shanxi Province (202103021224173); the Key Research and Development Project of Shanxi Province (202102140601015); supported by Professor and Doctor Workstation of Fruit and Tomato Intelligent Standardization Technology Research in Jinzhong National Agricultural High Tech Zone (JZNGQBSGZZ004).
Baidu
出版历史
II区出版时间:2023年10月25日 ( 版本ZH3
参考文献列表中查看
中国科学数据
csdata
Baidu
map