其他数据论文 II 区论文(已发表) 版本 ZH2 Vol 8 (4) 2023
下载
中国河南省2016–2021年尾矿库目标检测数据集
A dataset of object detection of tailings ponds in Henan Province, China, 2016-2021
 >>
: 2022 - 11 - 19
: 2023 - 08 - 21
: 2023 - 06 - 06
: 2023 - 10 - 11
Baidu
map
5539 66 0
摘要&关键词
摘要:尾矿库是矿山开采所必需的基础设施,同时也是具有高势能的人造泥石流风险源。遥感图像的尾矿库目标检测是对其在图像上进行识别和定位,相对于传统方法,采用深度学习对遥感图像中的尾矿库进行目标检测在精度、稳定性和效率上都有明显改善,但是需要高质量的训练数据集。本研究基于多年的国产高分卫星遥感图像,经过数据处理、人工解译标注、图像切片等步骤,构建了中国河南省区域的尾矿库目标检测数据集,并开放共享。本数据集有以下几个特点:(1)国产高分辨率光学遥感卫星图像尾矿库目标检测数据集,包含1183个切片,1728个目标实例;(2)多时相数据集,提供2016年、2018年、2020年和2021年总共4个不同年度的样本数据;(3)目标标注采用倾斜框,图像背景干扰少。利用本数据集可以进行深度学习尾矿库目标检测模型开发的技术研究和进行尾矿库的自动化、智能化检测,对于推动尾矿库自动提取技术的发展和尾矿库的安全监管具有重要意义。
关键词:尾矿库;目标检测;数据集;河南省;卫星遥感
Abstract & Keywords
Abstract: Tailings ponds are essential infrastructures in mining operations, but they also pose a significant risk source as potential sources of manmade debris flow with high potential energy. The object detection of tailings pond in remote sensing imagery is to accurately recognize and pinpoint the locations of them on the images. Compared with traditional methods, tailings pond detection in remote sensing imagery with the aid of deep learning has seen substantial improvements in accuracy, stability, and efficiency especially when trained on high quality training dataset. Based on years of China high-resolution satellite remote sensing images, through data processing, manual interpretation and annotation, image slicing and other steps, we have constructed a dataset of object detection of tailings ponds in Henan Province, China, available for public access. This dataset has the following characteristics: (1) the domestic high-resolution dataset comprising 1,183 slices and 1,728 object instances; (2) multi temporal dataset containing a total of four different years of sample data in 2016, 2018, 2020 and 2021; (3) objects labeled with oriented bounding box, with less image background interference. The dataset can be used for the technical research on the development of tailings pond detection models with deep learning, as well as for the automatic and intelligent detection of tailings pond, It is of great significance for promoting the development of automatic extraction technology and safety supervision of tailings ponds.
Keywords: tailings pond; object detection; dataset; Henan province; satellite remote sensing
数据库(集)基本信息简介
数据库(集)名称中国河南省2016–2021年尾矿库目标检测数据集
数据通信作者李俊杰(lijunjie299@126.com)
数据作者李俊杰、李敏、隋正伟、苏文博、连亚茹、陈帅、原征
数据时间范围2016–2021年
地理区域中国河南省
空间分辨率2米
数据量2.03 GB
数据格式*.png, *.txt
数据服务系统网址https://doi.org/10.57760/sciencedb.06518
基金项目国家重点研发计划(2021YFE0117200)。
数据库(集)组成数据集共包括2个数据文件,其中:(1) images.zip 是尾矿库检测样本切片图像数据,共1183个图像切片,数据量2.03 GB;(2) labels.zip 是与图像切片逐一对应的标签数据,共1183个标签文件,数据量0.25 MB。
Dataset Profile
TitleA dataset of object detection of tailings ponds in Henan Province, China, 2016-2021
Data corresponding authorLI Junjie (lijunjie299@126.com)
Data author(s)LI Junjie, LI Min, SUI Zhengwei, SU Wenbo, LIAN Yaru, CHEN Shuai, YUAN Zheng
Time range2016–2021
Geographical scopeHenan Province, P. R. China
Spatial resolution2 m
Data volume2.03 GB
Data format*.png, *.txt
Data service systemhttps://doi.org/10.57760/sciencedb.06518
Source(s) of fundingNational Key R&D Program of China (2021YFE0117200).
Dataset compositionThe dataset includes two data files in total: (1) images.zip contains 1,183 image slices of image data of the tailings pond sample, with a data volume of 2.03 GB; (2) labels.zip contains 1,183 label files of the label data corresponding to the image slice one by one, with a data volume of 0.25 MB.
Baidu
引 言
尾矿库是指筑坝拦截谷口、河床或者围地构成的,用以存储金属或非金属矿山经选矿后排出尾矿或其他废渣的场所,含有大量暂时无法处理的有用或有害成分,是矿山开采活动的必要基础设施[1-2]。尾矿库是一个具有高势能的人造泥石流危险源,存在溃坝危险,一旦失事可能会造成大量人员伤亡、农田村庄毁坏的重大或特大事故,给环境安全带来隐患;尾矿库中含有的各种重金属矿物和毒性物质经过淋滤和渗透,会严重污染尾矿库周边和下游生态环境[1, 3]。我国尾矿库总量居世界第一,全国共有14217个尾矿库,涉及64个矿种[4]。为了及时预警尾矿库潜在的自然和人为风险,加强对尾矿库的应急管理,有必要摸清尾矿库的空间分布、数量以及增加减少的情况。
传统的尾矿库空间分布调查采取的是遥感图像目视或半自动解译结合人工外业调查的方式,效率低、时效性差、工作量大,无法做到大范围内尾矿库的自动快速提取,难以满足高频次的尾矿库分布变化情况时序监测的需求。从遥感图像上确定尾矿库的位置和分布实质就是遥感图像的目标检测问题。随着深度学习技术的兴起,其在遥感图像的目标检测、分类和变化检测等方面取得了极大的进展和突破。已有一些科研人员开展了深度学习目标检测提取高分辨率遥感图像上尾矿库的研究,李庆等基于深度学习SSD(Single Shot Multibox Detector)目标检测模型对中国京津冀地区的尾矿库进行了自动检测提取[5-6],闫凯等基于改进的SSD模型应用于中国华北地区的尾矿库提取[7],Yan等基于改进的Faster R-CNN(Region-based Convolutional Neural Network)和迁移学习的方法从多光谱和高分辨率遥感图像中检测尾矿库[8-9],Lyu等从高分遥感图像上基于YOLO v4(You Only Look Once)检测提取中国安徽省铜陵市的尾矿库[10]
基于遥感图像的尾矿库目标自动化、智能化深度学习检测模型的开发需要高质量的尾矿库目标检测数据集支撑。深度学习数据集不仅是衡量和检验算法性能好坏的标准,还进一步推动了算法向更准确、更高效的方向不断发展[10]。当前开源的尾矿库目标检测数据集较少,公开检索到的开源数据集只有Lyu等2021年创建的安徽局部区域的尾矿库目标检测数据集[11],该数据集以单时相的2米分辨率谷歌图像为数据源,使用水平框(horizontal bounding box)标注尾矿库目标。但是,遥感图像中的目标与自然图像不同,通常以任意角度出现,水平框中目标的冗余背景信息会导致模型检测性能的降低,因此,遥感目标检测更倾向于定位目标的最小面积外接矩形框,即倾斜框(oriented bounding box)。因此,本研究构建了中国河南省区域的尾矿库目标检测数据集。本数据集有以下几个特点:(1)国产高分辨率光学遥感卫星图像尾矿库目标检测数据集,包含多尺度、不同地理背景和形态各异的尾矿库,共提供1183个图像切片,包含1728个目标实例;(2)采用倾斜框标注目标的最小面积外接矩形,图像冗余背景信息较少,能够减少背景对模型检测性能的影响;(3)数据集提供2016年、2018年、2020年和2021年总共4个不同年度的样本数据,覆盖不同季节和光照的遥感图像。以上特点均可以提高基于数据集训练的模型在大规模应用中的泛化能力。利用该数据集可以进行深度学习尾矿库目标检测模型开发的技术研究和开展尾矿库的自动化、智能化检测,对于推动尾矿库自动提取技术的发展和尾矿库的安全监管具有重要意义。
1   数据采集和处理方法
1.1   数据采集方法
本数据集使用国产民用陆地观测卫星获取的中国河南省可见光图像,包括全色和多光谱图像(红、绿、蓝、近红),全色图像的空间分辨率为2米。涉及的卫星包括:高分一号卫星(GF-1)、高分一号02星(GF-1B)、高分一号03星(GF-1C)、高分一号04星(GF-1D)、高分六号(GF-6)、资源三号01星(ZY-3 01)和资源三号02星(ZY-3 02)。
河南省位于北纬31°23'–36°22',东经110°21'–116°39'之间,有“九州腹地、十省通衢”之称,总面积16.7万平方千米,地势西高东低,由平原和盆地、山地、丘陵、水面构成,地跨海河、黄河、淮河、长江四大流域。本数据集使用了完整覆盖河南全省4次的不同时相遥感图像,图像成像时间分别为2016年、2018年、2020年和2021年,每一个年度的卫星图像都挑选年度范围内无云、成像质量好的数据。基于2016–2021年采集的卫星遥感图像,经过数据处理、人工解译标注、图像切片等步骤形成本数据集,共提供4个时相的河南省尾矿库目标检测样本。
1.2   数据处理方法
1.2.1   数据正射及镶嵌处理
在样本标注之前,需要对标准产品数据进行正射融合等一系列处理,以生成2米分辨率、几何定位精度优于10米的真彩色镶嵌图像。卫星遥感图像数据的正射融合、匀色镶嵌处理流程如图1所示。在挑选和下载完无云和质量好的国产光学卫星数据后,对数据进行几何和辐射一致性处理。主要步骤为:(1)数据拉伸与增强。使用拉伸与增强的方法使图像直方图呈正态分布,图像色调清晰、色彩合理;(2)控制点采集。基于参考图像,采集待校正图像与参考图像上的同名点和连接点,为平差处理做准备;(3)平差处理。采用基于有理函数模型的区域网平差方法,可有效提高图像的几何定位精度和图像间的接边精度;(4)正射校正。对全色和多光谱图像进行倾斜改正和投影差改正,特别是消除图像的地形误差;(5)融合处理。对全色和多光谱图像进行融合,生成与全色图像空间分辨率一致的4波段多光谱图像;(6)镶嵌预处理。基于融合图像合成自然真彩色图像,并把图像的量化位数降为8比特,为匀色镶嵌做准备;(7)匀光匀色。对相邻图像的色彩调整处理,保持景与景之间重叠处色彩过渡自然;(8)图像镶嵌。把区域内多景图像镶嵌到一起生成一整幅图像,通过自动和人工结合的方式确定图像接边处的镶嵌线,保证地物合理接边,无重影和发虚现象。同时在以上各主要步骤中穿插进行质量检查,不符合要求的返回上一步进行处理。


图1   数据正射及镶嵌处理流程图
Figure 1 Flow chart of data orthorectification and mosaic processing
1.2.2   尾矿库目标检测数据集制作
基于河南省的2米匀色镶嵌图像,本研究使用ArcGIS软件,通过人工遍历的方式对各时相遥感图像进行尾矿库的目视解译和样本标注。尾矿库目标检测数据集制作流程如图2所示,主要步骤为:(1)制定标注规范。明确尾矿库的遥感图像解译标志、标注方式、标注细则和注意事项等,形成标注规范文档并对标注人员进行培训;(2)人工标注。人工目视遍历每期的河南省匀色镶嵌图像,对识别为尾矿库的目标采用ArcGIS软件以倾斜框(目标的最小面积外接矩形)的方式进行标注,通过自检、互检和终检3次检查保证标注符合规范,最终得到河南省尾矿库位置和分布数据(见图3),并形成标注矢量文件;(3)图像切片。使用Python程序语言和GDAL库编程,基于标注矢量文件将匀色镶嵌图像裁切成固定尺寸的图像切片,保留存在目标的图像切片并生成对应的标注文件,如有尾矿库目标被切分,当被切分的面积大于目标原始面积的50%时才在该切片保留此尾矿库的标注信息。


图2   尾矿库目标检测数据集制作流程图
Figure 2 Flow chart for the dataset production of tailings pond object detection


图3   河南省尾矿库分布图
Figure 3 Distribution of tailings ponds in Henan province
2   数据样本描述
本数据集有2个压缩包,解压后对应2个文件夹(images文件夹和labels文件夹),images文件夹存放的是图像切片,labels文件夹存放标注标签文本文件。
images文件夹里图像切片标准大小为1024×1024像素(因为少量尾矿库空间范围较大,有36个切片像素大于1024×1024),RGB真彩色图像,图像切片格式为PNG,图像切片的命名规则为:卫星图像成像年份+’_’+切片序号+格式后缀,如“2016_128.png”,表示2016年成像的卫星图像的第128个含有尾矿库的切片。
labels文件夹里每个文本文件与images文件夹里的图像切片逐一对应,文本文件的格式为txt,文本文件的命名规则为:对应的无格式后缀图像切片名字+格式后缀,如“2016_128.txt”,表示对应“2016_128.png”切片的标注标签文件。txt文本的标注格式采用DOTA(a large-scale Dataset for Object deTection in Aerial images)标准[12],txt文本中一行标识一个目标(多行对应多个目标)的图像坐标位置和类别,位置由4个角点的8个坐标值组成,(x1, y1, x2, y2, x3, y3, x4, y4)分别是倾斜框4个顶点的坐标(x1, y1),(x2, y2),(x3, y3),(x4, y4),位置后是类别名,txt文件的行数即为对应图像切片上的尾矿库目标实例个数。
本数据集总共包含1183个切片,1728个目标实例,不同年份切片和实例数统计情况见表1。尾矿库目标检测数据集典型切片样本如图4所示(真实切片只有图像无标注框,标注框图像坐标存在标注标签文件中)。
表1   不同年份切片和实例数统计表
序号时相(年)切片(个)目标实例数(个)图像空间分辨率(
120162513862
220182904072
320202924272
420213505082


图4   尾矿库目标检测数据集4个不同年份切片样例展示
Figure 4 Samples of object detection dataset slices of tailings pond in 4 different years
3   数据质量控制和评估
数据集是人工智能模型训练的基础输入,高质量的数据集才能产出优质和可靠的模型。为保证尾矿库目标检测数据集的质量,图5给出了本数据集的数据质量控制流程,在卫星数据正射及镶嵌处理、目标检测数据集制作环节中均采取了质量控制过程,通过明确质量控制要求、多重检查等保证数据集样本的标准化、正确性和完整性。


图5   数据质量控制流程图
Figure 5 Flow chart of data quality control
匀色镶嵌图像质量控制:(1)标准卫星图像产品的云量和数据质量检查,确保单景图像云量低于5%,无掉线等数据缺失问题;有问题数据重新查询下载替换;(2)正射图像几何精度检查,几何定位精度优于10米,景与景之间接边精度优于2个像素;不符合要求图像重新进行几何处理;(3)融合图像检查,融合图像无重影,纹理细节清晰,无色彩溢出;不合格图像重新融合处理;(4)匀色镶嵌检查,图像无明显错误、扭曲和重影,图像接边处色彩过渡自然,地物接边合理,无0值和异常值。
目标检测数据集质量控制:(1)标注检查采取自检、互检相结合的方式,检查标注的正确性、倾斜标注框是否与尾矿库目标贴合、是否存在遗漏等,并对检查的错误进行修改和重新标注;(2)切片检查,人工检查图像切片与标签是否匹配一致,标签文件是否缺失等问题,并对错误情况确认和修改。
最后独立的质检员对数据集进行复核和最终检查,经过以上步骤和过程质量控制,尾矿库切片样本的正确率优于99.5%,数据集整体质量优异。
4   数据价值
遥感图像的尾矿库目标检测在应急监管和环境保护等领域具有重要的应用价值。遥感图像上的尾矿库目标尺度变动区间较大、形状各异,尾矿库地理背景复杂,尾砂和水体的颜色多样。遥感图像尾矿库自动检测受限于尾矿库的以上特点和缺乏样本数据,自动检测的精度(准确率和召回率)相对于飞机、舰船等目标要低很多。而当前开源的尾矿库目标检测数据集较少,且采用水平框标注。本数据集基于国产高分光学卫星图像,是多时相的倾斜框尾矿库目标检测数据集。倾斜框可以精确定位图像中的目标,在遥感图像目标检测任务中使用带有角度信息的倾斜框获可以获得更优越的性能;同时本数据集提供的多时相、多尺度、不同地理背景和形态各异的尾矿库样本有助于提高深度学习模型的泛化能力。我们期待此公开数据集可以促进高分光学卫星遥感图像的尾矿库目标检测研究和推动尾矿库自动化、智能化检测的业务化应用。
5   数据使用方法和建议
基于本数据集,可以使用深度学习目标检测技术开发遥感图像尾矿库目标检测模型,实现尾矿库的自动化、智能化检测和提取。本数据集未划分训练集和测试集,用户可以根据需要以一定的比例(例如8:2)将该数据集随机分为训练集和测试集。此外本数据集提供的均为原始样本,未进行数据增广。深度学习模型的开发需要大量样本来防止训练过程中的过拟合,通常会采用数据增强方法提升样本量,增加样本的多样性,用户可自行对本数据集的样本进行增广,可采取的方式包括旋转、高斯噪声、翻转和亮度变化等。
[1]
高永志, 初禹, 梁伟. 黑龙江省矿集区尾矿库遥感监测与分析[J]. 国土资源遥感, 2015, 27(1): 160–163. DOI:10.6046/gtzyyg.2015.01.25. [GAO Y Z, CHU Y, LIANG W. Remote sensing monitoring and analysis of tailings ponds in the ore concentration area of Heilongjiang Province[J]. Remote Sensing for Land & Resources, 2015, 27(1): 160–163. DOI:10.6046/gtzyyg.2015.01.25.]
[2]
沃廷枢. 尾矿库手册[M]. 北京: 冶金工业出版社, 2013. [WO T S. Handbook of tailings pond[M]. Beijing: Metallurgical Industry Press, 2013.]
[3]
张成业, 邢江河, 李军, 等. 基于U-Net网络和GF-6影像的尾矿库空间范围识别[J]. 自然资源遥感, 2021, 33(4): 252–257. [ZHANG C Y, XING J H, LI J, et al. Recognition of the spatial Scopes of tailing ponds based on U-Net and GF-6 images[J]. Remote Sensing for Natural Resources, 2021, 33(4): 252–257.]
[4]
史经业, 朱龙文, 范楠楠, 等. 空天地一体化尾矿库监管平台建设及功能[J]. 卫星应用, 2021(6): 37–41. [SHI J Y, ZHU L W, FAN N N, et al. Construction and function of air-space integrated tailing pond supervision platform[J]. Satellite Application, 2021(6): 37–41.]
[5]
李庆, 陈俊杰, 李庆亭, 等. 基于SSD模型的京津冀地区尾矿库检测[J]. 遥感技术与应用, 2021, 36(2): 293–303. DOI:10.11873/j.issn.1004-0323.2021.2.0293. [LI Q, CHEN J J, LI Q T, et al. Detection of tailings pond in Beijing-Tianjin-Hebei region based on SSD model[J]. Remote Sensing Technology and Application, 2021, 36(2): 293–303. DOI:10.11873/j.issn.1004-0323.2021.2.0293.]
[6]
LI Q T, CHEN Z C, ZHANG B, et al. Detection of tailings dams using high-resolution satellite imagery and a single shot multibox detector in the Jing-Jin-Ji region, China[J]. Remote Sensing, 2020, 12(16): 2626. DOI:10.3390/rs12162626.
[7]
闫凯, 沈汀, 陈正超, 等. 基于深度学习的SSD模型尾矿库自动提取[J]. 中国科学院大学学报, 2020, 37(3): 360–367. [YAN K, SHEN T, CHEN Z C, et al. Automatic extraction of tailing pond based on SSD of deep learning[J]. Journal of University of Chinese Academy of Sciences, 2020, 37(3): 360–367.]
[8]
YAN D C, LI G Q, LI X Q, et al. An improved faster R-CNN method to detect tailings ponds from high-resolution remote sensing images[J]. Remote Sensing, 2021, 13(11): 2052. DOI:10.3390/rs13112052.
[9]
YAN D C, ZHANG H, LI G Q, et al. Improved method to detect the tailings ponds from multispectral remote sensing images based on faster R-CNN and transfer learning[J]. Remote Sensing, 2021, 14(1): 103. DOI:10.3390/rs14010103.
[10]
张磊, 张永生, 于英, 等. 遥感图像倾斜边界框目标检测研究进展与展望[J]. 遥感学报, 2022, 26(9): 1723–1743. [ZHANG L, ZHANG Y S, YU Y, et al. Survey on object detection in tilting box for remote sensing images[J]. National Remote Sensing Bulletin, 2022, 26(9): 1723–1743.]
[11]
LYU J J, HU Y, REN S L, et al. Extracting the tailings ponds from high spatial resolution remote sensing images by integrating a deep learning-based model[J]. Remote Sensing, 2021, 13(4): 743. DOI:10.3390/rs13040743.
[12]
XIA G S, BAI X, DING J, et al. DOTA: a large-scale dataset for object detection in aerial images[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA. IEEE, 2018: 3974–3983. DOI:10.1109/CVPR.2018.00418.
数据引用格式
李俊杰, 李敏, 隋正伟, 等. 中国河南省2016–2021年尾矿库目标检测数据集[DS/OL]. Science Data Bank, 2022. (2022-11-24). DOI: 10.57760/sciencedb.06518.
Baidu
稿件与作者信息
论文引用格式
李俊杰, 李敏, 隋正伟, 等. 中国河南省2016–2021年尾矿库目标检测数据集[J/OL]. 中国科学数据, 2023, 8(4). (2023-10-11). DOI: 10.11922/11-6035.csd.2023.0113.zh.
李俊杰
LI Junjie
尾矿库目标检测数据集设计与采集规范、方案制定、数据质量检查。
lijunjie299@126.com
(1983—),男,湖南省岳阳市人,硕士,研究员,研究方向为遥感信息提取。
李敏
LI Min
尾矿库目标检测数据集采集规范与样本切片程序的编写。
(1996—),女,安徽省安庆市人,硕士,助理工程师,研究方向为遥感图像目标智能检测与识别。
隋正伟
SUI Zhengwei
尾矿库目标检测数据集数据处理方案制定与实施。
(1986—),男,辽宁省大连市人,博士,研究员,研究方向为卫星遥感大数据应用技术。
苏文博
SU Wenbo
尾矿库目标检测数据集采集规范制定。
(1994—),男,河南省驻马店市人,硕士,工程师,研究方向为遥感图像目标智能检测与识别。
连亚茹
LIAN Yaru
河南省2米图像处理与样本采集。
(1993—),女,河北省邢台市人,本科,助理工程师,研究方向为遥感图像目标解译与识别。
陈帅
CHEN Shuai
河南省2米图像处理与样本采集。
(1988—),男,河南省商丘市人,本科,助理工程师,研究方向为遥感图像目标解译与识别。
原征
YUAN Zheng
尾矿库目标检测数据集的质量检查。
(1986—),男,辽宁省丹东市人,本科,助理工程师,研究方向为遥感图像数据处理与制图。
国家重点研发计划(2021YFE0117200)。
National Key R&D Program of China (2021YFE0117200).
Baidu
出版历史
I区发布时间:2023年6月6日 ( 版本ZH1
II区出版时间:2023年10月11日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata
Baidu
map