科学大数据工程优秀数据成果专题 II 区论文(已发表) 版本 ZH4 Vol 8 (2) 2023
下载
2022年青藏高原30米分辨率陆表水体数据集
A dataset of land surface water with a spatial resolution of 30 meters on the Qinghai-Tibet Plateau in 2022
 >>
: 2022 - 12 - 15
: 2023 - 03 - 22
: 2023 - 02 - 03
: 2023 - 05 - 09
Baidu
map
5124 26 0
摘要&关键词
摘要:青藏高原被称为“亚洲水塔”,其陆表水体分布及其变化与全球变化、生物多样性及与水有关的生态系统密切相关。本文在收集高精度陆表水体样本的基础上,运用机器学习中的随机森林分类算法,从Landsat系列卫星数据中提取陆表水体信息,生产2022年青藏高原30米分辨率陆表水体数据集。经数据质量评估,2022年青藏高原30米分辨率陆表水体数据集的总体精度为92.9%,Kappa系数是0.84。本数据集可为青藏高原地区水资源监测、生态系统服务、全球变化研究等领域提供基础数据支持。
关键词:Landsat;陆表水体;青藏高原;随机森林
Abstract & Keywords
Abstract: The Tibetan Plateau is known as the Asian Water Tower. The distribution of surface water and its changes are closely related to global change, biodiversity and water-related ecosystems. Based on the collection of high-precision land surface water samples, we used the random forest classification algorithm in machine learning to extract land surface water information from Landsat series satellite images and produced a dataset of land surface water with a spatial resolution of 30 meters on the Qinghai-Tibet Plateau based on satellite remote sensing images in 2022. According to data quality assessment, the overall accuracy of the dataset is 92.9%, and the Kappa coefficient is 0.84. This dataset can provide foundational data support for water resource monitoring, ecosystem services, and global change research on the Qinghai-Tibet Plateau.
Keywords: Landsat; surface water; Qinghai-Tibet Plateau; random forest
数据库(集)基本信息简介
数据库(集)名称2022年青藏高原30米分辨率陆表水体数据集
数据作者刘慧婵,何国金,彭燕,王桂周,尹然宇
数据通信作者何国金(hegj@aircas.ac.cn)
数据时间范围2022年1月至2022年11月
地理区域青藏高原(73.49°E–105.63°E,24.66°N–40.66°N)
空间分辨率30米
数据量106 MB
数据格式GeoTIFF
数据服务系统网址https://doi.org/10.57760/sciencedb.06937
基金项目中国科学院A类战略性先导科技专项(XDA19090300);第二次青藏高原综合科学考察研究(2019QZKK0307);国家自然科学基金(61731022);中国遥感卫星地面站发展基金(RSGS202207)
数据库(集)组成数据集包含1个30米分辨率栅格数据文件,展现2022年青藏高原陆表水体分布。数据集中的陆表水体是指利用卫星遥感数据提取的陆地表面湖泊、河流、以及人工水体的水面分布结果。
Dataset Profile
TitleA dataset of land surface water with a spatial resolution of 30 meters on the Qinghai-Tibet Plateau in 2022
Data authorsLIU Huichan, HE Guojin, PENG Yan, WANG Guizhou, YIN Ranyu
Data corresponding authorHE Guojin (hegj@aircas.ac.cn)
Time rangeJanuary, 2022 to November, 2022
Geographical scopeQinghai-Tibet Plateau (73.49°E–105.63°E, 24.66°N–40.66°N)
Spatial resolution 30 m
Data volume106 MB
Data formatGeoTIFF
Data service systemhttps://doi.org/10.57760/sciencedb.06937
Sources of fundingStrategic Priority Research Program of the Chinese Academy of Sciences (XDA19090300); The Second Tibetan Plateau Scientific Expedition and Research Program (2019QZKK0307); National Natural Science Foundation of China (61731022); Development fund of China Remote Sensing Satellite Ground Station (RSGS202207)
Dataset compositionThe dataset consists of a grid data file showing the distribution of land surface water bodies of the Qinghai-Tibet Plateau in 2022 with a spatial resolution of 30 meters. The land surface water in the dataset refers to the water surface distribution results of lakes, rivers, and artificial waterbodies extracted from remote sensing satellite data.
Baidu
引 言
青藏高原是地球上海拔最高、气候最寒冷的地方。独有的地形地貌及气候条件使青藏高原拥有广大的湖泊、冰川、积雪和冻土[1]。在高海拔地势作用下,汇聚于青藏高原的水孕育了长江、黄河、澜沧江、怒江、雅鲁藏布江、印度河、恒河等多条世界著名河流,“亚洲水塔”因此得名[2]。青藏高原地区湖泊、河流的空间分布和变化信息是研究该地区生态与环境变化的重要基础,可为青藏高原可持续发展和环境保护协同,实现绿水青山和金山银山共赢发展提供科学依据。
随着遥感技术的发展,由基于卫星遥感数据提取的陆地表面湖泊、河流、以及人工水体的水面分布结果所形成的陆表水体产品逐渐成为研究和应用的重要数据来源之一。几种主要的全球陆表水体产品包括:GlobeLand30-WTR(Global Land Surface Water Dataset at 30m Resolution)[3]是由国家基础地理信息中心研发的全球陆表水体产品,其空间分辨率为30米,时间范围是2000、2010和2020年。GLCF-GIW(Global Land Cover Facility, GLCF; Global Inland Surface Water, GIW)[4]是由马里兰大学地理科学系开发的全球内陆水体数据集,覆盖了全球范围的内陆水体,数据集的空间分辨率为30米,时间为2000年。JRC-GSW(European Commission’s Joint Research Centre, JRC; Global Surface Water, GSW)[5]是欧盟委员会联合研究中心基于Landsat数据利用专家系统生产的全球陆表水体分布产品,产品的时间范围覆盖1984–2021年,空间分辨率为30米。G3WBM(Global 3 arc second Water Body Mask)[6]是由日本国立海洋研究开发机构(Japan Agency for Marine-Earth Science and Technology, JAMSTEC)基于4期(1990,2000,2005和2010年)Landsat GLS(Global Land Survey)全球数据,应用徐涵秋提出的改进的归一化差值水体指数(Modified Normalized Difference Water Index, MNDWI)[7]制作的全球水体数据集,其特点是以3弧秒的空间分辨率(约90米)展现水体出现的频次,将永久性水体和暂时性水覆盖区域分开。此外,利用遥感卫星数据提取的面向青藏高原地区的陆表水体产品主要包括:张国庆等人利用长时间序列Landsat遥感数据制作的青藏高原大于1平方公里湖泊数据集(v3.1)(1970s–2022)[8-10],数据集共包含16期湖泊观测数据。宋开山等人基于Landsat遥感数据,采用波段比值与阈值分割方法制作的青藏高原湖泊动态数据集(V1.0)(1984–2016)[11-12],数据集的时间分辨率为5年一期,空间分辨率为30米。计璐艳以1982–2020年AVHRR(Advanced Very High Resolution Radiometer)逐日反射率时间序列为基础制作的青藏高原0.05°逐日水体制图数据集(1982–2020)[13]
陆表水体分布及其变化与全球变化和生物多样性密切相关,量化陆表水体范围对与水有关的生态系统研究至关重要[14],但目前仍缺乏青藏高原地区2022年度30米分辨率陆表水体数据。基于此,本文依托Google Earth Engine (GEE, https://earthengine.google.com/) 平台,利用2022年1月至2022年11月所获取的7245景Landsat 8和Landsat 9卫星遥感数据,采用随机森林分类算法实现对陆表水体信息的有效提取,形成2022年青藏高原30米分辨率陆表水体数据集。
1   数据采集和处理方法
1.1   数据来源
在2022年青藏高原30米分辨率陆表水体数据集生产过程中,使用的数据包括:时间范围从2022年1月1日至2022年11月30日的Landsat 8 OLI和Landsat 9 OLI-2的大气层顶部(TOA, top of atmosphere)反射率数据[15];航天飞机雷达地形测绘任务(SRTM, Shuttle Radar Topography Mission)中的数字地形高程模型(DEM, Digital Elevation Model)数据[16];以及积累和收集的高精度水体和非水体样本点数据。TOA反射率数据和DEM数据均可在GEE云平台上获取。
1.2   数据处理方法
2022年青藏高原30米分辨率陆表水体数据集的生产流程如图1所示:


图1   数据集生产流程
Figure 1 The procedure of data processing
首先建立2022年Landsat 8 和Landsat 9卫星TOA数据集,利用数据的质量评估QA_PIXEL(Quality Assessment, QA)波段判断云/云影及饱和度,并进行相应的掩膜处理。将处理后的TOA数据与DEM数据结合,获取归一化差值植被指数(NDVI, Normalized Difference Vegetation Index)[17]、归一化差值水体指数(NDWI, Normalized Difference Water Index)[18]、改进的归一化差值水体指数MNDWI[7],归一化差值雪指数(NDSI, Normalized Difference Snow Index)等特征指数以及坡度数据(Slope),形成基于像素NDVI值的镶嵌影像(含特征指数波段),作为后续陆表水体提取的基础数据。
其次,对已收集的青藏高原地区高精度水体和非水体样本点数据按比例进行随机划分,形成训练样本集和测试样本集。利用训练样本集构建随机森林分类模型[19],并使用该模型对前述基于像素NDVI值的镶嵌影像进行分类,形成陆表水体初步结果。
最后,对陆表水体初步结果进行类别的归并和离散像素的筛滤等后处理[20],并利用测试样本集中的数据对处理结果进行精度验证,形成了2022年青藏高原30米分辨率陆表水体数据集及其精度结果。
2   数据样本描述
2022年青藏高原30米分辨率陆表水体数据集空间覆盖范围是青藏高原地区(73.49°E–105.63°E, 24.66°N–40.66°N);投影方式采用WGS84坐标系统经纬度投影(EPSG:4326);空间分辨率为30米;数据格式为栅格GeoTIFF文件。
2022年青藏高原30米分辨率陆表水体数据集如图2所示:


图2   2022年青藏高原30米分辨率陆表水体数据集
Figure 2 A dataset of land surface water with a spatial resolution of 30 meters on the Qinghai-Tibet Plateau based on satellite remote sensing images in 2022
青藏高原30米分辨率陆表水体数据集内数值含义参见表1:
表1   青藏高原30米分辨率陆表水体数据集内数值含义
数值含义
0青藏高原研究区外
1水体
2非水体
3   数据质量控制和评估
本文选择的遥感光谱特征指数NDVI、NDWI、MNDWI、NDSI具备区分水体与其他类型地物的能力(包括水体与冰/雪的区分)[21-22],通过选取不同类型的地物样本进行随机森林分类模型训练,可进一步提高水体信息提取的精度。
通过已有数据积累并结合高分辨率卫星影像,建立了青藏高原高精度样本点库,包含样本点4568个,其中水体样本点2998个,非水体样本点1570个,样本点分布如图3所示。在此基础上,针对水体样本和非水体样本两种类型,各自按50%比例随机挑选生成训练样本集和测试样本集。


图3   样本点分布图
Figure 3 Distribution of the sample points
利用训练样本集构建随机森林分类模型,对合成的2022年度镶嵌影像进行分类,经后处理后,使用测试样本集对2022年青藏高原30米分辨率陆表水体数据集开展了数据质量评估,得到混淆矩阵(参见表2)及分类精度(参见表3)。
表2   混淆矩阵
水体非水体总计
水体1379781457
非水体82714796
总计14617922253
表3   分类精度
样本类型用户精度错分误差制图精度漏分误差
水体94.65%5.35%94.39%5.61%
非水体89.70%10.30%90.15%9.85%
结果表明,2022年青藏高原30米分辨率陆表水体数据集的总体精度为92.9%,Kappa系数是0.84,说明产品具有较好的一致性。
4   数据价值
本文利用遥感卫星影像数据,使用机器学习中的随机森林分类算法进行陆表水体提取,所形成的30米分辨率陆表水体数据集展现了青藏高原地区2022年度的陆表水体分布状况,可为青藏高原生态环境保护、资源持续利用,及经济社会协调发展提供基础数据支持。在后续的研究中,将结合多种过境卫星数据源的实际情况,进一步研制能够展现青藏高原地区陆表水体季节变化的多源卫星数据信息产品。
[1]
张建云, 刘九夫, 金君良, 等. 青藏高原水资源演变与趋势分析[J]. 中国科学院院刊, 2019, 34(11): 1264–1273. DOI: 10.16418/j.issn.1000-3045.2019.11.009. [ZHANG J Y, LIU J F, JIN J L, et al. Evolution and trend of water resources in Qinghai-Tibet Plateau[J]. Bulletin of the Chinese Academy of Sciences, 2019, 34(11): 1264–1273. DOI: 10.16418/j.issn.1000-3045.2019.11.009.]
[2]
QIAO B J, ZHU L P, WANG J B, et al. Estimation of lakes water storage and their changes on the northwestern Tibetan Plateau based on bathymetric and Landsat data and driving force analyses[J]. Quaternary International, 2017, 454: 56–67. DOI: 10.1016/j.quaint.2017.08.005.
[3]
陈军, 廖安平, 陈利军, 等. 全球30 m分辨率陆表水域数据集(2010)内容与研发[J]. 全球变化数据学报, 2017, 1(1): 27–39. DOI: 10.3974/geodp.2017.01.05. [Chen J, Liao A P, Chen L J, et al. Content and composition of the global land surface water dataset at 30 m resolution (2010) [J]. Journal of Global Change Data & Discovery, 2017, 1(1): 27–39. DOI: 10.3974/geodp.2017.01.05.]
[4]
Feng M, Sexton J O, Channan S, et al. A global, high-resolution (30-m) inland water body dataset for 2000: first results of a topographic-spectral classification algorithm[J]. International Journal of Digital Earth, 2016, 9(2): 113–133. DOI: 10.1080/17538947.2015.1026420.
[5]
Pekel J F, Cottam A, Gorelick N, et al. High-resolution mapping of global surface water and its long-term changes[J]. Nature, 2016, 540(7633): 418–422. DOI: 10.1038/nature20584.
[6]
Yamazaki D, Trigg M A, Ikeshima D. Development of a global ~90m water body map using multi-temporal Landsat images[J]. Remote Sensing of Environment, 2015, 171: 337–351. DOI: 10.1016/j.rse.2015.10.014.
[7]
徐涵秋. 利用改进的归一化差异水体指数(MNDWI)提取水体信息的研究[J]. 遥感学报, 2005, 9(5): 589–595. DOI: 10.3321/j.issn: 1007-4619.2005.05.012. [XU H Q. A study on information extraction of water body with the modified normalized difference water index (MNDWI)[J]. Journal of Remote Sensing, 2005, 9(5): 589–595. DOI: 10.3321/j.issn: 1007-4619.2005.05.012.]
[8]
张国庆. 青藏高原大于1平方公里湖泊数据集(v3.1)(1970s-2022)[DS/OL]. 国家青藏高原科学数据中心, 2019. DOI: 10.1016/j.scib.2019.07.018. [Zhang G Q. The lakes larger than 1k㎡ in Tibetan Plateau (v3.1) (1970s-2022)[DS/OL]. National Tibetan Plateau/Third Pole Environment Data Center, 2019. DOI: 10.1016/j.scib.2019.07.018.]
[9]
Zhang G Q, Luo W, Chen W F, et al. A robust but variable lake expansion on the Tibetan Plateau[J]. Science Bulletin, 2019, 64(18): 1306–1309. DOI: 10.1016/j.scib.2019.07.018.
[10]
Zhang G Q, Yao T D, Xie H J, et al. Lakes’ state and abundance across the Tibetan Plateau[J]. Chinese Science Bulletin, 2014, 59(24): 3010–3021. DOI: 10.1007/s11434-014-0258-x.
[11]
宋开山, 杜嘉. 青藏高原湖泊动态数据集(V1.0)(1984-2016)[DS/OL]. 国家青藏高原科学数据中心, 2018. DOI: 10.11888/Lake.tpe.0000011.file. [Song K, DU J. Lake surface area dynamics on the Tibetan Plateau (Version 1.0) (1984-2016)[DS/OL]. National Tibetan Plateau/Third Pole Environment Data Center, 2018. DOI: 10.11888/Lake.tpe.0000011.file.]
[12]
Song K S, Wang M, Du J, et al. Spatiotemporal Variations of Lake Surface Temperature across the Tibetan Plateau Using MODIS LST Product [J]. Remote Sensing, 2016, 8(10): 854. DOI: 10.3390/rs8100854.
[13]
计璐艳. 青藏高原0.05°逐日水体制图数据集(1982-2020)[DS/OL]. 国家青藏高原科学数据中心, 2022. DOI: 10.11888/Terre.tpdc.272811. [JI L. 0.05°Resolution Daily Surface Water Change Database for Tibet Plateau from 1982-2020[DS/OL]. National Tibetan Plateau/Third Pole Environment Data Center, 2022. DOI: 10.11888/Terre.tpdc.272811.]
[14]
SUI Y J, FENG M, WANG C L, et al. A high-resolution inland surface water body dataset for the tundra and boreal forests of North America. Earth System Science Data, 2022, 14(7): 3349–3363. DOI: 10.5194/essd-14-3349-2022.
[15]
CHANDER G, MARKHAM B L, HELDER D L. Summary of current radiometric calibration coefficients for Landsat MSS, TM, ETM+, and EO-1 ALI sensors[J]. Remote Sensing of Environment, 2009, 113(5): 893–903. DOI: 10.1016/j.rse.2009.01.007.
[16]
FARR T G, KOBRICK M. Shuttle radar topography mission produces a wealth of data[J]. Eos, Transactions American Geophysical Union, 2000, 81(48): 583–585. DOI: 10.1029/eo081i048p00583.
[17]
WEIER J, HERRING D. Measuring Vegetation (NDVI & EVI)[EB/OL]. NASA Earth Observatory, 2000. https://earthobservatory.nasa.gov/features/MeasuringVegetation.
[18]
MCFEETERS S K. The use of the Normalized Difference Water Index (NDWI) in the delineation of open water features[J]. International Journal of Remote Sensing, 1996, 17(7): 1425–1432. DOI: 10.1080/01431169608948714.
[19]
BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5–32. DOI: 10.1023/A: 1010933404324.
[20]
LIU H C, HE G J, PENG Y, et al. Dynamic monitoring of surface water in the Tibetan Plateau from 1980s to 2019 based on satellite remote sensing images[J]. Journal of Mountain Science, 2021, 18(11): 2833–2841. DOI: 10.1007/s11629-020-6482-8.
[21]
聂勇, 张镱锂, 刘林山, 等. 近30年珠穆朗玛峰国家自然保护区冰川变化的遥感监测[J]. 地理学报, 2010, 65(1): 13–28. DOI: 10.3771/j.issn.1009-2307.2008.02.049. [NIE Y, ZHANG Y L, LIU L S, et al. Monitoring Glacier Change Based on Remote Sensing in the Mt. Qomolangma National Nature Preserve, 1976-2006[J]. Acta Geographica Sinica, 2010, 65(1): 13–28. DOI: 10.3771/j.issn.1009-2307.2008.02.049.]
[22]
王伟, 阿里木·赛买提, 马龙, 等. 1986—2019年新疆湖泊变化时空特征及趋势分析[J]. 生态学报, 2022, 42(4): 1300–1314. DOI:10.5846/stxb202101150156. [WANG W, Samat Alim, MA L, et al. Spatio-temporal variations and trend analysis of lake area in Xinjiang in 1986—2019[J]. Acta Ecologica Sinica, 2022, 42(4): 1300–1314. DOI:10.5846/stxb202101150156.]
数据引用格式
刘慧婵, 何国金, 彭燕, 等. 2022年青藏高原30米分辨率陆表水体数据集[DS/OL]. Science Data Bank, 2023. (2023-02-01). DOI: 10.57760/sciencedb.06937.
Baidu
稿件与作者信息
论文引用格式
刘慧婵, 何国金, 彭燕, 等. 2022年青藏高原30米分辨率陆表水体数据集[J/OL]. 中国科学数据, 2023, 8(2). (2023-05-09). DOI: 10.11922/11-6035.csd.2023.0040.zh.
刘慧婵
LIU Huichan
算法设计与程序实现,论文撰写。
(1981—),女,内蒙古呼和浩特市人,博士,高级工程师,研究方向为遥感图像智能处理。
何国金
HE Guojin
目标规划与产品设计,论文修改。
hegj@aircas.ac.cn
(1968—),男,福建龙岩人,博士,研究员,研究方向为遥感数据智能处理与信息挖掘。
彭燕
PENG Yan
算法思路优化。
(1988—),女,湖南郴州市人,工程师,研究方向为遥感图像智能处理。
王桂周
WANG Guizhou
数据资源协调与处理。
(1984—),男,山东省济宁市人,博士,高级工程师,研究方向为遥感图像智能处理。
尹然宇
YIN Ranyu
程序设计流程优化。
(1995—),男,山东省临沂人,博士后,研究方向为遥感图像智能处理。
中国科学院A类战略性先导科技专项(XDA19090300);第二次青藏高原综合科学考察研究(2019QZKK0307);国家自然科学基金(61731022);中国遥感卫星地面站发展基金(RSGS202207)
Strategic Priority Research Program of the Chinese Academy of Sciences (XDA19090300); The Second Tibetan Plateau Scientific Expedition and Research Program (2019QZKK0307); National Natural Science Foundation of China (61731022); Development fund of China Remote Sensing Satellite Ground Station (RSGS202207)
Baidu
出版历史
I区发布时间:2023年2月3日 ( 版本ZH2
II区出版时间:2023年5月9日 ( 版本ZH4
参考文献列表中查看
中国科学数据
csdata
Baidu
map