2022年
第7卷,第2期

出版时间:2022年6月30日
主管单位:中国科学院
主办单位:中国科学院计算机网络信息中心
编辑/出版:《中国科学数据》编辑部

论文目录分类
多语种智能信息处理数据集专刊 top

【多语种智能信息处理数据集专刊】出版时间:2022年6月30日 第7卷,第2期 4775 5

《多语种智能信息处理专题》卷首语

赵小兵,孙媛,李琳
doi:10.11922/11-6035.csd.2022.0046.zh

【多语种智能信息处理数据集专刊】出版时间:2022年6月30日 第7卷,第2期 7602 34

少数民族语言分词技术评测数据集MLWS2021

赵小兵,高璐,高定国,等
关键词: 少数民族语言;分词标注;评测数据集;分词标准规范
doi:10.11922/11-6035.csd.2021.0091.zh

摘要:依据蒙古文、藏文和维吾尔文词汇的构词规律和特点,制定适合计算机信息处理的蒙古文、藏文和维吾尔文分词评测标准,构建蒙古文、藏文和维吾尔文的分词标注语料,形成标准评测数据集(MLWS2021),为解决自动分词、词性标注、信息检索、语料库构建等研究课题提供依据。MLWS2021共包含2.5万句藏文、6.5万句蒙古文、6.5万句维吾尔文。本评测数据集将面向社会,提供免费评测服务,逐步建成权威的少数民族语言分词技术评测平台,推动少数民族语言信息处理技术的发展。

【多语种智能信息处理数据集专刊】出版时间:2022年6月30日 第7卷,第2期 7128 38

藏文文本摘要数据集

闫晓东,王羿钦,黄硕,等
关键词: 文本摘要;数据集;藏文;低资源
doi:10.11922/11-6035.csd.2021.0098.zh

摘要:自动文本摘要是自然语言处理中的一个关键任务,高质量的数据集能有效推动摘要的研究。深度学习算法模型在中英开源数据集上都取得了显著的成绩,甚至超过了人类的表现。然而,公开的、高质量的大规模摘要数据集仍然非常稀少,且不容易人工构建。目前在藏文文本摘要任务中,由于公开数据集较少,藏文文本摘要任务还处于起步阶段。为了推动藏文信息化发展,本文人工构建了一个小型藏文多文本摘要数据集Ti-SUM,由1000篇真实藏文新闻组成,每一篇新闻都给出了简短的摘要。此外我们还针对每篇新闻构建了超...

【多语种智能信息处理数据集专刊】出版时间:2022年6月30日 第7卷,第2期 7069 31

蒙古文日常问答语料数据集

特日格勒呼,王斯日古楞,韩永顺,等
关键词: 蒙古文;问答语料;语料库构建;语料校正
doi:10.11922/11-6035.csd.2021.0095.zh

摘要:蒙古文自动问答研究发展缓慢,其中问答语料的稀缺是重要的原因之一。本研究通过对现有中文问答语料进行收集后通过规则筛选、汉蒙翻译、人工校正构建了5万对蒙古文问答语料。通过自动评价发现,该语料的问句和答复句具有较好的多样性,人工评价结果显示97%的语料符合日常问答逻辑。该语料范围主要是开放领域的日常对话,可应用在端到端的一问一答形式问答模型中,在蒙古文自动问答的研究中具有重要的使用价值。

【多语种智能信息处理数据集专刊】出版时间:2022年6月29日 第7卷,第2期 7429 29

机器翻译辅助的中蒙、维汉语音翻译数据集子集

李宁,朱丽平,赵小兵,等
关键词: 语音翻译;中蒙;维汉;低资源
doi:10.11922/11-6035.csd.2021.0105.zh

摘要:目前,语音翻译的公开数据集稀少,中文与其他低资源语言的双向语音翻译数据集尤其匮乏,阻碍了相关语言端到端语音翻译研究的推进。本文参考国际语音翻译数据集研究思想,将公开的语音识别数据集(AISHELL、THUYG-20)通过机器翻译,转换成语音翻译数据集,进行数据处理后交由专家审核、校验,从而得到高质量语音翻译数据集。本数据集包括中蒙语音翻译数据集和维汉语音翻译数据集两部分,音频采样率是16 kHz。中蒙语音翻译数据集包含样本1919条,大小为238 MB。维汉语音翻译数据...

【多语种智能信息处理数据集专刊】出版时间:2022年6月29日 第7卷,第2期 7575 40

IMUT-MC:一个针对蒙古语语音识别的语音语料库

刘志强,马志强,张晓旭,等
关键词: 蒙古语;语音识别;语音语料库;阅读语音
doi:10.11922/11-6035.csd.2021.0096.zh

摘要:蒙古语作为少数民族语言,其使用人群分布辽阔,收集标注语音数据困难,导致没有公开的大规模蒙古语语音语料库为广大研究人员提供实验支撑,阻碍了蒙古语语音识别的进一步发展。本课题组构建了一个针对蒙古语语音识别任务的语音语料库IMUT-MC,包含417位说话人录制的约212小时的阅读语音,致力于推进蒙古语语音识别研究。课题组分别在传统语音识别模型和端到端语音识别模型上使用IMUT-MC进行基线语音识别实验,基于GMM-HMM、DNN-HMM和Transformer的语音识别模型在...

【多语种智能信息处理数据集专刊】出版时间:2022年6月29日 第7卷,第2期 5581 7

藏汉跨语言文本剽窃检测数据集

鲍薇,董建,徐洋,等
关键词: 文本剽窃检测;藏汉跨语言;跨语言语料库;低资源
doi:10.11922/11-6035.csd.2021.0100.zh

摘要:本研究从少数民族语言信息处理的实际需要出发,针对藏汉跨语言文本剽窃检测缺少语料问题,基于SemEval 2014年英语评测语料,使用数据增强方法,建立了包含15万句对的藏汉跨语言文本剽窃检测语料库。本数据集为藏汉跨语言文本剽窃检测研究提供数据基础,也可用于藏汉语义计算等其他自然语言处理任务中。此外,数据集建立过程中的数据增强方法,为其他低资源语言自然语言处理任务语料缺少问题提供了解决思路。

【多语种智能信息处理数据集专刊】出版时间:2022年6月29日 第7卷,第2期 6251 27

面向机器阅读理解的藏文数据集TibetanQA

孙媛,旦正错,刘思思,等
关键词: 机器阅读理解;藏文;少数民族语言;低资源;数据集
doi:10.11922/11-6035.csd.2021.0099.zh

摘要:机器阅读理解是自然语言处理的关键任务,旨在考察机器是否具有理解自然语言的能力。目前,中英文领域的机器阅读理解取得了很大的进展,模型的性能已经超过了人类的水平,其中公开数据集起到了非常重要的作用,如斯坦福大学的SQuAD数据集。而对于低资源语言,如藏文,由于缺乏大规模公开的数据集,机器阅读理解的相关研究还处于起步阶段。因此,本文构建了面向藏文机器阅读理解的数据集,数据集包含631篇文章,903个段落,形式为excel文件。其中,第一列为当前文章ID,第二列为文本标题,第三...

【多语种智能信息处理数据集专刊】出版时间:2022年6月28日 第7卷,第2期 7199 15

蒙汉语音翻译数据集

戚肖克,特尼格尔,孙媛,等
关键词: 语音翻译;蒙汉;少数民族语言;低资源;数据集
doi:10.11922/11-6035.csd.2021.0093.zh

摘要:目前,由于缺乏公开数据集,面向少数民族语言的语音翻译的研究较少。为此,本文构建并公开了蒙语语音到汉语文本语音翻译数据集 (NMLR-Mon2Chs ST)。本数据集包含36位年龄在20–25岁之间的蒙古人通过手机录制的蒙语语音,以及由专业人员标注的蒙语和汉语的文本。为保证数据质量,对数据进行了预处理,如去除空语音文件、重采样、归一化后,最终得到25小时的高质量数据,数据集中音频的平均时长为4.2秒。本数据集的建立为探索面向少数民族语言的语音翻译技术提供了一定的数据基础。

【多语种智能信息处理数据集专刊】出版时间:2022年6月27日 第7卷,第2期 6670 25

蒙汉机器翻译校正数据集

申影利,包乌格德勒,赵小兵
关键词: 机器翻译;传统蒙古文;文本校正;数据集
doi:10.11922/11-6035.csd.2021.0102.zh

摘要:机器翻译数据集的精确度对翻译模型的性能起决定性作用。传统蒙古语由于字符编码的特殊性,拼写错误十分普遍,网络开放资源字符编码准确性不足20%,这给其文本智能处理造成重大障碍。本文以第十七届全国机器翻译大会(CCMT 2021)蒙汉双语公开评测数据集作为原始语料,进行蒙文文本自动校正,构建面向机器翻译的高质量蒙汉句对校正数据集。在CWMT2017测试集上的实验结果表明,经过蒙文文本校正后的蒙汉双语平行句对在蒙汉、汉蒙两个方向上均优于原始评测数据的翻译效果,验证了蒙文校正文本...

【多语种智能信息处理数据集专刊】出版时间:2022年6月27日 第7卷,第2期 10408 52

藏语方言语音合成数据集

仁曾卓玛,朱丽平
关键词: 语音合成;安多方言;卫藏方言;康巴方言;数据集
doi:10.11922/11-6035.csd.2021.0104.zh

摘要:本研究构建并公开了藏语卫藏、安多和康巴三大方言的语音合成数据集。本数据集来源于喜马拉雅FM听音软件,内容包含新闻、法律知识、生活常识、小故事等。数据集中的音频由专业的播音员录播而成,能够保证发音的准确性,通过用专业的音频软件切割播音内容,提供10多小时约8.02 GB的音频及对应的文本数据,共4684条句子。文本经过藏语专业人员审核,能够保证语法的正确性。从字丁、音标、语音现象的均衡覆盖率等多方面对数据集的质量评估表明,本数据集对各方言语言特征覆盖率高,且语音现象覆盖均...

黄土高原水土保持 top

【黄土高原水土保持】出版时间:2022年6月30日 第7卷,第2期 4636 23

黄土高塬沟壑区南小河沟和砚瓦川典型小流域土地利用数据集

幸萌,康建芳,敏玉芳,等
关键词: 黄土高塬沟壑区;典型流域;水土流失动态监测;土地利用;水土保持
doi:10.11922/11-6035.ncdc.2021.0010.zh

摘要:南小河沟和砚瓦川流域是黄土高塬沟壑区典型小流域,被选定为水利部水土流失动态监测重点流域。土地利用现状调查是流域水土流失动态监测的主要项目之一,为土壤侵蚀模数计算、动态变化分析等提供相关数据。本数据集为南小河沟和砚瓦川流域2021年土地利用数据,主要是基于高分一号卫星遥感影像,利用ArcGIS软件进行目视解译,并结合实地调查的方法对解译图斑逐一核实修正,最终得到2021年流域土地利用现状矢量数据。本数据集可为探讨流域水沙来源及过程提供基础数据,为流域综合治理和水土保持措施...

中国生态系统研究网络(CERN)专题 top

【中国生态系统研究网络(CERN)专题】出版时间:2022年6月30日 第7卷,第2期 6331 39

1996–2020年安塞试验站空气和土壤温度长期监测数据集

王丽娜,唐亚坤,姜峻
关键词: 气温;土壤温度;安塞;1996–2020
doi:10.11922/11-6035.csd.2021.0072.zh

摘要:气温是地面气象站测定的常规要素之一,是反映一个地区气候特征的重要因子。土壤作为地球表层系统的基本组成成分,在储存养分、维持植物生长、涵养水源、稳定和缓冲环境变化等方面发挥着重要作用。土壤与大气之间不断进行着能量和物质交换,气温直接对土壤温度产生影响。中国科学院安塞水土保持综合试验站是中国生态系统研究网络(CERN)生态站和国家野外科学观测研究站之一,该试验站受中温带干旱大陆性季风气候的影响,具有低温、低湿、降水稀少的气候特点,可作为生态环境建设长期监测以及科学研究的试验...

中巴经济走廊专题 top

【中巴经济走廊专题】出版时间:2022年6月30日 第7卷,第2期 8745 50

中巴喀喇昆仑公路沿线滑坡识别编目及特征数据集

苏晓军,孟兴民,张毅,等
关键词: 中巴经济走廊;滑坡数据集;SBAS-InSAR;地表形变;早期识别;发育特征
doi:10.11922/11-6035.csd.2022.0007.zh

摘要:本数据集是基于地表形变速率监测、光学遥感解译、野外实地调查验证进行滑坡识别,综合应用哨兵1号(Sentinel-1A)数据、数字高程模型(DEM)、地质图、地震分布、降水与植被等数据得到的最新中巴喀喇昆仑公路沿线滑坡分布及特征数据集。滑坡编目数据通过地表形变监测与室内遥感解译、野外逐一调查验证、内业修正及属性提取而获得。本数据集中,喀喇昆仑公路沿线滑坡总体分布范围为34.5°N–39.5°N,72.5°E–76.0°E,编目了中巴喀喇昆仑公路两侧十公里缓冲区内762处滑...

其他数据论文 top

【其他数据论文】出版时间:2022年6月30日 第7卷,第2期 13218 247

面向空地应用的红外时敏目标检测跟踪数据集

傅瑞罡,范红旗,朱永锋,等
关键词: 红外时敏目标;地面背景;目标检测;目标跟踪;序列图像
doi:10.11922/11-6035.csd.2021.0085.zh

摘要:本数据集是一个面向红外时敏目标检测跟踪应用,以车辆为探测目标,以地面场景为探测背景的图像序列数据集。本数据集共计21750帧图像,89174个目标,组成了87段视频序列、393段目标轨迹。数据集的每帧图像对应一个标注文件,标注文件标记了图像中每个感兴趣时敏目标的ID号及其位置信息,可为红外时敏目标检测跟踪、红外时敏目标特性等研究提供基础数据。

【其他数据论文】出版时间:2022年6月30日 第7卷,第2期 9588 50

GRACE精密星间重力位差数据集(2002年4月至2016年7月)

钟波,李琼,陈剑利,等
关键词: GRACE;星间重力位差;改进的能量平衡方程;Level-1B数据;地表质量变化
doi:10.11922/11-6035.csd.2022.0010.zh

摘要:GRACE(Gravity Recovery and Climate Experiment)星间重力位差是一种沿卫星轨道的原位观测量,它具有明显的地球物理含义。本研究基于改进的能量平衡方程和移去恢复技术RCR(remove-compute-restore),利用GRACE Level-1B核心载荷数据(KBR星间距离变率、卫星精密轨道、非保守力加速度计和卫星姿态等数据)估计了2002年4月至2016年7月期间的精密星间重力位差数据,并通过数据质量控制手段对估计结果进行了...

【其他数据论文】出版时间:2022年6月29日 第7卷,第2期 6403 29

新疆光伏电站和河北风电场2020–2021年土壤化学元素数据集

庄艳丽,罗立辉,董六文,等
关键词: 风电场;光伏电站;环境影响;土壤;化学元素
doi:10.11922/11-6035.csd.2021.0080.zh

摘要:在能源发展低碳化的背景下,太阳能和风能被誉为可再生的绿色能源。全球光伏电站和风电场在规模和数量上正在快速增加。过去十多年,中国开发了分别约占全球17%和35%的光伏和风电装机容量。然而,大规模的光伏电站和风电场建设和运营对区域生态环境造成的影响如何,成为区域环境保护决策中亟待解决的科学问题。本数据集采用无人机搭载多光谱传感器、X射线荧光光谱仪监测了新疆一光伏电站和河北一大型陆上风电场。数据集包含光伏电站DSM和NDVI数据,风电站风机GPS位置数据,以及这两个研究区的土...

【其他数据论文】出版时间:2022年6月28日 第7卷,第2期 13361 201

基于GPM卫星降雨产品的2001–2019年中国暴雨数据集

柏荷,明義森,刘启航,等
关键词: 暴雨;GPM;中国
doi:10.11922/11-6035.csd.2021.0050.zh

摘要:本数据集是基于全球降雨测量(Global Precipitation Measurement, GPM)数据提取的2001年1月至2019年12月长时间序列暴雨数据集,根据中国气象局对暴雨定义确定提取暴雨阈值,运用基于Python语言开发的暴雨识别工具提取暴雨信息,并整理为覆盖中国地区暴雨数据集,空间分辨率为0.1°×0.1°。本数据集基于长时间序列、高精度、高分辨率卫星降水产品研制,能够全面反映全国范围内极端降雨时空分布特点以及变化特征;可用于暴雨时空特征的预测、防灾...

【其他数据论文】出版时间:2022年6月27日 第7卷,第2期 6810 34

中国区域Landsat-8高温异常点产品

马彩虹,杨进,李信鹏,等
关键词: 高温异常点;Landsat-8;NBRS;中国区域
doi:10.11922/csdata.2021.0005.zh

摘要:高温异常点是一个重要的能反映人类活动对地球影响的指标,广泛应用于农业、林业、工业、生态、全球变化等领域。卫星遥感技术为获取大区域地表异常点信息提供了有效手段。Landsat-8数据短波红外、中红外和热红外波段具有较高的空间分辨率且具有长期数据积累,为高精度高温异常点识别分析研究提供了理想的数据源。基于Landsat-8数据和归一化燃烧指数(NBRS)算法生产了中国区域长时间序列高温异常点产品,并提供了高温热异常数据的经/纬度位置信息、日期、温度、面积、可信度、版本号和本...

【其他数据论文】出版时间:2022年6月9日 第7卷,第2期 4324 30

2000–2020年京津冀城镇建设用地及SDG11.3.1指标数据集

束磊,周美玲,鹿琳琳,等
关键词: 京津冀;建设用地;土地利用效率;SDG11;城市可持续发展
doi:10.11922/11-6035.noda.2021.0014.zh

摘要:京津冀城市群是我国最重要和发展最迅速的城市群之一。通过掌握城市用地和人口的动态变化及二者的关系,合理配置城市土地资源,调整优化城市布局和空间结构,对区域可持续发展具有重要意义。本文基于长时序Landsat影像,利用Google Earth Engine云平台提取了京津冀地区建设用地,将提取结果与GlobeLand30、GHS-Built、GAIA和GLC_FCS-2020四种土地覆盖产品相融合,生成了京津冀2000-2020年五期城乡建设用地数据集(BTH_BU),经验...

【其他数据论文】出版时间:2022年6月8日 第7卷,第2期 5192 49

中国农村地区建筑物样本及标注无人机影像数据集

刘耀辉,杨新月,李嘉禾,等
关键词: 遥感;无人机;中国农村;建筑物;样本及标注;数据集;深度学习
doi:10.11922/noda.2021.0010.zh

摘要:农村建筑物是观察农村土地变化和经济发展的基础资料。中国作为农业大国,从高空间分辨率遥感影像上及时、准确提取农村建筑物,对于农村发展至关重要。近年来,随着计算机视觉和运算能力的迅速发展,深度学习以其自动学习特征、适用性强等优点,已在建筑物自动提取等领域取得较好效果。深度学习通常需要大量的训练数据。目前,深度学习提取建筑物常用的数据集以国际上开源建筑物数据集为主,包括Massachusetts, INRIA, WHU等。这些数据集大多基于国外建筑物,缺乏开源、高精度、覆盖范...

【其他数据论文】出版时间:2022年5月31日 第7卷,第2期 12250 206

四川及周边滑坡泥石流灾害高精度航空影像及解译数据集(2008–2020年)

曾超,曹振宇,苏凤环,等
关键词: 滑坡泥石流灾害;高精度;航空影像及解译数据集;2008–2020年
doi:10.11922/noda.2021.0005.zh

摘要:本文以2008年以来,四川及周边滑坡泥石流灾害0.2–0.9 m高分辨率航空正射影像(DOM)数据为基础,采用目视解译方法,对灾害进行解译和样本标注,制作完成一套精度高的典型滑坡泥石流航空影像及解译数据集。数据集包含107处典型滑坡泥石流灾害影像图片、标注数据和描述文档,涉及地震滑坡、降雨滑坡、沟谷泥石流和坡面泥石流四种类型,空间范围覆盖“5·12”汶川地震、“4·20”芦山地震、“8·8”九寨沟地震等核心灾区,及金沙江和大渡河沿岸区域。明确的数据来源、地质灾害专家的解...

青藏高原雪、冰和环境数据集专题 top

【青藏高原雪、冰和环境数据集专题】出版时间:2022年6月30日 第7卷,第2期 7224 21

2020年青海省冰川边界及长度数据集

薛娇,姚晓军,褚馨德,等
关键词: 冰川;高分;深度学习;青海省
doi:10.11922/11-6035.csd.2021.0082.zh

摘要:青海省(31°39′–39°19′N, 89°35′–103°04′E)地处青藏高原东北部,其境内的昆仑山、唐古拉山、祁连山、阿尔金山和阿尼玛卿山等高海拔山地现代冰川普遍发育。在全球气候变暖背景下,青海省境内冰川呈现退缩态势,及时准确了解冰川规模现状是科学评价冰川变化对气候变化响应规律及合理制订水资源利用政策的基础。本数据集基于2018–2021年GF-1/2/6高分辨率遥感影像和SRTM DEM数字高程模型数据,利用深度学习和冰川中流线自动提取方法制作青海省冰川边界和...

高亚洲冰、雪和环境专题 top

【高亚洲冰、雪和环境专题】出版时间:2022年4月11日 第7卷,第2期 6303 50

基于高程变化及遥感影像的高亚洲地区跃动冰川数据集

吕明阳,郭华东,闫世勇,等
关键词: 高亚洲;跃动冰川;光学遥感影像;数字高程模型;DEM配准
doi:10.11922/11-6035.ncdc.2021.0006.zh

摘要:高亚洲地区包含了青藏高原与相邻的高山高原地区,是地球两极地区以外冰川发育最多的地区。自20世纪末期起,全球变暖致使高亚洲地区的山地冰川消融剧烈,直接诱发了许多冰川相关灾害事件。冰川跃动作为冰川灾害的一种,有着突发性、隐蔽性、难探测性等特点,近来日益受到各国学者的重视。但高亚洲地区跃动冰川的发育特征及分布规律仍是研究空白,亟需相应数据集填补。本团队通过配准及差分覆盖全部高亚洲地区的两批数字高程模型数据,结合其他冰川表面高程变化数据以及从20世纪70年代至今的历史光学遥感影...

Baidu
map