为进一步加强科学数据管理,保障科学数据安全,提高科学数据开放共享水平
[8],2018年,科技部和财政部共同研究制定了《国家科技资源共享服务平台管理办法》
[28],随后国务院办公厅印发了《科学数据管理办法》
[8](国办发[2018] 17号)。为落实上述两个《办法》,科技部与财政部以“完善科技资源共享服务体系,推动科技资源向社会开放共享”为建设目标,于2019年在原有的国家科技资源共享服务平台基础上进行优化调整,建设了包含高能物理、基因组、对地观测、地球系统、人口健康、农业、林业、气象、海洋等在内的20个国家科学数据中心
[29]。中国科学院为落实国家《科学数据管理办法》,为了进一步加强中国科学院科学数据管理,保障科学数据安全,提高科学数据开放共享水平,于2019年2月印发了《中国科学院科学数据管理与开放共享办法(试行)》
[9],提出了科研项目数据汇交的要求,加强科研论文关联数据汇交管理,明确科学数据开放共享的原则和主体责任,并随之开展了中国科学院科学数据中心体系建设,由1个总中心、18个学科中心和12个所级中心三类组成,实现中国科学院科学数据的常态化、规范化汇聚管理与安全开放共享。2021年,又印发了《中国科学院科学数据中心管理暂行办法》(科发办字[2021]61 号),并发布《中国科学院科学数据工作要点》
[30]。国家相关部门和中国科学院对科学数据管理与共享空前重视。
为保障国家科学数据安全,防止数据流失,把我国的关键科学数据“牢牢掌握在手中”,国家层面针对重大项目制定了系列数据汇交管理办法
[31]。早在2008年,科技部就颁布了《国家重点基础研究发展计划资源环境领域项目数据汇交暂行办法》,启动了“973”计划资源环境领域项目数据汇交工作,实现了已结题的103项“973”计划资源环境领域项目数据汇交清单发布
[32],其中包含湖泊科学相关的项目6项,共汇交数据集285个
[33]。2014年5月,科技部发布了《科技基础性工作专项项目科学数据汇交管理办法(试行)》
[34];截至2019年底,已完成1999–2015年结题验收的科技基础性工作专项项目的数据汇交,共计331项,占所有立项项目的76.1%,对外发布共享的湖泊科学相关的科技基础工作专项项目6项
[35],共汇交64个数据集。2017年5月,科技部印发《国家重点研发计划管理暂行办法》
[36]。2019年12月,科技部办公厅印发《科技计划项目科学数据汇交工作方案(试行)》(国科办基〔2019〕104号),明确了科学数据汇交原则、关联主体与职责、主要内容与流程,加快推进科技计划项目科学数据汇交。中国科学院为进一步优化和完善中国科学院战略性先导科技专项的管理,促进重大成果产出,2022年9月,中国科学院在国家相关法规、办法的基础上,结合先导专项实际情况,印发了《中国科学院战略性先导科技专项科学数据汇交管理实施细则(试行)》(科发规字〔2022〕47号)
[37],指导先导专项有效、保质地完成数据汇交工作,使中国科学院科学数据作为国家战略性资源得以安全保存和利用。
为加强和规范科学数据管理,保障科学数据的安全,防止数据资源流失,中国科学院还将目光投向了期刊论文关联数据。2021年,中国科学院传播局印发《中国科学院科学传播局关于进一步加强和规范论文关联数据管理的通知》(传播字〔2021〕2号);2022年印发《中国科学院科学传播局关于从严监管论文关联数据汇交工作的通知》(传播字〔2022〕3号),从严监管论文关联数据汇交工作,开展院内论文关联数据的汇交工作。此项举措保障了院内科研论文关联数据的汇交共享。
在湖泊科学数据的共享路径与方法上,中国科学院南京地理与湖泊研究所湖泊–流域科学数据中心(以下简称“数据中心”),致力于湖泊科学数据的收集、集成、整编、加工整理与共享。为促进湖泊科学数据的共享,节约项目经费使用,中国科学院南京地理与湖泊研究所制定了研究所内数据购买报销制度。截至目前,此项措施收集积累卫星遥感影像、土地利用、社会经济、水文气象、水质等数据量共81 GB。购买的数据面向所内人员免费开放共享,此项举措节约了科研人员的大量科研经费。此外,数据中心制定了所内自主设立课题数据汇交制度,鼓励研究所自主设立课题的项目数据汇交。数据中心制定了系列的规章制度来保障中心的可持续运行,在共享服务方面,采取数据分级分类共享策略。
数据中心以湖泊–流域科学数据共享平台为依托,整合的数据资源按照数据类型、共享权限等划分等级,依据一定的共享策略提供共享服务,采取相应的服务模式保证服务质量,使共享资源的服务长期稳定运行(图1)。
(1)共享权限分级
湖泊科学共享权限分级形式包括数据密级分级共享、用户积分共享以及数据提供者审核共享三种形式。
①按照数据密级分级共享:划分为秘密数据、次密数据和公开数据。
②按照用户积分共享(主要按照数据的贡献大小来分类):将数据集按照不同专题类型或区域进行划分,分别赋予不同分值,注册用户需具有等同于或大于该数据集的分值才可以下载数据。用户通过平台汇交数据,数据经过审核接收后即可获取积分。按照用户积分高低划分用户共享权限。
③数据提供者审核共享:数据提供者向平台汇交数据,数据申请者在数据共享使用时,需要提出申请,数据提供者同意后,平台可向申请者发放数据,提供共享服务。
(2)服务流程
湖泊科学数据共享的服务流程有以下几种模式:①离线服务共享;②在线服务的数据密级和积分策略共享;③在线服务的数据提供者审批共享。
①离线服务共享:用户离线填写数据使用申请,通过离线的形式邮寄到数据中心,由数据中心服务人员受理,根据用户申请的数据范围和类型来判断分发数据的方式。如果申请的数据是公共类型的数据,则采用离线的方式,通过邮寄等分发给用户;如果该数据的使用需要获取数据拥有者的同意,则由平台服务人员联系数据拥有者,咨询数据拥有者意见,征得同意后,采用离线的方式和用户签署数据保密协议,平台服务人员收到数据申请者签署后的保密协议后,再将数据离线分发给用户;如果数据属于密级数据,则和用户离线签署数据保密协议,按照国家密级数据使用的相关规定,指导用户使用。
②数据密级和积分策略共享:数据用户提出数据使用申请,数据中心收到使用申请后,根据数据的可公开性进行审核,公开共享数据可通过国家地球系统科学数据中心湖泊–流域分中心(http://lake.geodata.cn)或中国科学院南京地理与湖泊研究所科学数据中心(http://lake.data.ac.cn)进行申请获取;若是非公开数据,数据中心判断根据用户积分情况进行审核。
③数据提供者审批共享:对该类共享条件的数据,数据中心将湖泊科学数据的审核权限转交至数据提供者,根据数据提供者的审核意见来提供数据。
通过这3种共享服务方式,保障了密级数据资源的安全、数据提供者的知识产权以及处理权,使数据申请者最大程度获益,同时也激励数据申请者转变为数据提供者,扩大数据资源积累。
(3)质量控制
湖泊科学数据共享数据,遵守“FAIR”原则,即可发现(Findable)、可访问(Accessible)、可互操作(Interoperable)和可重复(Reproducible)。共享数据的质量,采取一体化流程进行质控,贯穿整个数据生命周期。原始数据知识产权归属数据提供者,原始数据质量由数据提供者负责。数据中心在数据发布共享的过程中,数据进行二次校验。第一次由数据中心对数据进行质量校验,发现异常值和数据生产者进行确认;第二次发布数据前邀请业内专家对数据质量把关,对存在问题的数据反馈给数据生产者进行修改校正。共享发布的过程中,数据质量采取“五位一体”的原则,即每个发布的数据集要具有数据说明文档、数据缩略图、元数据、数据样例,以及数据实体。
(4)共享成效
数据中心自2011年至2023年9月以来,通过上述的共享方式与共享流程,面向国内外用户共提供了12941次共享服务(图2),开展典型服务82项,专题服务92项;服务各类科研项目3640项,其中国家重大项目1035项,国家自然科学基金1343项,省部级项目与国际合作项目1262项;支撑发表SCI/EI等各类论文共1788篇,支撑授权软著49项,发明专利37项,共享成效显著。