评论与观点 II 区论文(已发表) 版本 ZH2 Vol 9 (1) 2024
下载
数据论文引用计量规律初探——基于中国数据期刊的案例研究
Exploring citation metrics of data papers: case studies based on two Chinese data journals
 >>
: 2023 - 11 - 02
: 2023 - 12 - 25
: 2023 - 11 - 06
: 2024 - 03 - 28
Baidu
map
5089 37 0
摘要&关键词
摘要:数据出版是一种创新数据共享形式。为更好地了解数据出版,本文通过文献综述和案例调研,构建了数据论文计量框架,遴选国内数据期刊《中国科学数据(中英文网络版)》和《全球变化数据学报(中英文)》,揭示两刊数据出版与数据共享情况。统计涵盖两刊论文指标(学科领域、团队规模、资金来源)、数据指标(数据来源、规格与规模、数据曝光)、引证指标(被引、施引、时间)等30余个特征项。结果显示,宏观趋势方面,数据出版成为数据共享的重要途径,并在规范数据质量、汇聚特色主题数据、推进团队合作、争取资金支持等方面具有优势。中观运营层面,国家数据中心为数据出版提供平台保障。微观资源层面,出版数据集兼具学科差异性和跨域共性治理需求。其中,数据曝光、访问引用转化率等指标,为数据可复用性测度提供线索。此外,独立数据出版在我国尚处发展上升期,建议加强数据文化建设、扩展运营模式、提升资源治理能力与平台建设水平,完善技术迭代与激励评价机制等。
关键词:开放数据;数据论文;数据出版;数据重用;数据引用;引用计量
Abstract & Keywords
Abstract: Data publishing provides an innovative model for data sharing. To gain better insights into data publishing, this paper uses a literature review and case studies to build up a citation metrics framework and conducts case studies on two Chinese data journals, Chinese Science Data and the Journal of Global Change Data and Discovery. This paper reveals the status of data publishing and reusability of the linked datasets in the two journals. And over thirty indicators have been analyzed, covering paper indicators (e.g. subjects, team size, and funding sources), data indicators (e.g. data sources, data scale, types, visits, and downloads), citation indicators (e.g. cited, citing, and time metrics), etc. The results unveil that, at the macro level, data publishing has become an important way for data sharing. It effectively promotes open cooperation, together with funding support, high data quality control, and facilitates the sharing of special collections of datasets across domains. Besides, national data centers play a vital role in supporting data publishing. At the micro level, datasets typically have strong associations with subjects but may still share commonalities across domains. Moreover, several indicators may contribute to decoding data reusability, such as combining data visits and downloads, and further links to citations. In addition, independent data publishing is on the rise in China, and we suggest nourishing data culture, diversifying business models, reinforcing data governance, developing robust platforms and technologies, and better incentives and metrics for data sharing in the long run.​
Keywords: open data; data paper; data publishing; data reuse; data citation; citation metrics
Baidu
引 言
开放数据是科研创新的驱动力,是全球开放科学运动[1]的核心要素。在我国,《科学数据管理办法》(2018)[2]、《“十四五”规划和二〇三五年远景目标》(2020)[3]等都鼓励数据开放共享。新修订的《中华人民共和国科学技术进步法》(2021)[4]全文十五处提及“开放”,强调了“建立健全科学技术资源开放共享机制”(第五十四条),推动开放科学(第九十五条),以及公开“科学技术数据”等资源分布和使用情况等内容(第一百零二条)。《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(2022)[5]更进一步强调了数据作为新兴生产要素的基本地位,并将“共享共用”作为推进国家数据基础设施建设的基本原则之一。由此可见,开放数据的重要性已上升至国家层面。为更好地推进开放数据,我们有必要追溯共享数据的多维特征,探索数据共享与重用的紧密关联,探讨数据潜在价值的生长性,确保数据开放工作的长期可持续性。
在众多数据共享模式中,学术出版为开放数据提供了一类途径,它提升了科研数据的可信度,增加了学术造假成本,为更好地重用数据带来可能,在争夺数据资源、推动科学研究等方面[6]发挥重要作用。为此,本文将着重探讨数据论文的引用计量规律,在传统数据集复用指标,如访问量、下载量等的基础上,借用文献计量学拓展框架,深度揭示学术出版中的共享数据特征与趋势,为数据共享工作提供参考。
1   研究概述
1.1   研究进展
所谓数据出版,即以出版形式推进数据开放重用的过程[7],主要包括作为科研附属物的数据出版(如数据附录)、独立数据出版(如数据论文等)以及广义数据出版(即平台数据集发布)三类[8]。早期学术期刊多以科研附属物的形式规范论文数据。随着数据管理技术革新与数据重用需求的膨胀,数据论文为代表的独立数据出版实践日趋流行,如Internet Archaeology(1996)、Earth System Science Data (ESSD,2008)、GBIF(2011)、Pensoft Data Journal(2011)、Nature Scientific Data(2014)、全球变化科学研究数据出版系统(2014)、《中国科学数据(中英文网络版)》(2015)等。依附数据平台的广义数据出版,包括机构存储库PANGAEA(1987;1995)、arXiv(1991)、RePEc(1992)、PubMedCentral(2000)、DRYAD(2008)、FIGSHARE(2011)、ScienceDB(2015)等实践。与此同时,以机构存储库为代表的广义数据出版也常与前两类数据出版形式关联,即为科研期刊、数据期刊论文出版提供关联数据集的共享服务,保障数据实体共享。这些实践中,以数据论文为代表的独立数据出版,支持数据作者发表数据论文和关联数据集来实现数据共享,值得关注。
所谓数据论文,即数据集的描述性文章[9-10],它为面向数据集的引用计量评价[11-12]提供支持,为更好地评估以数据期刊[13]为载体的数据集复用提供了线索。其中,数据论文和数据集的引用计量方面,相关研究包括文献计量学指标体系的沿用[14-18],数据论文全文计量的引用位置[19]、引用语义分析,替代计量学对广泛社会影响力指标的吸收[20-22],还包括聚焦数据集本身特征[23-26]等,详见表1。
表1   数据集、数据论文的引用计量指标案例
作者数据来源学科领域数据量计量框架与指标
陈莉玥等[14]CSCD库全领域15.45万条数据引用记录引用基础特征、引用数据来源、引用元数据要素及数据类型等定性、定量方法;
焦红等[15]NCBI PMC开放获取子集生物医学11.24万篇被提及数据集数量、被引数据集数量、数据提及频次、数据引用频次、单个数据集被引频次、时间特征、数据集最后更新年份-数据集公开年份,引用常规文献、引用数据论文和引用数据库的频次
张琳等[16]PLoS Computation Biology生命科学2182条文献记录学科交叉度TD
赵蕊菡[17]ESSD地球科学178篇数据论文数据论文:被引年代、国别、数据论文对高水平科研成果的影响;
高被引数据论文:自引、引用功能
丁楠等[18]Web of Science DCI数据库人口调查约1.38万条国别、数据发布量、总被引量、数据平均被引次数、h指数
卫军朝等[19]《经济研究》《管理世界》《社会学研究》《政治学研究》《教育研究》经济学、管理学、社会学、政治学,以及教育学911篇研究论文的数据引用行为引用行为:引用位置、引用形式、引用数据类型
数据特征:数据类型(生产形式)、数据来源(国别)、数据作者机构、数据类型(成果形式)、数据来源、数据属性与引用行为相关性等
许鑫等[20]ESSD地球科学489篇数据论文潜在影响力:浏览量、下载量和读者数
学术影响力:总被引频次、H指数和被引对象频次
社会影响力:博客提及量、新闻报道量、推特评论提及量和脸书分享量
翟姗姗等[21]全球变化科学研究数据出版系统地球科学592篇数据论文/104篇施引文献单篇数据论文的学术影响力评价模型:被引对象频次、当年影响因子、下载量三个指标
王雪等[22]中国知网、Genome Research、BMC Genomics、GENE生物信息学1777篇科学数据影响力和质量评价模型,包括:
引用指标 :语种,文献量,数据引用次数,URL,国别,开发者,参考文献类型(总量、URL、功能介绍、第三方文献)
数据影响力 :数据集个数、文献总被引频词、采用数据集的文档频次、文献总下载频次、均被引频词、均下载频次、文献年均被引频词、年均下载频次
Bai等[23]DCI生命科学与生物医学13,153 条数据类型、主题、数据类型/被引率、平均被引次数、高被引数据主题、高被引数据集介绍、数据共享量/数据重用量/基金等的相关性显著度检验等
Hood等[24]单篇样例未提及单篇样例数据指数:作者已发布的数据集数量(n)(作为主要作者或共同作者)有n个或更多数据引用
Park等[25]DCI基因与遗传学30个数据集作者、3725条记录正式与非正式数据引用
Luo等[26]GBIF/CNKI生命科学324篇施引论文:关键词、年发文量、类型
数据:来源、数据引用形式、应用领域
上述调研可知,数据论文引用计量规律的理论支撑仍可沿袭文献计量学、网络计量学、科学计量学与替代计量学的相关方法。进一步调研指出,论文计量学指标,涵盖期刊平台级、论文级和引用级三个层次。综上,笔者将数据引用计量中有代表性的、潜在测度指标汇总为表2。
表2   数据引用计量潜在测度指标[27-38]
计量维度指标分项
期刊学科领域、期刊名称、期刊类别、期刊影响因子、期刊发文量/频次
论文出版题目、出版年份、团队合作(作者数量、机构数量、所属国别/第一作者国别等)、开放获取情况、语种、研究领域、论文类型、论文篇幅、资金来源
内容研究设计/研究类型、摘要、论文主题、技术、询证分级、关键词、全文内容分析
数据数据规模、数据格式、数据来源、数据浏览量、数据下载量
引用被引总引用量、篇均引用、篇均他引、年篇均引、引用密度、h指数、数据指数、引用形式
时间首次被引时长、平均被引时长、首年平均被引(即时指数)、被引半衰期
施引施引文献特征(具体指标参见本表格中“论文”计量指标)、高被引论文的单篇分析
全局引用关系网络、引用位置、引用语义等
从上述分析可知,数据论文的计量评价,既是衡量数据期刊出版水平的标尺,也为我们更好地探寻依附于数据论文的数据集共享情况提供方法。为此,本研究拟选取国内典型的数据期刊,探究其背后的数据复用规律,重点聚焦:(1)数据论文的特征规律;(2)数据论文关联数据集的特征规律;(3)数据论文的引证复用规律。
1.2   数据来源
本文采取国内较早进行独立数据论文出版的创新型期刊《中国科学数据(中英文网络版)》(以下简称《中国科学数据》,CSDATA)和《全球变化数据学报(中英文)》(以下简称《全球变化数据学报》,GCDATA)作为研究数据来源(详见表3)。数据论文详细信息采集于两期刊官方网站,数据论文发表及引证数据采集于中国知网(www.cnki.net)和Web of Science(www.webofscience.com)。全部数据采集时间为2023年6月1日至2023年8月11日。其中,为完整体现数据出版与重用过程,就知网、Web of Science(WoS)、期刊网站著录数据论文信息等合并取交集,最终用于本文研究的《中国科学数据》数据论文样本量481篇,《全球变化数据学报》数据论文样本量358篇。
表3   遴选数据期刊基本情况
所属期刊网站创刊单位正式出版时间发刊频次发文量(篇)
(截至2022年12月31日)
总发文量其中,
数据论文发文量
《中国科学数据(中英文网络版)》
CN11-6035/N
ISSN 2096-2223
http://www.csdata.org/中国科学院计算机网络信息中心2016年6月季刊
线上
510篇481篇
《全球变化数据学报(中英文)》
CN 10-1493/P
ISSN 2096-3645
http://geodoi.ac.cn/中国科学院地理科学与资源研究所、中国地理学会2017年3月季刊
线上/印刷
460篇358篇
1.3   研究方法
数据论文的计量分析,既需要从传统文献计量学指标中寻求规律,又要考量关联数据集的相关特征。基于文献综述相关研究基础,考虑到数据的易获取性、批量数据处理的可行性和研究体量的均衡性,本文遴选文献计量学、网络计量学等有代表性的载文指标,关联数据集的特征描述指标以及引证指标,构建本文的数据论文计量指标框架,如图1所示。考虑到数据论文与数据集的紧密关联,本研究默认数据论文引用反映数据重用情况。


图1   数据论文计量框架
Figure 1 Citation metrics framework for data papers
为支持上述研究,本论文中的数据采集、处理和分析主要使用Python 3.7.6实现,并辅以R 3.6.3和网络分析软件Gephi 0.10.1进行数据可视化。数据指标计算过程重点使用pandas、numpy、re、datetime等Python软件包;数据的可视化分析使用ggplot2和ggsankey等R语言包,辅以matplotlib、seaborn等Python包;数据论文作者合作关系网络分析通过网络可视化软件Gephi的Fruchterman-Reingold算法绘制。样本数据清洗情况详见表4。
表4   数据论文样本
样本数量(篇)CSDATAGCDATA采集说明
数据论文481358截至2022年12月31日,全文中如无特别说明,即为全样本数据集分析。
被引数据论文277(57.59%)152(42.46%)主要用于第2.3节数据引证指标分析,数据来源为中国知网(www.cnki.net)和Web of Science(www.webofscience.com)两刊被引数据之和。
高被引数据论文52(10.81%)19(5.31%)主要用于与全样本进行对比使用,根据实际发文被引量分布情况,暂定义“单篇被引用量≥5次”为相对高被引论文,简称高被引样本。
2   数据论文共享特征分析
2.1   出版基本情况:论文指标
论文指标重点从数据论文研究背景出发,重点刻画所属学科领域、团队合作情况和资金来源等数据共享工作的重要方面。
2.1.1   学科分布
《中国科学数据》发表全领域数据论文,其中,地球科学(61.33%)、生物学(23.28%)是发刊以来推进数据开放最为活跃的方向(见图2)。此外,开放数据主题还包括信息科学、社会科学、空间天文、物理化学、材料科学及其他。《全球变化数据学报》围绕全球变化主题,以地球科学领域实践为主,考虑到所属学科主题的集中性以及期刊平台本身特征,以下默认全部为地球科学领域数据论文,暂未进一步细分。
 
学科篇数占比%
地球科学29561.33%
生物学11223.28%
社会科学214.37%
信息科学204.16%
空间天文153.11%
物理化学71.46%
其他71.46%
材料科学40.83%
总计481100%
图2 《中国科学数据》数据论文学科分布情况
Figure 2 Disciplinary distribution of data papers in China Scientific Data
2.1.2   团队合作
从经验来看,数据集的采集加工与共享重用过程所涉及的技术与领域背景庞杂,需要更多合作支持。统计数据进一步揭示了两刊数据论文的团队合作规模(表5)。《中国科学数据》篇均作者团队规模为5.63人,其中,高被引数据论文篇均作者规模为7.65人;《全球变化数据学报》篇均作者团队规模4.54人,其中,高被引数据论文篇均3.58人。
表5   两刊团队合作规模
期刊全样本高被引样本
Max.Min.Aver.ProportionMax.Min.Aver.
CSDATA4915.6310.81%4427.65
GCDATA3114.545.31%913.58
机构合作网络方面 ,采用Gephi软件绘制数据论文作者所属机构间的合作关系。每个节点代表作者机构,节点颜色区分科研机构所属学科领域,具体由科研机构名称中的关键词加以区分,如包含“生物”“生命”的归为生物学领域,包含“社会”“经济”的归为社会科学领域,以此类推。之后,对自动归类结果辅以人工审核调优。最终形成数据论文合作网络,见图3。其中,节点大小代表每个机构的平均加权度,每条边代表一对合作关系,边的粗细代表两机构合作频次高低。
 
a. CSDATAb. GCDATA
图3 遴选期刊数据论文合作网络
Figure 3 Collaboration network of data papers in selected journals
统计数据显示,数据论文中的跨机构合作日益成为主流。《中国科学数据》和《全球变化数据学报》分别有15.18%和29.33%的数据论文发表来自单一机构。进一步汇总发现,两刊各有5.42%和7.56%(如图3所示)的机构,暂无发表在两刊中的合作数据论文。而两刊合作网络中的活跃机构,包括如中国科学院大学、中国科学院地理科学与资源研究所等。此外,还形成了围绕特定领域主题的高频合作团体。《中国科学数据》围绕热点领域、热点区域进行专题数据论文组稿,例如“中国区域陆地生态系统碳氮水通量及其辅助参数观测专题”、“中国通量观测研究网络(ChinaFLUX)专题”、“中国生态系统研究网络(CERN)专题”等。机构间通力合作推进了数据论文的大批生产,其中围绕科研基础设施“中国生态系统研究网络(CERN)专题”的《2005~2015年CERN光合有效辐射数据集》一文,达到该刊单篇数据论文历史最大合作规模,由20家机构40个观察台站44名研究人员共同署名,关联数据集的署名作者则高达112名。
此外,数据出版团队的组建常与特定主题或特定区域关联。例如,围绕特定团队协作,《中国科学数据》生产了“新疆黑蜂蜂蜜”、“新疆云杉”、“宁夏枸杞”等一批特色数据产品。与之类似,《全球变化地球学报》围绕特色主题(如“地理特色产品”、“生态环境保护与可持续发展”等)、特色生境(“黄土高原”、“青藏高原”、“青海湖流域”)、特定技术团队(如国家基础地理信息中心等单位就“全球地表覆盖30m分辨率遥感制图”的系列合作等)推动了相关主题的数据开放。
2.1.3   资金来源
资金投入是支持数据开放的重要保障。开放数据的全生命周期,如数据的生产、加工、存储、分析、数据出版、数据重用等过程都需要耗费大量物力、人力支持。这里假设,标注基金项目数量越多,获得资金支持渠道越丰富,反之亦然。零基金标注,则视为无直接资金资助的数据论文出版。两刊发表数据论文的资金来源情况见表6。《中国科学数据》刊载数据论文篇均获2.49项基金支持,其中高被引篇章的篇均项目支持达2.73项。《全球变化数据学报》篇均项目支持为2.02项,其中高被引篇章的篇均项目支持达到2.26项。多元化的基金支持,为数据生产与数据价值挖掘提供支撑,释放出推进开放数据共享工作的积极信号。进一步观察可知,高被引样本数据论文倾向获得更多来源的资金支持。
表6   单篇数据论文基金项目数
期刊全样本高被引样本
Max.Min.Aver.ProportionMax.Min.Aver.
CSDATA200
(15, 3.12%)
2.4910.81%512.73
GCDATA80
(16, 4.47%)
2.025.31%60
(1, 5.26%)
2.26
而无基金支持的数据出版方面,《中国科学数据》占比3.12%;《全球变化数据学报》占比4.47%,且其中包含一篇高被引论文,约占全部高被引数据论文的5.26%。进一步调查发现,《中国科学数据》所发表的无基金标注数据论文绝大部分来自专题组稿,如黄土高原水土保持专题、国家科学数据中心联合专刊、“海上丝绸之路”海洋环境与新能源数据集专题、中国生态系统研究网络(CERN)专题、岩石显微图像专题、黄河流域生态保护与高质量发展专题、减灾研究历史数据集专题等。这些数据论文虽未标注基金,但其数据出版主题背后的研究工作受到国家科研计划、数据基础设施等的长期支持得以延续。由此可见,数据共享工作存在多元化运营模式。而在《全球变化数据学报》,无基金支持的数据论文出版中,部分来自《世界地理数据大百科辞条》,还包括如洛阳民俗博物馆、洛阳古代艺术博物馆、洛阳市山陕会馆文物保管所、中国科学院地理科学与资源研究所及其合作单位等。这些研究机构具有数据捕获的先天性良好条件,为促进数据共享带来契机。这也意味着,数据出版载体本身,作为一种激励模式,在推动数据共享方面,悄然发挥着重要作用。
为进一步检验基金项目是否显著影响数据论文被引情况,对两刊分别设置“是否有基金项目支持”哑变量fund,进行单因子方差分析。其中,有基金支持数据论文,设置fund=1,反之则fund=0,利用单因素方差分析来检验哑变量fund对被引频次影响的显著性。结果显示(表7),两刊单因子方差分析的p值均大于\(\alpha \),无法拒绝原假设,故不能认为因子fund显著,即两刊数据论文是否获得基金资助对被引频次无显著影响。
表7   数据论文的基金单因子方差分析
期刊来源平方和自由度F比p值
CSDATA因子fund33.86111.1760.279
误差e13797.951479--
总和T13831.813480--
GCDATA因子fund0.00810.0000.985
误差e8247.780356--
总和T8247.788357--
显著性水平α=0.05
《中国科学数据》各领域发表数据论文的项目资助数平均值均大于1,即表明不同领域数据出版皆获得多源资金支持。其中,生物学领域数据论文所获基金支持最多,达到2.71项/篇,信息科学数据论文篇均基金支持最少,约为1.60项/篇(见图4)。


图4   CSDATA数据论文分领域基金支持情况
Figure 4 Disciplinary funding support for data papers in CSDATA
2.2   共享数据特征:数据指标
区别于研究论文,数据论文的计量分析同时关注关联数据集的基本特征。根据计量数据的可获取性,以下重点聚焦数据来源、数据规格、数据曝光等计量指标。
2.2.1   数据来源
为保障数据的可获取性,每篇数据论文至少对应一个数据集存储地址。如图5所示,根据数据论文DOI或数据服务系统网址定位解析可知,《中国科学数据》关联存储库“科学数据银行ScienceDB”是该刊主要数据存储源。此外,国家级科学数据中心也承担了部分数据存储工作。相关统计显示,地球科学数据集主要存储在科学数据银行、国家冰川冻土沙漠科学数据中心和国家生态科学数据中心等;生物学数据集多集中于科学数据银行、国家农业科学数据中心和国家生态科学数据中心等;信息科学、社会科学、空间天文等领域数据集则主要存储于科学数据银行ScienceDB。此外,ScienceDB也为《全球变化数据学报》提供部分数据存储服务。期刊间的积极互动,在一定程度上展示出数据出版生态建设初露端倪。当然,与《中国科学数据》建立统一标准、允许分散存储的策略不同,《全球变化数据学报》将所出版数据论文极其数据集全部存储于全球变化科学研究数据出版系统。集中化的存储解决方案,为读者提供了一揽子服务,推动数据集和数据论文下载量数据呈现倍增态势。
 
数据集来源频率
科学数据银行SDB82.12%
国家冰川冻土沙漠科学数据中心NCDC8.52%
国家生态科学数据中心NESDC8.32%
国家农业科学数据中心AGRIDATA4.78%
国家空间科学数据中心NSSDC2.70%
国家地球系统科学数据中心GEODADA1.66%
其他来源7.07%
图5 《中国科学数据》数据来源
Figure 5 Sources of data published in China Scientific Data
从数据论文作者的角度出发,《中国科学数据》所提供的灵活化方案,为部分具有较成熟数据生产流程与平台的数据生产者出版数据带来便利。考虑到开放数据进程中隐私、安全、知识产权与商业利益保护等场景的存在,受控数据将与开放数据同样流行,标准化的出版与多渠道数据共享的结合,不失为数据期刊的可持续发展良策。
2.2.2   数据规格
数据论文是数据集的使用指南。其中,《中国科学数据》数据论文的平均篇幅约为10页,每个数据集平均多于一种数据格式,最流行的数据格式为xlsx等。《全球变化数据学报》数据论文平均篇幅约14页,每个数据集平均多于一种数据格式,受地球科学学科属性影响,Shapefile矢量数据居多(详见表8)。显而易见,学科领域影响着数据格式和数据规模。就《中国科学数据》的进一步调查显示,除xls、xlsx等常用办公文档存储格式外,地球科学和生物学领域的图像处理文件格式tif,地球科学和部分社会科学交叉领域的遥感数据矢量数据shp文件,信息科学语料库数据的txt纯文本格式,空间天文数据集的dat文件,物理化学数据集中的mdb数据库文件等,都是与学科或领域软件高度关联的数据存储格式。
表8   遴选期刊数据论文数据集规格
CSDATAGCDATA
数据论文长度(单位:页/篇)10.2513.75
数据集平均规模(单位:GB)335.630.43
数据集所属格式的平均类型数(类)1.361.75
高频格式(按频率由高到低)xlsx, tif, shp, xls, jpgshp, xlsx, tif, kmz, jpg
数据集规模方面(表9),《中国科学数据》空间天文领域出版包括部分TB级规模数据集,如《2011–2017年“银河画卷”巡天数据集》、《2007–2020年中国探月工程VLBI测量数据集》等;地学遥感、测绘数据集最高逾50 TB,平均为375.91 GB;生物学数据集平均规模为71.70 GB;信息科学数据集平均规模为12.77 GB,物理化学、社会科学等学科数据集的数量相对较小,常用记录条数来表征。平均数据规模大致描绘出本刊不同学术领域数据论文的关联数据集平均体量,但各学科内所发表数据集的体量仍然千差万别。
表9   《中国科学数据》数据规模与格式
所属学科数据规模(GB)常见数据格式
Max.Min.Aver.
空间天文20480.00\({1.12×10}^{-3}\)2887.38dat, fit, png
地球科学51200.00\({1.62×10}^{-6}\)375.91xls, xlsx, tif
生物学3809.28\({1.53×10}^{-5}\)71.70xls, xlsx, tif
信息科学200.00\({1.13×10}^{-3}\)12.77txt, xls, xlsx, wav
材料科学20.40\({3.42×10}^{-3}\)5.11xls, xlsx, json
物理化学0.10\({4.20×10}^{-5}\)0.02mdb, xls, xlsx
社会科学0.07\({1.67×10}^{-5}\)0.01xls, xlsx, shp
其他95.00\({1.42×10}^{-4}\)13.58xls, xlsx, tif
2.2.3   数据曝光
发表数据论文的终极目标即通过引用数据论文重用数据集实体。为此,数据论文及其关联数据集的访问量、下载量值得关注。这里认为,数据论文及其关联数据集的浏览和下载是数据重用的必要非充分条件,即高频数据复用需要较高的浏览量和下载量基数支持,而高浏览量和下载量却不一定带来引用形式的数据重用。考虑到计量数据的可获取性,以及两刊数据实际出版特征,这里默认将两刊官网页面上数据论文浏览量、下载量,视同对应数据集的浏览量、下载量,通过统一口径框定两刊系统统计记录。在此基础上,将浏览量和下载量统称为数据曝光,用以概括数据所受到的广泛关注。其中,定义浏览量表征数据曝光热度,即数据的受关注程度;数据下载量表征数据曝光深度,即数据的重用程度。这是因为,相较于知识获取的便利性(以浏览量为代表的受关注度),数据重用往往需经历更长时间的数据清洗与分析。为此,数据集与数据论文的下载,将大大提升数据的重用概率(也即以下载量为代表的重用深度)。两刊数据曝光情况,见表10。
表10   遴选期刊网站数据曝光度
数据期刊数据官网浏览量(次)数据官网下载量(次)平均浏览下载比
最大值Max.最小值Min.平均值Aver.变异系数CV最大值Max.最小值Min.平均值Aver.变异系数CVv/dlg(v/d)
CSDATA338973006914.7189.14%2313169.34198.37%100:12
GCDATA3669019169079.0064.06%1767314645.35284.13%14:11.15
《中国科学数据》网站平均每篇数据论文的浏览下载比为100:1,《全球变化数据学报》网站平均每篇数据论文的浏览下载比为14:1。浏览下载比意味着浏览量在多大程度上可能带来下载行为。为平滑浏览下载比系数,取对数后可知,浏览量和下载量间存在十倍至百倍间的极差。至于两刊间平均浏览下载比系数的显著差异,不排除《全球变化数据学报》的数据论文使用深度更高。当然,该刊采取的数据集中存储策略也发挥了重要作用。例如,《全球变化数据学报》官网采取集中存放数据集的策略,下载数据打散至数据子集粒度,提供按需逐个下载,而非集中打包下载。如需完整了解某一数据集情况,往往需要在单一浏览页面中多次下载。这在一定程度上提升了该刊关联数据集的下载量。可以推断,那些耐心下载全部数据子集的读者,更有可能重用数据集。
两刊数据论文的浏览量和下载量分布如图6所示。其中,《全球变化数据学报》的统计数据更为分散,存在若干远高于前者的异常值。经过直方图、Q-Q图的直观判断以及Kolmogorov-Smirnov检验,两刊浏览量、下载量均不符合正态分布,可采用Spearman相关系数计算相关性。本文按照期刊发表的年份粒度分别计算两刊数据论文浏览量和数据下载量的Spearman相关系数。结果发现,两刊相关系数集中在[0.6,0.8],其中,大部分年份的期刊级浏览量、下载量存在强相关关系。《中国科学数据》数据浏览量、数据下载量整体相关系数为0.815,《全球变化数据学报》为0.565。由于表10所示两刊浏览量、下载量变异系数均大于30%,故两刊浏览量、下载量数据集存在异质性,为此,相关系数比浏览下载比更能够反映两刊浏览量与下载量的转化情况。由此,据前述定义,《中国科学数据》数据论文具有更高的数据曝光深度,《全球变化数据学报》则具有更好的数据曝光热度。
 
年份 RCSDATA RGCDATA
20170.7400.556
20180.4320.674
20190.6700.769
20200.5990.623
20210.7030.699
20220.7820.378
201720220.8150.565
以上相关系数均在α=0.05的水平上显著
图6 两刊官网发表数据论文的浏览量、数据下载量及相关性显著水平
Figure 6 Correlation between pageviews and downloads in data papers
2.3   复用数据特征:引证指标
2.3.1   被引指标
结合中国知网(www.cnki.net)和Web of Science(https://www.webofscience.com/)的引用统计,两刊数据论文的被引情况,如表11所示。其中,《中国科学数据》篇均引用2.15次/篇,篇均他引1.81次/篇,年篇均引0.64次/篇;《全球变化数据学报》篇均引用1.29次/篇,篇均他引1.13次/篇,年篇均引用0.34次/篇。两刊所发表数据集篇均引用均超过一次,这意味着两刊数据论文初步实现数据复用。其中,较高的篇均他引量意味着期刊数据论文在更广泛群体中实现了数据重用。
表11   遴选期刊数据论文引用的载文指标统计
数据期刊数据引用数据访问访问引用比总访问引用比
总引用量篇均引用篇均他引年篇均引总访问量篇均
访问量
v/clg(v/c)vt/ctlg(vt/ct)
CSDATA10322.151.810.6434131777096.003307:13.524488:13.65
GCDATA4621.291.130.3432913679193.767124:13.85
值得关注的是,在数据论文中,自引与他引的解读,较之研究型论文存在差异。笔者认为,他引指标在数据论文和研究论文两类场景中,都具有十分积极的重要作用。但较之研究论文,数据论文对自引现象更为宽容。数据生产者能够优先开放数据并率先重用数据,进一步确保了数据的可靠性和可用性,不失为推动数据共享的重要贡献。此外,考虑到在线阅读等方式的流行,访问量与下载量边界的模糊化,以及访问量可能带来的最大限度曝光,这里遴选访问量作为代表,与引用进行关联分析比较。取对数后可知,两刊数据论文全样本的访问引用比值在3至4之间浮动。由此可知,数据论文的访问引用转化率在千分位至万分位之间,即上万的浏览量将带来一次以上的数据引用。
2.3.2   时间指标
时间指标则刻画出数据论文的时间周期、相对热度,并为预测未来数据集的复用性潜力提供线索。如表12所示,《中国科学数据》首次被引时长平均531.31天,平均被引时长732.52天,被引半衰期为2.26年。值得关注的是,该刊同时存在26篇数据论文首次被引时间不晚于数据论文正式发表当天(即时引用、关联引用)。《全球变化数据学报》首次被引时长平均为665.47天,其中15篇数据论文的首次被引时间不晚于数据论文正式发表当天,平均被引时长为831.22天,被引半衰期为2.52年。两刊比较可知,《中国科学数据》首次被引、平均被引和被引半衰期的时间节点均相对超前,说明其数据重用速率相对较高,同时也经历着较短的半衰周期。当然,囿于样本规模,相关计量指标可待下一个五至十年后进行回顾性校验,进一步校正假设猜想。
表12   数据论文引用的时间指标统计
数据期刊首次被引时长(天)平均被引时长(天)被引半衰期(年)
CSDATA (N=277)531.31732.522.26
GCDATA (N=152)665.47831.222.52
注:仅统计有被引记录的数据论文,下同。
有引用记录的数据论文首年被引次数(又称即时指标)。如图7所示,两刊首年被引次数均值均呈现逐年波动上升态势,其中《中国科学数据》在2021年前后达到近五年峰值,即1.018次/篇,《全球变化数据学报》于同年达到峰值1.077次/篇,两刊波动均值大致水平相当。将时间粒度进一步缩小,可看到两刊数据论文即时指标的实际波峰,分别出现在2020年9月和2021年9月间,分别为1.563和1.375。两刊横向比较可知,《中国科学数据》近三年所发表数据论文热度攀升速度更快,一般在数据论文出版后历经一年左右时间获得首次引用。两刊整体拟合趋势则揭示出两个平台的数据论文受关注程度呈逐年攀升态势。
 
年份首年被引次
CSDATAGCDATA
20170.0630.132
20180.8180.077
20190.3960.481
20201.0000.280
20211.0181.077
20220.9550.700
图7 遴选期刊数据论文首年均被引次数
Figure 7 First-year citation frequency for published data papers
2.3.3   施引指标
两刊载文中,那些引用了数据论文的研究工作本身又有哪些特征呢?以下施引分析重点从施引文献类型、施引文献来源、施引研究团队规模、施引文献的被引情况,数据论文与施引文献的学科领域溯源等角度,来探讨引用视角中的数据可重用性规律。
(1)施引文献类型
遴选期刊数据论文的施引文献类型统计如表13所示。《中国科学数据》中超过99%的施引文献来自期刊和学位(硕士)论文。其中,中文语种占绝大部分,即数据复用多支持国内研究使用。《全球变化数据学报》施引文献总体特征态势趋同。
表13   遴选期刊数据论文施引文献类型统计
施引文献类型CSDATAGCDATA
频次频率频次频率
中文期刊60558.62%24853.68%
硕士论文25624.81%11925.76%
外文期刊12211.82%7816.88%
博士论文434.17%153.24%
国内会议40.39%10.22%
国际会议20.19%10.22%
总计1032100%462100%
表14进一步指出,遴选期刊存在高频施引来源。其中,《中国科学数据》施引文献中有182篇来自本刊,占全部被引文献的17.64%,《生态学报》《遥感学报》等也是其高频施引期刊来源;外文期刊中,Remote Sensing出现频率最高;学位论文中施引文献多来自中国科学院大学。《全球变化数据学报》施引文献来源中,9.74%出自本刊内,另有1.52%来自《中国科学数据》。此外,该刊数据重用还扩展到国内外相关行业领域,如《生态学报》《遥感学报》等,以及外文期刊如Journal of Geographical Sciences,以及学位论文高频来源,如昆明理工大学等。两刊施引文献前十名期刊仅汇聚施引文献总量的不足三成,侧面体现出数据论文及其关联数据集得到广泛的、多元化复用。
表14   两刊数据论文施引文献高频来源前十名
a. CSDATAb. GCDATA
引文类型引文来源施引文献量,占比(N=1032
中文期刊中国科学数据
(中英文网络版)
182(17.64%)
中文期刊生态学报19(1.84%)
中文期刊遥感学报15(1.45%)
外文期刊Remote Sensing14(1.36%)
中文期刊科学观察13(1.26%)
学位论文中国科学院大学13(1.26%)
中文期刊地球信息科学学报9(0.87%)
学位论文西北农林科技大学9(0.87%)
中文期刊冰川冻土9(0.87%)
学位论文中国地质大学
(北京)
9(0.87%)
合计29228.29%
引文类型引文来源施引文献量,占比(N=462
中文期刊全球变化数据学报(中英文)45(9.74%
中文期刊生态学报13(2.81%)
中文期刊遥感学报10(2.16%)
学位论文昆明理工大学7(1.52%)
中文期刊中国科学数据(中英文网络版)7(1.52%
外文期刊J. Geogr. Sci.6(1.30%)
中文期刊地理学报6(1.30%)
中文期刊西北大学6(1.30%)
中文期刊地理研究5(1.08%)
学位论文南京信息工程大学5(1.08%)
合计110(23.81%
(2)施引作者群规模
施引文献作者群特征见表15。其中,《中国科学数据》存在被引记录的数据论文共涉及作者1960人次、1012人,比值约2:1。这些论文的施引文献共涉及作者4071人次、2828人,比值约1.4:1。相对于被引论文作者群体,其施引文献的作者群体新增作者占施引文献作者人数的87.94%。《全球变化数据学报》存在被引记录的数据论文共涉及作者865人次、510人,比值约1.7:1。这些论文的施引文献共涉及作者1711人次、1463人,比值约1.2:1。相对于被引论文作者群体,其施引文献的作者群体中新增作者占施引文献作者人数的89.75%。由此可见,数据论文基于具有广泛的协作基础,两刊积累了大量高产数据论文作者群。规模化递增的研究队伍(他引施引作者群规模),表明数据论文共享激发了更广泛群体的知识传播,推进数据复用与开放合作成为可能。
表15   遴选期刊数据论文及施引文献作者群规模
作者群规模指标CSDATAGCDATA
数据论文作者人数(去重)1012510
数据论文作者人次1960865
施引文献作者人数(去重)28281463
施引文献作者人次40711711
施引文献新增作者数(去重)24871313
他引文献新增作者数人次31731454
(3)数据引用与知识学科扩散
我们进一步探寻引用数据论文带来的多级学科扩散情况。根据施引和被引论文在中图分类号中的首个大类字母归类,遴选期刊数据论文及其施引文献的一级学科关联,见图8。从两刊施引与被引文献间的学科领域关联来看,一级学科关联仍主要集中在学科范畴内。
 
图8 两刊数据论文-施引文献学科分布
Figure 8 Disciplines of data papers and their citing articles
根据知网平台期刊中图分类号进行数据清洗,存在三级引用关联的高被引数据论文带来的知识随学科扩散情况,见图9。多级施引文献桑基图显示,《中国科学数据》数据论文的三级施引文献,学科分布更为广泛,涵盖交通运输、经济、天文学与地球科学、工业技术、农业科学等大类,也即数据论文共享推进了跨领域知识生产与传播。《全球变化数据学报》数据论文聚焦地球科学,其三级施引文献的领域分布,也在一定程度上揭示出数据、知识推动的跨学科扩散态势。
 
图9 两刊高被引数据论文多级施引文献学科扩散情况
Figure 9 Disciplines of highly cited data papers and their multiple-level citing articles
3   趋势特征总结与思考
上述分析管窥蠡测,展示出我国当前以数据出版为载体的数据共享发展态势:
数据出版模式成为推进数据开放的重要途径。 数据出版为开放数据集的高效生产与加速共享,提供了便利化渠道。以地球科学、生命科学等领域为例,活跃的数据论文出版,从一个侧面表征出领域数据生产者、拥有者方巨大的数据共享诉求。以论文形式出版数据,通过科研共同体常用的激励计量形式,激发了数据共享潜力。多元化的团队合作、多源资金支持,为跨领域开放数据实践带来可能。数据论文出版同时为推进数据共享注入生机。例如,数据出版采用传统论文出版的同行评审过程,就数据论文及其数据集开展质量评估,提供全流程规范,为数据共享建立互信机制。依托国家数据基础设施、科学计划、重大科研活动等的特色主题数据出版模式,凭借虹吸效应汇聚多领域机构,建立面向特定地域或空间、特定对象、特定时间等维度的跨领域数据资源。此外,数据论文与施引文献的学科领域扩散,显示出数据出版所推动的多元学科交叉与知识扩散态势。
两刊数据出版从一个侧面展示了我国当前数据出版共享基本情况。 数据显示,开放数据的平台保障方面,科技部认定的国家科学数据中心在推进开放科学数据工作中占据重要角色。数据集特征方面:不同学科领域数据集在数据规模、格式等方面存在惯性差异,如地球科学遥感数据、生命科学、信息科学、物理科学等领域特定数据格式的流行。当然,常用办公软件格式,以及编程语言等的跨领域流行,也反映出各科研领域间数据管理工作的共性诉求和部分数据治理现状。数据引用与可复用性方面:数据曝光热度和深度存在显著性关联,呈现出十至百倍的倍差关系,即上百次访问点击可能带来一次下载行为。虽然随着HTML等技术发展、在线阅览日益流行,数据曝光深度因与深度数据使用密切相连,仍是数据复用的重要指示性测度指标。另一个值得关注的指标,即数据论文的访问引用转化率。本研究显示,两刊访问引用转化率在千分位至万分位之间。此外,数据引用的时间指标呈现出两极化趋势,两刊首次被引平均时长在1.5至2年间,小部分数据论文发表与被引同步。这是由于《中国科学数据》等刊采取了开放透明的出版评审过程,数据在投稿阶段至出版的全生命周期皆可通过期刊平台查询、使用,且数据论文提供了详细的数据质量控制与处理过程,为加速数据复用提振信心。
以论文载体、数据实体与引证指标为一体的三维计量框架,为探索数据可复用性提供了综合性潜力指标体系,为与非数据期刊的对比分析,提供了基准。 本文所采用的论文指标,重点关注共享数据的学科领域、组织特征与资金保障。数据指标则通过探索数据本源特征(如领域数据的来源、数据规格、数据的访问量和下载量等)来回答数据的可用性、友好性、价值潜力等,进而探讨其背后的数据复用潜力。引证指标则从数据论文的引用量、引用时间特征、施引指标特征等维度出发,为刻画重用数据的诸方面特征提供了指南。然而,与传统研究论文出版情况相比,两刊发表数据论文的复用性仍有待提升。以附录、备注、补充说明等形式与研究论文共同出版数据的操作较为常见。在我国,以独立数据论文来出版数据的探索,仍处在发展上升期。
4   未来展望
本文以案例期刊为代表,揭示了国内数据出版创新实践进展。研究聚焦数据论文出版,建立由论文指标、数据特征指标和引证指标组成的计量框架,通过数据论文出版计量指标体系,再现了数据的可复用性潜力。聚焦国内两刊独立数据出版现状,我们欣喜地看到,当前国内开放数据工作获得诸多进展。其中,数据出版在数据密集型领域,如地球科学、生命科学等领域日益活跃,同时也在推进开放数据合作规模扩张、知识的跨学科扩散、数据质量规范化控制等方面具有重要作用。数据指标进一步揭示,国家级数据中心在支持数据出版方面具有贡献。与此同时,数据规模、数据类型等指标具有鲜明的学科差异和共通之处。数据曝光则可与引用指标融合,复现数据开放与复用的关联链条。数据引用指标进一步刻画了出版数据论文及其关联数据集的复用规模、时效和施引文献诸方面特征。
与传统出版相比,笔者认为,独立数据出版作为后起之秀,在我国仍处于发展上升期。在以引用为代表的数据复用规模方面,仍有进步空间。面向未来发展,健壮的数据出版仍需关注以下方面:科研文化氛围方面,继续提升数据资源的学术地位和行业认可度,持续增强数据的可信性、可靠性。社会经济层面,数据出版运营模式需多元化发展,尤其关注开放数据共享与保护数据权益的权衡,开放服务公益化与平衡收支等这些可能制约数据共享的关键方面。资源治理方面,数据论文及其关联数据集的可复用性研究仍需持续关注数据本源,并置身于开放科学与科研共同体背景之中。数据论文及其关联数据集的质量评审过程仍需继续推进规范化、精细化、学科定制化。技术革新方面,完善相关平台的建设发展、技术迭代更新是推进数据出版形式共享数据进而实现高效复用的基础。此外,激励与评价是数据共享工作前进的催化剂。数据引用评价源于传统学术体系又有所不同,亟待建立和科研活动接轨、又能适应自身发展的评价体系与激励机制,并需随应用场景和时间而不断革新。本文依托数据的可获取性,进行了相关计量评价的初步探索。但囿于现有数据规模,数据的引用计量规律探索尚需时间来检验。
数据可用性声明  
本研究所使用的数据来源、处理方法与支撑数据访问链接如下:
数据来源 :《中国科学数据(中英文网络版)》(www.csdata.org)、《全球变化数据学报(中英文)》(http://geodoi.ac.cn/)、中国知网(www.cnki.net)、ISC Web of Science (https://www.webofscience.com/wos/)。详细说明参见本文1.2节内容。
处理方法 :Python 3.7.6,R 3.6.3和网络分析软件Gephi 0.10.1进行相关数据处理。详细说明参见本文第1.3节内容。
支撑数据访问链接 :https://www.scidb.cn/s/6Nf6Rr。
附 录  
1. 篇均引用为总引用量与篇数的商;
2. 篇均他引为总他引量与篇数的商;
3. 年篇均引为单篇年均引用量的平均值;
4. 首次被引时长(天),论文发表后、首篇施引文献与被引文献的出版时间间隔,单位为天。
5. 平均被引时长(天),被引用的数据论文中,施引文献与被引文献的平均出版时间间隔,单位为天。
6. 首年平均被引(次)(即时指数),即被引文献出版后365天内的平均被引次数。
7. 引用半衰期,被引用的该刊论文的时间中位数(通常以年为单位)。在期刊引用报告JCR,只有被引量超过100的期刊才计算该指标。考虑到本研究对象创刊较晚、整体被引量有限的实际情况,为保证统计结果的稳定性,将统计全部年份中,较早一半引用文献的最长时间跨度(天或 年)。
致 谢
本研究获得国家自然科学基金(72104229),中国科学院国际合作局国际伙伴计划(241711KYSB20200023)和中国科学院计算机网络信息中心所级课题(CNIC20220101)资助。
[1]
UNESCO. UNESCO Recommendation on Open Science[R/OL]. (2021). [2022-4-30]. https://en.unesco.org/science-sustainable-future/open-science/recommendation,1-34.
[2]
国务院办公厅.国务院办公厅关于印发科学数据管理办法的通知[EB/OL].(2018-3-17).[2023-11-03]. https://most.gov.cn/xxgk/xinxifenlei/fdzdgknr/fgzc/gfxwj/gfxwj2018/201804/t20180404_139023.html.
[3]
中华人民共和国中央人民政府.中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要[EB/OL].(2013-3-13).[2023-11-3].https://www.gov.cn/xinwen/2021-03/13/content_5592681.htm.
[4]
中华人民共和国科学技术进步法[EB/OL].(2021-12-25).[2023-11-23].https://www.gov.cn/xinwen/2021-12/25/content_5664471.htm.
[5]
中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见[R/OL].(2022-12-19).[2023-11-23]. https://www.gov.cn/zhengce/2022-12/19/content_5732695.htm.
[6]
吴立宗, 南卓铜, 王亮绪. 科学数据出版: 促进数据共享的一种新模式[J]. 中国科技资源导刊, 2014, 46(5): 72–78. DOI: 10.3772/j.issn.1674-1544.2014.05.012. [WU L Z, NAN Z T, WANG L X. Data publishing: a new mode of data sharing [J]. China Science & Technology Resources Review, 2014, 46(5): 72–78. DOI: 10.3772/j.issn.1674-1544.2014.05.012.]
[7]
ASSANTE M, CANDELA L, CASTELLI D, et al. Are scientific data repositories coping with research data publishing? [J]. Data Science Journal, 2016, 15. DOI: 10.5334/dsj-2016-006.
[8]
LAWRENCE B, JONES C, MATTHEWS B, et al. Citation and peer review of data: moving towards formal data publication [J]. International Journal of Digital Curation, 2011, 6(2): 4–37. DOI: 10.2218/ijdc.v6i2.205.
[9]
伏安娜, 张计龙, 殷沈琴. 数据论文国内外发展研究综述[J]. 图书情报工作, 2015, 59(24): 131–138. DOI: 10.13266/j.issn.0252-3116.2015.24.019. [FU A N, ZHANG J L, YIN S Q. Review on the development of the data paper in China and abroad[J]. Library and Information Service, 2015, 59(24): 131–138. DOI: 10.13266/j.issn.0252-3116.2015.24.019.]
[10]
屈宝强, 王凯. 数据论文的出现与发展[J]. 图书与情报, 2015(5): 1–8. DOI: 10.11968/tsyqb.1003-6938.2015099. [QU B Q, WANG K. Emergence and development of the data paper[J]. Library & Information, 2015(5): 1–8. DOI: 10.11968/tsyqb.1003-6938.2015099.]
[11]
ROBINSON-GARCÍA N, JIMÉNEZ-CONTRERAS E, TORRES-SALINAS D. Analyzing data citation practices using the data citation index [J]. Journal of the Association for Information Science and Technology, 2016, 67(12): 2964–2975. DOI: 10.1002/asi.23529.
[12]
WHYTE A, TEDDS J. Making the case for research data management[R]. Edinburgh: Digital Curation Centre, 2011:1-8.
[13]
顾立平, 张晓林, 初景利, 等.开放获取期刊的评价与遴选[M].//《图书情报工作》杂志社. 开放获取的现在与未来[M]. 北京: 海洋出版社, 2014.[Gu L P, Zhang X L, Chu J L, et al. Selection and evaluation of open access journals[M]. Editorial office of Library and Information Service. Current and future open access. Beijing: China Ocean Press, 2014.]
[14]
陈莉玥, 马娜, 刘筱敏.基于中国科学引文数据库的中国科技期刊论文科学数据引用特征研究[J]. 中国科技期刊研究, 2023, 34 (10):1328-1337.[ CHEN L Y, MA N, LIU X M. Scientific data citation characteristics of Chinese scientific journal papers based on Chinese Science Citation Database[J]. Chinese Journal of Scientific and Technical Periodicals, 2023, 34(10), 1328-1337.]
[15]
焦红,杨波,周琪.生物医学领域科学数据集复用特征研究[J].情报理论与实践, 2021, 44(09): 90-96. DOI:10.16353/j.cnki.1000-7490.2021.09.013. [ JIAO H, YANG B, ZHOU Q. Research on characteristics of scientific datasets reuse in the field of biomedicine[J]. Information Studies: Theory & Application, 2021,44(09):90-96. DOI:10.16353/j.cnki.1000-7490.2021.09.013.]
[16]
张琳, 孙蓓蓓, 王贤文, 等. 交叉科学成果影响力研究:使用数据与引用数据视角 [J]. 情报学报, 2020, 39 (05): 469-477.[ZHANG L, SUN B B, Wang X W, et al. The impact of interdisciplinarity: distinct effect on usage and citation[J]. Journal of the China Society for Scientific and Technical Information, 2020, 39 (05): 469-477.]
[17]
赵蕊菡. 科学数据论文的重用现状研究——基于数据期刊“Earth System Science Data”的引文分析 [J]. 情报理论与实践, 2017, 40 (11): 52-57,72. DOI:10.16353/j.cnki.1000-7490.2017.11.010. [ZHAO H R. Research on the status quo of scientific data paper reuse[J]. Information Studies: Theory & Application, 2017, 40(11): 52-57+72. DOI:10.16353/j.cnki.1000-7490.2017.11.010.]
[18]
丁楠,黎娇,李文雨泽,等. 基于引用的科学数据评价研究[J].图书与情报, 2014, (05): 95-99. [Ding N, Li J, Li W, et al. Scientific data evaluation based on data citation[J]. Library & Information, 2014, (05): 95-99.]
[19]
卫军朝,任巧.我国社会科学领域科学数据引用特征分析[J].图书情报工作, 2023, 67(17):65-76. DOI:10.13266/j.issn.0252-3116.2023.17.006. [WEI J C, REN Q. Scientific data's citing characteristics in the fields of social sciences in China[J]. Library and Information Service,2023,67(17):65-76. DOI:10.13266/j.issn.0252-3116.2023.17.006.]
[20]
许鑫, 叶丁菱. 多维影响力融合视域下的数据论文评价研究 [J]. 情报学报, 2022, 41 (03): 275-286.[ XU X, YE D L. Evaluation of data papers from the perspective of multi-dimensional influence fusion[J]. Journal of the China Society for Scientific and Technical Information, 2022, 41 (03): 275-286.]
[21]
翟姗姗, 叶丁菱, 胡畔, 等. 融合Altmetrics与引文分析的数据论文学术影响力评价 [J]. 情报学报, 2020, 39 (07): 710-718.[ ZHAI S S, YE D L, HU P, et al. Evaluation of the Academic impact of data papers fused with Altmetrics and citation analysis [J]. Journal of the China Society for Scientific and Technical Information, 2022, 39(7):710-718.]
[22]
王雪,马胜利,佘曾溧,等. 科学数据的引用行为及其影响力研究 [J]. 情报学报, 2016, 35 (11): 1132-1139.[ Wang X, Ma S, She Z, et al. Research on citation behavior of scientific data and its influence [J]. Journal of the China Society for Scientific and Technical Information, 2016, 35 (11): 1132-1139.]
[23]
BAI Y, DU J. Measuring the impact of health research data in terms of data citations by scientific publications [J]. Scientometrics, 2022 (127): 6881–6893. DOI: 10.1007/s11192-022-04559-4.
[24]
HOOD ASC, SUTHERLAND W J. The data-index: An author-level metric that values impactful data and incentivizes data sharing [J]. Ecology and Evolution, 2021,11(21):14344-14350. DOI: https://doi.org/10.1002/ece3.8126.
[25]
PARK H, YOU S, WOLFRAM D. Informal data citation for data sharing and reuse is more common than formal data citation in biomedical fields [J]. Journal of the Association of Information Science and Technology, 2018, 69(11):1346-1354. DOI:10.1002/asi.24049.
[26]
LUO M, XU Z, HIRSCH T, et al. The use of Global Biodiversity Information Facility (GBIF)-mediated data in publications written in Chinese [J]. Global Ecology and Conservation, 2021, 25, p.e01406.
[27]
KIM E S, YOON D Y, KIM H J, et al. Citation classics in neurointerventional research: a bibliometric analysis of the 100 most cited articles [J]. Journal of Neurointerventional Surgery, 2017, 9(5): 508–511. DOI: 10.1136/neurintsurg-2016-012399.
[28]
O'KELLY F, NASON G J, MCLOUGHLIN L C, et al. A comparative bibliometric analysis of the top 150 cited papers in hypospadiology (1945-2013) [J]. Journal of Pediatric Urology, 2015, 11(2): 85.e1–85.e11. DOI: 10.1016/j.jpurol.2014.11.022.
[29]
NOWROUZI-KIA B, CHIDU C, CARTER L, et al. The top cited articles in occupational therapy: a citation analysis study [J]. Scandinavian Journal of Occupational Therapy, 2018, 25(1): 15–26. DOI: 10.1080/11038128.2017.1342861.
[30]
YANG X L, GU J J, YAN H, et al. The highly-cited Electrocardiogram-related articles in science citation index expanded: characteristics and hotspots [J]. Journal of Electrocardiology, 2014, 47(5): 738–744. DOI: 10.1016/j.jelectrocard.2014.03.005.
[31]
HU K J, MOSES Z B, XU W D, et al. Bibliometric profile of deep brain stimulation [J]. British Journal of Neurosurgery, 2017, 31(5): 587–592. DOI: 10.1080/02688697.2017.1324109.
[32]
DAS J P, AHERNE E, KAVANAGH E. Imaging of the spine: a bibliometric analysis of the 100 most-cited articles [J]. Spine, 2019, 44(22): 1593–1598. DOI: 10.1097/BRS.0000000000003131.
[33]
LI H M, ZHAO X Y, ZHENG P, et al. Classic citations in main primary health care journals: a PRISMA-compliant systematic literature review and bibliometric analysis[J]. Medicine, 2015, 94(49): e2219. DOI: 10.1097/MD.0000000000002219.
[34]
YOON D Y, YUN E J, KU Y J, et al. Citation classics in radiology journals: the 100 top-cited articles, 1945-2012 [J]. AJR American Journal of Roentgenology, 2013, 201(3): 471–481. DOI: 10.2214/AJR.12.10489.
[35]
BELOHLAVEK R. Impact of fuzzy logic: a bibliometric view[J]. International Journal of General Systems, 2022, 51(7): 664-674. DOI: https://doi.org/10.1080/03081079.2022.2063852.
[36]
ALVES A D, Yanasse HH, SOMA NY. An analysis of bibliometric indicators to JCR according to Benford’s law [J]. Scientometrics 107, 1489–1499 (2016). DOI: https://doi.org/10.1007/s11192-016-1908-3.
[37]
ELLILI N O D. Bibliometric analysis and systematic review of environmental, social, and governance disclosure papers: current topics and recommendations for future research [J]. Environmental Research Communications, 2022, 4(9): 092001.DOI:10.1088/2515-7620/ac8b67.
[38]
ZHOU C L, REN Y J, YAN X R, et al. A bibliometric and visualized overview of hydrogen embrittlement from 1997 to 2022 [J]. Energies,2022, 15(23):9218.
Baidu
稿件与作者信息
论文引用格式
张丽丽, 惠嘉怡, 刘瑞霖. 数据论文的引用计量规律初探——基于中国数据期刊的案例研究[J/OL]. 中国科学数据, 2024, 9(1). (2024-03-28). DOI: 10.11922/11-6035.csd.2023.0164.zh.
张丽丽
ZHANG Lili
主要承担工作:提出研究思路,设计研究方案,撰写论文,控制数据质量。
zhll@cnic.cn
高级工程师,研究方向为开放科学与开放数据技术与政策, 信息经济学。
惠嘉怡
HUI Jiayi
主要承担工作:数据清洗,数据分析。
助理工程师,研究方向为开放数据技术分析与数据挖掘。
刘瑞霖
LIU Ruilin
主要承担工作:技术支持,部分代码实现。
研究生,研究方向为机器学习、数据挖掘、区块链。
本研究获得国家自然科学基金(72104229),中国科学院国际合作局国际伙伴计划(241711KYSB20200023)和中国科学院计算机网络信息中心所级课题(CNIC20220101)资助。
Baidu
出版历史
I区发布时间:2023年11月22日 ( 版本ZH1
II区出版时间:2024年3月28日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata
Baidu
map