科学数据发展政策与规划 II 区论文(已发表) 版本 ZH4 Vol 9 (1) 2024
下载
科研人员科学数据元数据功能需求探索
A study on the functional requirements of scientific data metadata from researchers
: 2023 - 11 - 27
: 2024 - 03 - 27
: 2024 - 02 - 05
: 2024 - 03 - 28
Baidu
map
4801 16 0
摘要&关键词
摘要:在数据共享和开放科学建设的背景下,通过科研人员对数据资源的需求,分析科学数据元数据的功能需求,以期为我国科学数据元数据标准建设和完善提供参考。通过半结构化访谈,收集30位科研人员研究过程中的科学数据元数据功能需求,并根据信息行为理论构建科研人员科学数据元数据功能需求模型。研究结果表明,科研人员科学数据元数据功能需求受个体价值感知和学科差异影响明显,并在科学数据的交流和共享过程中体现出来。本文从科研人员需求、信息行为过程和数据生命周期理论3个角度为科学数据元数据建设提出启示和建议。
关键词:科学数据元数据;功能需求;扎根理论;信息行为;信息生命周期
Abstract & Keywords
Abstract: In the context of data sharing and the advancement of open science, this study analyzes the functional requirements of scientific data metadata based on the requirements of scientific researchers for data resources, so as to provide valuable insights for the construction and enhancement of Chinese scientific data metadata standards. We gathered the functional requirements of scientific data metadata from 30 researchers in the research process during semi-structured interviews, and constructed a model for the functional requirements of scientific data metadata based on the information behavior theory. The findings show that the functional requirements of scientific data metadata are significantly affected by individual value perceptions and discipline differences, which can be reflected in the process of scientific data exchange and sharing. This paper provides insights and suggestions for the construction of scientific data metadata from three aspects: demands of researchers, information behavior process and data life cycle theory.
Keywords: scientific data metadata; functional requirements; grounded theory; information behavior; information life cycle
Baidu
受信息技术革新的影响,以数据密集型科学为代表的“第四范式”取代计算科学成为新兴科学研究范式[1],科学数据的重要性进而逐渐显现。国务院办公厅于2018年3月颁布的《科学数据管理办法》[2]规定,政府预算资金资助产生的科学数据应遵循“开放为常态,不开放为例外”的原则,对外提供开放共享。同年,法国政府颁布《国家开放科学计划》以打造开放科学生态体系,英国研究理事会颁布《CRUK数据共享指南》指导数据开放共享具体实践。2020年6月“中国科技云”与欧洲开放科学云(Europe Open Science Cloud, EOSC)启动战略合作[3]。2022年,欧盟为消除成员国之间数据壁垒,发布《欧洲数据战略》,为数据利用制定立法框架。可见国际社会积极推进开放科学合作与科学数据开放共享。在此背景下,作为科学数据组织、存储、管理与一致性交互基础的科学数据元数据逐渐成为研究的焦点问题。科学数据元数据是对科学数据进行描述、组织、解释等工作的元数据,部分学者也称为科学数据元数据,能够提供必要的辅助信息以发现、解释、评估和使用数据,是对科学数据展开描述、组织和出版等工作的重要工具。科学数据元数据标准是科学数据建设的重要基础,元数据标准编写的结构是否合理取决于数据使用利益相关者的需求[4]。元数据元素是元数据标准的基本组成部分,通过元素设置可有效支撑科学数据元数据的功能实现。本文认为,科学数据元数据功能需求是指科研人员在研究学习过程中对具备某种特定功能的科学数据元数据元素的实际需求。科学数据元数据功能需求研究对进一步迎合科研人员研究需求,支撑科学数据发现、访问、复用和解释等环节具有重要意义。
1   相关研究回顾
目前国内外关于科学数据元数据功能需求的研究主要集中在4个方面:分析既有科学数据元数据标准和应用方案所涵盖的功能需求;根据科学数据资源特征及具体实践分析科学数据元数据功能需求;从科研人员及其所从事的科学研究角度出发考察科学数据元数据功能需求;以科学研究和学术交流视角探究科学数据元数据功能需求。
1.1   以既有科学数据元数据标准和应用方案为对象挖掘其功能需求
对既有实践经验的总结可以为后续研究和实践发展提供借鉴,国内外诸多学者着眼于对既有科学数据元数据标准的调查分析,以挖掘其所体现的功能需求特征和存在问题。胡芳[5]从功能目标、元数据元素、元数据方案特点3个维度分析DataCite、GBIF、DataStaR和OTA等4个科学数据仓储的元数据方案,发现其功能目标的共同点都是促进领域内科学数据的共享与利用,并进一步指出我国科学数据仓储元数据方案的制定需要考虑定位功能、现有元数据标准和框架以及从用户需求角度进行元数据方案评估。Craig Willis等[6]选取物理、生命和社会科学等学科领域的9个科学数据元数据方案,结合Greenberg的MODAL模型,对每种科学数据元数据方案的技术要求、用户记录和相关期刊文章进行定量和定性分析,进而揭示抽象性、可扩展性、灵活性、模块性、全面性和充分性等11个支持科学数据共享的科学数据元数据目标。
1.2   从科学数据资源特征及相关实践角度揭示科学数据元数据功能需求
现有研究中,部分学者通过对科学数据的资源特征进行分析,归纳总结相应的元数据功能需求以完善元数据标准。例如,曹代勇[7]指出煤地质数据除具备地学数据的共性外,在内容、来源、获得方式、数据类型、表现形式和采用标准8个方面均具有多样性体征,并结合具体应用目标进一步从内容和功能两方面对煤地质学元数据标准构建方案进行设计。除此之外,部分组织机构在科学数据管理计划具体实践中对科学数据元数据功能需求进行约束。例如,EUL:Digital Library Program Project对日期、字符串与URL、相关资料、标准标识符的输入提出相关功能要求[8]。美国国家航空航天局(National Aeronautics and Space Administration,NASA)《系统功能手册》中相关技术需求定义的元数据功能需求定义列出明确内涵,以保证定义具备完整性、唯一性、易于理解、满足利益相关者需求并具备可行性和可验证性[9]。美国铁山公司(Iron Mountain Incorporated,IRM)明确元数据的最小标签应能够定位、明确数据所有权、明确法律权限、识别已完成的记录、实现和使用数据分析5个功能[10]
1.3   科研人员及其科研活动对科学数据元数据的功能需求
在既有研究中存在以科研人员及其所从事的科学研究需求为出发点,对科学数据元数据功能需求进行考察。例如,储节旺[11]基于基因组学研究人员的元数据功能需求归纳出结构需求、内容需求、关联需求和使用需求4个维度,并提出国内生物医学数据库可以从数据结构优化、数据质量控制、丰富研究条目和分类汇总链接4个方面满足上述需求以提高生物医学数据开放水平。Hong Huang等[12]对156名基因领域科研人员进行功能需求排名调查,发现其功能需求中,可移植性算术平均数最高,其次是可重用性、可操作性、充分性、互操作性和模块化。Felicitas Loffler等[13]通过对生物领域检索系统中用户信息需求及科学数据的分析,并指出环境、材料、有机体、过程和位置5个类别的信息能够更好地满足用户的检索需求。Jihyun Kim等[14]对考古学、定量社会科学和动物学中20个存储库的数据存储需求,指出科学数据存储库需要足够详细、规范、连续的描述性元数据,以满足科研人员对数据重用性和互操作性的需求。
1.4   从科学研究和学术交流体系的宏观视角探究科学数据元数据功能需求
既有研究中,部分科研人员通过对科学研究和学术交流体系进行分析,通过探究科学数据元数据的功能需求,以进一步完善科学数据元数据标准的构建,帮助科研人员科学研究的顺利推进。例如,Ted Habermann[15]从生命周期研究视角对有关项目、收集站点和数据集的元数据进行分析,以证明在整个数据生命周期中创建元数据链接满足访问需求和重用需求的重要性。Will James Gregg等[16]在其探讨元数据交流过程中的问题时指出,以长期保存为目的的存储数据库需要文件清单、文献格式、文件结构、版本信息等元数据元素对数据进行规范,以更好适应科研人员获取需求。
综上所述,当前有关科学数据元数据功能需求的探索多从现有标准、方案、数据特征、科研活动等出发,考虑不同学科的数据功能需求、科研人员实践需求,从不同研究视角或体系进行探究。但是,从学术研究和学术交流体系的宏观视角探索科学数据元数据功能需求的研究较少,本文认为通过分析科研人员研究过程宏观把握其信息行为,能够发现通过科研人员科学数据元数据功能的共同需求。因此,本文以半结构化访谈为数据获取方式,以扎根理论为数据分析方法,以信息行为理论为模型构建依据,开展面向科研人员的科学数据元数据功能需求的探索性研究,以期为科学数据元数据标准的功能元素设计提供参考。
2   研究方法与理论
2.1   扎根理论法
扎根理论是一种质性研究方法,以经验材料为基础,通过自下而上的方式建立实质性理论。将收集到的材料进行开放式编码、主轴编码、选择性编码三个层次的编码构建初步理论,再将其带到原始材料和实际情景中进行理论饱和度检验,以修正和完善建构理论,形成相应的思想和概念[17-18]。由于学科性质及研究特点不同,科研人员对科学数据元数据的功能需求较难使用量化方法得出所需结论,而使用扎根理论则可以针对具体情境下的某一问题进行分析、归纳、总结,进而建立新的理论体系。因此,本研究基于此质性研究方法,利用半结构化访谈、三级编码及模型构建展开研究。
2.2   信息行为理论
信息行为的定义不同研究人员有不同的理解,张国海等认为“信息行为是在动机支配下,用户为了达到某一特定目标的行动过程”[19]。Wilson T D提出“信息行为是指与信息资源和信息渠道有关的人类行为,既包括主动的或被动的信息查询行为和信息利用行为,又包括面对面的与他人的交流”[20]。胡昌平认为“用户的信息行为按过程的不同和活动的区别,可以分为信息需求的认识与表达行为、信息查寻行为、信息交流行为、文献与非文献信息感知行为、信息选择行为、信息吸收行为、信息创造行为等”[21]。综上,本文认为信息行为是人们为了满足在日常生活、学习、工作过程中产生的信息需求而进行的信息查询、信息筛选、信息交流、信息内化、信息利用等一系列连贯的活动。数据是信息的一种表现形式,数据经过整合处理后转化为信息,即信息是数据加工组织的结果。科学数据行为是科研人员在具体研究实践中的典型信息行为,本文将其解释为根据具体研究需求对科学数据进行查询、筛选、交流、内化、利用等一系列连贯的活动。
2.3   信息生命周期理论
信息生命周期依托生命周期理论建立,通常指信息从生成到组织加工直至消亡的全过程,是对信息资源生长变化规律的一种描述。信息资源管理专家霍顿和马钱德提出信息生命周期管理的概念,将其分为信息创建、信息采集、信息组织、信息开发、信息利用、信息清理6个阶段[22],其划分与科研人员具体信息行为存在交叉重合。在信息生命周期理论中,信息的价值会随时间的变化不断递减[23],进而影响生命周期长度。在信息行为理论中,信息行为主体也会受信息价值影响做出不同的行为判断。因此,本文在借助信息行为理论的同时,借鉴信息生命周期理论的相关内容展开研究。
3   研究设计
3.1   受访对象控制
科研人员对于科学数据元数据的功能需求受职称、所在学科、数据获取途径及目的等多方面的影响而体现出差异。为确保访谈资料的全面性和丰富性,需要根据典型性和多样性的准则筛选受访谈对象,以使通过扎根理论得出的研究结论合理性及可信性。因而访谈对象的选择遵循以下原则:①受访对象在学习科研过程中以数据作为辅助工具;②受访对象应当男女比例适中,在所在学科领域、学历等统计特征上具有一定差异性。
在研究过程中共邀请30位受访者参与访谈,为保证访谈内容的全面性和深入性,每次访谈时长大约在45分钟以上,并在征得受访对象同意后全程记录并备份访谈记录,并预留5份访谈材料,用于编码后的理论饱和度检验。访谈对象以在读研究生及教师为主体,访谈对象所属学科涉及管理学、工学、医学、理学、农学等多个学科领域。本次访谈对象的相关统计信息见表1。
表1   受访对象信息统计
项目描述人数(位)
性别15
15
学位硕士11
博士19
职业学生25
教师5
学科理学8
工学9
管理学4
文学2
医学4
农学3
3.2   访谈提纲设计
研究采用半结构化访谈的形式进行原始材料的获取。访谈过程中根据受访对象的表达,利用不同角度的问题调动受访对象参与的积极性和主动性,与此同时,需要对访谈的结构加以控制,使得访谈围绕在访谈主题周围,保证访谈内容不会发生偏移。研究之前拟定访谈提纲,有利于在访谈过程中对受访对象进行灵活提问,访谈提纲见表2。由于不同专业受访者对科学数据元数据、元数据元素功能需求等名词的认识程度不同,提纲设计主要从被调查者的科学数据信息行为入手,侧面了解其对科学数据元数据元素功能的需求。
表2   访谈提纲
0.请问您从事的学科和专业领域是什么?
1.在您从事科学研究中是否涉及科学(研究)数据资源?它的重要性如何?
2.您在学习研究过程中需要什么类型的科学数据资源?
3.您所需要的科学数据资源的形式是什么?
4.您在学习研究过程中获取他人数据的需求是在什么情境下?
5.您获取数据的方式有哪些?
6.查询和获取数据资源时,是否需要数据的基础信息?
7.查询和获取数据资源时,是否需要数据的研究背景和方法类信息?
8.在查询和获取信息时,还有哪些需求?
4   访谈数据分析
对访谈资料进行整理,并进一步依据扎根理论研究流程进行开放式编码、主轴编码和选择性编码3个步骤,并对编码结果进行理论饱和度检验。
4.1   开放式编码
开放式编码又称为开放式登录,是在研究的前期阶段,研究人员通过比较的方式将所有的资料按照其本身所呈现的状态进行登录的过程。即将收集的资料分析并对无结构的语句赋予概念,再通过新的方式重新组合起来,形成更概括性的范畴[24]。本次编码过程得到28个有效概念,9个初始范畴,见表3所示。
表3   开放性编码及范畴化
范畴有效概念初始语句
数据类型调查数据调查数据是一手的最好,最有利于后续的数据整理
观测数据观测数据是可用性比较高的数据,能为后续实验设计提供参考
统计数据研究学习过程中会产生很多的统计数据
计算数据计算数据也很重要,无论是在检索获取过程还是学习研究过程
实验数据需要在实验中得到的,记录实验过程中数据的数据库可以看作为一种实验数据。
数据阶段原始数据原始数据最重要,会影响后续的研究过程
过程数据选取一部分,我会把确定程序的相关过程数据放进去,尤其是和其他不同算法相比的提升
结果数据我认为结果数据是最重要的,因为它最能支撑我论文的观点
数据形式数值数据最有利于学习研究的是数字数据
软件代码有时候是文献里面关联的代码数据,有时候是课题组一起共用的代码
表格数据数据用表格数据表示比较多
文本数据一般都是文本数据表示
数据来源实验数据都是实验过程中自己记录的
文献计量过程的原始数据来源单一,都是在文献数据库中获取
开源数据仓储通过一些数据库、数据仓储或者公开网站获取数据
权利信息生成时间会关注实验时间,因为时间不同数据会存在差异
作者对数据项目感兴趣的时候会关注作者信息
使用权限引用他人研究结果的时候会仔细查看使用权限
数据背景信息数据生成条件生成条件对我研究过程阈值的调整提供参考
数据生成环境数据生成环境有利于实验设置的科学性、科学性提供参考
数据研究信息研究手段不同研究者有不同的研究习惯,通过研究手段可以学习不同的研究思路
研究工具研究工具能够提供学习研究过程中数据验证的渠道
研究方法学习研究方法有利于帮助我拓宽研究的方法
数据获取目的知识积累主要是想做一些学习研究的知识积累
创新启示可以从文献、数据信息中得到创新的观点
学科研究前沿能够从中知道我所学习研究领域的前沿信息
数据再利用方式数据复用一边复现一边学习有利于加深印象
数据引用引用得到的经过验证的数据作为我自己论文科学性的支撑
数据参考会参考相关过程数据做参考,能提高实验过程的效率
4.2   主轴编码
主轴编码又称为关联式登录或者轴心登录,其在开放式编码所得概念范畴的基础上,根据原始访谈材料的文本进一步分析。主要是发现和建立概念之间的相互联系,从初始范畴中找出主范畴,将访谈资料中各个部分之间的逻辑关系表示出来[25]。开放式编码得出的9个有效范畴在本研究中可以视为科学数据元数据元素的几个功能类型,并对其进行分析、归纳,得出9个有效范畴所属的5类支撑作用,分别是数据价值功能、数据描述功能、数据关联功能、数据定位功能和数据重用功能,如表4所示。
表4   主轴编码结果
主范畴初始范畴范畴内涵
价值功能数据获取目的科研人员对科学数据的需求
描述功能数据形式科学数据在数据仓储中的表现形式
数据类型科研人员产生或者需要的数据类型
数据阶段数据在研究过程中所处的阶段
关联功能数据来源科学数据相关溯源信息
数据背景信息科研人员生成数据过程中的外部条件
数据研究信息科研人员生成数据所采取的方式方法
定位功能权利信息科学数据所有权相关信息的描述
重用功能数据再利用方式科研人员获取数据后的内化转换过程
4.2.1   选择性编码
选择性编码又称为核心式登录,通过所有已发现的概念范畴提炼各个主范畴之间的关联关系,建立新的理论。在对主轴编码得到的主范畴进行深入思考与探索的基础上,结合对原始访谈材料的回顾与比较,可以将“科研人员信息行为”确定为本次编码的核心范畴,与其他范畴的关系如表5所示。其中,关系结构意为科学数据元数据元素价值功能对科研人员信息行为的影响。
表5   选择性编码结果
关系结构关系结构内涵
价值功能→科研人员信息行为数据价值功能会直接影响科研人员信息行为
描述功能→科研人员信息行为数据描述功能会直接影响科研人员信息行为
关联功能→科研人员信息行为数据关联功能会直接影响科研人员信息行为
定位功能→科研人员信息行为数据定位功能会直接影响科研人员信息行为
重用功能→科研人员信息行为数据重用功能会直接影响科研人员信息行为
4.2.2   理论饱和度检验
按照本文实验设计,对预留的5名受访者的访谈文本进行三级编码,结果显示预留样本产生的范畴均可以归纳到之前的编码结果中,未出现影响核心类属的新概念和类属,不同重要类属之间也没有产生新的关系结构。一般认为,研究人员即使通过额外数据也不能进一步发展出新的类属特征和关系结构的时候,理论(模型)就达到良好饱和度[26]。因此,可以得出,通过上述编码流程总结的科研人员科学数据功能需求框架在理论上达到饱和。
5   模型构建与研究发现
5.1   模型构建及阐述
鉴于信息是数据加工组织的结果,科学数据行为是科研人员在具体研究实践中的典型信息行为。据此,结合前文科学数据行为内容及扎根理论所得功能需求,构建科研人员科学数据元数据功能需求模型(见图1),以进一步了解科研人员学习研究过程中不同阶段的功能需求。


图1   科研人员科学数据功能需求模型
Figure 1 The model of functional requirements of scientific data from researchers
研究需求是科研人员产生信息行为的直接动力,能够反映出科学数据价值的个体差异性及对具体操作结果的心理预期,是科学数据查询、筛选、交流、共享和利用活动的主要依据。科学数据查询需要科学数据描述功能、定位功能和关联功能的支撑。以都柏林核心元数据(Dublin Core,DC)为例,其Subject、Keywords、Publisher、Contributor、Source、Relation等元素以及与其他元数据的映射关系等可以很好地帮助科研人员对科学数据进行查询。科学数据筛选过程的主要依据是科学数据的价值功能,可以理解为科研人员对所查询结果是否满足自身需求的判断,比如很多元数据标准中的Publish Year、Size、Format、Language、Right等元素,能够为科研人员的价值判断提供依据。科学数据交流过程需要科学数据描述功能、关联功能和价值功能做支撑,尤其是数据描述功能是科研人员交流过程中最主要的需求,如生物学领域Darwin Core利用measurement ID、measurement Remarks、measurement Type、measurement Unit等元素对测量过程进行深入细致的描述,物理科学领域的AVM标准使用Facility元素对实验过程中使用的工具展开描述,这些数据描述在一定程度上能够保证科学数据交流过程的顺利推进。科学数据内化是指将获取的数据理解吸收,作为自己理论知识体系的一部分以更好地指导实践。该过程需要科学数据价值功能、描述功能、关联功能和重用功能的支持,其中科学数据重用是该阶段最主要的功能需求,依据齐夫最小努力原则[27],格式语言等能够满足科研人员科学数据使用需求的科学数据更容易被重用,因此,大多数元数据标准中的Format、Language、Subject、Resource Type等元数据元素是重要的辨别依据。科学数据利用过程是科研人员信息行为的最终过程,是科学数据价值的体现,需要科学数据重用功能、价值功能、描述功能做支撑。该过程也是科研人员科学数据行为的最终目的,是科学数据价值的体现。在数据利用过程中,科研人员可能会出现新的科学数据需求,进一步指导、应用于实践。科研人员的信息行为过程涉及对数据完整性、数据上下文信息以及数据关联信息的描述,生成与保存过程中数据/文件格式的兼容性,检索获取利用过程中数据的定位、选择等。虽然不同学科领域科研人员对于数据的需求不同,但是其行为过程需要科学数据元数据提供数据获取方法和途径,特别是可理解的知识组织语言。
5.2   研究发现
5.2.1   科研人员多从价值角度理解和评判科学数据
受到学科领域研究特点的影响,科研人员对科学数据资源的认知存在明显的个体差异。他们一般站在学科角度,从研究需求出发以一种更为宏观的视角理解科学数据,如社会科学中,历史学、情报学、新闻与传播学等学科领域的科研人员倾向于将文本、图片、音视频等划入科学数据资源之列。与此类似,在自然科学中,计算机科学与技术、电子信息科学与技术、化学等学科领域倾向于将算法、模型、测试数据归入科学数据资源。但无论是社会科学领域还是自然科学领域的科研人员,都会把研究过程中借鉴和参考的他人研究成果及相关内容划分到科学数据资源的范畴中。
虽然科研人员对于科学数据资源的认识和理解存在一定的偏差,但约占86.7%的科研人员明确科学数据资源对其研究工作的重要性,并表示在科学研究过程中没有科学数据资源的支持将寸步难行。其中25号软件工程专业约束优化方向的受访者表示,以他人的研究数据为基础像是站在巨人的肩膀上能看得更远。实际上,科研人员对于科学数据资源的认可程度取决于其对科研人员的有用程度。科研人员从产生数据需求,到检索、获取、利用、公开整个过程中,相较于科学数据资源所涉及的项目、机构、所有者信息等,他们更加注重科学数据资源是否能为自己的科学研究提供新思路、参考信息或者能否支撑自己的科学研究并提高研究的科学性及可行性。化学、计算机科学与技术等学科领域的部分受访者也表示他人研究产生的过程数据对自身的研究过程没有意义,这部分数据即使是原始数据和结果数据,其价值都微乎其微。也就是说他们更注重科学数据资源本身对于自身研究的价值,从个人价值的角度理解、判断科学数据资源的重要性。
5.2.2   科学数据元数据功能需求具有明显的学科差异
虽然科学数据资源贯穿各个领域的研究过程,但是不同领域科研人员对于科学数据资源的需求程度存在较大差异。并不是所有自然科学领域都具有较高的科学数据资源获取需求。如农学、生物学、化学等以实验为主的学科领域,以自身科学研究过程生成的数据为主,对他人研究过程的原始数据和过程数据获取需求较小。但在研究过程的构思和设计阶段会通过相关文献或者成果报告获取和了解他人的科学数据,以提高自身研究过程的可信性和科学性。也并非所有的社会科学领域对科学数据资源的需求都低,但是不同学科领域所需要的科学数据资源形式大相径庭。比如博物馆、人工智能和医学影像等学科研究对图像、音视频以及网络数据资源具有较大需求,经济学、统计学等对数字形式的科学数据资源有显著需求,情报学、历史学等对文本内容形式的数据资源需求较高。
在科学数据资源检索、筛选、获取的过程中,科研人员也表示最终数据是他们的首要选择,有时也存在由最终数据需求转向过程数据、原始数据需求的可能。除此之外,他们非常注重科学数据资源的上下文信息,特别是科学数据生成的条件、工具、环境、方法等信息,受访者在访谈过程中表示科学数据生成的相关信息是数据复用、产生创新启示、深入学习研究过程的重要内容。除此之外,知识产权的相关信息也是科研人员研究学习过程中非常注重的一类信息。比如了解科学数据资源的使用权限和使用条款等约束性信息,以实现有的放矢地选择恰当科学数据支撑自己的研究过程。
5.2.3   科研人员对数据交流共享的态度影响元数据功能需求
不同学科领域科研人员在科学数据资源生成、处理以及相关研究成果发布的过程中,对科学数据的处理存在差异。通常情况下,科研人员只将最终成果写入论文、报告等进行公开发表,或者根据过程数据和原始数据对结果数据的支撑程度进行选择性发布,这也影响到他们元数据元素功能需求。例如,11号计算机专业数据库设计的受访者表示,他会将最优结果放入论文中,即使需要过程数据也是有选择性的,所以对元数据结果数据描述的元素需求更高。05号电化学专业催化方向的受访者表示论文中只会记录最终数据和形成数据的关键步骤及关键阈值设置,其他不会提及,因为原始数据是否存在并不会影响研究进程,所以对工具或阈值信息进行描述的元数据元素需求明显。
访谈中发现不同平台、不同格式以及不同处理方式的异构数据资源给科研人员的数据获取过程造成了一定的阻碍,使得部分研究者与外界进行数据交流共享持保守态度,倾向于研究团体之间、熟人之间进行数据传递,以更有针对性的满足数据需求,这也使科研人员对学科领域内元数据功能元素划分提出更高的要求。除此之外,利用深度学习算法处理图数据做分类预测方向的13号受访者会在文本处理的过程中使用用于识别普适物体的cifar数据集或者其他专业数据集中获取所需数据,但同时也表示由于不同数据集中数据描述标准不一致,会增加额外的负担。
6   启示
总体而言,科研人员的首要信息需求是获取和访问保存在已知位置的已知数据,以保证科学数据的生成者可以重新检查或核实已有的科学研究工作,也可支持运用新的不同的工具和参数对科学数据资源进行重新分析;对于其他科学研究人员,可以获取现有数据,将其技术运用于所获得的数据资源,或者对科学数据资源进行整合;对于独立的科学研究人员而言,也可以获取数据来对其研究结果和结论进行测试和验证。
无论科研人员获取科学数据资源的目的是什么,检索、获取、分析、应用过程都需要科学数据元数据元素的支撑。通过前述研究与分析,可以得出以下几点启示:
6.1   以科研人员需求为导向,设计科学数据元数据的功能框架
科研人员信息行为的具体实践,是设计科学数据元数据至关重要的出发点,也是科研人员认识科学数据元数据及其元素最直接和最有效的方式。科研人员的需求可映射科学数据元数据的功能,因此,科学数据元数据的设计应当满足科研人员科研过程的需要内容和功能框架。例如,在DCAT(Data Catalog Vocabulary)的修订过程中,W3C(World Wide Web Consortium)集结Schema.org数据集社区、RDF Data Shapes工作组、国际化工作组和Web应用安全工作组等,以及W3C的欧盟ISA(International Society of Automation)项目组、RDA(Research Data Alliance)社区及生物医学社区bioCADDIE的元数据工作组等多个领域的元数据工作组,以使DCAT修订版能够更好与地球观测、生命科学、地理信息、数字出版和统计学等学科进行融合[28]。这样多社区、多学科参与的元数据标准构建方式能够满足科研人员不同学科、不同角度的元数据需求,使得元素设置兼顾全面性、简洁性和实用性。
在功能框架下,对科学数据元数据中基于内容特征描述的各元素进行相关语义、语用、语法等多角度关联关系的发现和挖掘,以满足不同知识背景科研人员的跨学科、跨数据库检索、获取需求。除此之外,科学数据资源本身格式丰富,结构差异较大,可以通过元数据元素之间的相等关系、相关关系等做可视化处理,通过两两映射、中间语言映射等方式提高元素之间的互操作性,以帮助科研人员更加便捷、准确地获取所需要的科学数据资源。而对于那些更新速度快、变化频繁的科学数据资源,需要通过科学数据元数据监测实时动态,以便满足科研人员提醒功能的需求。
6.2   兼顾数据获取行为和过程,完善科学数据元数据的元素设计
依据信息行为理论构建的科研人员科学数据功能需求模型,能够反映科研人员在科研学习中科学数据的获取流程。不同学科领域科研人员的知识背景和具体信息获取需求不同,但是数据获取行为过程是大致相似的。科学数据元数据元素的设计应当考虑科研人员环环相扣的数据获取行为过程,通过对不同环节科研人员信息行为进行深度剖析,提高每一个环节元素的细粒度,从不同角度满足科研人员的数据获取需求。数据基本信息、数据背景信息、数据研究信息等三类元素是获取科学数据的关键。除了科研人员多次提及的生成时间、作者、使用权限、数据生成条件、数据生成环境、研究手段、研究工具以及研究方法,还应当设计数据大小、机构名称、项目名称、存储条件等元素帮助科研人员更加快捷、精准地定位科学数据。
除此之外,不同的信息行为对科学数据形式和类型等有不同的需求。因此,科学数据元数据的数据形式元素设计,除考虑原始数据、过程数据、数字数据、软件代码数据、表格数据和文本数据外,还应设置结果数据、音视频数据、地理信息数据、生物信息数据等,尽可能涵盖大多数数据形式。在数据类型上,除调查数据、统计数据、计算数据、实验数据外,还应当进一步设置测绘数据、仿真数据、预测数据等,用以满足部分小众研究方向科研人员的数据获取需求。
6.3   结合生命周期理论,调整科学数据元数据规范和约束
数据生命周期是数据从形成、收集、加工、存储、传播、检索、应用,到数据消失或不再被利用的过程[29]。科研人员的信息行为过程中蕴含着数据生命周期的收集、加工、存储、传播、检索和应用等阶段,科学数据是动态的,信息行为过程中的某一阶段可能存在多个数据生命周期阶段。因此,要对科学数据元数据进行规范和约束,特别是科学数据的所有权信息和授权信息。科研人员在科学数据交流共享之前应当明确相关数据在他人研究过程中的使用权限。数据仓储在接受科研人员上传科学数据的过程中,应当要求科研人员提供联系方式,签订相关科学数据授权责任书,并按照数据仓储中科学数据元数据的格式调整其元数据格式。权威机构、组织和政府在整个数据生命周期过程中应当充分发挥积极的调节作用。例如,通过公告书、倡议书以及相关出版物对科学数据检索、获取、公开等过程中元数据的描述规范和约束进行普及和宣传。必要时,可以通过制定法律法规,对科研人员不同的科学数据操作行为进行规范。
与此同时,对于消失或者不能再被利用的科学数据,数据仓储及相关平台应及时对科学数据中有关使用权限的元素内容进行调整,帮助科研人员顺利开展研究活动。对相关科学数据所有权信息进行销匿,尊重数据所有者的信息隐私权利。而对于那些已经使用这类数据进行研究并公开研究成果的项目,有关单位和部门要对该项目的科学性、合理性及规范性等进行核实。并明确这类数据的引用、操作规范,对与其存在关联关系的科学数据元数据元素之间的互操作性进行限制和约束。以从不同方面保证科研成果在数据生命周期中的可用性和重用性。
7   结语
本文利用扎根理论,在半结构化访谈的基础上,依据信息行为理论构建科研人员科学数据元数据功能需求模型。从科研人员的视角,分析了面向科研人员的科学数据元数据功能需求,发现在数据描述、关联和定位的过程中,涉及对数据完整性、数据上下文信息以及数据关联信息的描述,生成与保存过程中数据/文件格式的兼容性,检索获取利用过程中数据的定位、选择等相关元素的设置十分必要。但是,以上结论是基于探索性研究得出,适用于通用型元数据标准的构建,普遍适用性有待进一步验证加以证实和说明。文章的主要贡献在于,通过自下而上的方式,对科研人员科学数据需求进行访谈并分析,较为实际地构建了科学数据元数据功能需求模型。在更好地理解科研人员科学数据功能需求的同时,为科学数据元数据标准的设计和应用奠定理论基础。
致 谢
本文系2022年山东省社科专项“数字山东愿景下多源数据融合应用的元数据保障”(项目编号:22CSDJ26)研究成果之一。
[1]
邓仲华, 李志芳. 科学研究范式的演化: 大数据时代的科学研究第四范式[J]. 情报资料工作, 2013(4): 19–23. DOI: 10.3969/j.issn.1002-0314.2013.04.004. [ENG Z H, LI Z F. The evolution of scientific research paradigm: the fourth paradigm of scientific research in the era of big data[J]. Information and Documentation Services, 2013(4): 19–23. DOI: 10.3969/j.issn.1002-0314.2013.04.004.]
[2]
国务院办公厅.国务院办公厅关于印发科学数据管理办法的通知[EB/OL] . [2022-08-15] . http://www.gov.cn/zhengce/content/2018-04/02/content_5279272.htm. [General Office of the State Council. Circular of the General Office of the State Council on Printing and Issuing the Measures for the Administration of Scientific Data[EB/OL]. [2022-08-15].http://www.gov.cn/zhengce/content/2018-04/02/content_5279272.htm.]
[3]
中国科技云与欧洲开放科学云启动战略合作[EB/OL] . [2022-08–15]. http://www.bjb.cas.cn/kjhz_gzjz2016/202006/t20200624_5611887.html.[China Science and Technology Cloud and European Open Science Cloud launched strategic cooperation [EB / OL]. [2022-08-15].http://www.bjb.cas.cn / kjhz _ gzjz2016 / 202006 / t20200624 _ 5611887.html.]
[4]
WILKINSON M D, DUMONTIER M, JSBRAND JAN AALBERSBERG I, et al. The FAIR Guiding Principles for scientific data management and stewardship[J]. Scientific Data, 2016, 3: 160018. DOI: 10.1038/sdata.2016.18.
[5]
胡芳. 国外典型科学数据仓储实施的元数据方案及启示[J]. 图书与情报, 2015(1): 117–121. DOI: 10.11968/tsygb.1003-6938.2015021. [HU F. Metadata practice in typical scientific data repositories abroad[J]. Library & Information, 2015(1): 117–121. DOI: 10.11968/tsygb.1003-6938.2015021.]
[6]
WILLIS C, GREENBERG J, WHITE H. Analysis and synthesis of metadata goals for scientific data[J]. Journal of the American Society for Information Science and Technology, 2012, 63(8): 1505–1520. DOI: 10.1002/asi.22683.
[7]
曹代勇, 郝伟. 煤地质学元数据标准化研究[J]. 煤炭学报, 2008, 33(3): 285–288. DOI: 10.3321/j.issn: 0253-9993.2008.03.011. [CAO D Y, HAO W. The research for standardization of coal geology metadata[J]. Journal of China Coal Society, 2008, 33(3): 285–288. DOI: 10.3321/j.issn: 0253-9993.2008.03.011.]
[8]
Metadata/Data Entry Functional Requirements[EB/OL].[2022-09-14].https://wiki.emory.edu/pages/viewpage.action?pageId=119154865.
[9]
Technical Requirements Definition[EB/OL].[2022-09-14].https://www.nasa.gov/seh/4-2-technical-requirements-definition.
[10]
THE FIVE FUNDAMENTAL METADATA REQUIREMENTS EVERY ORGANIZATION SHOULD HAVE[EB/OL].[2022-09-15].https://www.ironmountain.com/resources/generalarticles/t/the-five-fundamental-metadata-requirements-every-organization-should-have?utm_content=geopupup&localize=false.
[11]
储节旺, 林浩炜. 典型生物医学元数据功能比较研究与启示[J]. 现代情报, 2021, 41(1): 4–12, 31. DOI: 10.3969/j.issn.1008-0821.2021.01.001. [CHU J W, LIN H W. Comparative studies and implications of typical biomedical metadata functions[J]. Journal of Modern Information, 2021, 41(1): 4–12, 31. DOI: 10.3969/j.issn.1008-0821.2021.01.001.]
[12]
Hong Huang, Jian Qin. Understanding Metadata Functional Requirements in Genome Curation Work[EB/OL].[2022-09-14]. https://asistdl.onlinelibrary.wiley.com/doi/pdf/10.1002/meet.14505001124.
[13]
LÖFFLER F, WESP V, KÖNIG-RIES B, et al. Dataset search in biodiversity research: do metadata in data repositories reflect scholarly information needs?[J]. PLoS One, 2021, 16(3): e0246099. DOI: 10.1371/journal.pone.0246099.
[14]
KIM J, YAKEL E, FANIEL I. Exposing standardization and consistency issues in repository metadata requirements for data deposition[J]. College & Research Libraries, 2019, 80(6): 843–875. DOI: 10.5860/crl.80.6.843.
[15]
HABERMANN T. Metadata life cycles, use cases and hierarchies[J]. Geosciences, 2018, 8(5): 179. DOI: 10.3390/geosciences8050179.
[16]
GREGG W, ERDMANN C, PAGLIONE L, et al. A literature review of scholarly communications metadata[J]. Research Ideas and Outcomes, 2019, 5. DOI: 10.3897/rio.5.e38698.
[17]
张敏, 龙贝妮, 刘盈, 等. 短视频APP用户持续使用之影响因素探究及其对该领域公共治理之启示[J]. 现代情报, 2020, 40(3): 65–73. DOI: 10.3969/j.issn.1008-0821.2020.03.007. [ZHANG M, LONG B N, LIU Y, et al. Analysis on the influencing factors of short video users' continuance intention and its enlightenment for public administration[J]. Journal of Modern Information, 2020, 40(3): 65–73. DOI: 10.3969/j.issn.1008-0821.2020.03.007.]
[18]
沈玖玖, 王志远, 戴家武, 等. 基于扎根理论的科研数据需求及影响因素分析[J]. 情报杂志, 2019, 38(4): 175–180, 160. DOI: 10.3969/j.issn.1002-1965.2019.04.026. [SHEN J J, WANG Z Y, DAI J W, et al. Analysis of demand and influencing factors of scientific research data based on the grounded theory[J]. Journal of Intelligence, 2019, 38(4): 175–180, 160. DOI: 10.3969/j.issn.1002-1965.2019.04.026.]
[19]
张国海, 张玉玲. 论用户情报行为[J]. 图书情报工作, 1994, 38(1): 14–16, 41. [ZHANG G H, ZHANG Y L. On the information behaviour of users[J]. Library and Information Service, 1994, 38(1): 14–16, 41.]
[20]
WILSON T D. Moudels of information behaviour reserch. [J]. Journal of Documentation, 1999, 55 (3): 249-270.
[21]
胡昌平. 信息服务管理[M]. 北京: 科学出版社, 2003: 140. [HU C P. Management of information service[M]. Beijing: Science Press, 2003: 140.]
[22]
谈天, 钟鹤翔, 陈华. 基于信息生命周期理论的公共信用信息管理层次模型研究[J]. 电子技术与软件工程, 2022(13): 226–229. [TAN T, ZHONG H X, CHEN H. 基于信息生命周期理论的公共信用信息管理层次模型研究[J]. Electronic Technology & Software Engineering, 2022(13): 226–229.]
[23]
吴智兰. 信息弱势下数字原住民信息行为研究: 基于信息生命周期管理理论[J]. 经贸实践, 2018(16): 294. [WU Z L. Research on information behavior of digital aborigines under information weakness—based on information lifecycle management theory[J]. Economic & Trade, 2018(16): 294.]
[24]
GLASER B G, STRAUSS A L, STRUTZEL E. The discovery of grounded theory; strategies for qualitative research[J]. Nursing Research, 1968, 17(4): 364. DOI: 10.1097/00006199-196807000-00014.
[25]
韩正彪, 周鹏. 扎根理论质性研究方法在情报学研究中的应用[J]. 情报理论与实践, 2011, 34(5): 19–23. [HAN Z B, ZHOU P. Application of qualitative research method of grounded theory in information science research[J]. Information Studies: Theory & Application, 2011, 34(5): 19–23.]
[26]
KALLIO H, PIETILÄ A M, JOHNSON M, et al. Systematic methodological review: developing a framework for a qualitative semi-structured interview guide[J]. Journal of Advanced Nursing, 2016, 72(12): 2954–2965. DOI: 10.1111/jan.13031.
[27]
张忠友. 齐夫定律的理论基础及其实践意义[J]. 情报科学, 1989, 7(5): 62–66, 78. [ZHANG Z Y. The theoretical Foudation of Zipf’s Law and its practical Meaning[J]. Information Science, 1989, 7(5): 62–66, 78.]
[28]
Dataset exchange working group charter[EB/OL]. [2022-09-20]. https://www.w3.org/2017/dxwg /charter.
[29]
胡卉, 吴鸣. 嵌入科研工作流与数据生命周期的数据素养能力研究[J]. 图书与情报, 2016(4): 125–137. DOI: 10.11968/tsyqb.1003-6938.2016085. [HU H, WU M. Core competencies of data literacy embedded in research workflow and data lifecycle[J]. Library & Information, 2016(4): 125–137. DOI: 10.11968/tsyqb.1003-6938.2016085.]
Baidu
稿件与作者信息
论文引用格式
邱春艳, 陈可睿. 科研人员科学数据元数据功能需求探索[J/OL]. 中国科学数据, 2024, 9(1). (2024-03-28). DOI: 10.11922/11-6035.csd.2023.0174.zh.
邱春艳
QIU Chunyan
负责修改论文框架,指导论文修改。
(1987—),女,副教授,博士,研究方向为科学数据、元数据。
陈可睿
CHEN Kerui
负责数据收集、分析,撰写和修改论文。
chenkr2017@163.com
(1999—),女,在读研究生,研究方向为科学数据管理。
本文系2022年山东省社科专项“数字山东愿景下多源数据融合应用的元数据保障”(项目编号:22CSDJ26)研究成果之一。
Baidu
出版历史
I区发布时间:2024年2月5日 ( 版本ZH2
II区出版时间:2024年3月28日 ( 版本ZH4
参考文献列表中查看
中国科学数据
csdata
Baidu
map