2023多语种智能信息处理数据集专题 I 区论文(评审中) 版本 ZH2
下载
藏汉跨语言摘要数据集TiCLS
Tibetan Chinese cross language summary dataset TiCLS
 >>
: 2024 - 01 - 20
: 2024 - 05 - 15
: 2024 - 05 - 15
Baidu
map
1144 6 0
摘要&关键词
摘要:跨语言摘要是自然语言处理领域中的重要研究方向,旨在源语言的文本上生成目标语言的摘要,它可以帮助人们更好地理解和传播不同语言之间的信息。近年来,随着深度学习和预训练技术的发展,跨语言摘要任务在高资源语言数据上取得了显著的进展。然而藏文等低资源语言由于可用的数据稀少,藏汉跨语言摘要研究还处于起步阶段。为了推动藏汉跨语言摘要的研究,本文构建了可用于藏汉跨语言摘要生成任务的数据集,共包含2000个样本,格式为json文件。在每个json文件中有2个键,其中text对应藏文源语言新闻内容,summary对应中文目标语言新闻摘要。本文数据爬取自藏文新闻网站,为保证数据质量,在爬取数据时,本文去除了通讯社、图片、视频、图片、视频名称描述、报道记者等无关内容,只留下新闻的正文内容,然后借助现有的较成熟的藏汉翻译工具将藏文源语言新闻摘要翻译成中文目标语言摘要。同时为了进一步提高数据集的质量,本文从摘要的事实一致性、充分性、流畅性等方面对数据集质量进行了评估,经筛选后得到了2000条质量较高的样本。本数据集的发布对推动藏汉跨语言摘要的发展具有重要价值。
关键词:藏汉跨语言摘要;藏文;低资源;数据集
Abstract & Keywords
Abstract: Cross language summarization is an important research direction in the field of natural language processing. It aims to generate abstracts of target language from the source language text. It can help people better understand and disseminate information between different languages. In recent years, with the development of deep learning and pre training techniques, cross language summarization tasks have made significant progress on high resource language data. However, due to the scarcity of data available in low resource languages such as Tibetan, the research on Tibetan Chinese cross language abstracts is still in its infancy. In order to promote the research on Tibetan Chinese cross language summary, this paper constructs a dataset that can be used for Tibetan Chinese cross language summary generation tasks, including 2000 samples in the format of json files. There are two keys in each json file, where text corresponds to news content in Tibetan source language and summary corresponds to news summary in Chinese target language. The data in this article is crawled from China Tibetan Netcom. In order to ensure the data quality, when crawling the data, we remove the news agency, pictures, videos, pictures, video name descriptions, reporters and other irrelevant content, leaving only the body of the news, and then use the existing sophisticated commercial translation tools to translate the Tibetan source language news abstracts into Chinese target language abstracts. At the same time, in order to further improve the quality of the data set, we evaluated the quality of the data set from the aspects of fact consistency, sufficiency, fluency, etc. of the summary, and obtained 2000 high-quality samples after screening. The release of this dataset is of great value in promoting the development of Tibetan Chinese cross language abstracts.
Keywords: Tibetan Chinese cross language summarization; Tibetan; low resources;  dataset
数据库(集)基本信息简介
数据库(集)名称藏汉跨语言摘要数据集TiCLS
数据通信作者闫晓东(yanxd3244@sina.com)
数据作者欧阳新鹏、闫晓东
数据量2.64 MB;2000条藏文-中文跨语言摘要对
数据格式*.json
数据服务系统网址https://doi.org/10.57760/sciencedb.15452
基金项目国家语委重点项目(ZDI145-61);国家自然科学基金项目(61972436);中央民族大学研究生精品示范课程(GRSCP202316、2023QNYL22)。
数据库(集)组成数据集共包括2000个数据文件,格式为json文件。其中每个json文件包含2个键,text对应藏文源语言新闻内容,summary对应中文目标语言摘要。
Dataset Profile
TitleTibetan Chinese Cross Language Summary Dataset TiCLS
Data corresponding authorYAN Xiaodong (yanxd3244@sina.com)
Data authorsOUYANG Xinpeng ,YAN Xiaodong
Data volume2.64 MB; 2000 Tibetan Chinese cross language abstract pairs
Data format*.json
Data service system<https://doi.org/10.57760/sciencedb.15452>
Sources of fundingKey Research Project of the National Language Commission(ZDI145-61); National Nature Science Foundation (61972436); Minzu University of China Foundation (GRSCP202316, 2023QNYL22).
Dataset compositionThe dataset includes 2000 data files in json format. Each json file contains two keys, text corresponds to news content in Tibetan source language, and summary corresponds to summary in Chinese target language.
Baidu
引 言
近年来,互联网信息技术飞速发展,网络上出现了大量新闻文本信息。人们在浏览非母语文本时很难快速获取其主要内容,很多时候还要借助翻译工具阅读大段文字才能了解文章大意,导致浪费大量时间。而跨语言摘要技术能将源语言文本内容生成目标语言摘要,非常适合人们阅读非母语语言文本的场景[1]
与单语言摘要任务相比,跨语言摘要是从源语言文本中提炼出主要信息,用目标语言组合成文本摘要的过程。因此,在生成目标语言摘要时,跨语言摘要任务就比单语言摘要任务就多了一个过程,即机器翻译,所以跨语言摘要的研究难度比单语言摘要更大,针对其的研究在某些方面也更有价值[2]。跨语言摘要需要重点解决的问题是不同语言之间的语法、语句使用等差异,并建立不同语言之间的知识关联以实现不同语言之间的资源共享,使得各种语言的信息能生成便于读者阅读的母语信息。跨语言摘要的意义在全球化的背景下日益凸显,已成为文本摘要领域的重要研究方向之一。
最初关于跨语言摘要的研究都是基于管道式(pipline)的方法,其主要思想就是将跨语言摘要任务分为机器翻译和单语言摘要两个子任务,根据两个子任务之间进行的先后顺序可以分为先摘要后翻译和先翻译后摘要。随着深度学习技术的发展以及预训练技术的出现[3],目前的研究大多集中在基于端到端的方法,这种方法可以直接从源语言文本中提取出主要信息生成目标语言摘要,而不再是分为两个过程。
然而,目前对跨语言摘要的研究主要集中在英文、中文、德语等高资源语言上,其在藏文等低资源语言上的研究较少甚至没有[4]。在高资源语言跨语言摘要研究上目前已有许多开源大规模数据集,比如用于中英跨语言摘要任务的En2ZhSum和Zh2EnSum数据集,其是由zhu等人[5]采用基于翻译的转换法和RTT策略构建的CLS数据集,最终得到的En2ZhSum包含370759条样本,Zh2EnSum包含1699713条样本;用于英德跨语言摘要任务的En2DeSum数据集,其是由Bai[6]等人采用基于翻译的转换法,通过机器翻译模型WMT19 English-German Winner将英文语料Gigaword翻译为德语而得到的英-德CLS数据集;ClidSum数据集是Wang[7]等人采用基于翻译的转换法,分别将SAMSum数据集和MediaSum数据集的英文摘要人工翻译为汉语、德语而得到的CLDS(跨语言对话摘要)数据集;WikiLingua4是由Ladhak等人[8]采用收集法从WikiHow网站获得的多语种CLS数据集,包含了18种语言。而藏文目前没有开源可用的跨语言摘要数据集,这在一定程度上阻碍了藏文信息处理的发展。
为了填补这一空白,本文借助较成熟的藏汉翻译工具翻译得到中文目标语言摘要,并从摘要内容的事实一致性、充分性、流畅性等方面对翻译得到的摘要进行质量把控,构建了一个可用于藏汉跨语言摘要任务的高质量数据集。
表1   跨语言摘要数据集概况
数据集构建方法规模适用任务
Zh2EnSum基于翻译的转换法1.7 M中文-英文跨语言摘要
En2ZhSum基于翻译的转换法371k英文-中文跨语言摘要
En2DeSum基于翻译的转换法438k英文-德语跨语言摘要
ClidSum基于翻译的转换法56k英文-中文/德语跨语言摘要
WikiLingua基于人工收集的方法18k多语种跨语言摘要
TiCLS翻译转换+人工校正2000藏文-中文跨语言摘要
1   数据采集和处理方法
1.1   数据采集
本文编写爬虫程序从多个藏文新闻网站进行数据的爬取,获得藏文单语言摘要原始数据。在爬取数据的过程中,本文首先对数据进行了一定的降噪预处理。对于网站上的每篇新闻,只保留新闻的正文内容和标题,去除了新闻中的通讯社、报道记者、图片、视频以及相应的描述等无关内容,得到了较为干净的文本。在新闻摘要标签构建方面,本文将新闻标题作为新闻内容的摘要。在构建数据集的过程中,发现有些新闻的标题为了吸引读者,激发读者的阅读兴趣,往往会采用一些修饰手法,标题与新闻内容毫无关联,存在类似于“标题党”的行为,如表2所示的一个例子。这类数据的质量较差,标题无法准确、全面、真实地概括新闻内容,无法向读者提供关键、有用的信息。为了保证数据集的质量,本文在第3节中从摘要的事实一致性、充分性、流畅性等方面对数据集的质量进行了人为控制和质量评估,过滤掉质量不符合要求的样本。
表2   新闻标题与新闻内容样例
新闻内容:2023ལོར་སླེབས་པའི་ཚུན། བོད་རང་སྐྱོང་ལྗོངས་གྱིས་ས་གནས་སུ་ཡུལ་སྐོར་བྱེད་པའི་གཟིགས་སྐྱོང་བྱེད་ཐབས་དང་། ལྗོངས་ནང་ཁུལ་གྱི་ཡུལ་སྐོར་འཛད་སྤྱོད་ཤོག་བྱང་སོགས་སྤྲད་དེ་ཡུལ་སྐོར་གྱིས་འཛད་སྤྱོད་ལ་སྐུལ་འདེད་བྱེད་པའི་སྲིད་ཇུས12བཏོན། གཞན་ཡང་རྒྱལ་ཁབ་ཀྱི་གཞུང་ལམG219གསར་བརྗེ་རྗེས་ཤུལ་སོགས་ཀྱི་ཡུལ་སྐོར་ལམ་ཐིག་མང་པོ་བཏོད་པས་ཡུལ་སྐོར་པ་སྔར་ལས་མང་བ་བོད་ལྗོངས་སུ་བསྐྱོད་པར་བཀུགས་ནས་བོད་ལྗོངས་ཀྱི་ཡུལ་སྐོར་ཁྲོམ་ར་རྒྱུན་མཐུད་ངང་འཕེལ་རྒྱས་ལེགས་པོ་བྱུང་བར་སྐུལ་འདེད་བཏང་། ད་ལོའི་ཟླ1པོ་ནས་ཟླ7པར་བོད་ལྗོངས་ཡོངས་ཀྱིས་བསྡོམས་པས་རྒྱལ་ཁབ་ཕྱི་ནང་གི་ཡུལ་སྐོར་པ་མི་ཐེངས་ཁྲི3634.76སྣེ་ལེན་བྱས་ཏེ་ལོ་འཁོར་འཆར་གཞིའི93.2%ལེགས་འགྲུབ་བྱུང་ལ། ཡུལ་སྐོར་སྤྱིའི་ཡོང་འབབ་སྒོར་དུང་ཕྱུར439.03ཟིན་ནས་ལོ་འཁོར་འཆར་གཞིའི86.09%ལེགས་འགྲུབ་བྱུང་། །
对应中文:2023年以来,西藏自治区为地方发放旅游优惠措施、区内旅游消费券等12项促进旅游消费的政策,此外还推出了国家公路G219革命遗址等,吸引更多游客进藏,推动西藏旅游市场持续向好发展,今年1月至7月,全区共接待国内外游客364.76万人次,完成年度计划93.2%,实现旅游总收入439.03亿元,完成年度计划的86.09%。
新闻标题:ཇོ་མོ་གླང་མའི་མཛེས་ལྗོངས་རོལ་མྱོང་བྱེད་པ།
对应中文:欣赏珠峰美景
1.2   数据处理
在爬取获得藏文单语言摘要原始数据后,我们借助目前较为成熟且广泛使用的藏汉翻译工具,将藏文源语言摘要输入到翻译工具中得到中文目标语言摘要。
2   数据样本描述
TiCLS数据集共包含2000个json文件,每个json文件中包含两个键,其中text对应藏文源语言文本,summary对应中文目标语言摘要。数据样例如表3所示。
表3   藏汉跨语言摘要数据样例
藏文源语言文本(text):ཟླ3པའི་ཚེས19ཉིན།དབྱི་རན་ཙུང་ཐུང་གཞུང་ལས་ཁང་གི་ཆབ་སྲིད་ལས་དོན་ཐད་འགན་འཁུར་བའི་ཀྲུའུ་རེན་གཞོན་པ་མུའུ་ཧན་མཱོ་ཏུ·ཅ་མུའུ་ཞི་ཏི་ཡིས་བཤད་པ་ལྟར་ན། བྱི་རན་གྱི་ཙུང་ཐུང་ལའེ་ཞི་ལ་སོ་ཏི་ཨ་རབ་ཀྱི་རྒྱལ་པོ་སཱ་ལུ་མན་གྱིས་སོ་ཏི་ཨ་རབ་ལ་འཚམས་འདྲི་ཕེབས་རྒྱུའི་གདན་ཞུ་འཕྲིན་ཡིག་འབྱོར་བ་རེད།ཅ་མུའུ་ཞི་ཏི་ཡིས་སྤྱི་འབྲེལ་སྨྱན་བྱསྟང་སྤེལ་བའི་གནས་ཚུལ་ལྟར་ན། སཱ་ལུ་མན་གྱིས་འཕྲིན་ཡིག་ནང“སྤུན་ཟླ་ལྟ་བུའི་རྒྱལ་ཁབ་གཉིསཀྱི་ཕྱི་འབྲེལ་སླར་གསོ་བྱུང་བར་འཐད་པ་བྱུང་ཞིང་ལའེ་ཞི་ལི་ཡ་ཏེར་འཚམས་འདྲི་ཕེབས་པར་དགའ་བསུ་ཞུ་རྒྱུ་མ་ཟད།རྒྱལ་ཁབ་གཉིས་བར་དཔལ་བྱོར་དང་ས་ཁུལ་གྱི་མཉམ་ལས་ལ་ཤུགས་སྣོན་པར་རེ་འབོད་བྱས་ཡོད་ཟེར།ལའེ་ཞི་ཡིས་སོ་ཏི་ཨ་རབ་ཀྱི་རྒྱལ་པོ་སཱ་ལུ་མན་གྱིས་གདན་འདྲེན་ཞུས་པར་དགའ་བསུ་དང་དབྱི་རན་གྱིས་སོ་ཏི་ཨ་རབ་བར་གྱི་འབྲེལ་བ་ཇེ་དམ་དུ་གཏོང་རྒྱུའི་ཐད་གྲ་སྒྲིག་ཡག་པོ་བྱས་ཡོད་ཅེས་ནན་གྱིས་བསྟན།ཀྲུང་གོ་ཕྱོགས་ཀྱི་རྒྱབ་སྐྱོར་འོག་སོ་ཏི་ཨ་རབ་དང་དབྱི་རན་གཉིས་ཟླ3པའི་ཚེས6ནཚེས10བར་པེ་ཅིན་དུ་གྲོས་མོལ་གནང་བ་རེད།ཚེས10ཉིན་སོ་ཏི་ཨ་རབ་དང་དབྱི་རན་གཉིས་ཀྱིས་པེ་ཅིན་གྲོས་མཐུན་བཞག་ཅིང་།ཀྲུང་གོ་དང་སོ་ཏི་ཨ་རབ།དབྱི་རན་བཅས་ཕྱོགས་གསུམ་ཀྱིས་མིང་རྟགས་བཀོད་ནས་མཉམ་འབྲེལ་སལ་བསྒྲགས་སྤེལ་ཏེ།སོ་ཏི་ཨ་རབ་དང་དབྱི་རན་གཉིས་ཕྱི་འབྲེལ་སླར་གསོ་བྱེད་པར་མོས་མཐུན་བྱུང་བ་ཁྱབ་བསྒྲགས་བྱས་པ་མ་ཟད།ཕྱོགས་གསུམ་པོས་ཐུན་མོང་ཐོག་འབད་བརྩོན་བྱས་ནས་རྒྱལ་སྤྱིའི་འབྲེལཞ་རྩའི་ཚད་གཞིར་སྲུང་སྐྱོང་དང་། རྒྱལ་སྤྱིའི་ས་ཁུལ་གྱི་ཞི་བདེ་དང་བདེ་འཇགས་ལ་སྐུལ་འདེད་གཏོང་དགོས་ཞེས་ནན་བཤད་བྱས། །
对应中文:3月19日,负责伊朗总统办公室政治事务的副主任穆罕默德•加姆西迪日前表示,伊朗总统莱希收到沙特阿拉伯国王沙鲁曼访沙的来信。根据加姆西德在社交媒体上发表的消息,萨勒曼在信中同意恢复“兄弟两国”外交,欢迎莱西里亚德访问,并呼吁两国加强经济与地区合作。莱希受到沙特国王萨鲁曼的邀请,并强调伊朗为加强沙特关系做好准备,并强调中方支持下,沙特与伊朗两国于3月6日至10日在北京举行会谈。沙特阿拉伯和伊朗两国10日就加强经济与地区合作发出邀请。莱希受到沙特国王萨鲁曼的邀请,并强调伊朗为恢复与沙俄关系作好准备。
藏文源语言摘要:དབྱི་རན་ཙུང་ཐུང་གཞུང་ལས་ཁང་གིས་དབྱི་རན་གྱི་ཙུང་ཐུང་ལ་སོ་ཏི་ཨ་རབ་དུ་འཚམས་འདྲི་ཕེབས་རྒྱུའི་གདན་ཞུ་འཕྲིན་ཡིག་འབྱོར་བར་བཤད།
中文目标语言摘要(summary):伊朗总统办公室称伊朗总统收到了访问沙特阿拉伯的邀请
3   数据质量控制和评估
在采集原始数据的过程中,我们首先对数据进行了一些预处理,得到较为干净的原始语料。在将原始数据的藏文摘要输入到翻译工具中进行翻译得到中文摘要的过程中,尽管我们使用的是目前藏汉翻译表现良好的翻译工具,但得到的部分中文摘要仍然会存在违背文本内容事实一致性、充分性,流畅性的问题。因此,我们邀请了5位藏族同学对翻译得到的摘要进行打分评估,评估翻译生成摘要的事实一致性、充分性、流畅性[9]。其中事实一致性是指翻译摘要是否只包含新闻内容的主要信息,是否添加或者扭曲事实信息;充分性是指翻译摘要是否完整传达了新闻的主要内容,是否存在重要信息的丢失;流畅性是指翻译摘要是否存在语法问题,句子读起来是否通顺流利[10]。为此,我们制定了相应的打分规则,总分为10,并设置符合质量要求的摘要得分阈值为8,将得分低于8分的摘要进行人工校正和改写,得分过低的则进行舍弃,最终得到了2000条质量较高的藏文-中文跨语言摘要数据集。
表4   评估打分规则表
评估指标不符合较为符合符合非常符合
事实一致性0-13-45-68-10
充分性0-13-45-68-10
流畅性1-24-56-78-10
4   数据价值
跨语言摘要是自然语言处理领域的一项特别重要的任务,其应用领域众多,实际应用价值巨大,目前受到了广泛的关注。随着互联网的发展与深度学习技术的出现,使得跨语言摘要这项任务得到了越来越多学者的研究。目前主流的跨语言摘要方法可以得到较好的目标语言摘要,但是也存在数据集缺失的问题,特别是在藏文等低资源语言领域[11],数据集是制约其发展的一大阻力[12]。为推动藏汉跨语言摘要的研究,本文构建了一个质量较高的藏汉跨语言摘要数据集。原始数据来源于藏文新闻网站,在借助翻译工具得到中文摘要后还对数据集的质量从事实一致性、充分性、流畅性三方面进行了评估,进一步提高了数据集的质量。因此,本数据集的发布对促进藏汉跨语言摘要的研究与发展具有重要价值。本数据集可以用于藏汉跨语言摘要模型的训练,测试、用于评价模型的跨语言摘要生成能力,具有较高的研究和应用价值。
[1]
潘航宇, 席耀一, 陈宇飞, 等. 跨语言摘要研究综述[J]. 小型微型计算机系统, 2023, 44(08): 1616-1628. DOI: 10.20009/j.cnki.21-1106/TP.2022-0752. [PAN H Y, XI Y Y, CHEN Y F, et al. A survey of cross language summarization[J]. Mini-Micro Systems, 2023, 44(08): 1616-1628. DOI: 10.20009/j.cnki.21-1106/TP.2022-0752.]
[2]
郑博飞, 云静, 刘利民, 等. 跨语言摘要方法研究综述[J]. 计算机工程与应用, 2023, 59(13): 49-60. [ZHENG B F, YUN J, LIU L M, et al. A survey of cross language summarization methods[J]. Computer Engineering and Application, 2023, 59(13): 49-60.]
[3]
万小军. 智能文本生成: 进展与挑战[J].大数据, 2023, 9(02): 99-109. [WAN X J. Intelligent text generation: progress and challenges[J]. Big data, 2023, 9(02): 99-109.]
[4]
闫晓东, 王羿钦, 黄硕, 等. 藏文文本摘要数据集[J/OL]. 中国科学数据, 2022, 7(2). (2022-06-27). DOI: 10.11922/11-6035.csd.2021.0098.zh.[YAN X D,WANG Y Q,HUANG S, et al. Tibetan text summary dataset[J/OL]. China Scientific Data, 2022, 7(2). (2022-06-27). DOI: 10.11922/11-6035.csd.2021.0098.zh.]
[5]
ZHU J N, WANG Q, WANG Y N, et al.NCLS: Neural cross-lingual summarization[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Pro-cessing and the 9th International Joint Conference on Natu-ral Language Processing (EMNLP-IJCNLP), Hong Kong, China, 2019: 3054–3064.
[6]
BAI Y, GAO Y, HUANG H Y. Cross-lingual abstractive summarization with limited parallel resources [C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (ACL-IJCNLP), Bangkok, Thailand,2021:6910-6924.
[7]
WANG J A, MENG F D, LU Z Y, et al. ClidSum: A benchmark dataset for cross-lingual dialogue summarization [J].arXiv preprint arXiv:2202.05599v1,2022.
[8]
LADHAK F, DURMUS E, CARDIE C, et al. WikiLingua: a new benchmark dataset for cross-lingual abstractive summarization[C]//Proceedings of the Findings of the Association for Computational Linguistics: EMNLP, Seattle, Washington, USA, 2020: 4034-4048.
[9]
魏楚元, 张鑫贤, 王致远, 等. 多注意力机制的文本摘要事实一致性评估模型[J]. 计算机工程与应用, 2023, 59(07): 163-170. [WEI C Y,ZHANG X X,WANG Z Y, et al. Multi attention mechanism based text summarization fact consistency evaluation model[J]. Computer Engineering and Application, 2023, 59(07): 163-170.]
[10]
ZHAO L L, XU W R, ZHANG C Y, et al. Leveraging speaker-aware structure and factual knowledge for faithful dialogue summarization[J]. Knowledge-Based Systems, 2022, 245. DOI: 10.1016/j.knosys.2022.108550.
[11]
高定国, 关白. 回顾藏文信息处理技术的发展[J]. 西藏大学学报(社会科学版), 2009, 24(03): 18-27. DOI: 10.16249/j.cnki.1005-5738.2009.03.022.[GAO D G, GUAN B. Review the development of Tibetan information processing technology[J]. Journal of Tibet University (Social Sciences Edition), 2009, 24(03): 18-27. DOI: 10.16249/j.cnki.1005-5738.2009.03.022.]
[12]
孙媛, 旦正错, 刘思思, 等. 面向机器阅读理解的藏文数据集TibetanQA[J/OL]. 中国科学数据, 2022, 7(2). (2021-12-30). DOI: 10.11922/11-6035.csd.2021.0099.zh.[SUN Y,DAN Z C,LIU S S, et al. TibetanQA, a Tibetan dataset for machine reading comprehension[J/OL]. China Scientific Data, 2022, 7(2). (2021-12-30). DOI: 10.11922/11-6035.csd.2021.0099.zh.]
数据引用格式
欧阳新鹏, 闫晓东. 藏汉跨语言摘要数据集TiCLS[DS/OL]. V1. Science Data Bank, 2024. (2024-05-15). DOI: 10.57760/sciencedb.15452.
Baidu
稿件与作者信息
论文引用格式
欧阳新鹏, 闫晓东. 藏汉跨语言摘要数据集TiCLS[J/OL]. 中国科学数据, 2024. (2024-05-15). DOI: 10.11922/11-6035.csd.2024.0024.zh.
欧阳新鹏
OUYANG Xinpeng
主要承担工作:数据采集、数据处理、数据质量分析、论文撰写。
(1999—),男,江西吉安市人,硕士研究生,研究方向为自然语言处理。
闫晓东
YAN Xiaodong
主要承担工作:数据集质量控制与综合管理。
yanxd3244@sina.com
(1973—),女,内蒙古自治区赤峰市人,博士,副教授,研究方向为自然语言处理。
国家语委重点项目(ZDI145-61);国家自然科学基金项目(61972436);中央民族大学研究生精品示范课程(GRSCP202316、2023QNYL22)。
Key Research Project of the National Language Commission(ZDI145-61); National Nature Science Foundation (61972436); Minzu University of China Foundation (GRSCP202316, 2023QNYL22).
Baidu
出版历史
I区发布时间:2024年5月15日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata
Baidu
map