2023多语种智能信息处理数据集专题 I 区论文(评审中) 版本 ZH2
下载
基于贪心规则抽取的藏文文本摘要数据集
A dataset of Tibetan text extracted based on greedy rule
 >>
: 2024 - 01 - 24
: 2024 - 05 - 20
: 2024 - 05 - 20
Baidu
map
999 7 0
摘要&关键词
摘要:在现有的文本摘要研究中,藏语文本摘要研究尚处于起步阶段,尤其是在数据集的构建方面更是缺乏。因此,构建了一个专门针对藏语文本摘要的数据集,以填补这一研究空白。在数据集制作的方法上,采用了一种创新的贪心策略。首先,对藏语文本进行分句处理,然后计算每个句子与标题的Rough值,选取Rough值最高的句子。接着,从剩余句子中选取句子与已选定的句子进行拼接,再次计算Rough值,选择Rough值最高的句子进行拼接。反复执行,直到选取出依次拼接好的三个句子作为摘要。本方法旨在通过逐步筛选和优化的过程,使生成的摘要能更准确、全面地反映文本的主要信息,从而提升藏语文本摘要的质量和有效性。通过这项研究,期望能为藏语文本摘要研究提供有力的数据支持,推动藏语信息处理技术的发展。
关键词:文本摘要;数据集;藏文新闻;贪心;Rough值
Abstract & Keywords
Abstract: Among the existing research on text abstracts, the research on Tibetan text abstracts is still in its infancy, especially in the construction of data sets. Therefore, we constructed a dataset specifically for Tibetan text abstracts to fill this research gap. In our approach to data set production, we adopted an innovative greedy strategy. First, the Tibetan text is processed by clauses, then the Rough value of each sentence and title is calculated, and the sentence with the highest Rough value is selected. Then, the sentence is selected from the remaining sentence and the selected sentence is spliced, the Rough value is calculated again, and the sentence with the highest Rough value is selected for splicing. This process is repeated until three sentences are selected as summaries. The design of this method aims to make the generated abstracts reflect the main information of the text more accurately and comprehensively through the process of gradual screening and optimization, so as to improve the quality and effectiveness of Tibetan text abstracts. Through this research, we hope to provide strong data support for the study of Tibetan text abstract and promote the development of Tibetan information processing technology.
Keywords: text abstract; dataset; Tibetan news; avarice; rough value
数据库(集)基本信息简介
数据库(集)名称基于贪心抽取的藏文文本摘要数据集
数据通信作者闫晓东(yanxd3244@sina.com)
数据作者庞杰、闫晓东、黄硕
数据量2万篇藏文新闻
数据格式*.csv
数据服务系统网址https://doi.org/10.57760/sciencedb.j00001.01062
基金项目国家自然科学基金项目(61972436),中央民族大学研究生精品示范课程(GRSCP202316、2023QNYL22);国家语委重点项目(ZDI145-61)。
数据库(集)组成数据集是以csv格式存储。第一列是数据的ID;第二列是Title,藏文新闻的标题;第三列是Content,藏文新闻的正文内容;第四列是Summary,藏文新闻的摘要内容。
Dataset Profile
TitleAbstract data set of Tibetan text extracted based on greedy rule
Data corresponding authorYAN Xiaodong (yanxd3244@sina.com)
Data authorsPANG Jie,YAN Xiaodong,HUANG Shuo
Data volume20,000 news items in Tibetan
Data format*.csv
Data service system<https://doi.org/10.57760/sciencedb.j00001.01062>
Sources of fundingNational Nature Science Foundation (61972436); Minzu University of China Foundation (GRSCP202316, 2023QNYL22); Key Research Project of the National Language Commission(ZDI145-61).
Dataset compositionDatasets are stored in CSV format. The first column is the ID of the data; The second column is Title, the title of the news in Tibetan; The third column is Content, the body content of the news in Tibetan;
Baidu
引 言
在近年来的自然语言处理(NLP)研究中,文本摘要已成为一个重要的研究任务[1]。文本摘要的目标是提取原始文本的关键信息,生成简洁、准确、连贯的摘要,帮助读者快速了解文本的主要内容。然而,尽管文本摘要在信息检索、新闻推荐、文献综述等多个领域得到广泛应用,其研究仍主要集中在英语和汉语等主流语种。对于藏语等少数民族语言,尤其是在数据集的构建方面,相关研究相对较少,甚至几乎为零。然而,目前公开的大规模数据集的数量十分稀少,且人工构建成本过大。
在近年来的自然语言处理研究中,中文文本摘要已逐渐受到关注。为了推动这一领域的研究,一些研究者构建了专门的中文文本摘要数据集。以下是一些重要的中文文本摘要数据集的比较。首先是LCSTS数据集,这是一个由北京大学信息科学技术学院的Hu等人[2]发布的大规模的中文短文本摘要数据集。来源于新浪微博,包含了超过2.4万篇人工标注的微博及其对应的摘要。该数据集总共有2,400,591对微博及其对应的摘要,其中人工标注的有10,666对。这个数据集的特点是短文本,且内容涵盖生活、娱乐、新闻等方面,适合研究社交媒体文本的摘要生成。其次是CLUECorpus2020数据集[3],由上海交通大学的徐等人(2020)发布。这是一个大规模的中文自然语言处理预训练模型的预训练语料库,包括了新闻、论坛、问答、微博等多种类型的文本,总共有超过100 GB的文本数据。虽然CLUECorpus2020数据集本身并未明确标注文本摘要,但其丰富的语料和多样的文本类型为文本摘要研究提供了广泛的可能性。此外,还有一些数据集如DUC2004[4]和Cnndm[5],虽然主要用于英文文本摘要研究,但其中也包含了一部分中文文本摘要的数据。DUC2004数据集是由美国国家标准与技术研究院发布的,主要用于新闻文本摘要的研究(Over et al., 2007)。该数据集包含了500篇新闻文章及其对应的摘要,涵盖了国际、国内、经济、体育等多个新闻领域。Cnndm数据集是由Hermann等人发布的,主要用于新闻领域的文本摘要研究(Hermann et al., 2015)。该数据集包含了超过28万篇CNN和Daily Mail的新闻及其对应的摘要。在藏文方面,Ti-SUM数据集[7]是藏文多文本摘要数据集,由1000篇真实藏文新闻组成,每一篇新闻都给出了简短的摘要。此外还针对每篇新闻构建了超过3500个文章关键词,用以辅助文本摘要任务。
虽然目前藏文已有公开的文本摘要数据集,但是过于少量,难以用于深度学习模型的训练和调参过程。本文构建了一个藏文文本摘要数据集,是由2万篇藏文新闻和经过贪心策略得到的摘要数据,为研究人员和从业者提供了一个重要的资源,以推动藏文文本摘要领域的发展。下面是几种数据集的对比情况(表1)。
表1   文本摘要数据集概况
数据集大小语言内容
LCSTS200多万篇中文10666篇人工标注
CLUECorpus20201 245 835个样本中文正文-标题
DUC2004500篇文档英文每篇文章有4个摘要
CNN/Daily Mail100万条英文人工标注
Ti-SUM1000篇藏文人工标注
本数据集2万篇藏文正文-标题-摘要
1   数据采集和处理方法
由于标准的藏文文本摘要数据库匮乏,同时为了确保信息传递的准确性,无法直接借用其他语言的语料进行转译,因此,按照以下步骤来创建本藏文文本摘要数据集。
1.1   数据采集
首先,从多个藏文网站上获取语料。这些网站包括人民网藏文版、中国西藏网、香格里拉藏文网、中国藏族网通等藏文新闻门户。通过网络爬虫工具,收集了多种类型的藏文新闻文本,并成功搜集了58642篇包含新闻标题和正文内容的藏文原始文本数据。
1.2   数据清洗
对这些原始数据进行仔细的清理与筛选。移除了所有的HTML标签和特殊字符,同时也过滤掉了不必要的冗余信息。在这个过程中,尽量保持文本的原汁原味,只保留了新闻的标题和正文部分。尽全力去除了与文本摘要任务无关的所有信息,以便能够更专注于文本概括的主要任务。
1.3   数据筛选
为了提高数据集的整体品质,对清洗过程后的文本进行了细致挑选。剔除了过于冗长或者极度简短的新闻文本,这样做是为了确保数据集的统一性和实用性。通过这种方式,能有效降低在后续处理过程中出现的噪音和无谓的复杂度。
1.4   摘要抽取
首先,对藏语文本进行分句处理,然后计算每个句子与标题的Rough值,选取Rough值最高的句子。接着,从剩余句子中选取句子与已选定的句子进行拼接,再次计算Rough值,选择Rough值最高的句子进行拼接。这个过程被反复执行,直到选取出三个句子作为摘要。如下图1所示:


图1   摘要提取过程
Figure 1 Abstract extraction process
2   数据样本描述
本文构建的藏文文本摘要数据集包含藏文新闻正文以及藏文新闻标题,摘要展示如表2所示。
表2   藏文文本摘要数据集样例
新闻正文
ཤིན་ཧྭ་གསར་འགྱུར་ཁང་གི་གསར་འགོད་པ། ཀྲོའུ་ཧྲེང་ཧྲེང་དང་ལི་ཀྲན་དབྱི།
ཉེ་བའི་ལོ་ཤས་རིང་། མཚོ་སྔོན་གྱིས་ཆུ་འགོའི་འགན་འཁྲི་མཐའ་གཅིག་ཏུ་ཁུར་ཏེ་རྒྱལ་ཁབ་སྤྱི་གླིང་གིས་གཙོ་བོར་བྱས་པའི་རང་བྱུང་སྲུང་སྐྱོང་ཁུལ་གྱི་མ་ལག་མགྱོགས་མྱུར་བསྐྲུན་ཡོད། རྨ་ཆུའི་ཆུ་འགོའི་སྐྱེ་ཁམས་ཁོར་ཡུག་རྒྱུན་མཐུད་ལེགས་སུ་ཕྱིན་པ་དང་རྩ་ཆེའི་རི་སྐྱེས་སྲོག་ཆགས་ཀྱི་གྲངས་འབོར་མངོན་གསལ་དོད་པོས་མང་དུ་ཕྱིན་ཏེ་མི་ཆུ་བོར་བརྟེན་ནས་འཚོ་བ་དང་མི་ཡོད་པ་ལས་ཆུ་བོ་མཛེས་སྡུག་ལྡན་པར་འགྱུར་བའི་སྐྱེ་ཁམས་ཀྱི་རྣམ་པ་ཞིག་བཏོད་ཡོད་པ་རེད།
རྩ་ཆེའི་ཉ་རིགས་ཕྱོགས་ཡོངས་ནས་འཛིན་མི་ཆོག་པ་བཟོས་ཏེ་སྲུང་སྐྱོང་བྱས་པ།
མཚོ་སྔོན་ཞིང་ཆེན་ཉ་ལས་ཁོར་ཡུག་ལྟ་ཞིབ་ཚད་ལེན་ལྟེ་གནས་ཀྱིས་བརྟག་དཔྱད་བྱས་པའི་གྲངས་གཞི་ལས་མངོན་པར། མཚོ་སྔོན་ས་ཁོངས་ནང་གི་རྨ་ཆུ་རྒྱུག་ཁུལ་དུ་གདོད་མའི་ཉ་རིགས་20ཙམ་ཡོད་པའི་ནང་ཉ་ལེབ་དང་མཆུ་མཐུག་གཅེར་ཉ་སོགས་རྒྱལ་ཁབ་ཀྱི་གཙོ་གནད་སྲུང་སྐྱོང་རི་སྐྱེས་སྲོག་ཆགས་ཚུད་ཡོད་པ་རེད།
2021ལོའི་ཟླ་10པར་རྨ་ཆུའི་ཆུ་འགོར་ལོ་5ཡི་རིང་ཉ་རིགས་ཕྱོགས་ཡོངས་ནས་འཛིན་མི་ཆོག་པ་བཟོས་ཏེ་རང་བྱུང་ཉ་རིགས་ཐམས་ཅད་འཛིན་རྒྱུ་གཏན་འགོག་བྱས་པ་རེད། རྨ་ཆུའི་ཆུ་འགོར་གནས་པའི་མཚོ་སྐྱ་རེངས་དང་། མཚོ་སྔོ་རེངས། རྨ་ཆུ་རྒྱུག་ཁུལ་བཅས་དང་དེ་བཞིན་ཏ་ཐུང་གཙང་པོ་དང་ཙོང་ཆུ་སོགས་ཡན་ལག་ཆུ་བོ་གཙོ་བོ་9འཛིན་མི་ཆོག་པའི་ཆུ་ཁོངས་ལ་བཅུག་པ་རེད།
ལོ་29ལ་སླེབས་པའི་རྡོ་རྗེ་མི་འགྱུར་ནི་མཚོ་སྔོན་ཞིང་ཆེན་ཡུལ་ཤུལ་བོད་རིགས་རང་སྐྱོང་ཀྲོའུ་ཆུ་དམར་ལེབ་རྫོང་རྨ་སྟོད་ཤང་རྫ་སྐྱ་གྲོང་ཚོའི་ཉ་སྲུང་བ་ཞིག་ཡིན་ཞིང་། ཁོང་གི་ལས་ཀ་གཙོ་བོ་ནི་ཁག་བགོས་རྒྱུག་ཁུལ་ནང་གི་ཉ་རིགས་དང་གཙང་པོའི་སྐྱེ་ཁམས་ལ་སྐོར་སྐྱོད་སྲུང་སྐྱོང་བྱ་རྒྱུ་དེ་རེད།
རྡོ་རྗེ་མི་འགྱུར་གྱིས“དེ་སྔ་མི་ཁག་གཅིག་གིས་རྨ་ཆུའི་ནང་ལྐོག་ཏུ་ཉ་རིགས་ཚེ་ཐར་གཏོང་གི་ཡོད་པའི་ཁྲོད་ཆུ་ཁོངས་གཞན་གྱི་ཉ་རིགས་ཁག་གཅིག་ཡོད་པ་དེས་ས་ཆ་དེ་གའི་ཉ་རིགས་འཚོ་གནས་དང་རྨ་ཆུའི་ཆུ་འགོའི་སྐྱེ་ཁམས་དོ་སྙོམས་ལ་ཤུགས་རྐྱེན་བཟོ་གི་ཡོད། གནས་ཚུལ་དེ་རིགས་འཕྲད་སྐབས་ང་ཚོས་དུས་ཐོག་ཏུ་བཀག་འགོག་བྱེད་པ་དང་འབྲེལ་ཁ་ཏ་བསླབ་བྱ་ཡང་བྱེད་ཀྱི་ཡོད”ཅེས་བཤད། ཕྱོགས་མང་པོའི་ཐད་ནས་སྲུང་སྐྱོང་བྱས་པ་བརྒྱུད་ས་གནས་དེ་གའི་འབྲོག་པའི
新华社记者周生生李占一
近年来,青海坚决承担起水源地责任,加快建立以国家公园为主体的自然保护区体系,黄河源头生态环境持续改善,珍稀野生动物数量显著增加。营造了以水为生、以水为人、以水为美的生态格局。
全面禁捕保护珍稀鱼类。
青海省渔业环境监测中心调查数据显示,青海境内黄河流域有原生鱼类近20种,其中包括带鱼、厚嘴裸鲤等国家重点保护野生动物。
2021年10月,黄河源头实行5年全面禁捕,禁止捕捞一切天然鱼类。
黄河流域以及大通河、湟水河等9条主要支流被列为禁捕水域。
29岁的多吉米久是青海省玉树藏族自治州曲麻莱县玛多乡扎加村的护鱼员,他的主要工作是巡护分流区内的鱼类和河流生境。
多吉米久说:“过去有一些人在黄河中偷偷放生鱼类,其中有一些来自其他水域的鱼类,影响了当地鱼类的生存和黄河源头的生态平衡,遇到这种情况,及时制止并劝阻。”通过多方面的保护,当地牧民的生态环境保护意识不断增强,黄河放流鱼类明显减少。
新闻标题
༄༅།།ཆུ་འགོའི་འགན་འཁྲི་ཕྲག་ཏུ་ཁུར། རྨ་ཆུར་སྲུང་སྐྱོང་ཧུར་ཐག་བྱས།
肩负水源地责任积极保护黄河
新闻摘要
མཚོ་སྔོན་གྱིས་ཆུ་འགོའི་འགན་འཁྲི་མཐའ་གཅིག་ཏུ་ཁུར་ཏེ་རྒྱལ་ཁབ་སྤྱི་གླིང་གིས་གཙོ་བོར་བྱས་པའི་རང་བྱུང་སྲུང་སྐྱོང་ཁུལ་གྱི་མ་ལག་མགྱོགས་མྱུར་བསྐྲུན་ཡོད། རྨ་ཆུའི་ཆུ་འགོའི་ཁུལ་གྱི་སྐྱེ་ཁམས་སྲུང་སྐྱོང་བྱེད་ཤུགས་ཟམ་མི་ཆད་པར་ཆེ་རུ་ཕྱིན་ཡོད།ཉེ་བའི་ལོ་ཤས་རིང་།
青海坚决承担起水源地责任,加快建立以国家公园为主体的自然保护区体系,黄河源头区生态保护力度不断加大。
3   数据质量控制和评估
摘要的评估由中央民族大学藏语言专业的学生负责,他们以藏语为母语,所以他们可以对文本内容和生成的摘要进行打分,但是为了减少主观因素的影响,随机抽取10名同学,并将其分成5组分别对同一篇文章打分,并且按照图2所示的打分细则,最终对均分超过10分的数据进行保留,并按照ID、Title、Content、Summary的顺序进行保存。
表3   摘要评估细则
语义流畅度不流畅
1-2分
流畅
2-4分
流畅且逻辑清晰
5分
语义完整度不完整
1-2分
完整
2-4分
完整且容易理解
5分
新闻内容覆盖重点内容不覆盖
1-2分
重点内容覆盖
2-4分
重点内容覆盖且按时空顺序排列
5分
4   数据价值
藏语文本摘要数据集是进行藏语摘要任务的基础。只有具备了高质量的数据集,才能训练出有效的模型,从而进行准确的文本摘要。数据集的质量直接影响到摘要任务的效果,因此,构建和优化数据集是藏语文本摘要任务的关键步骤。此外,藏语文本摘要数据集也对于开展多语种、跨语种的摘要任务具有重要价值。通过对藏语文本摘要数据集的研究,可以获得关于摘要任务的新的认识和理解,这对于推动多语种、跨语种摘要任务的发展具有积极意义。同时,藏语文本摘要数据集也可以作为评估和比较不同摘要算法的基准,有助于推动摘要任务的技术进步。总的来说,藏语文本摘要数据集对于藏语摘要任务具有重要的理论和实践意义。通过构建和使用藏语文本摘要数据集,不仅可以推动藏语信息处理技术的发展,提高藏语信息的获取和管理效率,也可以为多语种、跨语种的摘要任务提供有价值的参考,推动整个自然语言处理领域的发展。
目前大多数的藏文文本数据集都是采用的标题的形式来当作摘要进行训练模型等工作,但是本文提出的基于贪心规则抽取的藏文文本摘要数据集则不完全依赖于标题,将文中更符合题意的句子进行抽取进而得到更好的摘要数据,并且迎合了摘要任务最后生成结果与摘要数据进行Rough值计算的过程,从而这种基于贪心规则抽取的摘要更适合摘要任务。本文构建的数据集有助于推动藏文文本摘要的发展,满足了相关研究对高质量藏语数据集的需求,并且为藏语等低资源语言构建摘要数据集提供了一种新的思路。
[1]
王凯祥. 面向查询的自动文本摘要技术研究综述[J]. 计算机科学, 2018, 45(S2): 12–16. [ WANG K X. Survey of query-oriented automatic summarization technology[J]. Computer Science, 2018, 45(S2): 12–16. ]
[2]
HU B T, CHEN Q C, ZHU F Z. LCSTS: a large scale Chinese short text summarization dataset[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal. Stroudsburg, PA, USA: Association for Computational Linguistics, 2015. DOI: 10.18653/v1/d15-1229.
[3]
XU L, ZHANG X, DONG Q. CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model. ArXiv, abs/2003.01355.
[4]
SCHUMANN R, MOU L L, LU Y, et al. Discrete optimization for unsupervised sentence summarization with word-level extraction[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online. Stroudsburg, PA, USA: Association for Computational Linguistics, 2020. DOI: 10.18653/v1/2020.acl-main.452.
[5]
HERMANN K M, KOCISKY T, GREFENSTETTE E, et al.Teaching machines to read and comprehend[C]//Proceedings of advances in neural information processing systems.Montreal: NIPS, 2015:1693-1701.
[6]
CHEN S, JU Z, DONG X, et al. (2020). Meddialog: a large-scale medical dialogue dataset. arXiv preprint arXiv:2004.03329, 3.
[7]
闫晓东, 王羿钦, 黄硕, 等. 藏文文本摘要数据集[J/OL]. 中国科学数据, 2022, 7(2). (2022-06-27). DOI: 10.11922/11-6035.csd.2021.0098.zh. [YAN X D, WANG Y Q, HUANG S, et al. A dataset of Tibetan text summarization[J/OL]. China Scientific Data, 2022, 7(2). (2022-06-27). DOI: 10.11922/11-6035.csd.2021.0098.zh.]
[8]
高定国, 关白. 回顾藏文信息处理技术的发展[J]. 西藏大学学报(社会科学版), 2009, 24(3): 18–27. DOI: 10.16249/j.cnki.1005-5738.2009.03.022. [GAO D G, GUAN B. Retrospect on the development of Tibetan information processing technology[J]. Journal of Tibet University, 2009, 24(3): 18–27. DOI: 10.16249/j.cnki.1005-5738.2009.03.022.]
[9]
何明华. 当代藏文信息处理的现状与展望[J]. 科技资讯, 2014, 12(23): 249. DOI: 10.16661/j.cnki.1672-3791.2014.23.192. [HE M H. Present situation and prospect of contemporary Tibetan information processing[J]. Science & Technology Information, 2014, 12(23): 249. DOI: 10.16661/j.cnki.1672-3791.2014.23.192.]
数据引用格式
庞杰, 闫晓东, 黄硕. 基于贪心规则抽取的藏文文本摘要数据集[DS/OL]. V1. Science Data Bank, 2024. (2024-05-20). DOI: 10.57760/sciencedb.j00001.01062.
Baidu
稿件与作者信息
论文引用格式
庞杰, 闫晓东, 黄硕. 基于贪心规则抽取的藏文文本摘要数据集[J/OL]. 中国科学数据, 2024. (2024-05-20). DOI: 10.11922/11-6035.csd.2024.0029.zh.
庞杰
PANG Jie
主要承担工作:数据集的预处理和整合、摘要抽取、论文撰写。
(1999—),男,山东省临沂市人,硕士研究生,研究方向为自然语言处理。
闫晓东
YAN Xiaodong
主要承担工作:数据集质量控制与综合管理。
yanxd3244@sina.com
(1973—),女,内蒙古自治区赤峰市人,博士,副教授,研究方向为自然语言处理。
黄硕
HUANG Shuo
主要承担工作:数据采集、数据校对。
(1998—),男,山东省菏泽市人,硕士研究生,研究方向为自然语言处理。
国家自然科学基金项目(61972436),中央民族大学研究生精品示范课程(GRSCP202316、2023QNYL22);国家语委重点项目(ZDI145-61)。
National Nature Science Foundation (61972436); Minzu University of China Foundation (GRSCP202316, 2023QNYL22); Key Research Project of the National Language Commission(ZDI145-61).
Baidu
出版历史
I区发布时间:2024年5月20日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata
Baidu
map