2023多语种智能信息处理数据集专题 I 区论文(评审中) 版本 ZH2
下载
基于语义信息扩充的汉藏短语翻译语料SECT
SECT: Semantic Enriched Chinese-Tibetan Phrase Translation Corpus
 >>
: 2024 - 01 - 19
: 2024 - 05 - 14
: 2024 - 05 - 14
Baidu
map
989 8 0
摘要&关键词
摘要:机器翻译是自然语言处理的关键任务,它在促进政治、经济、文化交流等方面起到的作用日渐显著。在富资源语言间,如中、英文,机器翻译的效果已经接近人工翻译水平。然而,对于低资源语言,如藏文,由于缺乏足够的大规模公开平行语料,藏文机器翻译的准确性仍然有待提高。在汉文-藏文翻译中,涉及短语翻译时,由于它们简短且包含深层语义信息,如缩略语,现有的机器翻译结果并不准确。为了帮助翻译模型更好地捕捉和传达语义信息,本文构建了基于语义信息扩充的汉藏短语翻译语料,该语料含有汉-藏短语翻译数据7000条。其中汉-藏短语的原始数据来自西藏藏语言文字网,扩充的语义信息包括汉文短语的汉文释义以及包含汉文短语的例句,这部分内容均采用大语言模型生成和专业人士校对的方式获取。本数据集的发表,对于促进汉-藏文信息处理的发展具有重要的价值。
关键词:机器翻译;低资源;藏文;短语;语义信息;数据集
Abstract & Keywords
Abstract: Machine translation is a crucial task in natural language processing, and its role in promoting political, economic, and cultural exchanges is becoming increasingly significant. In high-resource languages like Chinese and English, the effectiveness of machine translation has approached human translation levels. However, for low-resource languages such as Tibetan, the accuracy of Tibetan machine translation still needs improvement due to the lack of a sufficient amount of large-scale publicly available parallel corpora. In Chinese-Tibetan translation, when it comes to translating phrases, the existing machine translation results are not accurate due to their brevity and deep semantic information, such as abbreviations. To help translation models better capture and convey semantic information, this paper constructs a Chinese-Tibetan phrase translation corpus based on semantic information augmentation. This corpus contains 7,000 Chinese-Tibetan phrase translation data. The original data for Chinese-Tibetan phrases is obtained from the Tibetan Language and Writing Network of Tibet, and the augmented semantic information includes Chinese explanations for Chinese phrases and example sentences containing Chinese phrases. This part of the content is obtained through the generation of large language models and professional proofreading. The publication of this dataset is of great value in promoting the development of Chinese-Tibetan information processing.
Keywords: machine translation; low-resource; Tibetan; ; phrase;  semantic information; dataset
数据库(集)基本信息简介
数据库(集)名称基于语义信息扩充的汉藏短语翻译语料SECT
数据通信作者陈波(chenbomuc@muc.edu.cn)
数据作者常润、陈波、赵小兵
数据时间范围2021–2023年
地理区域西藏
数据量882 KB
数据服务系统网址https://doi.org/10.57760/sciencedb.j00001.01048
数据格式*.xlsx
基金项目国家社科基金重大项目(22&ZD035)
数据库(集)组成数据集包含7000条汉藏短语翻译语料,包含自然、科技、地理、生活、新闻、金融等领域。数据项主要有数据ID、汉文、藏文、汉文释义及汉文例句。
Dataset Profile
TitleSECT: Semantic Enriched Chinese-Tibetan Phrase Translation Corpus
Data corresponding authorCHEN Bo (chenbomuc@muc.edu.cn)
Data authorsCHANG Run, CHEN Bo, ZHAO Xiaobing
Time range2021–2023
Geographical scopeXizang
Data volume882 KB
Data format*.xlsx
Data service system<https://doi.org/10.57760/sciencedb.j00001.01048>
Source of fundingNational Social Science Foundation of China (22&ZD035)
Dataset compositionThe dataset comprises 7,000 Chinese-Tibetan phrase translation corpus, covering various domains including nature, technology, geography, lifestyle, news, and finance. The primary data items include Data ID, Chinese text, Tibetan text, Chinese explanation, and Chinese example sentence.
Baidu
引 言
机器翻译是利用计算机将源语言转换为目标语言的过程,也是人工智能的一个重要任务[1]。机器翻译已经取得了长足的发展[2],从基于规则的机器翻译,到统计机器翻译,再到目前主流的神经机器翻译。神经机器翻译方法需要大量的语言数据资源作为支撑[3]。对于富资源语言,现已有的平行语料和单语语料众多,如机器翻译研讨会数据集WMT(Workshop on Machine Translation)[4]、联合国文件平行文本数据集UN Parallel Corpus[5]、持续扩容的开源语料数据集ParaCrawl[6]等。但面向低资源语言的平行语料则相对较少,较为知名的有中国机器翻译大会数据集CCMT(CWMT)[7]、圣经多语种数据集Bible Databases[8]等,这些数据集所涵盖的语言和内容如表1所示。低资源语言的平行语料数据集规模远小于富资源语言,导致相比于富资源语言,低资源语言的翻译模型的效果较差。
表1   平行语料的简要情况
数据集名称类别数据集内容语言领域
WMT富资源
语言
平行语料英、中、法、德、日等对话、新闻、社会
UN Parallel Corpus联合国文件中、英、法、西、俄、阿文件
ParaCrawl公共数据欧洲语言为主网络
CCMT低资源
语言
平行语料汉、藏、蒙、维、英、越等新闻、文件
Bible Databases《圣经》众多语言宗教
藏文作为一种低资源语言,公开可用的平行语料非常少,在一定程度上阻碍了汉藏机器翻译的发展[9]。并且在实际翻译过程中,我们发现,短语的表述十分简单,但它们可能包含着深层的语义信息表达,通过现有的机器翻译并不能够很好地翻译这些内容,如表2所示,我们认为这是因为短语的本身信息不足,造成机器翻译模型乱翻、错翻的问题。因此,构建添加描述的汉藏短语翻译语料数据集,为翻译模型提供必要的补充语义信息,在解决短语翻译的问题中显得尤为重要。本文以西藏藏语言文字网发布的《藏文名词术语规范公报》为基础,为短语添加汉文释义及汉文例句,提供充分的语义信息,构建了含有7000条数据的基于语义信息扩充的汉藏短语翻译语料。
表2   翻译实例
内容实例1实例2
汉文精文减会百里不同风,千里不同俗
人工翻译ཚོགས་ཡིག་གཉིས་བསྡུས།ལུང་པ་རེ་ལ་ཆ་ལུགས་རེ། ས་ཆ་རེ་ལ་སྐད་ལུགས་རེ།
机器翻译1རྩོམ་ཡིག་ཉུང་གཏོང་ཚོགས་འདུ།ལེ་བར་བརྒྱ་ཕྲག་གི་སྲོལ་མི་འདྲ་ལ།ལེ་བར་སྟོང་ཕྲག་གི་སྲོལ་མི་འདྲ།
机器翻译2གནད་ལ་འཕྲི་བ།ལེ་དབར་བརྒྱའི་ནང་དུ་ལྷགས་པ་མི་འདྲ་བ་དང་། ལེ་དབར་སྟོང
1   数据采集和处理方法
1.1   数据采集方法
本文的汉藏短语对照来自中国·西藏藏语言文字网发布的《藏文名词术语规范公报》(http://cn.zyw.xizang.gov.cn/),我们获取了《藏文名词术语规范公报》的前100期内容,并进行处理。去掉内容中的非文本信息、乱码及标题、落款等汉文单语信息,最终获得初始汉藏语料对。
1.2   数据处理方法
为了确保数据的准确性,我们采用以下步骤进行处理。首先,我们筛选掉有残缺的文本内容,以获取汉文与藏文均完整的语料对。接着,我们通过大语言模型ChatGPT进行语义信息扩充,利用汉文短语数据,生成简要的汉文释义和包含汉文短语的例句。最后,我们邀请了2位汉藏双语专业人士结合汉文和藏文信息,对数据进行审核与修正。


图1   数据采集及处理方法
Figure 1 Data collection and processing methods
2   数据样本描述
本数据共有7000条,保存在名为sect_7000.xlsx的Excel文件中,可以快速转化为json格式,方便后续的处理及使用。每条数据有5项,对应文件中的每一列分别为数据ID、汉文内容、藏文内容、汉文释义、汉文例句。数据样本如表3所示:
表3   数据样本
数据ID汉文藏文汉文释义汉文例句
487华丽转身ཉམས་ལྡན་འཕོ་འགྱུར།以令人惊讶的方式改变或调整自己的态度或行为。他的华丽转身令全场观众震撼。
2652能吏དཔོན་འཇོན་པོ།能干的官员以德服人的能吏更容易获得大家的信任和支持。
3343一级律师ཁྲིམས་བྱེད་དག་འབུད་པ་རིམ་པ་དང་པོ།律师资格等级中的最高级别他被评为一级律师,深受客户信任。
5434主基调དགོངས་གཞི་གཙོ་བོ།主要思想这份文件要求我们强调主基调。
782主基调དབྱངས་འགྲོས་གཙོ་བོ།音乐中的基本旋律这首音乐的主基调是罗曼蒂克。
3   数据质量控制和评估
在获取初始汉藏短语翻译语料对时,首先对原始文本进行去噪处理,网页文本会出现不完全符合规范的内容,含有部分冗余代码标签、乱码等字符,我们通过正则表达式将这些无用字符去除,获得纯文本的数据;接着对纯文本数据进行对照检查,提取出没有藏文对照的汉文项,将它们除去,获得纯文本初始汉藏短语翻译语料对。
在获取释义与例句的过程中,我们使用如表4所示的“模板 + 汉文短语”形式构建指令,利用大语言模型ChatGPT生成汉文短语对应的汉文释义及含有该短语的汉文例句;接着,把初始汉藏短语翻译语料对和新获得的释义、例句,通过汉文短语进行匹配拼接,获得语义扩充的汉藏短语翻译语料对;最后,我们邀请2位汉藏双语专业人士结合汉藏短语翻译语料对,审核并校正这些汉文释义、例句条目。
表4   指令实例
任务指令
释义生成为如下短语生成较短的释义,输出格式为:短语 ## 释义。 + [汉文短语]
例句生成为如下短语生成较短的例句,输出格式为:短语 ## 例句。 + [汉文短语]
4   数据价值
藏文是我国西藏、四川、青海、甘肃、云南等地及尼泊尔、不丹等邻国民众所广泛使用的文字。由于缺乏大规模的公开语料,现有藏语机器翻译研究仍然很不成熟[10]。本数据集提供了经过语义信息扩充的汉藏短语翻译语料,有助于进一步探讨解决简短文本翻译不准确的问题。因此,本数据集的发布,对于促进汉-藏机器翻译发展具有重要的价值。
致 谢
感谢参与本数据集构建的工作人员。
[1]
HUTCHINS W J. Machine translation: a brief history[J].翻译学报, 2010 (1&2).
[2]
肖桐, 朱靖波. 机器翻译: 基础与模型[M]. 北京: 电子工业出版社, 2021. [XIAO T, ZHU J B. Machine translation[M]. Beijing: Publishing House of Electronics Industry, 2021.]
[4]
KOCMI Tom, BAWDEN Rachel, BOJAR Ondřej, et al. Findings of the 2022 conference on machine translation (WMT22)[C]//Proceedings of the Seventh Conference on Machine Translation (WMT). 2022: 1-45.
[5]
MICHAŁ Ziemski, MARCIN Junczys-Dowmunt, and BRUNO Pouliquen. The United Nations Parallel Corpus v1.0[J]. International Conference on Language Resources and Evaluation (LREC'16), 2016, 3530–3534.
[6]
ESPLÀ-Gomis M, FORCADA M L, RAMÍREZ‐Sánchez G, et al. ParaCrawl: Web-scale parallel corpora for the languages of the EU[C]//Proceedings of Machine Translation Summit XVII: Translator, Project and User Tracks. 2019: 118-119.
[7]
YANG M Y, HU X X, XIONG H, et al. CCMT 2019 machine translation evaluation report[M]//HUANG S J, KNIGHT K, eds. Communications in Computer and Information Science. Singapore: Springer Singapore, 2019: 105–128. DOI: 10.1007/978-981-15-1721-1_11.
[8]
McCarthy A D, Wicks R, Lewis D, et al. The Johns Hopkins University Bible corpus: 1600+ tongues for typological exploration[C]//Proceedings of the Twelfth Language Resources and Evaluation Conference. 2020: 2884-2892.
[9]
申影利, 周毛克, 赵小兵. 基于多任务学习的民汉神经机器翻译数据增强方法[J]. 中文信息学报, 2023, 37(2): 97–106. DOI: 10.3969/j.issn.1003-0077.2023.02.010. [SHEN Y L, ZHOU M K, ZHAO X B. Multi-task learning-based data augmentation for minority languages to Chinese neural machine translation[J]. Journal of Chinese Information Processing, 2023, 37(2): 97–106. DOI: 10.3969/j.issn.1003-0077.2023.02.010.]
数据引用格式
常润, 陈波, 赵小兵. 基于语义信息扩充的汉藏短语翻译语料SECT[DS/OL]. V1. Science Data Bank, 2024. (2024-05-14). DOI:10.57760/sciencedb.j00001.01048.
Baidu
稿件与作者信息
论文引用格式
常润, 陈波, 赵小兵. 基于语义信息扩充的汉藏短语翻译语料SECT[J/OL]. 中国科学数据, 2024. (2024-05-14). DOI:10.11922/11-6035.csd.2024.0022.zh.
常润
CHANG Run
主要承担工作:数据集的采集和整合、论文撰写。
(2000—),男,辽宁省阜新市人,硕士研究生,研究方向为自然语言处理。
陈波
CHEN Bo
主要承担工作:数据质量控制与综合管理。
chenbomuc@muc.edu.cn
(1988—),男,湖南省长沙市人,博士,副教授,研究方向为自然语言处理。
赵小兵
ZHAO Xiaobing
主要承担工作:数据集质量控制。
(1967—),女,内蒙古自治区呼和浩特市人,博士,教授,研究方向为自然语言处理。
国家社科基金重大项目(22&ZD035)
National Social Science Foundation of China (22&ZD035)
Baidu
出版历史
I区发布时间:2024年5月14日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata
Baidu
map