2023多语种智能信息处理数据集专题 I 区论文(评审中) 版本 ZH2
下载
藏汉语音翻译数据集
A dataset of Tibetan-Chinese speech translation
 >>
: 2024 - 01 - 19
: 2024 - 05 - 15
: 2024 - 05 - 15
Baidu
map
1796 27 0
摘要&关键词
摘要:语音翻译研究的前沿取决于可用数据集的质量和多样性。目前在探索少数民族语言的语音翻译时,由于缺乏公开的数据集,相关研究面临着诸多限制。为此,本文构建并公开藏语语音到汉语文本的语音翻译数据集。本数据集来源于微信公众平台以及已公开的藏语语音识别数据集。通过网络爬虫和机器翻译辅助采集数据,并进行人工切分与标注,最终交由专家审核和校正后得到高质量的藏汉语音翻译数据集。本数据集包含样本7270条,大小为965MB。本数据集的建立为探索低资源藏汉语音翻译技术提供了一定的数据基础,有助于推动相关技术和算法的进步,也为语音翻译系统在少数民族语言环境下的应用提供了实质性的支持。
关键词:语音翻译;藏汉;少数民族语言;低资源;数据集
Abstract & Keywords
Abstract: The forefront of research in speech translation relies upon the quality and diversity of available datasets. Currently, the exploration of speech translation in minority languages faces numerous constraints due to the lack of publicly available datasets. Accordingly, this paper aims to construct and release a speech translation dataset from Tibetan speech to Chinese text, addressing this gap in research. The dataset is derived from the WeChat public platform and publicly available Tibetan speech recognition datasets. Data was collected through web scraping and aided by machine translation. Through a collection process of web scraping and machine translation assistance, manual segmentation and annotation were then performed. After that, the dataset underwent expert review and correction. The final result is a high-quality Tibetan-Chinese speech translation dataset. The dataset comprises 7270 samples with a total size of 965 MB. The establishment of this dataset not only provides a foundational data framework for exploring Tibetan-to-Chinese speech translation but also contributes to the advancement of relevant technologies and algorithms. Moreover, it offers substantial support for the application of speech translation systems in the context of minority languages.
Keywords: speech translation; Tibetan-Chinese; minority languages; low resource; dataset
数据库(集)基本信息简介
数据库(集)名称藏汉语音翻译数据集
数据作者国家语言资源监测与研究少数民族语言中心,中央民族大学
数据通信作者戚肖克(qixiaoke@cupl.edu.cn)
数据时间范围2020–2023年
地理区域西藏、甘肃
数据量965 MB
数据格式*.wav, *.json
数据服务系统网址https://doi.org/10.57760/sciencedb.j00001.01024
基金项目国家语委重点项目(ZDI135-118)
数据库(集)组成数据集共包括音频文件和文本文件,其中,(1) wav中是语音数据,包含7270个*.wav音频文件,总时长为527.1分钟,数据量为965 MB;(2) text.json是文本数据,数据量为810 KB。
Dataset Profile
TitleA dataset of Tibetan-Chinese speech translation
Data corresponding authorQI Xiaoke (qixiaoke@cupl.edu.cn)
Data authorsNational Language Resource Monitoring & Research Center of Minority Languages, Minzu University of China
Time range2020–2023
Geographical scopeXizang, Gansu
Data volume965 MB
Data format*.wav, *.json
Data service system<https://doi.org/10.57760/sciencedb.j00001.01024>
Source of fundingNational Language Commission Project (ZDI135-118).
Dataset compositionThe dataset comprises audio files and text file. The wav folder contains audio data, totaling 7270 files with a cumulative duration of 527.1 minutes and a data volume of 965 MB. The text.json subset consists of text data with a data volume of 810 KB.
Baidu
引 言
随着科技和社会的进步,不同国家或地区之间的交流变得更为频繁。语音作为人际交流的一种重要方式,使用不同语言的人们迫切希望能够实现无障碍的交流。语音翻译 (Speech Translation, ST),又称为口语翻译 (Spoken Language Translation, SLT),是一种通过技术实现从源语言的语音转译成目标语言的文本或语音的过程[1]。作为突破人类语言交流壁障的一项关键技术,语音翻译在电影字幕、国际会议、旅游辅助等领域得到了广泛应用。
传统的语音翻译系统由自动语音识别(Automatic Speech Recognition, ASR)和机器翻译(Machine Translation, MT)两个系统级联而成。由于ASR和MT都有大量的公开语料,并且算法相对成熟,级联模型通常能够取得较高的语音翻译性能。然而,级联模型存在错误传播等问题。因此,近年来,对基于端到端的语音翻译系统的研究成为研究领域的一个热点。通过端到端的方法,可以完全消除错误传播的问题。此外,对于一些不存在书面语言的语言,端到端语音翻译成为唯一的途径。然而,目前的研究还大多集中在高资源语言,如中英[2]、英德[3]、英法[4]、英日[5]。由于缺少公开的数据资源,较少机构能研究面向藏汉的语音翻译技术。
为此,本文通过对网络上公开数据爬取及对公开的藏语语音识别数据集处理,并交由专家审核,最终经过整合及处理后,获取了包含样本7270条,大小为965MB的高质量的藏汉语音翻译数据集。本数据集不仅可以提供研究人员进行藏汉语音翻译的研究,还可用于ASR、MT等领域的研究。
1   数据采集和处理方法
藏汉语音翻译数据集的构建来源于两种方法:一种方法为爬取微信公众号平台中的藏汉数据,进行切分及对齐处理;另一种方法为将公开的藏语语音识别数据集中的文本经过藏汉机器翻译转换为汉字,随后提交给专家进行人工审核校对。最终,对数据进行整合和归一化处理,得到了一个高质量藏汉语音翻译数据集。
1.1   基于爬虫的数据采集方法
基于爬虫的数据采集方法的流程如图1所示。整个过程分成4部分:搜索、网络爬虫、切分和对齐。具体步骤如下:


图1   基于爬虫的数据采集方法流程图
(1) 从微信公众号平台中搜索同时包含藏语语音、藏语文本、汉语文本三种数据的藏汉语音翻译数据。
(2) 通过网络爬虫技术获取数据。具体为:首先通过request技术发送请求,获取目标公众号海量文章的链接地址集合,其次针对每篇文章,使用基于splinter的爬虫技术来获取各文章的藏语音频和对应文本。
(3) 对爬取的数据,采用Praat软件[6]进行句子级别的切分。Praat是一款专业的语音学软件,主要用于对语音信号进行分析、标注、处理以及合成等。在进行音频子句标注前,首先根据藏语和汉语文本的语义对应关系,人工将长句进行分句,并将藏汉文本进行对应。如图2给出了一个示例,左侧为原句,右侧为人工将长句分成了6个短句的结果。


图2   藏汉平行文本的切分
然后,根据分句文本对原长音频切分,图3给出了通过Praat切分音频的图示,该示例中原音频共70.24s,通过Praat切分成了10个子句,对每个子句,人工标注对应的藏汉文本。Praat切分后会生成TextGrid文件,里面给出了每个子句的开始和结束位置及对应的文本。编写程序,利用这些信息将长音频切分成多个短音频。


图3   Praat切分音频及标注示例
(4) 将所有切分后的语音句与对应的藏语文本和汉语文本进行对齐与整合,形成子数据集1,命名为 TCST_1_ori。
1.2   基于机器翻译的数据采集方法
本部分数据集语料来自清华大学发布的藏语语音识别数据集,包含藏语语音和对应的藏语文本。通过机器翻译辅助获取藏汉语音翻译的数据集的构建流程如图4所示。整个过程分成3部分:机器翻译,人工校对及对齐,具体步骤如下:


图4   基于机器翻译的数据构建流程图
(1) 通过藏汉机器翻译系统将藏语文本转换为汉语文本。从藏语语音识别数据集中选择男女共15人,每人抽取约400条数据,共获得6064条数据。
(2) 将藏汉平行文本交给专家审核与校对。
(3) 将所有藏语语音句与对应的藏语文本和汉语文本进行对齐与整合,形成子数据集2,命名为 TCST_2_ori。
1.3   数据处理
TCST_1_ori和TCST_2_ori数据集包含音频和文本文件,两个数据集内音频类型不一致,有mp3、wav两种,音频采样率包含44.1kHz、16kHz不等,且音频信号幅度不统一,数据集文本格式不统一。为了解决这些问题,需要对两个数据集内的数据进行处理。图5给出了处理的步骤,具体如下:


图5   数据处理过程
(1) 去除非藏语存在的音频。在数据集中,存在非藏语词,如2022、APP等。在处理时,首先将这类数据从数据集中删除。
(2) 音频类型转换。数据集中存在mp3和wav格式的音频,将所有音频类型统一转换为wav类型。
(3) 音频重采样。由于数据来源不同,不同音频文件的采样率存在区别。因此,对所有音频进行重采样至16 kHz。
(4) 幅度归一化。不同来源的音频信号间强弱的差异较大,采用归一化将数据幅度规整到-1与+1之间。即,对每个音频,,首先计算幅度得最大值 ,然后,归一化过程可表示为 ,其中,
(5) 音频文件重命名。以“说话人标识_音频序号.wav”的格式对每个说话人包含的音频进行重命名,其中,音频序号包含三个数字字符,如’ m25-La28_001.wav’,’ m25-La28_002.wav’。
(6) 文本整合。将音频文件、对应的藏语文本和对应的汉语文本数据整合,每条样本对应一个字典,将所有数据写入json文件中,形成最终的文本文件。
经过处理后,形成了包含wav格式的音频文件和json格式文本文件的藏汉语音数据集TCST。
2   数据样本描述
本藏汉语音翻译数据集包含1个wav文件夹和1个文本文件。其中,wav的文件大小为965MB。wav文件夹内包含两个子文件夹,1和2,分别表示文件夹内的数据来自TCST_1_ori和TCST_2_ori数据集。文件夹1和2内分别包含8个和15个子文件夹,其中每个子文件夹对应一位说话人的音频数据,文件夹名字唯一标识说话人。语音子文件夹下包含多个音频文件,每个音频文件的命名格式为“说话人标识_音频序号.wav”,其中音频序号字符宽度为3。对本数据集说话人的音频文件数目和音频总有效时长(以分钟为单位)进行统计,结果如表1所示。整个藏汉语音翻译数据集中共包含7270个样本,有效时长为527.1分钟。
表1   音频数据统计表
说话人标识音频文件数目时长(分钟)说话人标识音频文件数目时长(分钟)
bodad2128.3L_F_0_0241029.3
bodkb21219.6L_F_0_0541031.6
bodwz21210.4L_F_0_1040930.9
cuoxiang20712.5L_F_0_1341028.5
maqufa11412.7L_M_0_0640722.6
maqufb708.0L_M_0_1040922.2
maqufc15118.9L_M_0_1340925.4
maqumd283.5L_M_0_1841222
f21-La4139535.2L_M_0_2040827.5
f58-La6839724.8m20-La4039740
f6-La1139729.3m25-La2839726
f71-La1639737.9总计7270527.1
数据集中的文本文件名为text.json,大小为2.57 MB。文件内每个样本为一个字典,包含音频文件路径、该音频文件对应的藏语文本及汉语文本,数据格式为:
“说话人标识-音频文件名”: {
‘audio’: 音频文件路径,
‘text’: {
‘Tibetan’: 音频文件对应的藏语文本
‘Chinese’: 音频文件对应的汉语文本
}
}
一些样本示例如图6所示。


图6   文本文件中的样本示例
3   数据质量控制和评估
本藏汉语音翻译数据集来自两部分,一部分为微信公众平台,在音频切分阶段同步校对文本,保证数据的准确性;另一部分来源于对藏语语音识别数据集机器翻译的结果,由于机器翻译不能完全准确地进行翻译,因此,邀请了藏语专家进行人工审核并校对,以保证数据的质量。本数据集内容来源于新闻、日常对话、书籍等,应用面较广,保证数据的覆盖范围。
4   数据价值
由于缺少公开的藏汉语音翻译数据集,藏汉语音翻译技术的研究进展较小。本文构建的数据集缓解了这一问题,为藏汉语音翻译的研究提供一定的数据基础。本文采用的两种数据集采集方法:网络爬虫、机器翻译辅助,也为大规模藏汉语音翻译数据集的构建提供思路。同时,由于本数据集中每个样本均包含藏语音频、藏语文本和汉语文本,所以除了用于研究级联藏汉语音翻译系统和端到端藏汉语音翻译系统之外,本数据集还可用于藏汉机器翻译、藏语语音识别的研究。
致 谢
获取本数据集得到中央民族大学陈波老师、周毛克、俄见才让、王子豪、常润等的大力支持,在此表示感谢。
[1]
SPERBER M, PAULIK M. Speech translation and the end-to-end promise: taking stock of where we are[J]. arXiv preprint arXiv:2004.06358, 2020.
[2]
ZHANG R, WANG X, ZHANG C, et al. BSTC: A large-scale Chinese-English speech translation dataset[J]. arXiv preprint arXiv:2104.03575, 2021.
[3]
CATTONI R, DI GANGI M A, BENTIVOGLI L, et al. MuST-C: A multilingual corpus for end-to-end speech translation[J]. Computer Speech & Language, 2021, 66: 101155.
[4]
ALI C K, LAURENT B, OLIVIER K. Augmenting librispeech with French translations: a multimodal corpus for direct speech translation evaluation[C]. LREC, Miyazaki, Japan, 2018.
[5]
HITOMI T, SHIGEKI M, NOBUO K, et al. Construction and utilization of bilingual speech corpus for simultaneous machine interpretation research [C]. Interspeech, Lisbon, Portugal, 2005.
[6]
BOERSMA P. Praat, a system for doing phonetics by computer[J]. Glot International, 2001, 5(9): 341-345.
数据引用格式
赵小兵, 戚肖克, 刘佳洛, 等. TCST:藏汉语音翻译数据集[DS/OL]. V1. Science Data Bank, 2024. (2024-05-15). DOI: 10.57760/sciencedb.j00001.01024.
Baidu
稿件与作者信息
论文引用格式
赵小兵, 刘佳洛, 江雪, 等. 藏汉语音翻译数据集[J/OL]. 中国科学数据, 2024. (2024-05-15). DOI: 10.11922/11-6035.csd.2024.0023.zh.
赵小兵
ZHAO Xiaobing
主要承担工作:数据质量控制与综合管理。
(1967—),女,内蒙古自治区呼和浩特市人,博士,教授,研究方向为自然语言处理。
刘佳洛
LIU Jialuo
主要承担工作:数据采集、数据标注与质量控制。
(2001—),男,江西省赣州市人,硕士研究生,研究方向为语音识别和语音翻译。
江雪
JIANG Xue
主要承担工作:数据集整合。
(1998—),女,河北省保定市人,硕士研究生,研究方向为语音翻译。
戚肖克
QI Xiaoke
主要承担工作:数据集的预处理和整合、论文撰写。
qixiaoke@cupl.edu.cn
(1985—),女,山东省菏泽市人,博士,副教授,研究方向为语音信号处理、自然语言处理。
国家语委重点项目(ZDI135-118)
National Language Commission Project (ZDI135-118)
Baidu
出版历史
I区发布时间:2024年5月15日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata
Baidu
map