摘要:语音翻译研究的前沿取决于可用数据集的质量和多样性。目前在探索少数民族语言的语音翻译时,由于缺乏公开的数据集,相关研究面临着诸多限制。为此,本文构建并公开藏语语音到汉语文本的语音翻译数据集。本数据集来源于微信公众平台以及已公开的藏语语音识别数据集。通过网络爬虫和机器翻译辅助采集数据,并进行人工切分与标注,最终交由专家审核和校正后得到高质量的藏汉语音翻译数据集。本数据集包含样本7270条,大小为965MB。本数据集的建立为探索低资源藏汉语音翻译技术提供了一定的数据基础,有助于推动相关技术和算法的进步,也为语音翻译系统在少数民族语言环境下的应用提供了实质性的支持。
关键词:语音翻译;藏汉;少数民族语言;低资源;数据集