融合图文预训练的汉越多模态神经机器翻译
电子技术应用
韦浩翔1,2,高盛祥1,2,余正涛1,2,王晓聪1,2
1.昆明理工大学 信息工程与自动化学院;2.云南省人工智能重点实验室
摘要:由于汉语和越南语之间存在显著的语法差异及语料稀缺,汉越神经机器翻译任务面临名词翻译不准确的挑战。提出了一种新颖的多模态神经机器翻译方法,该方法融合了文本预训练模型和视觉语言联合预训练模型。通过文本预训练模型,能够捕获深层的语言结构和语义;而视觉语言联合训练模型则提供了与文本相关联的视觉上下文,这有助于模型更准确地理解和翻译名词。两种模型通过一个简洁高效的映射网络结合,并通过Gumbel门控模块动态地整合多模态信息,以优化翻译输出。在汉越及越汉翻译任务中,该方法相比传统Transformer模型分别提升了7.13和4.27的BLEU值。
中图分类号:TP391 文献标志码:A DOI: 10.16157/j.issn.0258-7998.245391
中文引用格式:韦浩翔,高盛祥,余正涛,等. 融合图文预训练的汉越多模态神经机器翻译[J]. 电子技术应用,2024,50(12):48-54.
英文引用格式:Wei Haoxiang,Gao Shengxiang,Yu Zhengtao,et al. Chinese-Vietnamese multimodal neural machine translation with integrated image-text pre-training[J]. Application of Electronic Technique,2024,50(12):48-54.
中文引用格式:韦浩翔,高盛祥,余正涛,等. 融合图文预训练的汉越多模态神经机器翻译[J]. 电子技术应用,2024,50(12):48-54.
英文引用格式:Wei Haoxiang,Gao Shengxiang,Yu Zhengtao,et al. Chinese-Vietnamese multimodal neural machine translation with integrated image-text pre-training[J]. Application of Electronic Technique,2024,50(12):48-54.
Chinese-Vietnamese multimodal neural machine translation with integrated image-text pre-training
Wei Haoxiang1,2,Gao Shengxiang1,2,Yu Zhengtao1,2,Wang Xiaocong1,2
1.Faculty of Information Engineering and Automation, Kunming University of Science and Technology;2.Yunnan Key Laboratory of Artificial Intelligence
Abstract:Due to significant grammatical differences and a scarcity of linguistic resources between Chinese and Vietnamese, the task of Chinese-Vietnamese neural machine translation faces challenges in the accurate translation of nouns. This paper proposes a novel multimodal neural machine translation method that integrates a text-based pre-trained model with a visual-linguistic joint pre-training model. The text-based model captures deep linguistic structures and semantics, while the visual-linguistic joint training model provides visual context related to the text, which helps the model understand and translate nouns more accurately. The two models are combined through a streamlined and efficient mapping network and dynamically integrate multimodal information via a Gumbel gating module to optimize translation outputs. In both Chinese-Vietnamese and Vietnamese-Chinese translation tasks, this method has achieved improvements of 7.13 and 4.27 BLEU points, respectively, compared to the traditional Transformer model.
Key words :Chinese-Vietnamese neural machine translation;vision-language joint pre-training;multimodal;attention
引言
机器翻译是利用计算机程序将一种自然语言的文本自动转换成另一种自然语言。随着中国的“一带一路”倡议的不断推进,中越两国在经济和文化领域的交流与合作日益增强,高效且准确的翻译服务变得尤为关键。尤其是神经机器翻译技术的应用,极大提升了翻译的速度和质量,有效地促进了两国之间的信息交流与理解,为双边关系的深化提供了坚实的语言支持。
由于汉语-越南语语言对属于低资源语言对,语料资源稀缺,且汉语和越南语语法差异巨大,名词翻译错误一直是汉越神经机器翻译的一个难点,这个问题的存在导致了汉越神经机器翻译模型的翻译不准确。
为了解决汉越神经机器翻译中名词翻译不准确和在少量语料下翻译模型性能不佳的问题,本文提出融合图文预训练的汉越多模态神经机器翻译方法。通过Gumbel门控机制,将视觉-文本联合预训练模型M-CLIP和多语言翻译预训练模型mBART进行有效结合。借助视觉信息,解决名词翻译错误问题;引入mBART预训练模型,提升稀缺语料下的翻译性能;通过Gumbel门控机制,融合多模态信息,排除无关视觉信息对翻译模型的干扰。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006247
作者信息:
韦浩翔1,2,高盛祥1,2,余正涛1,2,王晓聪1,2
(1.昆明理工大学 信息工程与自动化学院,云南 昆明 650500;
2.云南省人工智能重点实验室,云南 昆明 650500)
此内容为AET网站原创,未经授权禁止转载。