基于深度学习的词语级中文唇语识别-AET-电子技术应用

基于深度学习的词语级中文唇语识别

2022年电子技术应用第12期

陈红顺1，陈观明1，2

1.北京师范大学珠海分校信息技术学院，广东珠海519087；2.珠海欧比特宇航科技股份有限公司，广东珠海519080

摘要： 在无声或噪声干扰严重的环境下，或对于存在听觉障碍的人群，唇语识别至关重要。针对词语级中文唇语识别的问题，提出了SinoLipReadingNet模型，前端采用Conv3D+ResNet34结构用于时空特征提取，后端分别采用Conv1D结构和Bi-LSTM结构用于分类预测，并引入Self-Attention、CTCLoss对Bi-LSTM后端进行改进。最终在新网银行唇语识别数据集上进行实验，结果表明，SinoLipReadingNet模型在识别准确率上明显优于中科院D3D模型，多模型融合的预测准确率达到了77.64%，平均字错率为21.68%。

关键词： 唇语识别 ResNet Bi-LSTM CTCLoss 自注意力机制

中图分类号： TP391.4
文献标识码： A
DOI：10.16157/j.issn.0258-7998.222903
中文引用格式： 陈红顺，陈观明. 基于深度学习的词语级中文唇语识别[J].电子技术应用，2022，48(12)：54-58.
英文引用格式： Chen Hongshun，Chen Guanming. Chinese word-level lip reading based deep learning[J]. Application of Electronic Technique，2022，48(12)：54-58.

Chinese word-level lip reading based deep learning

Chen Hongshun1，Chen Guanming1，2

1.School of Information Technology，Beijing Normal University(Zhuhai)，Zhuhai 519087，China； 2.Zhuhai Orbita Aerospace Science & Technology Co.，Ltd.，Zhuhai 519080，China

Abstract： Lip reading is crucial in the silent environment or environments with serious noise interference, or for people with hearing impairment. For word-level Chinese lip reading problem, SinoLipReadingNet model is proposed, the front end of which with Conv3D and ResNet34 is used to extract temporal-spatial features, and the back end of which with Conv1D and Bi-LSTM are used for classification and prediction respectively. Also, self-attention and CTCLoss are added to improve the back end with Bi-LSTM. Finally,the SinoLipReadingNet model is tested on XWBank lipreading dataset and results show that the prediction accuracy is significantly better than that of D3D model, the prediction accuracy and avrage CER of multi-model fusion reaches 77.64% and 21.68% respectively.

Key words : lip reading；ResNet；Bi-LSTM；CTCLoss；self-attention

0 引言

语言是人类沟通交流的主要方式，语音是人类语言交流的主要载体之一。在无声或噪声干扰严重的环境下，或对于存在听觉障碍的人群，如何利用通过嘴唇运动进行语言识别至关重要。唇语识别是指通过观察和分析人说话时唇部运动的特征变化，识别出人所说话的内容。唇语识别具有广阔的应用前景：在医疗健康领域，可以借助唇语识别辅助患有听力障碍的病人沟通交流^[1]；在安防领域，人脸识别同时通过唇语识别以提高活体识别的安全性^[2]；在视频合成领域, 利用唇语识别可以合成特定人物讲话场景的视频^[3]，或者合成高真实感的虚拟人物动画等。

唇语识别主要包含4个步骤^[4]：人脸关键点检测与跟踪、唇语区域提取、时空特征提取和分类与解码。其中，时空特征提取和分类与解码是唇语识别的研究重点。近年来，随着大规模数据集^[5]的出现，基于深度学习的方法可以自动抽取深层特征，逐渐成为唇语识别研究的主流方法^[6]。如图1所示，基于深度学习的唇语学习方法将一系列的唇部图像送入前端以提取特征，然后传递给后端以进行分类预测，并以端到端的形式进行训练。

本文详细内容请下载：https://www.chinaaet.com/resource/share/2000005040。

作者信息：

陈红顺1，陈观明1，2

(1.北京师范大学珠海分校信息技术学院，广东珠海519087；2.珠海欧比特宇航科技股份有限公司，广东珠海519080)

原创声明：此内容为AET网站原创，未经授权禁止转载。

相关内容