kaiyun官方注册
您所在的位置: 首页> 人工智能> 设计应用> 融合多教师模型的知识蒸馏文本分类
融合多教师模型的知识蒸馏文本分类
电子技术应用 11期
苑婧1,周杨1,胡校飞1,孙姝娅2,张呈龙1,刘龙辉1
(1.战略支援部队信息工程大学, 河南 郑州 450001;2.华北水利水电大学, 河南 郑州 450000)
摘要:针对简单文本分类模型精度不高,预训练模型结构复杂,在实际环境中难以直接使用的问题,提出多教师知识蒸馏的文本分类方法。该模型使用“教师-学生网络”的训练方法,教师模型为BERT-wwm-ext和XLNet预训练模型,将两个模型输出的概率矩阵通过权重系数融合为软标签。学生模型为BiGRU-CNN网络,使用均方差函数计算软标签误差,使用交叉熵损失函数计算硬标签误差,通过硬标签和软标签训练学生模型使损失函数值达到最小。实验结果表明,提出的方法精度较学生模型有较大的改进,接近预训练模型,在保证分类精度的前提下减少了运行时间,提高了效率。
中图分类号:TP301
文献标志码:A
DOI: 10.16157/j.issn.0258-7998.233869
引用格式: 苑婧,周杨,胡校飞,等. 融合多教师模型的知识蒸馏文本分类[J]. 电子技术应用,2023,49(11):42-48.
Integrated multi-teacher model for knowledge distillation text classification
Yuan Jing1,Zhou Yang1,Hu Xiaofei1,Sun Shuya2,Zhang Chenglong1,Liu Longhui1
(1.Strategic Support Force Information Engineering University, Zhengzhou 450001, China;2.North China University of Water Resources and Electric Power, Zhengzhou 450000, China)
Abstract:Aiming at the problems of low accuracy of simple text classification model, complex structure of pre-training model and difficult to be directly used in practical environment, this paper proposes a text classification method based on multi-teacher model knowledge distillation. This model uses the training method of "teacher-student network", and the teacher model is the BERT-wwm-ext and XLNet pre-training models. The probability matrix of the output of the two models is fused into soft labels by weight coefficient. The student model is BiGRU-CNN network. The mean square error function is used to calculate the soft label error, and the cross-entropy loss function is used to calculate the hard label error. The student model is trained by hard label and soft label to minimize the value of the loss function. The test results show that the accuracy of the proposed method have great improvement compared with the student model, and it is close to the pre-training model, which can save the running time and improve the efficiency on the premise of ensuring the classification accuracy.
Key words :text classification;knowledge distillation;BERT-wwm-ext;XLNet;BiGRU-CNN

【引言】

文本分类为舆情监控、广告推送、挖掘社交媒体用户的时空行为、追踪敏感信息发挥了重要作用,其主要任务是根据文本内容或主题自动识别其所属类别。目前文本分类主要有机器学习[1]、深度学习[2]和预训练模型,其中预训练模型分类准确率最高。

深度学习模型通过捕捉文本的上下文特征完成文本分类任务,包括卷积神经网络(Convolutional Neural Network,CNN)[3]、循环神经网络(Recurrent Neural Network,RNN)[4]、长短期记忆网络(Long and Short Term Memory,LSTM)[5]、门控循环单元(Gated Recurrent Unit GRU)[6]等。结合不同的模型可以有效提高模型的性能,例如Sandhya结合长LSTM和RNN对文本文档进行特征提取[7],陈可嘉[8]使用BiGRU-CNN模型结合自注意力机制进行文本分类,均全面提取了文本的局部和整体特征,提高了模型的准确性。

预训练文本分类模型模型使用大量无标注语料,在多个自然语言处理任务中有着良好的效果[9],包括Bert[10]、ELMo[11]、XLNet[12]等。翟剑峰使用Bert模型用于用户画像[13],王浩畅使用ELMo模型用于机器翻译[14],李东金使用XLNet模型用于情感分析[15]。但是预训练模型参数量大、结构复杂、运行时间长,在实际生产环境直接使用难度较大,因此需在保证准确率的前提下对模型进行压缩。

合理的模型压缩可以在保证准确率的前提下有效降低模型参数量和内存以提高实际应用的时间效率[16],常见的模型压缩方法包括网络剪枝[17]、参数量化、知识蒸馏[18]等。叶榕使用知识蒸馏的方法结合Bert和CNN模型用于新闻文本分类[19],杨泽使用知识蒸馏的方法改进网络问答系统[20],都在不影响准确率的前提下,大大缩短了运行时间。

本文提出了一种多教师模型知识蒸馏的方法,在不显著降低性能的前提下,减小模型了的复杂度。结合预训练模型XLNet和BERT-wwm-ext输出的概率分布融合作为软标签,在训练过程中指导学生模型BiGRU-CNN网络,提高了模型的泛化能力。


文章详细内容下载请点击:融合多教师模型的知识蒸馏文本分类AET-电子技术应用-最丰富的电子设计资源平台 (chinaaet.com)


【作者信息】

苑婧1,周杨1,胡校飞1,孙姝娅2,张呈龙1,刘龙辉1

(1.战略支援部队信息工程大学, 河南 郑州 450001;2.华北水利水电大学, 河南 郑州 450000)




此内容为AET网站原创,未经授权禁止转载。
Baidu
map