文献标志码:A
DOI: 10.16157/j.issn.0258-7998.233869
引用格式: 苑婧,周杨,胡校飞,等. 融合多教师模型的知识蒸馏文本分类[J]. 电子技术应用,2023,49(11):42-48.
【引言】
文本分类为舆情监控、广告推送、挖掘社交媒体用户的时空行为、追踪敏感信息发挥了重要作用,其主要任务是根据文本内容或主题自动识别其所属类别。目前文本分类主要有机器学习[1]、深度学习[2]和预训练模型,其中预训练模型分类准确率最高。
深度学习模型通过捕捉文本的上下文特征完成文本分类任务,包括卷积神经网络(Convolutional Neural Network,CNN)[3]、循环神经网络(Recurrent Neural Network,RNN)[4]、长短期记忆网络(Long and Short Term Memory,LSTM)[5]、门控循环单元(Gated Recurrent Unit GRU)[6]等。结合不同的模型可以有效提高模型的性能,例如Sandhya结合长LSTM和RNN对文本文档进行特征提取[7],陈可嘉[8]使用BiGRU-CNN模型结合自注意力机制进行文本分类,均全面提取了文本的局部和整体特征,提高了模型的准确性。
预训练文本分类模型模型使用大量无标注语料,在多个自然语言处理任务中有着良好的效果[9],包括Bert[10]、ELMo[11]、XLNet[12]等。翟剑峰使用Bert模型用于用户画像[13],王浩畅使用ELMo模型用于机器翻译[14],李东金使用XLNet模型用于情感分析[15]。但是预训练模型参数量大、结构复杂、运行时间长,在实际生产环境直接使用难度较大,因此需在保证准确率的前提下对模型进行压缩。
合理的模型压缩可以在保证准确率的前提下有效降低模型参数量和内存以提高实际应用的时间效率[16],常见的模型压缩方法包括网络剪枝[17]、参数量化、知识蒸馏[18]等。叶榕使用知识蒸馏的方法结合Bert和CNN模型用于新闻文本分类[19],杨泽使用知识蒸馏的方法改进网络问答系统[20],都在不影响准确率的前提下,大大缩短了运行时间。
本文提出了一种多教师模型知识蒸馏的方法,在不显著降低性能的前提下,减小模型了的复杂度。结合预训练模型XLNet和BERT-wwm-ext输出的概率分布融合作为软标签,在训练过程中指导学生模型BiGRU-CNN网络,提高了模型的泛化能力。
文章详细内容下载请点击:融合多教师模型的知识蒸馏文本分类AET-电子技术应用-最丰富的电子设计资源平台 (chinaaet.com)
【作者信息】
苑婧1,周杨1,胡校飞1,孙姝娅2,张呈龙1,刘龙辉1
(1.战略支援部队信息工程大学, 河南 郑州 450001;2.华北水利水电大学, 河南 郑州 450000)