文献标识码:A
DOI:10.16157/j.issn.0258-7998.190248
中文引用格式:殷晓雨,阿力木江·艾沙,库尔班·吾布力. 基于卷积递归模型的文本分类研究[J].电子技术应用,2019,45(10):29-32,36.
英文引用格式:Yin Xiaoyu,Alimjan Aysa,Kurban Ubul. Research of text classification based on convolution recursive model[J]. Application of Electronic Technique,2019,45(10):29-32,36.
0 引言
随着人类一直以来在互联网上产生的非结构化文本数据量的不断增长,迫切需要更加智能地处理这些庞大的数据并从中提取不同类型的知识。自然语言处理(Natural Language Processing,NLP)是计算机科学领域的一个广泛的研究领域,它关注计算机与人类语言之间的交互过程。文本分类在许多NLP应用程序中起着重要作用,例如垃圾邮件过滤、电子邮件分类、信息检索、Web搜索以及排名和文档分类[1-2],在这些功能中都需要将预定义类别分配给序列文本。文本分类关注的核心问题是文本中词语的表示以及分类模型的选择。相比较传统的文本分类方法,深度学习文本分类框架不需要人为地获取特征,并且具有更好的分类准确率以及更高的效率,因而在自然语言处理领域获得越来越广泛的应用。
卷积神经网络(Convolutional Neural Networks,CNN)最初在计算机视觉领域取得了非常成功的结果。CNN将特征提取和分类视为一个联合任务。通过堆叠多个卷积和池化层来改进这一过程,并且充分利用其多层感知器的结构,具备了学习高维、复杂和非线性映射关系的能力,在语音识别以及图像领域都取得了很好的成果。KIM Y[3]等人提出将文本中经过预处理的词向量组合为二维的词向量矩阵,作为卷积神经网络的输入,通过卷积池化等操作来提取文本局部特征,从而实现句子级别的文本分类。虽然卷积神经网络模型为文本分类研究打开了新的研究方向并且取得了显著的成果,但是卷积神经网络过于关注局部特征而忽略词序以及语法结构,也对其分类准确率造成了一定的影响。所以本文中引用卷积神经网络(Recurrent Neural Networks,RNN)[4]来解决单独卷积神经网络忽略全局特征的问题。
本文所提出的架构受到最近RNN在NLP应用中的成功以及RNN即使只有一个单层也可以捕获长期依赖性这一事实的启发[5]。NLP的大多数深度学习架构需要堆叠许多层来捕获由于卷积和池化层的局部性而导致的长期依赖性[6]。因而本文研究了长短时记忆网络(LSTM)作为卷积神经网络语言模型中池化层的替代方法,以执行短文本的情感分析。本文将提出一种联合CNN和RNN的架构,它将CNN提取的局部特征作为RNN的输入,用于短文本的情感分析。本文的主要贡献:利用LSTM替代卷积神经网络结构中的池化层,通过卷积结构提取的局部特征和LSTM模型获得长期依赖关系,以较少的参数并实现有竞争力的结果[7],并在反复试验后实现对这一模型参数的优化。
1 模型结构
1.1 卷积神经网络
卷积网络是一种包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一[8],通常包含输入层、卷积层、池化层、全连接层以及输出层等。本文利用卷积神经网络模型提取文本的局部特征,通过反向传播算法进行参数优化[9]。由KIM Y提出的CNN短文本分类模型如图1所示。
(1)输入层。输入层是由句子中词语的词向量组成的词向量矩阵。本文为了实现文本单词特征的提取尽可能地保留其所在语句中的含义,因而将每条文本中所有的词向量纵向堆叠得到二维的文本向量矩阵[10]。主要是利用Word2vec将词W(i)转换为词向量V(W(i)),并且将词W(i)组成的句子映射成为句子矩阵Sj,假设词向量的维度为n,这个句包含词的数量为k,因此该文本中包含k个子矩阵的大小就是n×k。
(2)卷积层。卷积层通过一组不同大小的卷积核(Fliter)r×k对句子矩阵Sj进行卷积运算操作,提取的局部特征:
其中,F代表r×k大小的的卷积核,b表示偏置量,f表示非线性激活函数,ci表示通过卷积操作得到的局部特征。随着卷积核以步长为1从上向下扫描完整个词向量矩阵后,最终会得到局部特征向量集合C:
其中,h是卷积层参数,对应卷积步长。
(3)池化层。池化层主要负责对卷积层的输出进行保留压缩,进一步减少参数数量并提取主要特征,它通常包括平均池化和最大池化,本文选取最大池化操作,通过调整k-max池化窗口参数来提取特征矩阵中最具有价值的重要信息。
(4)输出层。将池化层的所有输出特征在全连接层组合输出为向量U,之后通过softmax分类器计算文本在各个类别下的概率,最终模型利用实际的分类标签,通过反向传播算法进行模型参数的优化[11]。
其中,y代表目标输出的实际分类。
1.2 长短时记忆网络
为了在文本中获得较长的序列信息,仅仅依赖于卷积神经网络是难以实现的,因此自然语言处理中更常用到循环神经网络。它利用定向循环操作将前一刻的隐层状态参与下一时刻隐层状态的计算,从而解决了输入间的前后关联问题[12]。
长短期记忆网络(Long Short_Term Memory Network,LSTM)[13]是一种特殊的RNN,其核心是利用记忆细胞记住长期的历史信息和门机制进行管理,从而更新每一层的隐状态。LSTM递归神经网络的隐藏层向前公式可表示为:
1.3 融合模型
文本分类特征融合模型由卷积神经网络和循环神经网络组成。第一层是嵌入层,将输入文本转换为可供处理的词向量矩阵,矩阵的列数就是词向量的维度,行数就是单词序列的长度。
对其进行卷积操作,通过文献[15]中对基础卷积神经网络的研究,本文经过分析测试后认为,当词向量取100维,且卷积核分别设置为3×100、4×100、5×100时,卷积神经网络会取得比较好的分类效果。在得到卷积运算所产生特征向量矩阵之后,将其作为输入直接进入长短时记忆网络以捕获文本的长期依赖关系,提取文本中的全局性特征。卷积循环网络模型图如图2所示。
将融合后的特征保存在output中,再连接第二个全连接层,其中θ代表函数的输入向量,在第二个全连接层之后使用dropout机制,舍弃每次训练中得到的部分参数,且dropout参数设置为0.5,防止过拟合,将最后将得到的结果输入到softmax函数中得到x被分类成j类的概率计算公式为:
2 实验与分析
2.1 实验环境
实验环境参数配置如表1所示。
2.2 实验数据
本文的数据集为斯坦福大学的大型标准互联网电影资料库IMDB,是英文情感分析的标准试验数据,其任务是判断电影评论是正面还是负面的。IMDB数据集有5万条来自网络电影数据库的评论,其中2.5万用来训练,2.5万用来测试,每个部分正负评论各占50%。使用15%已经标注过的文档作为验证数据。
IMDB数据集是Keras内部集成的,初次使用需下载导入,之后便可以直接使用,并且该数据集已经经过预处理,所有的影评文本已经被转换为整数序列。在输入神经网络前首先要将整数列表转换为词向量,将文本转化为低维、稠密的词向量矩阵。目前有很多词向量训练工具,最具代表性的是斯坦福大学的Glove以及Google发布的Word2Vec等。
2.3 实验参数
通过使用随机最速下降法SGD训练网络以及反向传播算法来计算梯度。本文通过添加一个循环层模型作为池化层的替代,有效地减少所需的卷积层数并捕获长期依赖关系。因此,本文考虑将卷积和循环层合并为一个单独的模型。本架构目标是减少网络中的多个卷积和池化层堆叠数量并进一步减少局部详细信息的丢失。从而,在提出的模型中,卷积核的大小设置为3×256、4×256、5×256,使用ReLU作为激活函数。对于循环层LSTM,本文将其隐藏层的参数设置为128,训练迭代数量为50。表2中显示了所提出的架构的所选参数值。
2.4 实验结果及分析
为了验证本文所提出的CNN与LSTM融合模型的分类性能,分别将本文中的模型与单独CNN模型、LSTM模型、传统分类模型以及其他文本分类模型做了比较试验。
图3~图5分别给出了3层CNN模型、单LSTM模型以及融合模型的准确率。单独模型与融合模型准确率对比如表3所示。从表3中可知,本文所提出的融合模型在准确率方面要优于单独的卷积神经网络模型以及LSTM模型。通过卷积神经网络提取局部特征之后,直接将文本的局部特征作为长短时记忆网络的输入,可以取得比单独模型更高的分类准确率。
本文不仅与单独文本分类模型进行对比,还与传统的机器学习算法SVM以及其他模型进行比较。通过表4可以看出,文献[15]提出的基于风险最小化的分类决策树虽然在原有的基础上有了较大进步,但本文所提出的融合模型在分类准确率上显然效果更好。
在用LSTM进行分类时,由于需要将全部的文本特征信息编码到隐藏层中,显然这种长距离特征依赖对于长文本的效果更为明显,在加入了注意力机制之后显然对LSTM的准确率有较为显著的影响,但本文所提出的的融合模型通过卷积计算提取局部特征和LSTM兼顾文本序列以及语法结构的长距离特征在分类效果上表现要更好,本文所提出的文本特征融合模型的确可以有效提高文本分类的准确率。
3 结论
本文提出了一种利用LSTM替代卷积神经网络模型中池化层的特征融合模型用于文本分类研究。该模型既可以利用卷积结构提取文本的局部特征,又可以利用LSTM保留文本的全局特征,减少局部特征在多层卷积池化结构中的的特征损失问题。在实验阶段,本文将所提出的文本分类融合模型与单模型、传统文本分类模型以及其他深度学习模型进行对比实验,本文所提出的融合模型有效提升了文本分类的准确率。然而本文所提出的融合模型并没有采用复杂的网络结构,在接下来的研究中将针对结构更加复杂的卷积神经网络与LSTM的融合模型来开展。
参考文献
[1] Li Juntao,Cao Yimin,Wang Yadi,et al.Online learning algorithms for double-weighted least squares twin bounded support vector machines[J].Neural Processing Letters,2017,45(1):319-339.
[2] KALCHBRENNER N,GREFENSTETTE E,BLUNSOM P A.Convolutional neural network for modelling sentences[J].Information Sciences,2016(1):217-253.
[3] KIM Y.Convolutional neural networks for sentence classification[C].Proceedings of the EMNLP,2014.
[4] 李云红,梁思程,任劼,等.基于循环神经网络变体和卷积神经网络的文本分类方法[J].西北大学学报(自然科学版),2019(4):1337-5003.
[5] GRAVES A.Supervised sequence labelling with recurrent neural networks[M].Berlin Heidelberg:Springer,2012.
[6] ANDRIY M,GEOFFREY H.A scalable hierarchical distributed language model[C].The Conference on Neural Information Processing Systems(NIPS),2008:1081-1088.
[7] 苏丰龙,谢庆华.基于深度学习的领域实体属性词聚类抽取研究[J].电子技术应用,2016,42(6):1674-7720.
[8] 字云飞,李业丽,孙华艳.基于深度神经网络的个性化推荐系统研究[J].电子技术应用,2019,45(1):14-18,22.
[9] MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distribtedrep-resentations of words and phrases and their compositionality[C].Proceedings of the Advances in Neural Information Processing Systems,2013:3111-3119.
[10] 王静.基于机器学习的文本分类算法研究与应用[D].成都:电子科技大学,2015.
[11] 张冲.基于Attention -Based LSTM模型的文本分类技术的研究[D].南京:南京大学,2016.
[12] MANNING C D,RAGHAVAN P,SCHUTZE H.An introduction to information retrieval[M].Cambridge:Cambridge University Press,2008.
[13] 李华,屈丹,张文林,等.结合全局词向量特征的循环神经网络语言模型[J].信号处理,2016,32(6):715-723.
[14] VIGLIOCCO G,VINSON D P,DRUKS J,et al.Nouns and verbs in the brain:a review of behavioural,electrophysiological,neuropsychological and imaging studies[J].Neuroscience and Biobehavioral Reviews,2010(3):167-198.
[15] ZHANG X,ZHAO J,LECUN Y.Character-level convolutional networks for text classification[C].Advances in Neural Information Processing Systems,2015:649-657.
作者信息:
殷晓雨,阿力木江·艾沙,库尔班·吾布力
(新疆大学 信息科学与工程学院,新疆 乌鲁木齐830046)