文献标识码:A
DOI:10.16157/j.issn.0258-7998.182177
中文引用格式:王洁,乔艺璇,彭岩,等. 基于深度学习的美国媒体“一带一路”舆情的情感分析[J].电子技术应用,2018,44(11):102-106,110.
英文引用格式:Wang Jie,Qiao Yixuan,Peng Yan,et al. Sentiment analysis about “One Belt, One Road” public opinion of American media based on deep learning[J]. Application of Electronic Technique,2018,44(11):102-106,110.
0 引言
“一带一路”倡议自2013年提出以来,受到国内外媒体的广泛关注。随着相关建设的逐步推进,世界各国媒体对“一带一路”的相关报道呈快速增长趋势,新闻报道中蕴含该国对“一带一路”倡议的关注热点与情感倾向,是衡量该国对中国快速发展所持态度的重要素材。现有“一带一路”国际舆情相关研究中普遍存在使用的样本量偏少、分析方法较单一等问题。利用网络大数据,结合文献计量方法和深度学习技术,从客观角度分析海外舆情情感是本文的研究重点。
传统的基于词典和机器学习的情感分析存在分类时灵活度不高和需要大量标注的训练数据等问题,本文基于深度学习技术,构建了基于自动摘要-CNN的集成式文档级情感分析模型。具体方法为:首先提取新闻摘要,去除原始文档中非重要数据的干扰;再利用卷积神经网络进行句子级情感分析,通过基于语义指向的方法获得文档级的情感分数,利用Gensim等工具库计算媒体关注重点,并对情感波动异常文章给予二次研究。本文提出的基于自动摘要-CNN与未摘要新闻的单一CNN进行了对比实验,实验结果验证了集成模型的有效性。本文的研究有助于了解美国新闻媒体关于“一带一路”倡议的舆情热点和情感态度,分析和总结我国在“一带一路”传播过程中的经验及问题,增强未来我国“一带一路”对外传播的针对性、有效性和感召力。
1 相关工作
1.1 “一带一路”国际舆情研究现状
“一带一路”倡议是我国加强与亚欧非及世界各国互联互通,推动沿线各国贸易往来的重大举措,随着相关项目的签约与实施,国内外新闻媒体的报道量快速上升。根据《“一带一路”大数据报告(2017)》[1]分析结果,美国对“一带一路”倡议的关注度超过亚洲各国。本文选取的美国主流新闻媒体网站在报道的宽度、深度、时效性等方面发展迅速,报道内容覆盖政界、学界、商界及普通民众的观点与深层分析的结论。
近年国内外学者、智库、研究机构等从不同角度对“一带一路”倡议的国际舆情展开了大量研究。张岩[2]基于支持与肯定、理性评价与分析、观望与保留态度、质疑与否定4个视角,对比分析3家主流阿拉伯网站的情感倾向与报道主题。赵雅莹[3]定量分析英国3家主流媒体关于“一带一路”的报道中所使用的情感、判定和鉴别三类态度词。清华大学爱泼斯坦对外传播研究中心[4]通过对报纸、电视新闻网、杂志等国外部分主流媒体涉及“一带一路”倡议的报道进行分析,研究国际新闻媒体报道的舆情演变。米拉[5]分析中印尼“一带一路”合作的机遇与挑战。薛庆国[6]研究 “一带一路”倡议在阿拉伯世界的传播。ERGENC C[7]提出“一带一路”倡议标志着中国对中亚和西亚地区政策的积极转变。
1.2 情感分析研究现状
目前,情感分析主要利用两种方法:基于词典的情感分析与基于机器学习的情感分析。根据文本粒度可以分为:短语级、句子级与文档级[8]。基于词典的方法依赖于词典与规则的构建,由于词典的容量和词典适用程度的问题,以及规则构建需要大量人力劳动,基于词典的方法逐渐机器学习所取代[9]。
2002年PANG B等人首次利用机器学习解决二元情感分类问题[10]。从此相关研究工作分为两个主要方向,即设计更多有效的分类特征和采用更多高效的神经网络的结构。KIM Y[11]针对句子级别的分类任务,利用卷积神经网络做了一系列的实验,阐述了不同的架构的神经网络对实验结果的影响,展示了卷积神经网络在情感分析领域的重要作用。JOHNSON R等[12]通过分析卷积神经网络在图像处理上的处理方式,将句子、单词与图像、像素对应,使得卷积神经网络在情感分类问题上展现出较好的效果。近几年,国内关于卷积情感分析的研究多基于微博、评论等短文本[13-14]。
2 情感分析
本文研究主要分为4个步骤:(1)网络爬虫抓取新闻;(2)利用基于自动摘要-CNN的集成式文档级情感分析模型进行情感分析,并对比单一CNN模型分析结果;(3)利用Gensim等工具库统计新闻高频词,了解媒体关注热点;(4)对情感波动异常文章给予二次研究。整体技术思路如图1所示。
2.1 提取新闻摘要
由于研究对象为多源的美国主流新闻媒体,且不同媒体数据的长度与格式均不相同。因此本文在进行信息抽取时,采用自动化文本摘要的方法以保留新闻关键内容及总体含义。
以摘要的准确性和可读性为标准,选择基于Gensim主题建模程序的方法。利用构建无向加权图的方法,以文章中的语句为节点,规格化后的句子相似度为节点的链接,避免句子长度对摘要结果的影响。摘要过程中,关键词不局限于单个词,达到提升摘要可读性的目的。
2.2 句子级情感分析
卷积神经网络主要由输入层、卷积层、池化层、全连接层、输出层组成。如图2所示,模型为采用一种卷积窗口,一种池化窗口,且输入仅为一个特征面的卷积神经网络。其特殊的网络结构,使其可以捕捉细小的特征信息,最初在图像识别领域应用广泛。近几年随着机器学习领域的不断发展,卷积神经网络逐渐被应用到语音识别、文本分类、语义分析等方面。
本文参照KIM Y[11]的建议设置模型参数,对图2的模型改进,进行句子级的情感分析,具体实现方法如下。
输入层(embedding):embedding层将文本转换为向量并扩充维度,以满足卷积神经网络对参数的要求。
卷积层与池化层(conv-maxpool):用于获取局部特征与得到最重要特征。卷积层通过局部连接的方式与上层特征面相连,利用权值共享的特性,减小模型的复杂度。训练过程中采用3种大小的窗口筛选不同的特征,完善对词向量的特征提取。池化层采用最大池化的方式提取最重要的特征。训练过程中,使用修正线性单元(Rectified Liner Unit,ReLU)作为激活函数,使线性的神经网络转变为非线性的神经网络,即使输出结果由式(1)中的f(x)转变为式(2)中的gj(x),同时加快收敛速度。
其中,Isize表示每一个输入特征面的大小;K′∈[3,4,5] 为卷积核即窗口的大小;step表示卷积核在其上一层的滑动步长,Wsize为池化窗口的大小。模型通过调整卷积层训练的参数数目使Oi(输出特征面大小)为整数。
全连接层:由卷积层和池化层训练的特征作为全连接层的输入、输出分类结果,即依据句子在不同类别上的概率分布,为每句话输出情感等级标签。p(yk)为文本在第k种情感倾向上的输出,代表了文本归为第k种情感倾向的概率,p(yk)通过softmax归一化后表示为:
2.3 文档级情感分析
本文采用基于语义指向的方法分析文章情感。即在句子级情感分析的结果基础上,依据各子句的情感极性与该句在文档中的权重,计算文档的情感等级[13]。第j篇文章(j=1,2,3,…,400)的情感分数为:
其中,scorej为文档j的情感分数;Pi代表第i个句子的极性,即句子级情感分析的结果;Weights代表句子在文中的权重,即占文章篇幅的比例。
3 实验与分析
3.1 实验数据
3.1.1 新闻筛选
新闻媒体选取标准主要有两条,首先为Alexa网站对美国新闻类网站排名的综合结果,其次为搜索结果与“一带一路”倡议的相关程度。通过Python语言编写爬虫自动采集相关新闻,因为“一带一路”倡议多与经济建设有关,因此数据采集中对财经类报纸略有侧重。
检索结果经过两步筛选:限制时间范围为2015年1月~2018年7月;辨别文章标题相关度,删除不相关的文章。筛选后的数据描述如表1所示。
3.1.2 模型数据
训练集数据由810篇随机抽取的“一带一路”倡议相关新闻与190篇以“China”作为关键字检索所得新闻的自动摘要构成。其中,“一带一路”倡议相关新闻按照筛选结果中的时间及篇数比例随机抽取。190篇与中国相关的新闻均来自表1所示的10家媒体,并按照相同比例随机抽取2015年1月~2018年7月的新闻,以确保媒体报道的行文风格不对训练结果产生影响。人工对每句话进行标注,共标注12 307句。测试集由202篇文章构成,由所收集到的1 012篇新闻中排除被选择作为训练集的810篇新闻构成,采取与训练集相同的标注方法。
3.2 评价方法
本文情感分析结果评价标准采用精确率(Precision)、召回率(Recall)以及F1值(F1-Score)。
3.3 实验结果分析
3.3.1 模型训练
本文设计了4组实验来训练模型,以确定卷积神经网络卷积层窗口的尺寸。如图3所示,train表示训练集的结果,test表示测试集的结果。图3(a)表示卷积层窗口尺寸为2、3、4时,预测最终准确率为89.1%;图3(b)表示卷积层窗口尺寸为3、4、5时,最终准确率为92.6%;图3(c)表示卷积层窗口尺寸为4、5、6时,最终准确率为91.2%;图3(d)表示卷积层窗口尺寸为5、6、7时,最终准确率为87.3%。因此,本文卷积神经网络采用窗口尺寸为3、4、5的卷积层。
3.3.2 模型训练
本文对基于自动摘要-CNN的集成式文档级情感分析模型和单一CNN模型进行了对比实验,测试结果如表2所示。自动摘要-CNN模型相较于CNN模型在Precision、Recall、F1-Score上分别有了5.69%、4.29%、4.97%的提升。
3.3.3 情感分析结果展示
基于卷积神经网络的分析结果如图4所示。从图中可以看出,87.25%的新闻情感为中性及中性以上。最高值为3.1分,最低值为1.45分,极值分数的文章仅有6篇,说明美国新闻媒体对“一带一路”倡议的相关报道较为客观,不会对美国民众产生极强的情绪影响。
利用Gensim工具库,本文对1 012篇新闻的高频词进行了分析,经去停用词处理后,出现次数排序为前16名的词语如表3所示。
由表3可知,高频词集中在“一带一路”倡议的对象、相关内容及相关言论的来源。
3.3.4 负向情感文章分析
文档级情感分数低于2分的文章归为负向情感,1 012篇相关新闻中有64篇负向情感文章。时间分布为2015年2篇、2016年4篇、2017年28篇、2018年30篇。情感评分较低的原因可以主要归纳为5个方面:
(1)美国担心中国会影响其在亚非欧各国的利益。分析结果中显示的4个异常低分的偏离值,大肆宣扬“中国威胁论”,认为中国试图通过经济、军事力量主导世界政治发展,对美国民众的态度产生较大影响。然而,我国从不做地缘博弈或拉帮结派、恃强凌弱的事情。因此,美国对此表示警惕,也说明了我国在各国实施建设“一带一路”相关经济项目时做到了和平共处,并在世界范围内产生了积极效果。
(2)美国怀疑中国没有能力促使“一带一路”倡议的顺利实施。截至2017年5月,我国已与43个沿线国家发布联合声明/公报。签署的多领域合作文件证明了我国的实力能够推动“一带一路”倡议的顺利实施。
(3)资金融通问题。美国质疑中国在经济贸易方面仍不愿意开放,不愿意接受外国的投资。然而,中国的政策鼓励外资银行把握当前各项政策红利,对投资审查严格是对中外两方资金的负责,资金融通将不再是问题。
(4)中国收紧对海外收购的监管。相关新闻认为这些新的监管措施大部分不适用于与“一带一路”倡议有关的海外收购。相关政策显示,虽然对海外收购监管更加严格,但是战略性的有益的活动仍会被批准。所以,“一带一路”倡议相关活动的实施不会受到影响。
(5)文章中对被投资国家的描述比例较大。多篇新闻存在大篇幅描述阿富汗等国混乱现状的内容,使得文章摘要内即便存在如“China has long been seen as one of the most promising prospects for such help.”的语句,文章整体情感也被前文的描述语句拉低。
综上所述,美国对中国的日益强大存在一定的质疑与抵触心理,但中国将会用客观的数据向世界证明中国的实力。
4 结论
现阶段,互联网“一带一路”倡议搜索量和报道量仍呈上升趋势。研究国外媒体对“一带一路”倡议的报道,能够知悉外国媒体的观点与态度,及时针对国外舆情做出适当的反应,提升我国的形象。本文构建了基于自动摘要-CNN的集成式文档级情感分析模型,对美国主流新闻媒体 “一带一路”倡议相关新闻进行情感分析。模型基于单一CNN模型,增加自动摘要过程进行句子级情感分析,并以此为基础通过基于语义的方法,分析文档级情感。通过对比未摘要新闻与摘要新闻的情感分析结果,发现经过自动摘要的文章避免了整文分析带来的主题不清晰问题,情感更加明确,模型测试效果优于单一的CNN模型。
此外,根据《“一带一路”大数据报告(2017)》[1]显示,除美国外,印度、英国、俄罗斯、澳大利亚等国对“一带一路”倡议的关注度提升明显。因此,未来将完善对其他各国的研究,对比分析各国舆论发展情况,提出关于“一带一路”倡议宣传的针对性意见。在研究方法方面,改进卷积神经网络的结构,使文本特征的提取更有效,提高模型的准确率。
参考文献
[1] 国家信息中心“一带一路”大数据中心.“一带一路”大数据报告(2017)[M]. 北京:商务印书馆,2017.
[2] 张岩.“一带一路”峰会期间阿拉伯网站舆情调查分析——以三家主流阿拉伯网站为例[J].对外传播,2017(7):30-32.
[3] 赵雅莹,郭继荣,车向前.评价理论视角下英国对“一带一路”态度研究[J].情报杂志,2016,35(10):37-41.
[4] 清华大学爱泼斯坦对外传播研究中心.“一带一路”议题的国际舆情分析[J]. 对外传播,2017(5):24-26.
[5] 米拉,施雪琴.印尼对中国“一带一路”倡议的认知和反应述评[J].南洋问题研究,2016(4):79-91.
[6] 薛庆国.“一带一路”倡议在阿拉伯世界的传播:舆情、实践与建议[J].西亚非洲,2015(6):36-52.
[7] ERGENC C.Can two ends of asia meet?An overview of contemporary Turkey-China relations[J].East Asia,2015,32(3):289-308.
[8] 姜杰.社交媒体文本情感分析[D].南京:南京理工大学,2017.
[9] 陈龙,管子玉,何金红,等.情感分类研究进展[J].计算机研究与发展,2017,54(6):1150-1170.
[10] PANG B,LEE L,VAITHYANATHAN S.Thumbs up? Sen-timent classification using machine learning techniques[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing,Philadelphia,2002.
[11] KIM Y.Convolutional neural networks for sentence classification[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing,Doha,2014.
[12] JOHNSON R,ZHANG T.Effective use of word order for text categorization with convolutional neural networks[C].Proceedings of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Denver,2015.
[13] 何炎祥,孙松涛,牛菲菲,等.用于微博情感分析的一种情感语义增强的深度学习模型[J].计算机学报,2017,40(4):773-790.
[14] 冯兴杰,张志伟,史金钏.基于卷积神经网络和注意力模型的文本情感分析[J].计算机应用研究,2018,35(5):1434-1436.
作者信息:
王 洁1,2,乔艺璇1,彭 岩1,许娴晓1
(1.首都师范大学 管理学院,北京100089;2.中山大学 机器智能与先进计算教育部重点实验室,广东 广州510006)