文献标识码:A
DOI:10.20044/j.csdg.2097-1788.2022.01.015
引用格式: 黄伟强,刘海,梁韬文,等. 针对在线教育情感分析的数据扩充研究[J].网络安全与数据治理,2022,41(1):93-100.
0 引言
随着信息技术的飞速发展,在线教育逐渐兴起,越来越多的人在在线教育课程中留下了有价值的评论,通过对这些评论进行情感分析可以达到多方面的目的,如分析学生对课程的满意度、调查老师授课水平、挖掘课程质量等。
情感分析(Sentiment Analysis),又称为情感倾向性分析[1],目的是找出文本中情感的正负性,如正面或负面、积极或消极,并且把这种正负性数值化,以百分比或者正负值的方式表现出来。情感分析的研究方法大致可以分为两种:一是基于情感词典的情感分析[2],主要通过建立情感词典或领域词典及通过文本中带有极性的情感词进行计算来获取文本的极性,由于依赖于情感词典,存在覆盖率不足等缺点;二是基于机器学习的情感分析,包括监督学习、无监督学习和半监督学习三种方法,其中与监督学习和无监督学习相比,半监督学习通过少量标注数据和大量无标注数据进行识别,既不用对所有的数据进行标注,也不依赖先验经验,有较好的实用性,从而被许多学者应用在情感分析问题上,如陈珂等[3]利用基于分类器集成的self-training方法进行情感分析研究,使用少量标注样本和大量未标注样本来进行情感分析训练,准确率达86%。
数据扩充[4]是一种结合机器学习使用的方法,在训练样本不足的情况下,可使模型训练更好地拟合,通过与半监督的方法相结合,可达到标注少量数据以扩充至大量训练数据的效果。数据扩充方法目前已被用于图像、交通、医疗等领域[5-7],目前主流的数据扩充方法有图像翻转、随机噪声、标签传播等[8]。
情感分析目前已被应用于如电影评论、书籍评论、微博短评等多个领域,但在在线教育课程评论领域的应用还较缺乏,把情感分析应用在在线教育课程评论上存在着各种挑战,如评论数据的获取、评论数据的标注等。为了解决以上问题,本文借鉴半监督学习的方法,提出基于聚类分析的文本数据扩充方法:对少量关键数据进行标注,并通过聚类分析获得大量已标注数据。在目前主流在线教育平台爬取的569 970条课程评论中选取1 000条关键数据进行标注并使用本文数据扩充方法扩充至10万条标注数据,分别利用SVM[9]、RandomForest[10]、AdaBoost[11]、GradientBoost[12]和CNN模型对标注数据进行训练,实验表明,与目前主流的LabelSpreading算法相比,本文的数据扩充方法均有准确率上的优势。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000004618
作者信息:
黄伟强1,刘 海2,梁韬文2,杨海华2
(1.华南师范大学 网络中心,广东 广州510631;2.华南师范大学 计算机学院,广东 广州510631)