改进的TF-IDF算法在文本分类中的研究
信息技术与网络安全
张 伟1,2,石 倩1,何 霄1,王 晨1,李禾香1,李骥然1
(1.中国石油工程技术研究院有限公司 北京石油机械有限公司,北京102206; 2.中国人民大学 信息学院,北京100872)
摘要:企业数字化建设过程中,对大量日常经营活动文本的数字化处理通常是多任务的,需要对文本数据同时完成信息抽取和文本分类任。在此应用场景下,为了实现更加精准的分类效果,提出一种改进的TF-IDF算法,将文本信息抽取结果也作为文本重要类别区分特征。通过引入信息增益方法得到改进的权重计算公式,进而得到改进的文本特征向量空间表示,再构建文本分类模型。实验以石油行业中文文本为例,选取测试文本2 006条进行文本分类对比实验,实验结果表明改进的TF-IDF算法精确率P达到99.3%,召回率R达到98.7%,相比于传统TF-IDF算法文本分类效果得到显著提高。
中图分类号:TP391
文献标识码:A
DOI:10.19358/j.issn.2096-5133.2021.07.012
引用格式: 张伟,石倩,何霄,等. 改进的TF-IDF算法在文本分类中的研究[J].信息技术与网络安全,2021,40(7):72-76,83.
文献标识码:A
DOI:10.19358/j.issn.2096-5133.2021.07.012
引用格式: 张伟,石倩,何霄,等. 改进的TF-IDF算法在文本分类中的研究[J].信息技术与网络安全,2021,40(7):72-76,83.
Research on improved TF-IDF algorithm in text classification
Zhang Wei1,2,Shi Qian1,He Xiao1,Wang Chen1,Li Hexiang1,Li Jiran1
(1.Beijing Petroleum Machinery Co.,Ltd.,China Petroleum Engineering Technology Research Institute, Beijing 102206,China; 2.School of Information,Renmin University of China,Beijing 100872,China)
Abstract:In the process of digital construction of enterprises, the digital processing of a large number of daily business activity texts of enterprises is usually multi-task, and it is necessary to complete information extraction tasks and text classification tasks for text data at the same time. In this application scenario, in order to achieve a more accurate text classification effect, this paper proposes an improved TF-IDF algorithm, which uses the text information extraction result as the distinguishing feature of important text categories, and introduces the information gain method to obtain an improved weight calculation formula. Then an improved text feature vector space representation is obtained, and then a text classification model is constructed. The experiment takes the Chinese text of the petroleum industry as an example, and selects 2 006 test texts for text classification comparison experiments. The experimental results show that the improved TF-IDF algorithm has an accuracy rate P of 99.99% and a recall rate R of 99.87%. The algorithm text classification effect has been significantly improved.
Key words :text classification;VSM;TF-IDF;petroleum;support vector machine
0 引言
TF-IDF算法结构简单,类别区分力强,且容易实现,被广泛应用于信息检索、文本挖掘、文本分类、信息抽取等领域中。但是,该算法仅考虑词频方面的因素,没有考虑词语出现的位置、词性、样本分布等信息,存在一定局限性。对此很多研究者都提出过改进算法,王小林在传统TF-IDF算法基础上,提出利用段落标注技术,对处于不同位置的词语给予不同的位置权重,并对分词结果中词频较高的同词性词语进行相似度计算,合并相似度较高的词语,改进传统算法中忽视特征词位置因素和语义对相似度的问题[1]。覃世安针对传统TF-IDF算法在分类文本类的数量分布不均时提取特征值效果差的问题,提出使用特征值在类间出现的概率比代替特征值在类间出现次数的改进TF-IDF算法[2]。叶雪梅认为传统的特征词权重TF-IDF算法未考虑到网络新词,针对特征项中的新词对分类结果的影响给予不同权重值,提出基于网络新词改进文本分类TF-IDF算法[3]。这些改进算法都有效提高了模型性能,优化分类结果,取得了不错的实验效果。但以往改进算法研究主要集中在通过完善算法本身的缺陷以实现词条在文本中更加准确的权重赋值,忽略了其他类别区分特征因子。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003681
作者信息:
张 伟1,2,石 倩1,何 霄1,王 晨1,李禾香1,李骥然1
(1.中国石油工程技术研究院有限公司 北京石油机械有限公司,北京102206;
2.中国人民大学 信息学院,北京100872)
此内容为AET网站原创,未经授权禁止转载。