一种面向科技项目文本的相似度度量方法 | |
所属分类:技术论文 | |
上传者:aetmagazine | |
文档大小:503 K | |
标签:文本相似度TF-IDF文本聚类 | |
所需积分:0分积分不够怎么办? | |
文档介绍:现有的文本相似度度量方法主要采用TF-IDF方法,把文本建模为词频向量,但未考虑文本的结构特征。现将文本的结构特征和TF-IDF方法进行融合,提出了一种面向科技项目文本的相似度度量方法。该方法首先对文本进行预处理,其次根据文本的结构特征提取模块文本,然后使用TF-IDF方法提取每个模块文本的TOP-N关键词, 作为模块文本的特征向量表示,最后使用余弦聚类计算文本的相似度。实验结果表明,在电力行业的科技项目文档数据集上,所提方法优于TF-IDF方法。 | |
现在下载 | |
VIP会员,AET专家下载不扣分;重复下载不扣分,本人上传资源不扣分。 |
Copyright © 2005-2020 kaiyun官方注册版权所有京ICP备10017138号-2