文献标识码:A
DOI:10.20044/j.csdg.2097-1788.2022.01.012
引用格式: 刘向宇,燕玮,孟星妤,等. 一种基于网络表示学习的网络安全用户发现方法[J].网络安全与数据治理,2022,41(1):78-82.
0 引言
发现社交媒体中的网络安全用户可以有效追踪网络安全动态,对网络安全防护具有重要意义。实际上,识别社交网络中的网络安全用户也是对社交网络节点进行分类发现。
现实生活中,人们倾向于与类似的人发展社会关系,所以社交用户的好友会分享更多的属性,如种族、民族、宗教和职业——这就是所谓的“同质性原则”[1]。这导致了在Twitter上相互关注的人通常有共同的话题兴趣,可以通过相互关注关系来推断社交媒体用户的属性。另外,社交用户还具备其他可以获取的数据,如社交文本和用户资料,这些资料构成新的用户属性,也有助于推断用户的兴趣或者职业,与用户的社交关系形成互补。
当前已经有大量的用户分类工作都是基于网络拓扑结构进行节点的分类。比如,网络表示学习方法直接对网络结构特征进行学习提取,将得到的特征用于分类可以取得不错的效果。然而,现有的网络表示学习方法缺乏对社交文本和社交基本资料特征的学习,极大地限制了其分类效果。相对于单纯利用社交网络结构对用户进行分类,当前主流的图神经网络算法创新性地融入了网络节点的其他属性特征,获得了更高的分类准确率。本文针对网络表示学习方法缺乏社交文本特征的问题,通过改进Node2vec[2]方法,使其融合多种网络属性特征而更加有利于分类,从而识别出社交媒体中的网络安全用户。
本文的创新性工作包括:
(1)利用网络表示学习模型Node2vec来进行网络节点的特征表示,将结构特征向量和相应用户节点的文本特征向量进行拼接,形成社交用户节点的向量表示。
(2)标注了部分网络安全用户,初步形成网络安全用户资料库。对于每个用户节点,生成其网络安全文本特征。
(3)利用自监督学习方法进行分类模型的训练样本扩充,提升了分类效果。
结果表明,在已经收集的Twitter数据集上,所提方法的平均识别准确率为96.37%,比现有常用的算法平均高出0.48%~3.67%。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000004615
作者信息:
刘向宇,燕 玮,孟星妤,侯开茂
(华北计算机系统工程研究所,北京100083)