一种改进的短文本流主题演化模型
2017-05-27
作者:林特,赵晓东,柳先辉
来源:2017年微型机与应用第8期
赵晓东,柳先辉
(同济大学 电子与信息工程学院,上海 201804)
摘要:在线主题模型基于先时间离散后主题建模的思想,存在文本流切分带来的模型无法平滑过渡的问题,同时时间片大小的选择对在线话题的抽取质量影响显著。提出了一种新的在线短文本流主题演化模型OnlineBTOT。模型在遗传计算方法上进行了改良,不仅考虑时间片上的总体主题强度对遗传权重的影响,也将时间片上主题强度的变化纳入先验参数的计算中。同时,为了得到主题强度在时间片上的连续变化和克服短文本的稀疏性,在单时间片上结合了TOT模型和BTM模型。通过在微博短文本语料上与OLDA模型和OBTM模型的对比实验,证明OnlineBTOT模型能够有效地分析在线短文本流的主题演化。
关键词:主题演化;短文本;Online-BTOT;主题模型
中图分类号:TP181文献标识码:ADOI: 10.19358/j.issn.1674-7720.2017.08.016
引用格式:林特,赵晓东,柳先辉.一种改进的短文本流主题演化模型[J].微型机与应用,2017,36(8):48-50,55.
0引言
随着互联网愈发倾向移动化,新的信息交互方式,比如微博、微信、朋友圈,公众号等社交网络和自媒体已成为公众日常生活须臾不可离的一部分。新的交互方式塑造了轻量化和高频率的新形式的移动交互语言——短文本。短文本规模庞大,基于其上的话题演化分析能够有效地从冗杂的文档集中提取话题按时间顺序的发展演化过程,从而帮助公众分析话题在强度和内容上随时间的变化。因此,短文本的话题演化研究具有重要的应用背景。
近年来,概率主题模型在文本挖掘领域受到广泛的关注和研究。BLEI D M等人提出的LDA(Latent Dirichlet Allocation)模型[1]基于词袋假设,认为文档是由特定的隐含主题序列生成的,奠定了主题模型的基础。本质上,传统的主题模型在主题抽取方面隐式基于文本层面的词共现现象。然而,短文本在文本层面上的稀疏性致使传统的主题模型在短文本的隐含主题抽取的准确性普遍不高。为了克服稀疏性, Yan Xiaohui等人提出的BTM(Biterm Topic Model)模型[2]通过显式地对共现词对建模,同时将文本层面的词共现现象扩大到整个文本集层面,从而克服了短文本的稀疏性,主题抽取的准确性较传统主题模型有显著提高。
借助主题模型,通过引入时间信息,研究话题随时间的演化,是当前主题演化的研究热点。研究者们提出的方法大致分为两类。一是先主题抽取后离散,反映主题在时间上的强度变化的TOT(Topic Over Time)模型[3]和记录主题内容和强度演化信息的DTM(Dynamic Topic Model)模型[4]都属于此范畴,由于需要全局建模,不适合在线文本流分析。二是按时间先离散,OLDA(OnlineLDA)模型[5]通过遗传计算的方法将历史分布作为当前时间片的先验参数,从而具备在线处理的能力。但时间片大小的选择、遗传权重的确定对话题抽取质量影响显著。
针对短文本的稀疏性问题和在线主题模型存在的问题,本文采用按时间先离散方法的同时在每个时间片上引入每篇文本的时间信息,结合BTM和TOT模型的思想建模主题强度在时间片上的连续变化,从主题强度和主题强度变化两方面改善在线主题模型在主题遗传度上的计算方法。
1相关工作
1.1BTM模型
BTM模型由Yan Xiaohui等人提出,基于共词频率愈大愈倾向于同一个主题的思想,不同的是,模型模拟词对的产生过程,通过整合整个文档集的词对克服文本稀疏性。假设α和β是模型的Dirichlet先验。文本集词对的产生过程可以描述如下:
(1)对于每个主题,从参数β的Dirichlet分布中采样k~Dir(β),采样K次;
(2)对于整个文本集,从参数α的Dirichlet分布中采样θ~Dir(α),采样1次;
(3)对于每个词对b,从θ多项分布中采样词对主题z~Multi(θ),从k多项分布中采样两个词wi和wj。
1.2OLDA模型
OLDA模型根据文本流的时间信息将文本流分成多个时间片,在每个时间片上采用K个主题的LDA模型对文本集建模,超参数β来源于对历史时间片中主题词个数估计的遗传。历史信息保存在三维矩阵B中,Bt-1k表示主题k在t-1时间片上的主题词的个数向量k,并通过一个权重向量ωδ,决定历史数据对当前文本流St先验参数的影响程度。因此,时间片t上的主题词分布的先验参数计算如下:
βtk=Bt-1kωδ(1)
历史信息的遗传使各个时间片中推断出的主题可以自动对齐,同时通过DJS距离度量算法:
计算邻近时间片上的主题相似度,从而发现新主题。
2改进的短文本流主题演化模型
2.1Online-BTOT模型
单时间片上,模型隐含主题的抽取不仅受词共现的影响,还受到时间戳信息的影响。文本时间戳信息是连续的,为了避免离散化,时间戳信息将被标准化以满足0~1上的Beta分布。模型模拟了短文本集中词对和时间戳的产生过程。模型的概率图模型如图1所示。
对于一个给定的含有ND个文本的文本集,每篇文本通过词对提取,假设总共包含NB个词对,每个词对的格式如bi=(wi,1,wi,2),同时对应源文本的时间戳信息ti。假设文本集有K个主题,W个不同的词。文本集主题对应K维多项分布={θk}Kk=1,主题词分布可以表示成K×W维的矩阵Φ,每个主题上强度时间满足Beta(ψk,0,ψk,1)分布,为了简化模型计算和隐参数估计的难度,模型采用共轭分布的思想,θ,k采样于超参数为,的Dirichlet分布。模型的联合概率:
2.2参数估计
与LDA模型类似,模型隐参数,,Φ,Ψ无法确定,因此采用Gibbs采样方法对隐参数做近似估计。通过推导可以得出zi的全条件概率:
向量的第k项n(k)表示词对集合中属于主题k的词对个数。向量nk的第w项n(w)k表示主题k下的词w出现的词数。使用矩估计方法估计Ψ:
2.3遗传计算
为了将历史文本估计得到的主题强度和主题强度的变化都作为先验知识纳入到当前时间片的先验参数计算中,本文提出了一种新的采用积分形式的遗传权重计算方法,概率图模型如图1所示。 假设当前时间为T,定义δ×K维矩阵NT-1α为前δ个时间片的主题词对个数矩阵,δ×K×W维矩阵NT-1β为前δ个时间片的主题词个数矩阵,λT-1为前δ个时间片预设的权重向量,ψT-1为前δ个时间片满足Beta分布的强度变化的参数矩阵,其中ψj,k表示时间片j、主题k的拟合主题强度变化的Beta函数的参数对(ψj,k,0,ψj,k,1)。时间片j主题k的遗传系数可以计算如下:
3实验
本文通过抓取20151112至20151119新浪微博平台上的总计6 051 518条微博作为话题演化和分析的实验数据集。以OLDA和OBTM(OnlineBTM)两种主题演化模型作为参照,对本文提出的模型的有效性进行验证。OBTM采用了Yan Xiaohui的开源代码,OLDA采用了GibbsLDA++的开源实现。实验均在搭载OS X系统,配置4 GB内存和Intel Core i5 1.5 GHz CPU的硬件环境下进行。实验参数K通过调优,选取50,初始值设定为50/K,β初始值设定为0.005,Gibbs采样迭代频次设定为100次,遗传系数λ取经验值0.6,同时Online-BTOT的遗传窗口设定为4。
预处理阶段:以1天为时间单元切分数据集,通过nlpir分词工具对微博做分词处理,过滤@开头的词和停用词,然后过滤词数<2的微博,经过上述处理后再去除语料中总词频<10的词,最后再次过滤词数<2的微博。通过预处理,有效微博数减少至5 441 333条,平均每天微博数量为680 166条。
3.1话题抽取的准确性
本文采用了主题关联性指标Topic Coherence[6]衡量主题的准确性。直观得,如果一组词属于同一个话题,那么在同一篇文档中,它们共现的频次相应地会较高。Topic Coherence正是基于这个思想,定义如下:
其中D(v)表示词v至少出现了一次的文档频次,D(v,v′)表示词v和词v′同时至少出现了一次的文档频次,V(t)表示主题下t最可能出现的前M个词组成的列表。Topic Coherence指标越大,话题的准确性越高。
为了评估所有K个主题的话题准确性,每个时间片上三种模型均取K个Topic Coherence指标的均值:
实验取M=5,计算得到的Topic Coherence均值如图2所示。
图2主题关联性指标Topic Coherence均值(K=50, M=5)
实验结果与定性分析预期的结果一致,OLDA由于稀疏性,对于短文本的话题抽取准确性要明显低于OBTM模型和Online-BTOT模型,同时随着时间推移,Online-BTOT模型的准确性普遍高于OBTM模型,这得益于Online-BTOT模型在切面上的平滑过渡和遗传计算方法上的改良。
3.2话题内容演化
同一个话题随着时间的推进,话题的侧重点会有所偏移,反映到主题模型上,就是主题词概率分布会发生变化。表1展示了巴黎恐袭子话题IS极端组织话题在连续时间片上的概率最高的前10个词。可以看到IS极端组织话题开始时与巴黎恐袭关联,在17日开始与俄罗斯空难关联,在19日开始与中国公民被绑架杀害关联。
通过Jensen-Shannon距离公式计算主题之间的关联度,可以定量分析话题在内容上的演化。图3所示为OnlineBTOT模型从2015-11-12日开始#5主题相邻时间片的主题距离计算结果。可以看到14日的主题距离明显高于其他时间点,此时主题发生了变化(出现了巴黎公布袭击事件)。同时可以看到在17日和19日主题距离有小幅的增长,正好对应了前面提到的话题在内容上的演化。
4结论
Online-BTOT模型通过引入主题强度在时间片上的变化特征优化在线主题模型的遗传权重计算,同时在单时间片上引入时间信息参与主题建模,提高了话题抽取的准确度,有效改善了时间片大小选择不当和文本流切分造成的在线话题抽取质量不高的问题。模型基于Gibbs采样算法,如何将模型拓展到多线程环境是下一步要努力的方向。
参考文献
[1] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3): 993-1022.
[2] Yan Xiaohui, Guo Jiafeng, Lan Yanyan, et al. A biterm topic model for short texts[C].Proceedings of the 22nd International Conference on World Wide Web, ACM, 2013: 14451456.[3] Wang Xuerui, MCCALLUM A. Topics over time: a nonMarkov continuoustime model of topical trends[C].Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, 2006: 424-433.
[4] BLEI D M, LAFFERTY J D. Dynamic topic models[C].Proceedings of the 23rd International Conference on Machine Learning,ACM, 2006: 113-120.
[5] AlSUMAIT L, BARBAR D, DOMENICONI C. Online LDA: adaptive topic models for mining text streams with applications to topic detection and tracking[C].2008 Eighth IEEE International Conference on Data Mining,IEEE,2008: 3-12.
[6] MIMNO D, WALLACH H M, TALLEY E, et al. Optimizing semantic coherence in topic models[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, 2011: 262-272.