预备知识:SVD分解
主题模型历史
Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年,Thomas Hofmann又在此基础上,提出了概率性潜在语义索引(Probabilistic Latent Semantic Indexing,简称PLSI)。
隐含狄利克雷分配LDA可能是最常见的主题模型,是一般化的PLSA,由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主体模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上,还加入了主题的关联度。
![在这里插入图片描述](https://img-blog.csdnimg.cn/9f0afe75abfa46159225a1e5e551755e.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAemh1cnVpX3hpYW96aHV6YWl6YWk=,size_20,color_FFFFFF,t_70,g_se,x_16)
1 SVD与语义相关性
参考文档:SVD分解在文本分类中的应用
可以用一个大矩阵A来描述这一百万篇文章和五十万词的关联性。
这个矩阵中,每一行对应一篇文章,每一列对应一个词。
矩阵X是对词进行分类的结果,每一列表示一类主题,其中的每个非零元素表示一个主题与一篇文章的相关性,数值越大越相关。
X的每一行代表一篇文章,每一列代表一个主题,里边的数值代表文章与主题的相关程度
矩阵B则表示文章主题和语义类/词类之间的相关性。
矩阵Y中的每一列表示100个语义类/词类,每个语义类/词类与500,000个词的相关性。
Y的每一行代表一个语义类,每一列代表一个词,里边的数值代表词与语义类的相关程度。例如对于第一个词,它和第一个语义类相关,与第二个语义类无关;第二个词则相反
因此,我们只要对关联矩阵A进行一次奇异值分解,就可以同时完成了近义词分类和文章的分类。(同时得到每类文章和每类词的相关性)。
![在这里插入图片描述](https://img-blog.csdnimg.cn/d03752526cda4431b77849de36bc2fdb.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAemh1cnVpX3hpYW96aHV6YWl6YWk=,size_10,color_FFFFFF,t_70,g_se,x_16)
2. LSA
主题模型 LSA
3. PLSA–频率学派
主题模型 PLSA
4. LDA
主题模型 LDA
Topic models主要可以分为四大类:
1.无监督无层次结构, 主要有:
(1)PLSA(Hofmann 1999),
(2) LDA(Blei et al., 2003),
(3)Correlated Topic Model (Blei and Lafferty, 2006 )
(4) PAM(Li and McCallum, ICML 2006),
CTM 主要是为了克服标准LDA模型不能建模话题在文档中出现的相关性的缺点,将LDA中文档话题分布服从的Dirichlet分布改为Logistic正态分 布。例如CTM论文中举的一个例子是在Science杂志语料中,一篇遗传学文章很可能也跟健康和疾病有关,但是却不大可能跟射线天文学有关。
因为Logistic正态分布不再是Multinomial分布的共轭分布,因此模型的解变得更加复杂。对此,作者使用的方法是,在变分推理的过程中,继续使用Taylor展开式以简化似然函数下界的复杂性。
07年CTM详细版本:CTM2007
CTM的变分推导细节见另一个学者的文档:Variational EM Algorithms for Correlated Topic Models
- 无监督有层次结构, 主要有:
HLDA(Blei NIPS 2003),
HDP(Teh et al., 2005):标准LDA模型中话题的个数K需要已知,然而很多时候确定K的大小是一件困难的事情。HDP能够根据数据自动确定K的大小。
HPAM(Mimno et al., ICML 2007)
- 有监督无层次结构, 主要有:
S-LDA( Blei et al., 2007),
Disc-LDA,
MM-LDA,
Author-Model,
Labeled LDA(Ramage et al., 2009),
PLDA(Wang et al., 2009) 等 - 有监督有层次结构, 主要有:
hLLDA(Petinot et al., ACL 2011),
HSLDA(Hierarchically Supervised Latent Dirichlet Allocation, Perotte et al., NIPS 2012)
4.除上述集中类型的话题模型外,还有一些半监督的话题模型,主要有:
Semi-LDA(Wang et al. 2007), SSHLDA(Semi-Supervised Hierarchical Topic Model, Mao EMNLP 2012)
另一些LDA变种主要是为了描述一些链接信息而作的扩展:
Link LDA (2004)
Topic-Link LDA(Liu et al., ICML 2009)
RTM (Chang and Blei, AISTATS 2009): Relational topic models: 文档之间有连接关系,即对一个文档网络建模。使用一个响应变量来表示文档之间的关系。
Author-topic model(Rosen-Zvi et al., UAI 2004): 将文档作者也考虑进去
DTM(Blei and Lafferty, ICML 2006) Dynamic Topic Models,话题随时间的演变
STM(Pathak, et al., KDD workshop 2008)Social Topic Models for Community Extraction
Social-Network Analysis Using Topic Model SIGIR2012
参考:
https://blog.csdn.net/pipisorry/article/details/42560693
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)