主题模型--LSA,PLSA，LDA

2023-05-16

预备知识：SVD分解

主题模型历史

Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年，Thomas Hofmann又在此基础上，提出了概率性潜在语义索引（Probabilistic Latent Semantic Indexing，简称PLSI）。
隐含狄利克雷分配LDA可能是最常见的主题模型，是一般化的PLSA，由Blei, David M.、吴恩达和Jordan, Michael I于2003年提出。LDA允许文档拥有多种主题。其它主体模型一般是在LDA基础上改进的。例如Pachinko分布在LDA度量词语关联之上，还加入了主题的关联度。

1 SVD与语义相关性

参考文档：SVD分解在文本分类中的应用

可以用一个大矩阵A来描述这一百万篇文章和五十万词的关联性。
这个矩阵中，每一行对应一篇文章，每一列对应一个词。

矩阵X是对词进行分类的结果，每一列表示一类主题，其中的每个非零元素表示一个主题与一篇文章的相关性，数值越大越相关。
X的每一行代表一篇文章，每一列代表一个主题，里边的数值代表文章与主题的相关程度

矩阵B则表示文章主题和语义类/词类之间的相关性。

矩阵Y中的每一列表示100个语义类/词类，每个语义类/词类与500，000个词的相关性。
Y的每一行代表一个语义类，每一列代表一个词，里边的数值代表词与语义类的相关程度。例如对于第一个词，它和第一个语义类相关，与第二个语义类无关；第二个词则相反

因此，我们只要对关联矩阵A进行一次奇异值分解，就可以同时完成了近义词分类和文章的分类。（同时得到每类文章和每类词的相关性）。

2. LSA

主题模型 LSA

3. PLSA–频率学派

主题模型 PLSA

4. LDA

主题模型 LDA

Topic models主要可以分为四大类：

1.无监督无层次结构, 主要有：
(1)PLSA(Hofmann 1999),
(2) LDA(Blei et al., 2003),
(3)Correlated Topic Model (Blei and Lafferty, 2006 )
(4) PAM(Li and McCallum, ICML 2006)，
CTM 主要是为了克服标准LDA模型不能建模话题在文档中出现的相关性的缺点，将LDA中文档话题分布服从的Dirichlet分布改为Logistic正态分布。例如CTM论文中举的一个例子是在Science杂志语料中，一篇遗传学文章很可能也跟健康和疾病有关，但是却不大可能跟射线天文学有关。
因为Logistic正态分布不再是Multinomial分布的共轭分布，因此模型的解变得更加复杂。对此，作者使用的方法是，在变分推理的过程中，继续使用Taylor展开式以简化似然函数下界的复杂性。
07年CTM详细版本：CTM2007
CTM的变分推导细节见另一个学者的文档：Variational EM Algorithms for Correlated Topic Models

无监督有层次结构, 主要有：
HLDA(Blei NIPS 2003)，
HDP(Teh et al., 2005)：标准LDA模型中话题的个数K需要已知，然而很多时候确定K的大小是一件困难的事情。HDP能够根据数据自动确定K的大小。
HPAM(Mimno et al., ICML　2007)

有监督无层次结构, 主要有：
S-LDA( Blei et al., 2007),
Disc-LDA,
MM-LDA,
Author-Model,
Labeled LDA(Ramage et al., 2009),
PLDA(Wang et al., 2009) 等
有监督有层次结构, 主要有：
hLLDA(Petinot et al., ACL 2011),
HSLDA(Hierarchically Supervised Latent Dirichlet Allocation, Perotte et al., NIPS 2012)

4.除上述集中类型的话题模型外，还有一些半监督的话题模型，主要有：
Semi-LDA(Wang et al. 2007), SSHLDA(Semi-Supervised Hierarchical Topic Model, Mao EMNLP 2012)

另一些LDA变种主要是为了描述一些链接信息而作的扩展：
Link LDA (2004)
Topic-Link LDA（Liu et al., ICML 2009）
RTM (Chang and Blei, AISTATS 2009): Relational topic models: 文档之间有连接关系，即对一个文档网络建模。使用一个响应变量来表示文档之间的关系。
Author-topic model（Rosen-Zvi et al., UAI 2004）: 将文档作者也考虑进去
DTM(Blei and Lafferty, ICML 2006) Dynamic Topic Models,话题随时间的演变
STM（Pathak, et al., KDD workshop 2008）Social Topic Models for Community Extraction
Social-Network Analysis Using Topic Model SIGIR2012

参考：
https://blog.csdn.net/pipisorry/article/details/42560693

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

LSA

PLSA

LDA

主题模型

主题模型--LSA,PLSA，LDA 的相关文章

LDA主题建模过程及参数详解

平台及工具语言 xff1a python 平台 xff1a anaconda 43 jupyter notebook 语料库 xff1a 近三百篇英文文献的摘要主要代码首先 xff0c pandas处理csv数据 span class
OSPFv3中LSA详解（五）——Intra-Area-Prefix LSA详解

今天继续给大家介绍OSPFv3中LSA变化 xff0c LSA的变化时OSPFv3相对于OSPFv2的一大重大改变 xff0c 本文的主要内容是OSPFv3中新增的一类LSA Intra Area Prefix LSA的详解阅读本文 xf
OSPFv3中LSA详解（六）——Type3类LSA详解

今天继续给大家介绍OSPFv3中LSA变化 xff0c LSA的变化时OSPFv3相对于OSPFv2的一大重大改变 xff0c 本文的主要内容是OSPFv3中变化的第三类LSA的详解阅读本文 xff0c 您需要有一定的OSPF基础知识 x
OSPFv3中LSA详解（七）——Type4类LSA详解

今天继续给大家介绍OSPFv3中LSA变化 xff0c LSA的变化时OSPFv3相对于OSPFv2的一大重大改变 xff0c 本文的主要内容是OSPFv3中变化的第四类LSA的详解阅读本文 xff0c 您需要有一定的OSPF基础知识 x
通俗理解LDA主题模型

通俗理解LDA主题模 0 前言印象中 xff0c 最开始听说 LDA 这个名词 xff0c 是缘于rickjin在2013年3月写的一个LDA科普系列 xff0c 叫LDA数学八卦 xff0c 我当时一直想看来着 xff0c 记得还打印过
LDA模型训练与得到文本主题、困惑度计算（含可运行案例）

文章目录模块一训练LDA模型模块二困惑度计算模块三得到一段文本的主题全部代码及案例可直接运行首先使用gensim库 pip install gensim 模块一训练LDA模型 import gensim pip inst
【自然语言处理】主题建模评估：连贯性分数（Coherence Score）

主题建模评估连贯性分数 Coherence Score 1 主题连贯性分数主题连贯性分数 Coherence Score 是一种客观的衡量标准它基于语言学的分布假设具有相似含义的词往往出现在相似的上下文中如果所有或大部分单词都密切
基于机器学习的情绪识别算法matlab仿真,对比SVM,LDA以及决策树

目录 1 算法理论概述 2 部分核心程序 3 算法运行软件版本 4 算法运行效果图预览 5 算法完整程序工程 1 算法理论概述情绪识别是一种重要的情感分析任务旨在从文本语音或图像等数据中识别出人的情绪状态如高兴悲伤愤怒等本文介
tf-idf+lda分析多篇文章摘要

import pandas as pd import numpy as np import matplotlib pyplot as plt import seaborn as sns plt rcParams font sans seri
在 R tm 包中，从 Document-Term-Matrix 构建语料库

使用 tm 包从语料库构建文档术语矩阵非常简单我想从文档术语矩阵构建一个语料库令 M 为文档集中的文档数令 V 为该文档集词汇表中的术语数量那么文档术语矩阵就是 M V 矩阵我还有一个长度为 V 的词汇向量词汇向量中是由文档术语
如何用Python从LDA模型生成词云？

我正在对报纸文章进行一些主题建模并使用 Python3 中的 gensim 实现了 LDA 现在我想为每个主题创建一个词云使用每个主题的前 20 个单词我知道我可以打印单词并保存 LDA 模型但是有没有办法只保存每个主题的顶部单词
ValueError：无法在空集合上计算 LDA（无术语）

当尝试计算较小规模的语料库的 lda 时在 python 中出现此错误但在其他情况下工作正常语料库的大小是 15 我尝试将主题数设置为 5 然后将其减少到 2 但它仍然给出相同的错误 ValueError 无法在空集合上计算 LDA
奇异值分解：Jama、PColt 和 NumPy 的不同结果

我想在一个大稀疏矩阵上执行奇异值分解为了选择最好最准确的库我尝试复制提供的 SVD 示例here http www ling ohio state edu kbaker pubs Singular Value Decomposi
主题分布：在python中进行LDA后如何查看哪个文档属于哪个主题

我能够运行 gensim 中的 LDA 代码并获得前 10 个主题及其各自的关键字现在我想进一步了解 LDA 算法的准确性方法是查看它们将哪些文档聚类到每个主题中这在 gensim LDA 中可能吗基本上我想做这样的事情但是在
构造 ClassDict 的预期参数为零（对于 pyspark.ml.linalg.SparseVector）

我正在努力创建一个 LDA 模型这是我到目前为止所做的创建一个一元组并将数据帧转换为 RDD 基于这个帖子 https databricks prod cloudfront cloud databricks com public 402
python中使用numpy数组出现内存错误

我收到此代码的以下错误 model lda LDA n topics 15 n iter 50 random state 1 model fit X topic word model topic word print type topic
Spark MLlib LDA，如何推断新的未见过文档的主题分布？

我对使用 Spark MLlib 应用 LDA 主题建模感兴趣我已经检查了代码和解释here http spark apache org docs latest mllib clustering html latent dirichlet
使用gensim加载LdaMallet模型并对未见过的文档进行分类的正确方法

在我的项目中我使用Python库gensim https radimrehurek com gensim models wrappers ldamallet html用于主题建模文本提取我尝试加载经过训练的 LdaMallet 模型来
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
LDA with topicmodels，如何查看不同文档属于哪些主题？

我正在使用 topicmodels 包中的 LDA 我已经在大约 30 000 个文档上运行它获取了 30 个主题并获得了主题的前 10 个单词它们看起来非常好但我想看看哪些文档属于哪个主题的概率最高我该怎么做 myCorpus

随机推荐

linux 密钥放在哪个目录,Linux 下sftp配置之密钥方式登录详解

Linux下sftp配置之密钥方式登录由于vsftp采用明文传输 xff0c 用户名密码可通过抓包得到 xff0c 为了安全性 xff0c 需使用sftp xff0c 锁定目录且不允许sftp用户登到服务器由于sftp使用的是ssh协议
linux中shell脚本如何自动输入密码,[转载][转]Linux中shell脚本如何自动输入密码

shell脚本在处理自动循环或大的任务方面可节省大量的时间 xff0c 通过创建一个处理任务的命令清单 xff0c 使用变量条件算术和循环等方法快速创建脚本以完成相应工作 xff0c 这比在命令行下一个个敲入命令要省时省力得多但是有时
rpm详解

RPM Package Manager RPM 是一个强大的命令行驱动的软件包管理工具 xff0c 用来安装卸载校验查询和更新 Linux 系统上的软件包原本是 Red Hat Linux 发行版专门用来管理 Linux 各项套件的
linux软件管理器叫啥,Linux基础教程之APT软件管理器

Ubuntu继承了Debian系统一个非常优秀的特性 xff1a 使用APT软件管理器来管理所有的软件在此之前 xff0c Linux系统的软件安装一直被人诟病用户需要自己解决软件与库之间的依赖关系 xff0c 通常 xff0c 这是一
linux终端打开excel,linux 打开excel命令 java

linux 打开excel命令 java 2021 02 05 18 43 36 简介 php去除nbsp的方法 xff1a 首先创建一个PHP代码示例文件 xff1b 然后通过 preg replace 34 s amp nbsp xc2
linux文档内容的查阅,Linux命令之文件内容查阅od命令使用实例

名称 xff1a od 位置 xff1a usr bin od 权限 xff1a 所有用户作用 xff1a 非纯文本文件内容查阅 xff0c 例如二进制文件内容查阅用法 xff1a od t TYPE 文件 t 后面可以接各种类型 TY
linux wc -l 对io,Linux终端命令(8)--df,du,(ls -l|grep “d“|wc -l)

Linux终端命令 1 df hl 2 du 3 ls l grep 34 d 34 wc l 查看文件系统一些命令 1 df hl 查看分区磁盘使情况硬盘空间不够时 xff0c 跑程序会报错 xff1a FileNotFoundErro
linux+计划任务启动失败,linux计划任务问题：shell文件可以手动执行，计划任务却一直失败！...

今天的心情完全能用一万个草泥马来形容 xff01 为了添加个计划任务 xff0c 我特么从上午搞到凌晨现在 xff01 没有办法 xff0c 我刚接触linux xff0c 因为不熟 xff0c 遇到各种坑 xff0c 为了搞定它 xff0
mini2440 linux移植开发实战指南,mini2440_Linux移植开发指南学习笔记（二）yaffs2移植未完...

mini2440 Linux移植开发指南学习笔记二 yaffs2移植 Fedora9 参考 http blog chinaunix net uid 25194149 id 3235257 html http blog csdn net c
c语言程序越界,C语言指针越界访问举例 - C 语言程序设计

指针越界访问举例我们都知道const修饰的是一个常量 xff0c 是不可以被改变的量但是在C语言中 xff0c 它也许是一个中看不中用的修饰符它是希望我们不去改变它的值 xff0c 但是实际上C却不能阻止我们去修改它和C 43 43
苏州新区c语言培训,苏州哪些地方可以培训C语言

怎么保障C代码执行效率的原则选择合适的算法和数据结构选择一种合适的数据结构很重要 xff0c 如果在一堆随机存放的数中使用了大量的插入和删除指令 xff0c 那使用链表要快得多数组与指针语句具有十分密切的关系 xff0c 一般来说 x
go还是java?

先说结论 xff0c 如果是初学者建议java入门如果已经有工作经验 xff0c 建议学一下go Go 的整个生态还没有 Java 那么完善 xff0c 所以中小厂直接上 Go 的凤毛麟角所以稳妥起见 xff0c Java 为主 xf
c语言数组绘制余弦线,C语言（画一个余弦函数）

2 下面我用C语言给大家画一个余弦函数这是一个彩色打印出来的余弦函数图像 xff0c 在屏幕上显示了0 360 的余弦函数图像没有使用数组输出 xff0c 而是使用数学库cos函数 xff1b 通过使用输出余弦函数图像 xff0c 学会
LCD与数码管c语言区别,LCD液晶屏可以采用直流驱动吗？和LED数码管的驱动有什么不同？...

外形尺寸 17 6 31 0 1 65 24 7 31 3 2 8 26 00 29 15 1 95 26 3 31 3 2 8 26 3 31 3 2 8mm 26 6 29 6 2 3 27 56 30 70 1 82 27 64 31
c语言心算抢答系统,心算抢答系统2.doc

心算抢答系统2 C语言程序设计课程设计是对学生的一种全面综合训练 xff0c 它包括问题分析 xff0c 总体结构设计 xff0c 用户界面设计 xff0c 程序设计基本技能和技巧 xff0c 多人合作 xff0c 以至一整套软件工作规范
abp .net core linux,Abp vNext框架从空项目开始使用ASP.NET Core Web Application-笔记

参考 abp vnext框架从空项目开始使用asp net core web application rynowak的回答 migrate from asp net core 2 2 to 3 0 gt use mvc without
大小根堆数组上浮c语言,深入浅出数据结构C语言版（19）——堆排序(示例代码)...

在介绍优先队列的博文中 xff0c 我们提到了数据结构二叉堆 xff0c 并且说明了二叉堆的一个特殊用途排序 xff0c 同时给出了其时间复杂度O N logN 这个时间界是目前我们看到最好的使用Sedgewick序列的希尔排序时间复杂
android设置wifi区域码,Android P - WiFi 国家码设置流程

在调试Android P WiFi功能时 xff0c 尝试测试国家码时 xff0c 却总是找不到正确的设置指令 xff0c 尝试执行的指令有 xff1a 1 wpa cli i wlan0 set country CN 查看日志 xff0c
html5验证码图片刷新,在mvc中实现图片验证码的刷新

public classValidationCodeHelper 用户存取验证码字符串 public string validationCode 61 String Empty Random ram 61 newRandom Graphic
主题模型--LSA,PLSA，LDA

预备知识 xff1a SVD分解主题模型历史 Papadimitriou Raghavan Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引 1999年 xff0c Thomas Hofmann又在此基础上 xf