gensim 的 get_document_topics 方法返回的概率加起来不等于 1

2024-02-29

有时它返回所有主题的概率并且一切都很好，但有时它只返回几个主题的概率并且它们加起来不等于一，似乎这取决于文档。一般来说，当它返回很少的主题时，概率加起来大约为 80%，那么它只返回最相关的主题吗？有没有办法强制它返回所有概率？

也许我遗漏了一些东西，但我找不到该方法参数的任何文档。

我遇到了同样的问题并通过包含参数解决了它minimum_probability=0当呼叫get_document_topics的方法gensim.models.ldamodel.LdaModel对象。

    topic_assignments = lda.get_document_topics(corpus,minimum_probability=0)

默认情况下，gensim 不输出低于 0.01 的概率，因此对于任何特定文档，如果有任何主题分配的概率低于此阈值，则该文档的主题概率之和将不等于 1。

这是一个例子：

from gensim.test.utils import common_texts
from gensim.corpora.dictionary import Dictionary
from gensim.models.ldamodel import LdaModel

# Create a corpus from a list of texts
common_dictionary = Dictionary(common_texts)
common_corpus = [common_dictionary.doc2bow(text) for text in common_texts]

# Train the model on the corpus.
lda = LdaModel(common_corpus, num_topics=100)

# Try values of minimum_probability argument of None (default) and 0
for minimum_probability in (None, 0):
    # Get topic probabilites for each document
    topic_assignments = lda.get_document_topics(common_corpus,minimum_probability=minimum_probability)
    probabilities = [ [entry[1] for entry in doc] for doc in topic_assignments ]
    # Print output
    print(f"Calculating topic probabilities with minimum_probability argument = {str(minimum_probability)}")
    print(f"Sum of probabilites:")
    for i, P in enumerate(probabilities):
        sum_P = sum(P)
        print(f"\tdoc {i} = {sum_P}")

输出将是：

Calculating topic probabilities with minimum_probability argument = None
Sum of probabilities:
    doc 0 = 0.6733324527740479
    doc 1 = 0.8585712909698486
    doc 2 = 0.7549994885921478
    doc 3 = 0.8019999265670776
    doc 4 = 0.7524996995925903
    doc 5 = 0
    doc 6 = 0
    doc 7 = 0
    doc 8 = 0.5049992203712463
Calculating topic probabilities with minimum_probability argument = 0
Sum of probabilites:
    doc 0 = 1.0000000400468707
    doc 1 = 1.0000000337604433
    doc 2 = 1.0000000079162419
    doc 3 = 1.0000000284053385
    doc 4 = 0.9999999937135726
    doc 5 = 0.9999999776482582
    doc 6 = 0.9999999776482582
    doc 7 = 0.9999999776482582
    doc 8 = 0.9999999930150807

文档中没有非常清楚地说明这种默认行为。默认值为minimum_probability为了get_document_topics方法是None，但这并不会将概率设置为零。相反的价值minimum_probability设置为值minimum_probability of the gensim.models.ldamodel.LdaModel对象，默认值为 0.01，如您在源代码 https://github.com/RaRe-Technologies/gensim/blob/996801bb3fb8c4e10a84eefa70f5e2ac738dd47b/gensim/models/ldamodel.py#L347:

def __init__(self, corpus=None, num_topics=100, id2word=None,
             distributed=False, chunksize=2000, passes=1, update_every=1,
             alpha='symmetric', eta=None, decay=0.5, offset=1.0, eval_every=10,
             iterations=50, gamma_threshold=0.001, minimum_probability=0.01,
             random_state=None, ns_conf=None, minimum_phi_value=0.01,
             per_word_topics=False, callbacks=None, dtype=np.float32):

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

gensim 的 get_document_topics 方法返回的概率加起来不等于 1 的相关文章

文本文件的信息增益计算？

我正在尝试使用信息增益 PCA 和遗传算法进行文本分类但表演完之后预处理词干提取停用词删除 TFIDF 在文档中我很困惑如何继续进行信息获取部分 my out file包含word在那里TFIDF value like 字 TFID
Python 的 tfidf 数据框

我必须对一些情绪进行分类我的数据框是这样的 Phrase Sentiment is it good movie positive wooow is it very goode positive bad movie negative 我做了一
使用 nltk 从德语文本中提取单词

我正在尝试从德语文档中提取单词当我使用 nltk 教程中描述的以下方法时我无法获取具有特定于语言的特殊字符的单词 ptcr nltk corpus PlaintextCorpusReader Corpus words nltk Text
LDA和主题模型

我研究了几个星期的LDA和Topic模型但是由于我的数学能力很差我不能完全理解它的内部算法我使用了GibbsLDA实现输入大量文档并将主题数设置为100 我得到一个名为 final theta 的文件它存储每个文档中每个主题的主
加载 word2vec 时出现 UnicodeDecodeError 错误

详细描述我开始使用词嵌入并发现了大量有关它的信息到目前为止我知道我可以训练自己的词向量或使用以前训练过的词向量例如 Google 或 Wikipedia 的词向量这些向量可用于英语但对我来说没有用因为我正在处理以下语言中的文
word2vec 模型由字符而不是单词组成

我正在尝试使用 Gensim 在波斯语上制作一个 word2vec 模型其中以空格作为字符分隔符我使用 python 3 5 我遇到的问题是我给出了一个文本文件作为输入它返回一个模型该模型仅包含每个字符而不是单词我还以推荐的单
为什么 Gensim doc2vec 给出 AttributeError: 'list' object has no attribute 'words'？

我正在尝试使用以下代码来实验 gensim doc2vec 据我从教程中了解到它应该有效然而它给出了属性错误列表对象没有属性单词 from gensim models doc2vec import LabeledSentence
木槌的基本用法。第一步

我正在尝试使用Mallet实际上没有主题建模等方面的经验我的目的是获得N的主题M我现在拥有的文档用一个或多个主题对每个文档进行分类文档 1 主题 1 文档 2 主题 2 可能还有主题 3 并用此结果对将来的新文档进行分类我尝试使用b
如何找到文本所涉及的 wikidata（或 freebase 或 DBpedia）主题列表？

我正在寻找一种解决方案来提取文本或 html 文档所涉及的概念列表我希望这些概念成为 wikidata 主题或 freebase 或 DBpedia 例如 Bad 是迈克尔杰克逊的歌曲应该返回 Michael Jackson 艺术
使用 Python 可视化 LDA 模型

我有一个 LDA 模型包含 10K 文档中 10 个最常见的主题现在它只是对每个主题的单词及其相应概率分布的概述我想知道 python 是否有可用的东西来可视化这些主题 pyLDAvis https pypi python org p
从 Pyspark LDA 模型中提取文档主题矩阵

我已经通过 Python API 在 Spark 中成功训练了 LDA 模型 from pyspark mllib clustering import LDA model LDA train corpus k 10 这工作得很好但我现在需
显式语义分析

我遇到了这个术语显式语义分析它使用维基百科作为参考找到文档中的相似性并将它们分类如果我错了请纠正我我遇到的链接是here http www cs technion ac il gabr resources code esa es
gensim如何计算doc2vec段落向量

我正在看这篇论文http cs stanford edu quocle paragraph vector pdf http cs stanford edu quocle paragraph vector pdf 它指出段落向量和词向量被平
AttributeError：类型对象“Word2Vec”没有属性“load_word2vec_format”

我正在尝试实现 word2vec 模型并收到属性错误 AttributeError 类型对象 Word2Vec 没有属性 load word2vec format 下面是代码 wv Word2Vec load word2vec format
如何使用 python-pandas 和 gensim 将数据框中的单词映射到整数 ID？

给定这样一个数据框包括项目和相应的评论文本 item id review text B2JLCNJF16 i was attracted to this B0009VEM4U great snippers 我想绘制顶部的地图5000最常用
使用 Doc2vec 后如何解释 Clusters 结果？

我正在使用 doc2vec 将关注者的前 100 条推文转换为矢量表示形式例如 v1 v100 之后我使用向量表示来进行 K 均值聚类 model Doc2Vec documents t size 100 alpha 035 windo
tm 包本身是否提供了组合文档术语矩阵的内置方法？

tm 包本身是否提供了组合文档术语矩阵的内置方法我在同一语料库上生成了 4 个文档术语矩阵每个矩阵为 1 2 3 4 克它们都非常大 200k 10k 因此将它们转换为数据帧然后绑定它们是毫无疑问的我知道我可以编写一个程序来记录每个
如何从网页中提取文本内容？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在用java开发一个应用程序它
在 Gensim 中通过 ID 检索文档的字符串版本

我正在使用 Gensim 进行一些主题建模并且已经达到使用 LSI 和 tf idf 模型进行相似性查询的程度我取回 ID 集和相似点例如 299501 0 64505910873413086 如何获取与 ID 在本例中为 29950
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu

随机推荐

如何使用“concurrent.futures.ProcessPoolExecutor”取消长时间运行的子进程？

你可以看到完整的here https github com traverseda rratbot blob master main py L35 我的代码的简化版本如下 executor ProcessPoolExecutor 10 try
如何在 pl/sql 中的另一个游标的 select 语句中使用游标中的变量

我想运行一个查询获取结果然后使用第二个语句光标中第一个语句的值与另一个 select 语句迭代该查询的结果我的数据库中有 40 个用户所有用户都具有相同的数据库模式结构我想通过以下方式获取用户名 SELECT distinct
在 PowerShell 中使用 StreamWriter 附加到文件

我创建了一个 PowerShell 脚本该脚本使用 StreamWriter 将 Windows 中文件夹的权限结果写入 CSV 文件目前该脚本为每个文件夹创建一个新文件我的问题是 StreamWriter 是否可以附加到文件而不是
FirebaseCore 词法或预处理器问题

所以我在使用 firebase 编译我的项目时遇到了问题这个问题是在我更新所有 firebase pod 后开始的自从我更新了 pod 后我就一直收到此错误词法或预处理器问题然后当我转到错误是什么时它说这个找不到 Google
对 kafka 消费者进行负载测试

我试图弄清楚如何对卡夫卡消费者进行负载测试在我的应用程序中消费者从 kafka 读取消息并做了很多工作其中大部分是在数据库中写入内容由于这对我的团队来说是一个重要的过程因此我希望能够对消费者进行负载测试并能够获得一些有关消费情况
将多行合并为一行以替换列中的空值

如何将多行合并为一行以便一行中的某些列替换要合并的另一行中相同列中的空值这是我所拥有的和我想要实现的目标的一个例子查询是 SELECT Drug Name DefaultVendor Name Drug Strength Catalo
AndroidrelativeLayoutalignTop不起作用

我正在尝试在RelativeLayout 中使用alignTop 属性以便将文本设置在个人资料图片的右侧与图片的顶部对齐这是我的布局
将文本添加到 DataGridView 行标题

C 是否允许将字符串添加到 DataGridView 中的 RowHeader 如果是的话是如何实现的呢我正在编写一个 Windows 窗体来显示今年迄今为止的客户付款数据 ColumnHeaders 显示一月二月三月等而不是有一
如何避免 JavaScript 中的短路求值？

我需要执行两边声明但如果第一部分返回则不会发生这种情况false 例子 function doSomething x console log x function checkSomething x var not1 x 1 if no
如何保护客户端/服务器套接字通信的安全

假设客户端和服务器应用程序在不同的计算机上运行 Today Server will receive the request and cast it as needed ProxyResponse message ProxyResponse
docker buildx“执行用户进程导致：执行格式错误”

我正在尝试交叉编译一个 Rust 应用程序以在我的树莓派集群上运行我看到 docker 的 buildx 应该能够使这成为可能我现在有一个最小的 dockerfile 如下所示 FROM rust RUN apt get update
在本地工作的 R 脚本不适用于shinyapp.io

我正在尝试组装一个 R Shiny 应用程序至少在最初它可以绘制日期数据的直方图我让它在 RStudio 的本地系统上工作得很好但在闪亮的应用程序 io 中它不起作用目前该应用程序非常简单用户界面实际上没有做任何事情数据只是
Jupyter 上 Sparkcollect() 的 IllegalArgumentException

我设置了 Jupyter 4 3 0 Python 3 6 3 Anaconda 和 PySpark 2 2 1 以下示例在通过 Jupyter 运行时将失败 sc SparkContext getOrCreate rdd sc paral
如何获取两个列表之间的所有唯一分配

我有两个列表每个列表都可以包含重复的值但任何值只能出现在这两个列表之一或没有中 A 0 1 B 2 3 我想获得这两个列表之间的所有唯一映射 assignment A B 0 2 1 3 0 3 1 2 我知道这可以例如使用 ite
如何解决 MSCV 中 Boost 文件系统库的 LNK1104 错误？

我无法将我的项目链接到 Microsoft Visual C 2008 Express Edition 中的 Boost 版本 1 37 0 文件系统 lib 文件文件系统库是not仅标头库我一直在关注Windows 入门 http w
如何处理pygame中不同组件的时间

我正在制作一个 pygame 游戏人们可以从商店购买炸弹玩家还可以投下购买的炸弹数量我需要一种方法让每个炸弹在投下 3 秒后消失在下面的代码中我只能投下炸弹但是我尝试了各种方法但失败了 import pygame import
使用 .NET Core 的 Linux/Unix 上的文件权限

我正在尝试学习如何使用 NET Core 在 Linux Unix 上设置文件权限我已经在这里发现了一个问题它指出了 System IO FileSystem 的方向但我似乎找不到任何有关如何使用它的文档简而言之我想从仅在 Lin
在 React Native 应用程序中发送应用程序邀请

在 facebook iOS SDK 中有一个名为 App Invites 的模块允许将您的应用程序的邀请发送给您的朋友 https developers facebook com docs ios https developers f
sstream 重新声明并出现公共访问编译器错误

我在使用 gcc5 4 0 在大型项目上运行 make 时遇到了此错误 usr include c 5 sstream 300 14 error xfer bufptrs redeclared with public access stru
gensim 的 get_document_topics 方法返回的概率加起来不等于 1

有时它返回所有主题的概率并且一切都很好但有时它只返回几个主题的概率并且它们加起来不等于一似乎这取决于文档一般来说当它返回很少的主题时概率加起来大约为 80 那么它只返回最相关的主题吗有没有办法强制它返回所有概率也许我遗漏了一些

gensim 的 get_document_topics 方法返回的概率加起来不等于 1

gensim 的 get_document_topics 方法返回的概率加起来不等于 1 的相关文章

随机推荐

热门标签