R语言中对文本数据进行主题模型topicmodeling分析

2023-05-16

主题建模

在文本挖掘中，我们经常收集一些文档集合，例如博客文章或新闻文章，我们希望将其分成自然组，以便我们可以分别理解它们。主题建模是对这些文档进行无监督分类的一种方法，类似于对数字数据进行聚类，即使我们不确定要查找什么，也可以找到自然的项目组。

潜在狄利克雷分配（LDA）是拟合主题模型特别流行的方法。它将每个文档视为主题的混合体，并将每个主题看作是单词的混合体。这允许文档在内容方面相互“重叠”，而不是分离成离散的组，以反映自然语言的典型用法。

R语言中对文本数据进行主题模型topicmodeling分析

结合主题建模的文本分析流程图。topicmodels包采用Document-Term Matrix作为输入，并生成一个可以通过tidytext进行处理的模型，以便可以使用dplyr和ggplot2对其进行处理和可视化。

如图所示，我们可以使用文本原理来处理主题建模。

潜在狄利克雷分配

潜在Dirichlet分配是主题建模中最常用的算法之一。

每个文档都是主题的混合体。我们设想每个文档可能包含来自几个主题的文字，特别是比例。例如，在双主题模型中，我们可以说“文档1是90％的主题A和10％的主题B，而文档2是30％的主题A和70％的主题B.”

每个主题都是词汇的混合。例如，我们可以想象一个美国新闻的两个主题模型，一个话题是“政治”，一个是“娱乐”。政治话题中最常见的词语可能是“总统”，“国会”和“政府“，而娱乐主题可以由诸如”电影“，”电视“和”演员“之类的词组成。

LDA是一种同时估计这两种情况的数学方法：查找与每个主题相关的单词混合，同时确定描述每个文档的主题混合。这个算法有很多现有的实现，我们将深入探讨其中的一个。

library(topicmodels)data("AssociatedPress")AssociatedPress

  : term frequency (tf)

我们可以使用LDA()topicmodels包中的函数设置k = 2来创建两个主题的LDA模型。

实际上几乎所有的主题模型都会使用更大的模型k，但我们很快就会看到，这种分析方法可以扩展到更多的主题。

此函数返回一个包含模型拟合完整细节的对象，例如单词如何与主题关联以及主题如何与文档关联。

# set a seed so that the output of the model is predictableap_lda <- LDA(AssociatedPress,k =2,control =list(seed =1234))ap_lda

拟合模型是“简单部分”：分析的其余部分将涉及使用整理tidytext软件包中的函数来探索和解释模型。

单词主题概率

tidytext包提供了这种方法来提取每个主题的每个词的概率，称为ββ （“测试版”）。

## # A tibble: 20,946 x 3##    topic term          beta##            ##  1    1 aaron      1.69e-12##  2    2 aaron      3.90e- 5##  3    1 abandon    2.65e- 5##  4    2 abandon    3.99e- 5##  5    1 abandoned  1.39e- 4##  6    2 abandoned  5.88e- 5##  7    1 abandoning 2.45e-33##  8    2 abandoning 2.34e- 5##  9    1 abbott    2.13e- 6## 10    2 abbott    2.97e- 5## # ... with 20,936 more rows

R语言中对文本数据进行主题模型topicmodeling分析
每个主题中最常见的术语

这种可视化让我们了解从文章中提取的两个主题。话题1中最常见的词语包括“百分比”，“百万”，“十亿”和“公司”，这表明它可能代表商业或财务新闻。话题2中最常见的包括“总统”，“政府”和“苏维埃”，表示这个话题代表政治新闻。

作为替代方案，我们可以认为有条款最大的区别在ββ在主题1和主题2之间。

## # A tibble: 198 x 4##    term              topic1      topic2 log_ratio##                            ##  1 administration 0.000431  0.00138        1.68##  2 ago            0.00107  0.000842      -0.339##  3 agreement      0.000671  0.00104        0.630##  4 aid            0.0000476 0.00105        4.46##  5 air            0.00214  0.000297      -2.85##  6 american      0.00203  0.00168        -0.270##  7 analysts      0.00109  0.000000578  -10.9##  8 area          0.00137  0.000231      -2.57##  9 army          0.000262  0.00105        2.00## 10 asked          0.000189  0.00156        3.05## # ... with 188 more rows

图显示了这两个主题之间差异最大的词。

R语言中对文本数据进行主题模型topicmodeling分析
图β中差异最大的词β 在主题2和主题1之间

我们可以看到，话题2中更常见的词包括“民主”和“共和党”等政党，以及“dukakis”和“gorbachev”等政治家的名字。主题1的特点是“日元”和“美元”等货币以及“指数”，“价格”和“利率”等金融术语。这有助于确认算法确定的两个主题是政治和财务新闻。

文档 - 主题概率

除了将每个主题评估为单词混合之外，LDA还将每个文档建模为混合主题。我们可以检查每个文档的每个主题概率，称为γγ（“伽玛”），其matrix = "gamma"论点是tidy()。

## # A tibble: 4,492 x 3##    document topic    gamma##          ##  1        1    1 0.248##  2        2    1 0.362##  3        3    1 0.527##  4        4    1 0.357##  5        5    1 0.181##  6        6    1 0.000588##  7        7    1 0.773##  8        8    1 0.00445##  9        9    1 0.967## 10      10    1 0.147## # ... with 4,482 more rows

这些值中的每一个都是该文档中从该主题生成的单词的估计比例。例如，该模型估计文档1中单词的大约24.8％是从主题1生成的。

我们可以看到，这些文档中的许多文档都是从两个主题的混合中抽取出来的，但文档6几乎完全是从主题2中得出的，其中有一个γγ从主题1接近零。为了检查这个答案，我们可以tidy()使用文档术语矩阵，并检查该文档中最常见的词。

## # A tibble: 287 x 3##    document term          count##                ##  1        6 noriega          16.##  2        6 panama          12.##  3        6 jackson          6.##  4        6 powell            6.##  5        6 administration    5.##  6        6 economic          5.##  7        6 general          5.##  8        6 i                5.##  9        6 panamanian        5.## 10        6 american          4.## # ... with 277 more rows

根据最常见的词汇，这似乎是一篇关于美国政府与巴拿马独裁者曼努埃尔诺列加之间关系的文章，这意味着该算法将其置于专题2（作为政治/国家新闻）是正确的。

例子

在考察一个统计方法时，在一个非常简单的情况下，你可以知道“正确的答案”。例如，我们可以收集一组明确与四个不同主题相关的文档，然后执行主题建模，以查看该算法是否可以正确区分这四个组。这让我们仔细检查该方法是否有用，并了解它如何以及何时会出错。我们将使用经典文献中的一些数据来尝试。

假设一个破坏者闯入你的书房并撕毁你的四本书：

Charles Dickens的伟大期望
HG Wells 的世界大战

Jules Verne 在海底的两万里

傲慢与偏见简·奥斯汀

我们将使用第3章介绍的gutenbergr包检索这四本书的内容。

titles <- c("Twenty Thousand Leagues under the Sea","The War of the Worlds","Pride and Prejudice","Great Expectations")

作为预处理，我们将它们分成不同的章节，使用tidytext unnest_tokens()将它们分离成单词，然后删除stop_words。我们将每一章都视为一个单独的“文档”，每个章节都有一个像“ Great Expectations_1或”这样的名字Pride and Prejudice_11。（在其他应用程序中，每个文档可能是一篇报纸文章或一篇博客文章）。

## # A tibble: 104,721 x 3##    document                word        n##                          ##  1 Great Expectations_57    joe        88##  2 Great Expectations_7    joe        70##  3 Great Expectations_17    biddy      63##  4 Great Expectations_27    joe        58##  5 Great Expectations_38    estella    58##  6 Great Expectations_2    joe        56##  7 Great Expectations_23    pocket    53##  8 Great Expectations_15    joe        50##  9 Great Expectations_18    joe        50## 10 The War of the Worlds_16 brother    50## # ... with 104,711 more rows

章节中的LDA

现在我们的数据框word_counts是整齐的，每行一个文档，但topicmodels包需要一个DocumentTermMatrix。我们可以将每行一个令牌转换为DocumentTermMatrix带有tidytext的表cast_dtm()。

chapters_dtm <- word_counts %>%  cast_dtm(document, word, n)chapters_dtm

然后，我们可以使用该LDA()功能创建一个四主题模型。在这种情况下，我们知道我们正在寻找四个主题，因为有四本书; 在其他问题中，我们可能需要尝试一些不同的值k。

chapters_lda <- LDA(chapters_dtm,k =4,control =list(seed =1234))chapters_lda

## A LDA_VEM topic model with 4 topics.

就像我们在美联社的数据中所做的那样，我们可以检查每个主题的每个词的概率。

## # A tibble: 72,860 x 3##    topic term        beta##          ##  1    1 joe    5.83e-17##  2    2 joe    3.19e-57##  3    3 joe    4.16e-24##  4    4 joe    1.45e- 2##  5    1 biddy  7.85e-27##  6    2 biddy  4.67e-69##  7    3 biddy  2.26e-46##  8    4 biddy   4.77e- 3##  9    1 estella 3.83e- 6## 10    2 estella 5.32e-65## # ... with 72,850 more rows

这已将模型转换为每行一个主题的单行格式。对于每个组合，该模型计算该术语从该主题生成的概率。例如，术语“joe”从主题1,2或3产生几乎为零的概率，但它占主题4的1.45％。

我们可以使用dplyr top_n()来查找每个主题中的前5个术语。

top_terms <- chapter_topics %>%  group_by(topic) %>%  top_n(5, beta) %>%  ungroup() %>%  arrange(topic, -beta)top_terms

## # A tibble: 20 x 3##    topic term        beta##          ##  1    1 elizabeth 0.0141##  2    1 darcy    0.00881##  3    1 miss      0.00871##  4    1 bennet    0.00695##  5    1 jane      0.00650##  6    2 captain  0.0155##  7    2 nautilus  0.0131##  8    2 sea      0.00885##  9    2 nemo      0.00871## 10    2 ned      0.00803## 11    3 people    0.00680## 12    3 martians  0.00651## 13    3 time      0.00535## 14    3 black    0.00528## 15    3 night    0.00448## 16    4 joe      0.0145## 17    4 time      0.00685## 18    4 pip      0.00682## 19    4 looked    0.00637## 20    4 miss      0.00623

ggplot2可视化

R语言中对文本数据进行主题模型topicmodeling分析

按文档分类

本分析中的每个文档都代表一个章节。因此，我们可能想知道哪些主题与每个文档相关联。

## # A tibble: 772 x 3##    document                topic    gamma##                            ##  1 Great Expectations_57        1 0.0000135##  2 Great Expectations_7        1 0.0000147##  3 Great Expectations_17        1 0.0000212##  4 Great Expectations_27        1 0.0000192##  5 Great Expectations_38        1 0.354##  6 Great Expectations_2        1 0.0000172##  7 Great Expectations_23        1 0.551##  8 Great Expectations_15        1 0.0168##  9 Great Expectations_18        1 0.0000127## 10 The War of the Worlds_16    1 0.0000108## # ... with 762 more rows

这些值中的每一个都是该文档中从该主题生成的单词的估计比例。例如，该模型估计，Great Expectations_57文档中的每个单词只有来自主题1（“傲慢与偏见”）的概率为0.00135％。

现在我们有了这些话题概率，我们可以看到我们的无监督学习在区分四本书方面做得如何。我们希望书中的章节大部分（或完全）都是从相应的主题中产生的。

首先，我们将文档名称重新分为标题和章节，之后我们可以将每个文档的每个主题概率可视化。

## # A tibble: 772 x 4##    title                chapter topic    gamma##                          ##  1 Great Expectations        57    1 0.0000135##  2 Great Expectations          7    1 0.0000147##  3 Great Expectations        17    1 0.0000212##  4 Great Expectations        27    1 0.0000192##  5 Great Expectations        38    1 0.354##  6 Great Expectations          2    1 0.0000172##  7 Great Expectations        23    1 0.551##  8 Great Expectations        15    1 0.0168##  9 Great Expectations        18    1 0.0000127## 10 The War of the Worlds      16    1 0.0000108## # ... with 762 more rows

R语言中对文本数据进行主题模型topicmodeling分析

我们注意到，几乎所有来自“ 傲慢与偏见”，“世界大战 ”和“ 海底二万里 ”的章节都被认为是一个单独的主题。

chapter_classifications <- chapters_gamma %>%  group_by(title, chapter) %>%  top_n(1, gamma) %>%  ungroup()chapter_classifications

然后，我们可以将每本书与每本书的“共识”主题（其章节中最常见的主题）进行比较，并查看哪些主题经常被错误识别。

通过词汇分配：augment

LDA算法的一个步骤是将每个文档中的每个单词分配给一个主题。文档中的单词越多，则通常gamma该文档 - 主题分类的权重越大（）。

我们可能想要采用原始文档字对，并查找每个文档中的哪些字词分配给哪个主题。

assignments <- augment(chapters_lda,data =chapters_dtm)assignments

.topic每个文档中每个术语都分配了一个主题。（augment总是以开头添加额外的列.，以防止覆盖现有的列）。我们可以将此assignments表格与共识书籍标题结合起来，找出哪些词语被错误分类。

## # A tibble: 104,721 x 6##    title              chapter term  count .topic consensus##                      ##  1 Great Expectations      57 joe    88.    4. Great Expectations##  2 Great Expectations      7 joe    70.    4. Great Expectations##  3 Great Expectations      17 joe      5.    4. Great Expectations##  4 Great Expectations      27 joe    58.    4. Great Expectations##  5 Great Expectations      2 joe    56.    4. Great Expectations##  6 Great Expectations      23 joe      1.    4. Great Expectations##  7 Great Expectations      15 joe    50.    4. Great Expectations##  8 Great Expectations      18 joe    50.    4. Great Expectations##  9 Great Expectations      9 joe    44.    4. Great Expectations## 10 Great Expectations      13 joe    40.    4. Great Expectations## # ... with 104,711 more rows

真正的book（title）和分配给它的book（）的组合consensus对于进一步的探索是有用的。例如，我们可以将混淆矩阵可视化，使用dplyr's count()和ggplot2 geom_tile显示一本书中的单词被分配给另一本书的频率。

R语言中对文本数据进行主题模型topicmodeling分析
混淆矩阵显示了LDA分配每本书的单词的位置。这张表的每一行都代表每个单词来自的真实书籍，每一列代表它分配的书籍。

什么是最常见的错误的话？

wrong_words <- assignments %>%  filter(title != consensus)wrong_words

## # A tibble: 3,500 x 4##    title              consensus            term        n##                                      ##  1 Great Expectations Pride and Prejudice  love      44.##  2 Great Expectations Pride and Prejudice  sergeant  37.##  3 Great Expectations Pride and Prejudice  lady      32.##  4 Great Expectations Pride and Prejudice  miss      26.##  5 Great Expectations The War of the Worlds boat      25.##  6 Great Expectations Pride and Prejudice  father    19.##  7 Great Expectations The War of the Worlds water      19.##  8 Great Expectations Pride and Prejudice  baby      18.##  9 Great Expectations Pride and Prejudice  flopson    18.## 10 Great Expectations Pride and Prejudice  family    16.## # ... with 3,490 more rows

我们可以看到，也常常将一些词语分配给“世界的傲慢与偏见”或“战争”。对于其中的一些词，如“爱”和“女士”，这是因为它们在“傲慢与偏见”中更常见（我们可以通过检查计数来证实）。

另一方面，有一些错误分类的词在他们错误分配的小说中从未出现过。例如，我们可以确认只出现在“flopson” 远大前程，即使它分配给了“傲慢与偏见” 。

word_counts %>%  filter(word == "flopson")

## # A tibble: 3 x 3##  document              word        n##                    ## 1 Great Expectations_22 flopson    10## 2 Great Expectations_23 flopson    7## 3 Great Expectations_33 flopson    1

替代性LDA实现

LDA()topicmodels包中的函数只是潜在Dirichlet分配算法的一个实现。例如，mallet包（Mimno 2013）实现了一个用于文本分类工具的MALLET Java包的包装，而tidytext包也为该模型输出提供了整理器。

library(mallet)# create a vector with one string per chaptercollapsed

然而，一旦模型创建完成，我们就可以以几乎相同的方式使用本章其余部分描述的函数tidy()和augment()函数。这包括提取每个主题中的单词概率或每个文档中的主题。

可以使用ggplot2以与LDA输出相同的方式探索和可视化模型。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

topicmodeling

语言中对文本数据进行主题模型

R语言中对文本数据进行主题模型topicmodeling分析的相关文章

R语言中对文本数据进行主题模型topicmodeling分析

主题建模在文本挖掘中 xff0c 我们经常收集一些文档集合 xff0c 例如博客文章或新闻文章 xff0c 我们希望将其分成自然组 xff0c 以便我们可以分别理解它们主题建模是对这些文档进行无监督分类的一种方法 xff0c 类似于对数
如何打印lda主题模型和每个主题的词云

from nltk tokenize import RegexpTokenizer from stop words import get stop words from gensim import corpora models import
Pickle AttributeError：无法从“app.py”> 获取<模块“__main__”上的属性“Wishart”

我已经运行代码来加载由 pickle 保存的变量这是我的代码 import pickle last priors file open simpanan priors rb priors pickle load last priors fi
在shinyApp中使用R text2vec包和LDAvis的LDA主题模型

以下是使用 R text2vec 包进行 LDA 主题建模的代码 library text2vec tokens docs text gt docs text a colection of text documents word token
从 R 中用户定义的语料库中删除停用词

我有一组文件 documents c She had toast for breakfast The coffee this morning was excellent For lunch let s all have pancakes L
Gensim：KeyError：“单词不在词汇表中”

我有一个使用 Python 的 Gensim 库训练过的 Word2vec 模型我有一个标记化列表如下所示词汇量为 34 但我只给出 34 中的几个 b let know buy someth featur mashabl might
ValueError：无法在空集合上计算 LDA（无术语）

当尝试计算较小规模的语料库的 lda 时在 python 中出现此错误但在其他情况下工作正常语料库的大小是 15 我尝试将主题数设置为 5 然后将其减少到 2 但它仍然给出相同的错误 ValueError 无法在空集合上计算 LDA
主题模型上是否有任何 R 包或已发布的代码可以考虑时间？

我正在尝试对跨越 2 个世纪的政治演讲数据集进行主题建模并且理想情况下希望使用考虑时间的主题模型例如 Topics over Time McCallum and Wang 2006 或动态主题模型布莱和拉弗蒂 2006 然而鉴于我不
手动将搭配添加到 gensim 短语器

我正在对语言学论文进行主题建模并使用 Gensim 短语来识别频繁的搭配我希望能够将术语 do support 和 it clefts 标记为一个单词因为它们是特定的语言术语但是如果我在取出停用词后制作 Gensim 模型则不会
用户评论 - R 中的主题建模或意图检测

我正在 R 中进行社交媒体分析类似于查看特定业务的用户反馈并尝试将用户评论区分为类别主题例如查找用户评论是否谈论邻里或犯罪等如何找到给定文本的意图为了训练模型我没有任何预先确定的主题和标题我正在进行一个未知的主题分析主题建
在 R Ubuntu 中安装主题模型时出错

我在安装时遇到错误topicmodels封装在R 跑步时install packages topicmodels dependencies TRUE 以下是我收到的最后几行请帮忙我的R版本是3 1 3 g I usr share R i
如何获得 mallet 中某个主题的概率分布？

使用木槌我可以获得特定数量的主题及其单词如何确保主题词符合概率分布即总和为一例如如果我按如下方式运行它如何使用 mallet 给出的输出来确保主题 0 的主题词的概率加起来为 1 mallet train topics inpu
python中使用numpy数组出现内存错误

我收到此代码的以下错误 model lda LDA n topics 15 n iter 50 random state 1 model fit X topic word model topic word print type topic
木槌的基本用法。第一步

我正在尝试使用Mallet实际上没有主题建模等方面的经验我的目的是获得N的主题M我现在拥有的文档用一个或多个主题对每个文档进行分类文档 1 主题 1 文档 2 主题 2 可能还有主题 3 并用此结果对将来的新文档进行分类我尝试使用b
Gensim LDA 主题分配

我希望使用 LDA 将每个文档分配给一个主题现在我意识到您得到的是 LDA 主题的分布然而正如您从下面最后一行看到的我将其分配给最有可能的主题我的问题是这样的我必须跑lda corpus 有点第二次为了获得这些主题是否有其他内
R 监督潜在狄利克雷分配包

我在用着这个LDA包 https cran r project org web packages lda 对于 R 具体来说我正在尝试做监督潜在狄利克雷分配 slda https www cs princeton edu blei pap
LDA 主题建模 - 训练和测试

我读过 LDA 并且了解当输入一组文档时如何生成主题的数学原理参考文献称 LDA 是一种算法只要给定一个文档集合无需任何监督就可以揭示该集合中的文档所表达的主题因此通过使用 LDA 算法和吉布斯采样器或变分贝叶斯我可以输入
Jupyter Notebook 输出中仅部分显示图表

我正在尝试获取一个类似于此链接中显示的 2 的 PyLDAvis 图您可以立即看到它主题间距离图和前 30 个最显着的术语 http nbviewer jupyter org github bmabey hacker news topi
如何在 bertopic 建模中获取每个主题的所有文档

我有一个数据集并尝试使用 berTopic 建模将其转换为主题但问题是我无法获取主题的所有文档 berTopic 每个主题仅返回 3 个文档 topic model BERTopic verbose True embedding mod
LDA with topicmodels，如何查看不同文档属于哪些主题？

我正在使用 topicmodels 包中的 LDA 我已经在大约 30 000 个文档上运行它获取了 30 个主题并获得了主题的前 10 个单词它们看起来非常好但我想看看哪些文档属于哪个主题的概率最高我该怎么做 myCorpus

随机推荐

vc-api-枚举所有子窗口实例

我经常想枚举一个父窗口的所有子窗口 xff0c 网上搜索了很多都没有搞的太懂 xff0c 经过多次实践 xff0c 总算搞明白了 xff0c 发一个最简单的实例 xff0c 希望能给大家带来帮助实例 xff1a 枚举QQ登陆这个窗口所有的
VC 获取鼠标下面的窗口

POINT pt GetCursorPos amp pt 得到鼠标下面的窗口句柄 HWND hWnd 61 WindowFromPoint pt 得到鼠标所在的子窗口句柄 HWND hChild 61 ChildWindowFromPoin
[SE]软件项目需求分析为什么困难

有几种原因使需求分析变得困难 xff1a xff08 1 xff09 客户说不清楚需求 xff1b xff08 2 xff09 需求自身经常变动 xff1b xff08 3 xff09 分析人员或客户理解有误 1 客户说不清楚需求有些客户
C++到底还能做什么？

嗯 xff0c 这是一位朋友发到我邮箱里面的 xff0c 很奇怪 xff0c 发到了gmail邮箱 xff0c 而不是我常用的hotmail邮箱哈我呢 xff0c 试着回答一下 xff0c 如果回答得不好 xff0c 叫做肖某人学艺不精
Docker 创建 MySQL 容器

2019独角兽企业重金招聘Python工程师标准 gt gt gt 1 拉取镜像 docker pull mysql 5 7 2 查看当前所有的镜像 docker image ls 3 创建并启动一个容器 docker run name t
深入理解Arrays.sort()

翻译人员铁锚翻译日期 2013年11月16日原文链接 Deep Understanding of Arrays sort T Comparator lt super T gt c Arrays sort T Comparator lt
18个实时音视频开发中会用到开源项目

实时音视频的开发学习有很多可以参考的开源项目一个实时音视频应用共包括几个环节 xff1a 采集编码前后处理传输解码缓冲渲染等很多环节每一个细分环节 xff0c 还有更细分的技术模块比如 xff0c 前后处理环节有美颜滤镜
px4 uavcan linux,UAVCAN - UAVCAN Bootloader - 《PX4中文维基》 - 书栈网 · BookStack

安装UAVCAN启动程序警告 xff1a 无人机控制器局域网络 Unmanned Aerial Vehicle Controller Area Network xff0c UAVCAN 设备通常在出厂时就预安装了启动程序如果你不对UAVC
VISTA -MIT开源基于数据驱动的自动驾驶仿真引擎

引言 VISTA 是MIT开源的一个基于数据驱动的用于自动驾驶感知和控制的仿真引擎 VISTA API提供了一个接口 xff0c 用于将真实世界的数据集转换为具有dynamic agents sensor suites task objec
计算机管理储存u盘无法使用,解决电脑识别不出U盘的问题

电脑识别不出U盘怎么样要解决这个问题 xff0c 首先我们要确定的是U盘在其他电脑上使用正常 xff0c 而且你的电脑USB接口也是一切正常的 xff0c 插入电脑后虽然有反应 xff0c 但就无法正确显示出盘符 xff0c 资源管理器也
介绍：成为一名 Jenkins 贡献者的旅程

转自Jenkins 中文社区作为一名软件工程师 xff0c 这些年来在我工作过的不同公司里用到过许多开源软件 xff08 包括框架库工具等 xff09 然而 xff0c 在此之前我从没有以一名贡献者的身份参与过开源项目自从我向 Je
国内嵌入式公司比较排名

随着 ARM内核的应用越来越广泛 xff0c 从手机到电视机 xff0c 从大型工控设备到小型的家电应用 xff0c 都能找到 ARM内核的嵌入式产品而由此引领了一番全球嵌入式领域火热的变化 xff0c 当然 xff0c 国内的嵌入式领域
MYSQL常用操作及python操作MYSQL常用类

Mysql 常见操作数据库操作创建数据库 create database fuzjtest 删除数据库 drop database fuzjtest 查询数据库 show databases 切换数据库 use databas 1231
Windows Server 2008的认证监视工具

管理证书的一个主要目标是获得企业安全的一种高级水平应当认真对待身份和访问管理问题在本文中 xff0c 笔者将简要地讨论认证授权 xff0c 然后探讨使用特定的证书监视工具 xff08 如PKIView msc和certutil exe
（转）为什么需要正则表达式 by 王珢

为什么需要正则表达式 by 王垠学习Unix最开头 xff0c 大家都学过正则表达式 regexp 可是有没有人考虑过我们为什么需要正则表达式 xff1f 正则表达式本来的初衷是用来从无结构的字符串中提取信息 xff0c 殊不知这正好是U
无法启动程序，因为计算机丢失D3DCOMPILER_47.dll 的解决方法

这个原因应该是windows update在更新的时出现错误导致的解决方法是安装 KB4019990 更新包网址如下 xff1a http www catalog update microsoft com Search aspx q 6
KNN cosine 余弦相似度计算

coding utf 8 import collections import numpy as np import os from sklearn neighbors import NearestNeighbors def cos vect
sqlserver2017 重装过程中出现“无法找到数据库引擎启动句柄”错误的解决办法...

sqlserver数据库引擎修改账号名 xff0c 详情参考 xff1a http blog 51cto com djclouds 2089047 utm source 61 oschina app 在SQL Server安装期间 xff0
python基本常用语法&函数&数据结构

1 Python概述 1989年12月 Google工程师 Guido van Rossum为了打发圣诞节假期开发了ABC语言的后继并以他自己喜欢的一个情景剧 Monty Python s Flying Circus命名 Python
R语言中对文本数据进行主题模型topicmodeling分析

主题建模在文本挖掘中 xff0c 我们经常收集一些文档集合 xff0c 例如博客文章或新闻文章 xff0c 我们希望将其分成自然组 xff0c 以便我们可以分别理解它们主题建模是对这些文档进行无监督分类的一种方法 xff0c 类似于对数

R语言中对文本数据进行主题模型topicmodeling分析

主题建模

R语言中对文本数据进行主题模型topicmodeling分析

潜在狄利克雷分配

单词主题概率

文档 - 主题概率

例子

章节中的LDA

按文档分类

通过词汇分配：augment

替代性LDA实现

R语言中对文本数据进行主题模型topicmodeling分析 的相关文章

随机推荐

热门标签

R语言中对文本数据进行主题模型topicmodeling分析的相关文章