cosinesimilarity

在 Python 中识别大型字符串列表中的项目之间的文本相似性的最有效方法是什么？

下面的代码实现了我想要实现的结果有一个称为引理的字符串列表其中包含特定类别单词的可接受形式另一个列表称为形式包含在不同时期和特定语言的不同方言的大量文本中发现的单词的许多拼写变体对于 forms 中的每个单词我想获取 le

python Text NLP cosinesimilarity hammingdistance

两个不同长度的数据帧的列之间的余弦相似度？

我在 df1 中有文本列在 df2 中有文本列 df2 的长度将与 df1 的长度不同我想计算 df1 text 中每个条目与 df2 text 中每个条目的余弦相似度并为每场比赛给出分数输入样本 df1 mahesh suresh

python pandas DataFrame cosinesimilarity namematching

有人可以用非常简单的图形方式给出余弦相似度的例子吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案维基百科上的余弦相似度文章 http en wikipedia org wiki Cosine similarity 你能在这里显示向量吗

Text datamining cosinesimilarity

如何计算两个字符串向量之间的余弦相似度

我有 2 个维度为 6 的向量我想要一个介于 0 和 1 之间的数字 a c HDa 2Pb 2 BxU BuQ Bve b c HCK 2Pb 2 09 F G 谁能解释我应该做什么使用lsa包和该包的手册 create some f

r machinelearning cosinesimilarity

非常大的数据集的余弦相似度

我在计算大量 100 维向量之间的余弦相似度时遇到问题当我使用from sklearn metrics pairwise import cosine similarity I get MemoryError在我的 16 GB 机器上每个

python NumPy DataFrame cosinesimilarity

如何有效计算文档流中文档之间的相似度

我收集文本文档在 Node js 中其中一个文档i表示为单词列表考虑到新文档以文档流的形式出现计算这些文档之间相似性的有效方法是什么我目前对每个文档中单词的归一化频率使用余弦相似度我不使用 TF IDF 词频逆文档频率因为我

nodejs Stream NLP cosinesimilarity termdocumentmatrix

在 R 中快速计算 > 10^6 余弦向量相似度

我得到了约 1600 个文档 x 约 120 个单词的文档术语矩阵我想计算所有这些向量之间的余弦相似度但我们正在谈论约 1 300 000 次比较 n n 1 2 我使用了 parallel mclapply 和 8 但它仍然需要很长时

r performance parallelprocessing cosinesimilarity

给定单词相似度推断句子相似度

假设我对两个句子中的每对单词都有一个单词相似度得分那么根据这些分数确定整体句子相似度的好方法是什么单词分数是使用表示每个单词的向量的余弦相似度来计算的现在我有了单独的单词分数将单独的单词分数相加并除以两个句子的总字数来获得两个句子的

WordNet cosinesimilarity Word2Vec sentencesimilarity

如何使用两个矩阵计算余弦相似度

我有两个矩阵 A 尺寸 M x N 和 B N x P 事实上它们是向量的集合 A 中的行向量 B 中的列向量我想获得每对的余弦相似度分数a and b where a是矩阵 A 的向量行并且b是矩阵 B 的向量列我首先将矩阵相

MATLAB matrix cosinesimilarity

为什么 scikit-learn 的最近邻似乎没有返回正确的余弦相似距离？

我正在尝试使用 scikit 的最近邻实现从随机值矩阵中查找与给定列向量最接近的列向量该代码应该找到第 21 列的最近邻居然后检查这些邻居与第 21 列的实际余弦相似度 from sklearn neighbors import Nea

python27 scikitlearn nearestneighbor cosinesimilarity

两个大文件彼此的平行余弦相似度

我有两个文件 A 和 B A has 400 000 lines each having 50 float values B has 40 000 lines having 50 float values 对于 B 中的每一行我需要在 A

parallelprocessing GPU sparsematrix cosinesimilarity gnuparallel

tm.package：findAssocs 与 Cosine

我是新来的我的问题是数学问题而不是编程性质我想就我的方法是否有意义获得第二意见我试图使用该函数在我的语料库中找到单词之间的关联findAssocs 来自tm包裹尽管它在通过该包提供的数据例如纽约时报和美国国会上表现得相当不错

r Math textmining tm cosinesimilarity

哪种 pyspark 抽象适合我的大型矩阵乘法？

我想执行大型矩阵乘法 C A B T然后通过应用严格的阈值来过滤 C 收集形式为行索引列索引值的列表 A 和 B 很稀疏条目大多为零它们最初表示为稀疏 scipy csr 矩阵矩阵的大小当它们是密集格式时答 9G 900

python apachespark PySpark sparsematrix cosinesimilarity

pySpark Columnsimilarities 的问题

太长了博士如何使用 pySpark 比较行的相似度我有一个 numpy 数组我想在其中比较每一行之间的相似性 print pdArray 0 1 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 7 5 0 0 0 1 0

python PySpark cosinesimilarity

Python：计算 Pandas 中两列之间的 tf-idf 余弦相似度时出现 MemoryError

我正在尝试计算 Pandas 数据框中两列之间的 tf idf 向量余弦相似度一列包含搜索查询另一列包含产品标题余弦相似度值旨在成为搜索引擎排名机器学习算法的特征我在 iPython 笔记本中执行此操作不幸的是遇到了 Memo

python pandas scikitlearn tfidf cosinesimilarity

Scipy 余弦相似度与 sklearn 余弦相似度

我注意到两者scipy and sklearn具有余弦相似度余弦距离函数我想测试每对向量的速度 setup1 import numpy as np arrs1 np random rand 400 for in range 60 arr

python scikitlearn scipy cosinesimilarity

0 和 1 之间的余弦相似度

我对计算向量之间的相似度感兴趣但是这种相似度必须是 0 到 1 之间的数字关于 tf idf 和余弦相似度有很多问题所有问题都表明该值位于 0 到 1 之间维基百科 https en wikipedia org wiki Cosin

python scikitlearn gensim similarity cosinesimilarity

余弦距离作为 k 均值的向量距离函数

我有一个 N 个顶点的图其中每个顶点代表一个地方我还有向量每个用户一个 N 个系数中的每一个其中系数的值是在相应地点花费的持续时间以秒为单位如果没有访问该地点则为 0 例如对于图表向量 v1 100 50 0 30 0 意味

clusteranalysis datamining Distance kmeans cosinesimilarity

Bert 针对语义相似性进行了微调

我想应用微调 Bert 来计算句子之间的语义相似度我搜索了很多网站但几乎没有找到有关此的下游信息我刚刚发现STS基准测试我想知道是否可以使用STS基准数据集来训练微调bert模型并将其应用到我的任务中合理吗据我所知计算相似度

NLP cosinesimilarity pearsoncorrelation sentencesimilarity

Mahout row相似度

我正在尝试计算维基百科文档之间的行相似度我有 tf idf 向量的格式Key class class org apache hadoop io Text Value Class class org apache mahout math V

Hadoop mahout cosinesimilarity