Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在 Python 中识别大型字符串列表中的项目之间的文本相似性的最有效方法是什么?
下面的代码实现了我想要实现的结果 有一个称为 引理 的字符串列表 其中包含特定类别单词的可接受形式 另一个列表称为 形式 包含在不同时期和特定语言的不同方言的大量文本中发现的单词的许多拼写变体 对于 forms 中的每个单词 我想获取 le
python
Text
NLP
cosinesimilarity
hammingdistance
两个不同长度的数据帧的列之间的余弦相似度?
我在 df1 中有文本列 在 df2 中有文本列 df2 的长度将与 df1 的长度不同 我想计算 df1 text 中每个条目与 df2 text 中每个条目的余弦相似度 并为每场比赛给出分数 输入样本 df1 mahesh suresh
python
pandas
DataFrame
cosinesimilarity
namematching
有人可以用非常简单的图形方式给出余弦相似度的例子吗? [关闭]
Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 维基百科上的余弦相似度文章 http en wikipedia org wiki Cosine similarity 你能在这里显示向量吗
Text
datamining
cosinesimilarity
如何计算两个字符串向量之间的余弦相似度
我有 2 个维度为 6 的向量 我想要一个介于 0 和 1 之间的数字 a c HDa 2Pb 2 BxU BuQ Bve b c HCK 2Pb 2 09 F G 谁能解释我应该做什么 使用lsa包和该包的手册 create some f
r
machinelearning
cosinesimilarity
非常大的数据集的余弦相似度
我在计算大量 100 维向量之间的余弦相似度时遇到问题 当我使用from sklearn metrics pairwise import cosine similarity I get MemoryError在我的 16 GB 机器上 每个
python
NumPy
DataFrame
cosinesimilarity
如何有效计算文档流中文档之间的相似度
我收集文本文档 在 Node js 中 其中一个文档i表示为单词列表 考虑到新文档以文档流的形式出现 计算这些文档之间相似性的有效方法是什么 我目前对每个文档中单词的归一化频率使用余弦相似度 我不使用 TF IDF 词频 逆文档频率 因为我
nodejs
Stream
NLP
cosinesimilarity
termdocumentmatrix
在 R 中快速计算 > 10^6 余弦向量相似度
我得到了约 1600 个文档 x 约 120 个单词的文档术语矩阵 我想计算所有这些向量之间的余弦相似度 但我们正在谈论约 1 300 000 次比较 n n 1 2 我使用了 parallel mclapply 和 8 但它仍然需要很长时
r
performance
parallelprocessing
cosinesimilarity
给定单词相似度推断句子相似度
假设我对两个句子中的每对单词都有一个单词相似度得分 那么根据这些分数确定整体句子相似度的好方法是什么 单词分数是使用表示每个单词的向量的余弦相似度来计算的 现在我有了单独的单词分数 将单独的单词分数相加并除以两个句子的总字数来获得两个句子的
WordNet
cosinesimilarity
Word2Vec
sentencesimilarity
如何使用两个矩阵计算余弦相似度
我有两个矩阵 A 尺寸 M x N 和 B N x P 事实上 它们是向量的集合 A 中的行向量 B 中的列向量 我想获得每对的余弦相似度分数a and b where a是矩阵 A 的向量 行 并且b是矩阵 B 的向量 列 我首先将矩阵相
MATLAB
matrix
cosinesimilarity
为什么 scikit-learn 的最近邻似乎没有返回正确的余弦相似距离?
我正在尝试使用 scikit 的最近邻实现从随机值矩阵中查找与给定列向量最接近的列向量 该代码应该找到第 21 列的最近邻居 然后检查这些邻居与第 21 列的实际余弦相似度 from sklearn neighbors import Nea
python27
scikitlearn
nearestneighbor
cosinesimilarity
两个大文件彼此的平行余弦相似度
我有两个文件 A 和 B A has 400 000 lines each having 50 float values B has 40 000 lines having 50 float values 对于 B 中的每一行 我需要在 A
parallelprocessing
GPU
sparsematrix
cosinesimilarity
gnuparallel
tm.package:findAssocs 与 Cosine
我是新来的 我的问题是数学问题而不是编程性质 我想就我的方法是否有意义获得第二意见 我试图使用该函数在我的语料库中找到单词之间的关联findAssocs 来自tm包裹 尽管它在通过该包提供的数据 例如 纽约时报 和美国国会 上表现得相当不错
r
Math
textmining
tm
cosinesimilarity
哪种 pyspark 抽象适合我的大型矩阵乘法?
我想执行大型矩阵乘法 C A B T然后通过应用严格的阈值来过滤 C 收集形式为 行索引 列索引 值 的列表 A 和 B 很稀疏 条目大多为零 它们最初表示为稀疏 scipy csr 矩阵 矩阵的大小 当它们是密集格式时 答 9G 900
python
apachespark
PySpark
sparsematrix
cosinesimilarity
pySpark Columnsimilarities 的问题
太长了 博士 如何使用 pySpark 比较行的相似度 我有一个 numpy 数组 我想在其中比较每一行之间的相似性 print pdArray 0 1 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 7 5 0 0 0 1 0
python
PySpark
cosinesimilarity
Python:计算 Pandas 中两列之间的 tf-idf 余弦相似度时出现 MemoryError
我正在尝试计算 Pandas 数据框中两列之间的 tf idf 向量余弦相似度 一列包含搜索查询 另一列包含产品标题 余弦相似度值旨在成为搜索引擎 排名机器学习算法的 特征 我在 iPython 笔记本中执行此操作 不幸的是遇到了 Memo
python
pandas
scikitlearn
tfidf
cosinesimilarity
Scipy 余弦相似度与 sklearn 余弦相似度
我注意到两者scipy and sklearn具有余弦相似度 余弦距离函数 我想测试每对向量的速度 setup1 import numpy as np arrs1 np random rand 400 for in range 60 arr
python
scikitlearn
scipy
cosinesimilarity
0 和 1 之间的余弦相似度
我对计算向量之间的相似度感兴趣 但是这种相似度必须是 0 到 1 之间的数字 关于 tf idf 和余弦相似度有很多问题 所有问题都表明该值位于 0 到 1 之间 维基百科 https en wikipedia org wiki Cosin
python
scikitlearn
gensim
similarity
cosinesimilarity
余弦距离作为 k 均值的向量距离函数
我有一个 N 个顶点的图 其中每个顶点代表一个地方 我还有向量 每个用户一个 N 个系数中的每一个 其中系数的值是在相应地点花费的持续时间 以秒为单位 如果没有访问该地点则为 0 例如 对于图表 向量 v1 100 50 0 30 0 意味
clusteranalysis
datamining
Distance
kmeans
cosinesimilarity
Bert 针对语义相似性进行了微调
我想应用微调 Bert 来计算句子之间的语义相似度 我搜索了很多网站 但几乎没有找到有关此的下游信息 我刚刚发现STS基准测试 我想知道是否可以使用STS基准数据集来训练微调bert模型 并将其应用到我的任务中 合理吗 据我所知 计算相似度
NLP
cosinesimilarity
pearsoncorrelation
sentencesimilarity
Mahout row相似度
我正在尝试计算维基百科文档之间的行相似度 我有 tf idf 向量的格式Key class class org apache hadoop io Text Value Class class org apache mahout math V
Hadoop
mahout
cosinesimilarity
1
2
»