非常大的数据集的余弦相似度

2024-05-04

我在计算大量 100 维向量之间的余弦相似度时遇到问题。当我使用from sklearn.metrics.pairwise import cosine_similarity, I get MemoryError在我的 16 GB 机器上。每个数组都非常适合我的记忆，但我得到MemoryError during np.dot()内部通话

这是我的用例以及我目前正在如何解决它。

这是我的 100 维父向量，我需要将其与其他 500,000 个相同维度的不同向量（即 100）进行比较

parent_vector = [1, 2, 3, 4 ..., 100]

这是我的子向量（在这个例子中带有一些虚构的随机数）

child_vector_1 = [2, 3, 4, ....., 101]
child_vector_2 = [3, 4, 5, ....., 102]
child_vector_3 = [4, 5, 6, ....., 103]
.......
.......
child_vector_500000 = [3, 4, 5, ....., 103]

我的最终目标是获得前 N 个子向量（其名称例如child_vector_1及其相应的余弦分数）与父向量具有非常高的余弦相似度。

我目前的方法（我知道效率低且消耗内存）：

Step 1:创建以下形状的超级数据框

parent_vector         1,    2,    3, .....,    100   
child_vector_1        2,    3,    4, .....,    101   
child_vector_2        3,    4,    5, .....,    102   
child_vector_3        4,    5,    6, .....,    103   
......................................   
child_vector_500000   3,    4,    5, .....,    103

Step 2: Use

from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(df)

获得所有向量之间的成对余弦相似度（如上面的数据帧所示）

Step 3:制作一个元组列表来存储key例如child_vector_1以及所有此类组合的余弦相似度等值。

Step 4:使用以下方法获取前 N 名sort()列表 - 这样我就可以获得子向量名称及其与父向量的余弦相似度得分。

PS：我知道这效率很低，但我想不出更好的方法更快计算每个子向量之间的余弦相似度的方法和父向量并获取前 N 个值。

任何帮助将不胜感激。

即使您的 (500000, 100) 数组（父数组及其子数组）适合内存任何成对的度量都不会。其原因是，顾名思义，成对度量计算任意两个子节点的距离。为了存储这些距离，您需要一个 (500000,500000) 大小的浮点数组，如果我的计算正确，将需要大约 100 GB 的内存。

值得庆幸的是，有一个简单的解决方案可以解决您的问题。如果我理解正确的话，你只想得到孩子和父母之间的距离，这将产生一个长度为 500000 的向量，很容易存储在内存中。

为此，您只需为 cosine_similarity 提供第二个参数，仅包含parent_vector

import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

df = pd.DataFrame(np.random.rand(500000,100)) 
df['distances'] = cosine_similarity(df, df.iloc[0:1]) # Here I assume that the parent vector is stored as the first row in the dataframe, but you could also store it separately

n = 10 # or however many you want
n_largest = df['distances'].nlargest(n + 1) # this contains the parent itself as the most similar entry, hence n+1 to get n children

希望能解决你的问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

非常大的数据集的余弦相似度的相关文章

在 Python 中使用 XPath 和 LXML

我有一个 python 脚本用于解析 XML 并将某些感兴趣的元素导出到 csv 文件中我现在尝试更改脚本以允许根据条件过滤 XML 文件等效的 XPath 查询将是 DC Events Confirmation contains T
替换字符串列表中的 \x00 的最佳方法？

我有一个来自已解析 PE 文件的值列表其中包括 x00每个部分末尾的空字节我希望能够删除 x00字符串中的字节而不删除所有字节 x 文件中的 s 我试过做 replace and re sub 但并没有取得太大成功使用Python 2
如何使用pycaffe重构caffe网络

我想要的是加载网络后我将分解一些特定的图层并保存新的网络例如原网数据 gt conv1 gt conv2 gt fc1 gt fc2 gt softmax New net 数据 gt conv1 1 gt conv1 2 gt c
Python 中 genfromtxt() 的可变列数？

我有一个 txt具有不同长度的行的文件每一行都是代表一条轨迹的一系列点由于每条轨迹都有自己的长度因此各行的长度都不同也就是说列数从一行到另一行不同据我所知 genfromtxt Python 中的模块要求列数相同 gt gt g
Python：当前目录是否自动包含在路径中？

Python 3 4 通过阅读其他一些 SO 问题似乎如果moduleName py文件位于当前目录之外如果要导入它必须将其添加到路径中sys path insert 0 path to application app folder
将 subprocess.Popen 的输出通过管道传输到文件

我需要启动一些长时间运行的进程subprocess Popen 并希望拥有stdout and stderr从每个自动管道到单独的日志文件每个进程将同时运行几分钟我想要两个日志文件 stdout and stderr 每个进程当进程运行
如何在 Windows 上使用 Python 3.6 来安装 Python 2.7

我想问一下如何使用pip install对于 Python 2 7 当我之前安装并使用 Python 3 6 时我现在必须使用 Windows 上的 Python 版本 pip install 继续安装 Python 3 6 我需要使用以
Pandas：根据列名进行列的成对乘法

我有以下数据框 gt gt gt df pd DataFrame ap1 X 1 2 3 4 as1 X 1 2 3 4 ap2 X 2 2 2 2 as2 X 3 3 3 3 gt gt gt df ap1 X as1 X ap2 X a
使用Python将图像转换为十六进制格式

我的下面有一个jpg文件tmp folder upload path tmp resized test jpg 我一直在使用下面的代码 Method 1 with open upload path rb as image file enco
在wxpython中使用wx.TextCtrl并在按钮单击后显示数据的简单示例 - wx新手

我正在学习 python 并尝试使用 wxpython 进行 UI 开发也没有 UI exp 我已经能够创建一个带有面板按钮和文本输入框的框架我希望能够在文本框中输入文本并让程序在单击按钮后对输入框中的文本执行操作我可以获得一些关
使用 python 将文本发送到带有逗号分隔符的列

如何使用分隔符在 Excel 中将一列分成两列并使用 python 命名标题这是我的代码 import openpyxl w openpyxl load workbook DDdata xlsx active w active a a
在 Windows 上使用 IPython 笔记本时出现 500 服务器错误

我刚刚在 Windows 7 Professional 64 位上全新安装了 IPython 笔记本我采取的步骤是从以下位置安装 Python 3 4 1http python org http python org gt pip in
urllib2.urlopen() 是否实际获取页面？

当我使用 urllib2 urlopen 时我在考虑它只是为了读取标题还是实际上带回整个网页 IE 是否真的通过 urlopen 调用或 read 调用获取 HTML 页面 handle urllib2 urlopen url html
在谷歌Colab中使用cv2.imshow()

我正在尝试通过输入视频来对视频进行对象检测 cap cv2 VideoCapture video3 mp4 在处理部分之后我想使用实时对象检测来显示视频 while True ret image np cap read Expand di
Python 矩阵每一行的总和

lista 1 2 3 4 5 6 7 8 9 print lista def filas lista res for elemento in lista x sum lista elemento res append x print re
Python模块单元测试的最佳文件结构组织？

遗憾的是我发现有太多方法可以在 Python 中保存单元测试而且它们通常没有很好的文档记录我正在寻找一种终极结构它可以满足以下大部分要求 be discoverable by test frameworks including
Scrapy 蜘蛛无法工作

由于到目前为止没有任何效果我开始了一个新项目 python scrapy ctl py startproject Nu 我完全按照教程操作创建了文件夹和一个新的蜘蛛 from scrapy contrib spiders import
asyncio - 多次等待协程（周期性任务）

我正在尝试为异步事件循环创建定期任务如下所示但是我收到 RuntimeError 无法重用已等待的协程异常显然 asyncio 不允许等待相同的可等待函数如中讨论的这个错误线程 https bugs python org issu
如何识别图形线条

我有以下格式的路径的 x y 数据示例仅用于说明 seq p1 p2 0 20 2 3 1 20 2 4 2 20 4 4 3 22 5 5 4 22 5 6 5 23 6 2 6 23 6 3 7 23 6 4 每条路径都有多个点它们
使用 numpy 加速 for 循环

下一个 for 循环如何使用 numpy 获得加速我想这里可以使用一些奇特的索引技巧但我不知道是哪一个这里可以使用 einsum 吗 a 0 for i in range len b a numpy mean C d e f b i

随机推荐

如何在 Angular 4 材料的 Stepper 中提交表单

如何在角材料的步进器中提交表单数据我正在遵循角材料的示例https material angular io components stepper examples https material angular io components
如何将值与数据库值进行比较

我使用下面的代码在数据库中插入用户安装的应用程序包名称并且插入成功现在在日志中显示我想将系统安装的应用程序与此数据库值进行比较并仅显示数据集中的值那么我如何比较我在这个括号中写了什么 if p packageName equals
NoMethodError：未定义方法“needs_migration？”对于 ActiveRecord::Migrator:Class

我收到以下错误消息不知道如何解决它有人可以帮忙吗 NoMethodError 未定义方法 needs migration 为了 ActiveRecord 迁移器类这是 config ru 代码 require config envi
Xcode 的 Organizer 窗口中没有“Use for Development”

我今天注册了 Apple 的 99 美元 iOS 开发计划在 Xcode 中的证书标识符和配置文件下无论我单击什么它都会告诉我将您的设备连接到 Mac 然后在 Xcode 的管理器窗口中单击用于开发使用与您的 iOS 开发者计
切换到负载均衡器后，django 帖子收到 CSRF 验证失败

我有一个有效的登录模板可以发布帖子如下所示
根据列中的条件将 Pandas 数据框拆分为多个数据框

为了为 ML 任务正确准备数据我需要能够将原始数据帧拆分为多个较小的数据帧我想要获取上面的所有行包括 BOOL 列的值为 1 的行对于每次出现的 1 即 n 个数据帧其中 n 是 1 出现的次数数据样本 df pd DataFr
Webdriver - 等待在 Firefox 中不起作用

在我的应用程序中我有一个用于在屏幕上显示记录的元素所以在第一页上它会显示类似显示 2100 的 1 10 之类的内容这是该元素的 CSS 它适用于所有浏览器 span GridPagingInfo 在我位于 iframe 中的应用
以角度搜索输入字段？

这里我有folderObjs数组和该数组的控制台位于下面的代码中我将搜索输入字段放在搜索输入字段中我想按角度搜索该数组的folderName和folderSize 这怎么可能 HTML
有没有办法过滤掉 TortoiseSVN 日志中仅属性的更改？

SVN 的 mergeinfo 功能确实很有用但是当文件上的所有更改都是 svn 属性时它会在修订日志中放置一个日志条目而我们通常不希望看到这些有没有办法过滤掉 TortoiseSVN 日志中仅属性的更改拉起日志选择您要比较的两
我可以在不同的 Spring 控制器中使用不同参数的相同映射值吗？

有什么办法可以完成这样的事情我有一个用于导航的表单
为什么在 numpy 数组上使用 *= 会修改原始数组？

下面的代码演示了使用a 3修改原始数据集而a a 3才不是 data np array 1 0 3 4 a data 0 b data 1 a 3 b b 3 print data gives 3 0 3 4 the a 3语句修改了矩阵
PHP：将 UTC 时间更改为太平洋时间（PST/PDT）[重复]

这个问题在这里已经有答案了我有一个 Datetime 对象并通过以下方式获取时间 today date Y m d H i s temp date gt getTimeStamp 我希望能够将其转换为加利福尼亚州的当前时间但我需要考虑
如何使用 c 使用 libpng 更改 png 图像的 RGB 值？

更改 png 图像的 rgb 值的推荐方法是什么现在我正在使用示例代码来查看 libpng 的工作方式它只打开一个 png 图像并写入另一个 png 图像但是我想更改这个新图像的 RGB 值使其变为全蓝色绿色或红色无论我选择什么
将带有我的 URL 的 ExtensionInstallSources 首选项添加到 Chrome 首选项后，仍然不允许安装“.crx”打包应用程序

我添加了偏好设置ExtensionInstallSources 按照 http www chromium org administrators policy list 3 ExtensionInstallSources http www c
如何从 python 发布到 hipchat

我有一些 python 工具我想将它们的更新发送到 hipchat 房间我在其他地方使用 shell 脚本执行此操作因此我知道它在我们的环境中有效但我似乎无法将令牌推送到 hipchat API 一定是简单的事情首先这会正确进行
在 ASP.Net MVC 中向“View/Shared”文件夹添加子目录并调用视图

我目前正在使用 ASP Net MVC3 和 Razor 开发一个网站在 View Shared 文件夹中我想添加一个名为 Partials 的子文件夹我可以在其中放置所有部分视图为了更好地组织网站只要我在调用视图时始终引用 Pa
导入错误：无法导入名称 md5

真的不知道这里发生了什么我需要在弹性beanstalk上部署我的flask应用程序但不知何故改变了路径并且无法再运行python application py dotnet info NET Core SDK reflecting an
MPI Alltoallv 还是更好的单独发送和接收？（表现）

我有许多进程大约 100 到 1000 个每个进程都必须将一些数据发送到其他一些进程比如大约 10 个通常但并非总是必要如果 A 发送到 B B 也会发送到 A 每个进程都知道它必须从哪个进程接收多少数据所以我可以用MPI A
Symfony 3.4 没有元数据类来处理错误

我已经安装了 symfony 3 4 和学说包 php gt 5 5 9 doctrine doctrine bundle 1 8 doctrine doctrine migrations bundle 1 3 doctrine orm
非常大的数据集的余弦相似度

我在计算大量 100 维向量之间的余弦相似度时遇到问题当我使用from sklearn metrics pairwise import cosine similarity I get MemoryError在我的 16 GB 机器上每个

非常大的数据集的余弦相似度

非常大的数据集的余弦相似度 的相关文章

随机推荐

热门标签

非常大的数据集的余弦相似度的相关文章