如何从 pandas 数据帧计算 jaccard 相似度

2023-12-24

我有一个数据框如下：框架的形状是（1510, 1399）。列代表产品，行代表用户为给定产品分配的值（0 或 1）。我怎样才能计算jaccard_similarity_scores?

我创建了一个占位符数据框，列出了产品与产品

data_ibs = pd.DataFrame(index=data_g.columns,columns=data_g.columns)

我不确定如何迭代数据磅来计算相似性。

for i in range(0,len(data_ibs.columns)) :
    # Loop through the columns for each column
    for j in range(0,len(data_ibs.columns)) :
        .........

Use pairwise_distances计算距离并用 1 减去该距离即可找到相似度得分：

from sklearn.metrics.pairwise import pairwise_distances
1 - pairwise_distances(df.T.to_numpy(), metric='jaccard')

解释：

在较新版本的 scikit learn 中，定义jaccard_score类似于 Jaccard 相似系数定义维基百科 https://en.wikipedia.org/wiki/Jaccard_index:

where

M₁₁ represents the total number of attributes where A and B both have a value of 1.
M₀₁ represents the total number of attributes where the attribute of A is 0 and the attribute of B is 1.
M₁₀ represents the total number of attributes where the attribute of A is 1 and the attribute of B is 0.
M₀₀ represents the total number of attributes where A and B both have a value of 0.

让我们创建一个示例数据集来查看结果是否匹配：

from pandas import DataFrame, crosstab
from numpy.random import default_rng
rng = default_rng(0)

# Create a dataframe of 40 rows and 5 columns (named A, B, C, D, E)
# Each cell in the DataFrame is either 0 or 1 with 50% probability
df = DataFrame(rng.binomial(1, 0.5, size=(40, 5)), columns=list('ABCDE'))

这将为 A 列和 B 列生成以下交叉表：

A/B	0	1
0	10	7
1	14	9

根据定义，Jaccard 相似度得分为：

M00 = (df['A'].eq(0) & df['B'].eq(0)).sum()  # 10
M01 = (df['A'].eq(0) & df['B'].eq(1)).sum()  # 7
M10 = (df['A'].eq(1) & df['B'].eq(0)).sum()  # 14
M11 = (df['A'].eq(1) & df['B'].eq(1)).sum()  # 9


print(M11 / (M01 + M10 + M11))  # 0.3

这就是你会得到的jaccard_score:

from sklearn.metrics import jaccard_score
print(jaccard_score(df['A'], df['B']))  # 0.3

问题与jaccard_score功能是它不是矢量化的。您必须循环所有列才能计算每个相应列的相似度得分。为了避免这种情况，您可以使用矢量化距离版本。但是，由于它是“距离”而不是“相似度”，因此您需要从 1 中减去该值：

from sklearn.metrics.pairwise import pairwise_distances
print(1 - pairwise_distances(df.T.to_numpy(), metric='jaccard'))

# [[1.         0.3        0.45714286 0.34285714 0.46666667]
#  [0.3        1.         0.29411765 0.33333333 0.23333333]
#  [0.45714286 0.29411765 1.         0.40540541 0.44117647]
#  [0.34285714 0.33333333 0.40540541 1.         0.36363636]
#  [0.46666667 0.23333333 0.44117647 0.36363636 1.        ]]

或者，您可以将其转换回 DataFrame：

jac_sim = 1 - pairwise_distances(df.T.to_numpy(), metric='jaccard')
jac_sim_df = DataFrame(
    1 - pairwise_distances(df.T.to_numpy(), metric='jaccard'), 
    index=df.columns, columns=df.columns,
)

#           A         B         C         D         E
#  A  1.000000  0.300000  0.457143  0.342857  0.466667
#  B  0.300000  1.000000  0.294118  0.333333  0.233333
#  C  0.457143  0.294118  1.000000  0.405405  0.441176
#  D  0.342857  0.333333  0.405405  1.000000  0.363636
#  E  0.466667  0.233333  0.441176  0.363636  1.000000

Note: In the previous version of this answer, the calculations used the hamming metric with pairwise_distances because in earlier versions of scikit-learn, jaccard_score was calculated similar to the accuracy score (i.e. (M₀₀ + M₁₁) / (M₀₀ + M₀₁ + M₁₀ + M₁₁)). That is no longer the case so the answer was updated to use the jaccard metric instead of hamming.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何从 pandas 数据帧计算 jaccard 相似度的相关文章

Flask/Apache 提交按钮用于文件上传

我有一个在 apache 后面运行的 Flask 应用程序在我的 index html 页面上有一个文件上传按钮和一个提交按钮如下所示
我无法使用 Python 和 Facebook Marketing API 获取所有 Facebook 营销活动的统计信息

我正在尝试检索以下指标 date campaign name impressions clicks spend 在我的 Facebook 帐户中的所有活动中但显然我编写的脚本仅返回某些活动的统计数据而不是全部它仅返回大多数营销活动的营
如何在 python 中使用 libSVM 计算精度、召回率和 F 分数

我想计算precision recall and f score using libsvm在Python中但我不知道如何我已经发现这个网站 http www csie ntu edu tw cjlin libsvmtools eval
Python3如何安装.ttf字体文件？

我想使用 python3 更精确的 Python 3 6 代码在 Windows 10 上安装 ttf 字体文件我用谷歌搜索但我发现的唯一的就是这个使用python在windows上安装TTF字体 https stackoverflow
不使用 graphviz/web 可视化决策树

由于某些限制我无法使用 graphviz webgraphviz com 可视化决策树工作网络与另一个世界是封闭的问题是否有一些替代实用程序或一些 Python 代码用于至少非常简单的可视化可能只是决策树的 ASCII 可视化 py
Python控制台默认十六进制显示

我在 Python 控制台中做了很多工作其中大部分都涉及地址我更喜欢以十六进制形式查看地址 So if a 0xBADF00D 当我简单地输入Python gt a进入控制台查看其值我更喜欢 python 回复0xBADF00D代替1
在 PyCharm 中运行命令行命令

你好我正在使用Python 但之前从未真正使用过它我收到一些命令需要在终端中运行基本上 python Test py GET feeds 我正在使用 PyCharm 我想知道是否有办法从该 IDE 中运行这些相同的命令按 Alt
PyCharm 输出错误消息散布在控制台输出中。如何解决这个问题？

我正在运行 PyCharm 社区版 4 0 4 有谁知道为什么控制台输出后不显示错误消息 Thanks C Python27 python exe F Google Drive code python scripts leetcode lc
如何对嵌套函数进行单元测试？ [复制]

这个问题在这里已经有答案了您将如何对嵌套函数进行单元测试f1 在下面的例子中 def f def f1 return 1 return 2 或者需要测试的函数不应该嵌套吗有一个类似的问题这个链接 https stackoverflow
使用 python 写入 aws lambda 中的 /tmp 目录

Goal 我正在尝试将 zip 文件写入 python aws lambda 中的 tmp 文件夹因此我可以在压缩之前提取操作并将其放入 s3 存储桶中 Problem 操作系统 Errno30 只读文件系统这段代码在我的计算机上进行
如何在 scikit-learn 的 SVM 中使用非整数字符串标签？ Python

Scikit learn 具有相当用户友好的用于机器学习的 python 模块我正在尝试训练用于自然语言处理 NLP 的 SVM 标记器其中我的标签和输入数据是单词和注释例如词性标记而不是使用双精度整数数据作为输入元组 1 2
pip-tools 的干净设置不会编译非常基本的 pyproject.toml

使用全新的pip tools设置总是会导致Backend subprocess exited error pyproject toml project dependencies openpyxl gt 3 0 9 lt 4 在仅包含上述 p
安装python启动文件

我如何安装pythonstartup文件以便它在命令上运行例如python myfile py 我尝试将其安装到我的 home myuserUbuntu的目录但它说我没有足够的权限此外不同的地方交替说它应该全部大写或全部小写前面
Python：如何使用生成器来避免 sql 内存问题

我有以下方法来访问 mysql 数据库并且查询在服务器中执行我无权更改有关增加内存的任何内容我对生成器很陌生并开始阅读更多有关它的内容并认为我可以将其转换为使用生成器 def getUNames self globalUserQu
Django：在单独的线程中使用相同的测试数据库

我正在使用具有以下数据库设置的测试数据库运行 pytests DATABASES default ENGINE django db backends postgresql psycopg2 NAME postgres USER someth
Tensorboard——High-level节点的计算时间与其子节点计算时间的总和不同

继tutorial https www tensorflow org programmers guide graph viz在 TensorFlow 上我试图使用张量板来理解运行时统计数据我发现代表名称范围的高级节点的计算时间不等于其子
在 Mac (Catalina) 上安装 PyGame 时出错 [重复]

这个问题在这里已经有答案了我一直在尝试将 PyGame 安装到 Catalina 上的 Mac 上但不知道如何安装我收到的错误消息是 SystemExit error command gcc failed with exit stat
磁盘寻道时间测量方法

我编写了一个脚本来测量 HDD 上的寻道时间并且其完成方式的微小变化会导致显着不同的时间第一个周期在磁盘开头的区域内进行跳转第二个周期选择磁盘上执行查找的随机区域相同大小这种方法显然不同但我不明白为什么它会改变结果请注意对于
为什么 Python exec 中的模块级变量无法访问？

我正在尝试使用Pythonexec in a project https github com arjungmenon pypage执行嵌入的Python代码我遇到的问题是在模块级 in an exec声明是难以接近的来自同一模块中定义的
透视包含字符串的 Pandas Dataframe - “没有要聚合的数字类型”错误

关于此错误有很多问题但环顾四周后我仍然无法找到解决解决方案我正在尝试用字符串旋转数据框以使一些行数据变成列但到目前为止还没有成功我的 df 的形状

随机推荐

在函数内部定义全局变量

像python一样可以在函数内定义全局变量吗例如在Python中 def testFunc global testVar testVar 1 有没有办法在函数内的 javascript 中定义 testvar 全局简单地忽略var关键
在 Imagemagick 中创建空白图像

如何通过命令行在 Imagemagick 中创建空白的新图像 Using background不起作用 convert size 800x800 background white x png convert no images define
Seaborn 头衔位置

我的图表标题的位置在这方面很糟糕jointplot 我试过移动loc left right and center但它不会从它所在的位置移动我也尝试过类似的方法ax title set position 3 15 基于该网站的其他建议但这
为什么 qsort 中的排序方法改变了我的数组？

https phaxis org 2012 07 12 get sorted index orderting of an array https phoxis org 2012 07 12 get sorted index ordertin
使用 Spring 解码主体参数

我正在使用 Spring 为 Slack 应用程序开发 REST API 后端我能够从 Slack 接收消息斜线命令但无法正确接收组件交互按钮单击 The 官方文档 https api slack com docs message
批量回显 URL

编辑变量没有正确定义我不知道为什么但我找到了解决方法只需要 6 页我创建了第 7 页它将立即返回到第 1 页因此不再需要 HTMLNxtpg 变量我正在尝试创建一个批处理文件它将生成一个 HTML 文件这样用户就不需要任
寻找干净的 C# WinForms MVC 教程 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案如何创建丰富的用户界面 Windows 应用程序例如 Photo Shop 我正在寻找使用 C 的 WinForms 的干净 MVC 教
哪个最适合数据存储结构/类？

我们在 SO 中看到了很多关于 c 中的类与结构的讨论大多以结论说它是一个结束堆栈内存分配并建议在中使用结构小数据结构现在我面临着在这两个选择中决定简单数据存储的情况目前在我们的应用程序中我们有数千个类仅充当简单的数据存储
CodeIgniter 辅助函数可以使用数据库函数吗？

我的 CodeIgniter 控制器函数之一需要调用递归函数作为其功能的一部分如果我将函数调用放在控制器类中函数调用就会阻塞并且它无法访问数据库函数 this gt db gt get 如果我把它放在课堂之外让它成为辅助函数可以解决
在 UISlider 下添加数字

我有一个用它实现的 UISliderJQuery UI 我想在显示数字的滑块下添加一个图例我跟着这个答案 https stackoverflow com a 16877678 4861207它展示了如何实现这一点然后将数字与百分比值一起
Rails：在任何来源中都找不到 minitest-4.7.5

这里有一个麻烦在我的远程服务器命令上gem list shows some gems minitest 4 7 5 bundle show minitest命令显示 var lib gems 1 9 1 gems minitest 4 7
Javascript：如何重用创建子实例的方法而不创建循环依赖项

abstract class Fruit private content Fruit addChild Pick one at random using this as an example instead of the actual cr
使用 jquery 从获取复选框值

http ghinda net css toggle switch bootstrap html http ghinda net css toggle switch bootstrap html 我使用上面的 css 文件和代码来制作切换开
Keras - 历元相关损失函数

我正在使用 Keras 框架我想实现一个与纪元相关的损失函数即每个纪元的损失函数都不相同你会怎么做您能否添加一个示例例如基于keras VAE 教程 https github com fchollet keras blob mas
iOS 设备 UDID 区分大小写吗？

这是关于将设备添加到配置门户以进行临时测试一个客户给我发了一个带有大写字符的 UDID 我没有检查就愚蠢地添加了它无线部署不起作用我想知道这是否是原因但我想在用完我的 100 个分配之一之前先检查一下 Yes UDIDs区分大小写
为什么 linq-2-sql 会创建额外的不必要的对象？

我在数据库中有一个简单的父子表如下所示 CREATE TABLE Parent Id int IDENTITY 1 1 NOT NULL Name nvarchar 256 NOT NULL ALTER TABLE Parent ADD
使用 C# 突出显示 Docx 中的文本

我需要突出显示 docx 文件中的一个句子我有这段代码并且它对于许多文档都可以正常工作但我注意到对于某些文档文档中的文本是逐字设置的而不是整个句子我的意思是每个单词它自己的Run 所以当搜索该句子时找不到它因为它在docx中
使用 Eclipse 部署到 AppEngine 时出错

每当我尝试将 Web 应用程序部署到 Google App Engine 时无论女巫应用程序如何甚至是演示应用程序我都会遇到此问题当我尝试部署时立即发生错误错误是这样说的部署到 AppEngine 时出错部署到 App Eng
如何在 Windows 上通过命令行以全屏视图打开 pdf？

我可以使用以下命令通过命令行打开 pdf 文档 start test pdf 但我想通过命令行以全屏模式打开它有人知道该怎么做吗这应该可以做到 start max c nameofpdf pdf 这样做的优点是如果用户使用非 adob
如何从 pandas 数据帧计算 jaccard 相似度

我有一个数据框如下框架的形状是 1510 1399 列代表产品行代表用户为给定产品分配的值 0 或 1 我怎样才能计算jaccard similarity scores 我创建了一个占位符数据框列出了产品与产品 data ibs pd

如何从 pandas 数据帧计算 jaccard 相似度

如何从 pandas 数据帧计算 jaccard 相似度 的相关文章

随机推荐

热门标签

如何从 pandas 数据帧计算 jaccard 相似度的相关文章