计算两列中任意一列中字符串出现次数的向量化方法

2023-11-26

我有一个问题是similar to 这个问题，但只是足够不同，无法用相同的解决方案来解决......

我有两个数据框，df1 and df2，像这样：

import pandas as pd
import numpy as np
np.random.seed(42)
names = ['jack', 'jill', 'jane', 'joe', 'ben', 'beatrice']
df1 = pd.DataFrame({'ID_a':np.random.choice(names, 20), 'ID_b':np.random.choice(names,20)})    
df2 = pd.DataFrame({'ID':names})

>>> df1
        ID_a      ID_b
0        joe       ben
1        ben      jack
2       jane       joe
3        ben      jill
4        ben  beatrice
5       jill       ben
6       jane       joe
7       jane      jack
8       jane      jack
9        ben      jane
10       joe      jane
11      jane      jill
12  beatrice       joe
13       ben       joe
14      jill  beatrice
15       joe  beatrice
16  beatrice  beatrice
17  beatrice      jane
18      jill       joe
19       joe       joe

>>> df2
         ID
0      jack
1      jill
2      jane
3       joe
4       ben
5  beatrice

我想做的是将一列添加到df2，与count中的行数df1可以在其中找到给定名称either column ID_a or ID_b，结果是：

>>> df2
         ID  count
0      jack      3
1      jill      5
2      jane      8
3       joe      9
4       ben      7
5  beatrice      6

这个循环得到了我所需要的，但对于大型数据帧来说效率低下，如果有人可以建议一个替代的、更好的解决方案，我将非常感激：

df2['count'] = 0

for idx,row in df2.iterrows():
    df2.loc[idx, 'count'] = len(df1[(df1.ID_a == row.ID) | (df1.ID_b == row.ID)])

提前致谢！

“任一”部分使事情变得复杂，但仍然应该是可行的。

Option 1
由于其他用户决定将其变成一场速度竞赛，这是我的：

from collections import Counter
from itertools import chain

c = Counter(chain.from_iterable(set(x) for x in df1.values.tolist()))
df2['count'] = df2['ID'].map(Counter(c))
df2

         ID  count
0      jack      3
1      jill      5
2      jane      8
3       joe      9
4       ben      7
5  beatrice      6

176 µs ± 7.69 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

Option 2
（原答案）stack based

c = df1.stack().groupby(level=0).value_counts().count(level=1)

Or,

c = df1.stack().reset_index(level=0).drop_duplicates()[0].value_counts()

Or,

v = df1.stack()
c = v.groupby([v.index.get_level_values(0), v]).count().count(level=1)
# c = v.groupby([v.index.get_level_values(0), v]).nunique().count(level=1)

And,

df2['count'] = df2.ID.map(c)
df2

         ID  count
0      jack      3
1      jill      5
2      jane      8
3       joe      9
4       ben      7
5  beatrice      6

Option 3
repeat基于重塑和计数

v = pd.DataFrame({
        'i' : df1.values.reshape(-1, ), 
        'j' : df1.index.repeat(2)
    })
c = v.loc[~v.duplicated(), 'i'].value_counts()

df2['count'] = df2.ID.map(c)
df2

         ID  count
0      jack      3
1      jill      5
2      jane      8
3       joe      9
4       ben      7
5  beatrice      6

Option 4
concat + mask

v = pd.concat(
    [df1.ID_a, df1.ID_b.mask(df1.ID_a == df1.ID_b)], axis=0
).value_counts()

df2['count'] = df2.ID.map(v)
df2

         ID  count
0      jack      3
1      jill      5
2      jane      8
3       joe      9
4       ben      7
5  beatrice      6

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

string

pandas

NumPy

DataFrame

计算两列中任意一列中字符串出现次数的向量化方法的相关文章

Flask-login：无法理解它是如何工作的

我试图理解如何Flask Login https flask login readthedocs org en latest works 我在他们的文档中看到他们使用预先填充的用户列表我想使用数据库存储的用户列表但是我不明白其中的一些
Celery 任务分析

正如我所看到的top公用事业celery进程消耗大量CPU时间所以我想介绍一下它我可以在开发人员机器上手动执行此操作如下所示 python m cProfile o test date Y m d T prof manage py c
运行 Sublime Text 3 插件时保存编辑

为了理解我想要实现的目标在另一个视图中打印延迟文本我正在尝试使这个 sublime text 3 插件正常运行我想使用运行方法参数中传递的编辑来调用我的类的多个方法如下所示 sample code nothing real class
R 的 ggplot2 有 Python API 吗？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我的问题就像标题一样简单我想使用R s ggplot2但我所有的数据处理都是在Python 有没有Py
使用 QuantLib 计算带有下限的 FloatingRateBond 的现金流量

对 QuantLib 非常陌生所以猜测这是一个菜鸟错误很高兴了解这个强大的库所以感谢作者和贡献者如果没有下限参数我可以在没有定价器的情况下为 FloatingRateBond 生成现金流量金额所以我不明白为什么包含下限参数需要定
如何在seaborn.objects API中移动图例位置

我正在使用新的seaborn objects https seaborn pydata org api html objects interfaceAPI 在 v0 12 0 中可用没有任何一个examples https seaborn
如何在Python中增加文件名

我正在尝试保存大量需要分成不同文件的数据如下所示数据 1 dat 数据 2 dat 数据 3 dat 数据 4 dat 我如何在Python中实现这个 from itertools import count filename data
Python极坐标图：绘制与角度对应的值

我正在尝试绘制以不同角度记录的传感器数据 import pandas as pd import matplotlib pyplot as plt create dataframe each row contains an angle and
如何查看Databricks中的所有数据库和表

我想列出 Azure Databricks 中每个数据库中的所有表所以我希望输出看起来像这样 Database Table name Database1 Table 1 Database1 Table 2 Database1 Table
Python 中的 Lanczos 插值与 2D 图像

我尝试重新缩放 2D 图像灰度图像大小为 256x256 所需输出为 224x224 像素值范围从 0 到 1300 我尝试了两种使用 Lanczos 插值来重新调整它们的方法首先使用PIL图像 import numpy as np
在 python 程序中合并第三方库的最佳实践是什么？

下午好我正在为我的工作编写一个中小型Python程序该任务需要我使用 Excel 库xlwt and xlrd 以及一个用于查询 Oracle 数据库的库称为CX Oracle 我正在通过版本控制系统即CVS 开发该项目我想知道围
Python 的键盘中断不会中止 Rust 函数 (PyO3)

我有一个使用 PyO3 用 Rust 编写的 Python 库它涉及一些昂贵的计算单个函数调用最多需要 10 分钟从 Python 调用时如何中止执行 Ctrl C 好像只有执行结束后才会处理所以本质上没什么用最小可重现示例 Ca
使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang

随机推荐

在 Perl 中如何判断变量是否具有数值？

Perl 中有没有一种简单的方法可以让我确定给定变量是否是数字大致如下 if is number x 将是理想的一种不会在以下情况下发出警告的技术 w正在使用的开关当然是首选 Use Scalar Util looks like num
如何在命令行中运行/调试 javascript

我想知道实际上我知道肯定有这样一种在命令行中运行js的方法因为当我观看google I 0演示时他们使用像d8这样的命令也许它是V8引擎的一部分有什么方法可以在命令行中运行调试我的 JavaScript 例如d8 myJsfil
如何在 iPhone 的 MKMapView 中显示带点（圆圈）的蓝色图钉

我的问题可能看起来有点复杂但让我澄清一下我正在使用 mkmapview 在这里我想用蓝点和圆圈显示当前用户位置但这并不是我想要的当我正在制作一个 iPhone 应用程序时由于我是地图集成的新手因此我很难做到同样的事情如果有人可
从数据框列表中合并数据框[重复]

这个问题在这里已经有答案了我有一个数据框列表如下所示 ls 1 1 month year oracle 1 2004 356 0000 2 2004 390 0000 3 2004 394 4286 4 2004 391 8571 ls
溢出换行和断字之间的区别？

之间的确切区别是什么overflow wrap word wrap and word break 谁能告诉我打破很长链接的更好方法是什么大多数人说你应该将分词与overflow wrap但这看起来不太合逻辑我认为使用overflow w
随机排列数组 swift 3

我怎样才能将下面的函数转换为swift 3 目前正在获取一个Binary operator lt cannot be applied to operands of type Int and Self IndexDistance error
修改核心数据模型后重新创建类定义的更好方法？

在 XCode 中设计核心数据模型时可以通过以下方式自动生成 NSManagedObject 子类定义 m 和 h 文件选择Entities 选择创建 NSManagedObject 子类 EDITOR menu 之后您可能会在这些
你能使用 WINDOWS 构建一个 React-native iOS 应用程序吗？

您可以在 Windows 上使用 React Native 构建 iOS 吗还是需要xcode 如果是这样有什么解决方法吗我不想在 Mac 或 Mac 虚拟机上工作我认为你用react native创建的应用程序可以在iOS上运行
如何将 Docker 容器配置为可以通过容器 IP:端口从主机外部访问？

我的主机有多个 IP 地址分配给一个网络接口我想配置 Docker 以便让每个容器响应分配给主机的这些 IP 地址中的单个 IP 这可以通过 libcontainer 完成还是我必须使用 LXC 驱动程序并使用以下命令运行我的容器 l
在响应完成之前关闭 HttpURLConnection

背景我在用着HttpURLConnection在客户端上使用 HTTP 流服务器推送情况下的响应尽管服务器可以通过关闭响应来关闭连接但客户端也需要能够执行此操作 Problem 客户端处理InputStream在一个单独的线程中
Shell：在多个文件中查找匹配行

我正在尝试使用 shell 脚本以及 oneliner 来查找大约 50 个文件之间的任何公共行 Edit 注意我正在寻找出现在所有文件中的一行行到目前为止我已经尝试过 grepgrep v x f file1 sp 它只匹配所有其他
编译器强制我实现特征方法，但方法上绑定的“Self”特征永远不会满足我的类型

我有一个特质Foo 我想强迫实现者定义一个方法 if这些实现者实现了另一个特征 Clone在此示例中我的想法操场 trait Foo Note in my real application the trait has other met
导入 Access .mdb 时 SQL Server 导入向导“工作组信息文件”错误

是否可以导入 MS Access 如果我没有安装 MS Access 如何将 mdb 文件导入 SQLExpress 我问的原因是因为我在尝试使用 SQL Management Studio 中的导入向导执行此任务时收到以下错误由于初始化
PHP 8.2 动态属性已弃用：如何以兼容的方式使用它们

在 PHP 8 2 中动态属性已弃用并且从 PHP 9 开始将导致致命错误 Using 动态属性 on Classes运行 PHP 8 2 将导致PHP Deprecated Creation of dynamic property i
matplotlib 动画绘图不会使用 blit 更新轴上的标签

我正在使用 wxPython 在图中绘制数据其中 y 轴上的数据限制随着数据而变化我想动态更改轴而不重新绘制整个画布例如canvas draw 相反我想用blitting为此就像我为情节本身所做的那样我要做的是改变 y 轴并且我
方法里面可以有方法吗？

我有一个方法里面有一个方法内部方法取决于正在运行的变量循环这是一个坏主意吗更新由于这个答案最近似乎引起了一些兴趣我想指出的是关于 Ruby 问题跟踪器的讨论remove这里讨论的功能即forbid在方法体中包含方法定义不 Ru
Python Tkinter 网格几何粘性设置无效（？）

我正在使用 Python Tkinter 设计简单的输入对话框grid几何并得到一些意想不到的行为当我开始使用这段代码时 winAddNew tk Toplevel winAddNew title Add New Customer lb
获取局部变量的名称

在开发和调试时我有时希望能够编写一个单行代码来转储一堆变量的名称类型和值问题是我不知道如何访问变量的名称如果可以的话这是第一次尝试 foo 1 bar 42 baz Hash new foo bar baz each do v p
如何使用 VBScript 判断 Excel 2007 电子表格是否打开以及是谁打开的

如何判断 Excel 2007 电子表格是否已打开以及是谁使用 VBScript 打开的我试图弄清楚 Excel 工作簿当前是否由另一个用户打开并在我的脚本中返回该用户是谁我已经弄清楚由谁来确定工作簿当前是否打开这是一种解决方法但
计算两列中任意一列中字符串出现次数的向量化方法

我有一个问题是similar to 这个问题但只是足够不同无法用相同的解决方案来解决我有两个数据框 df1 and df2 像这样 import pandas as pd import numpy as np np random se

计算两列中任意一列中字符串出现次数的向量化方法

计算两列中任意一列中字符串出现次数的向量化方法 的相关文章

随机推荐

热门标签

计算两列中任意一列中字符串出现次数的向量化方法的相关文章