循环数据帧并从另一个数据帧获取相关数据：PANDAS

2023-12-24

我有一个包含客户所有交易数据的数据框。列是 mailid、txn_date、城市。现在我遇到的情况是，我必须考虑 2016 年 1 月 1 日以来的客户，对于每个 mailid，我必须从基本文件中获取他们的 txn 数据，并考虑他们最近 12 个月的数据（上次 Txn 日期和 -365 天时间增量之间的 txn 日期）然后找出他们的最大交易城市名称。

示例基础数据框

#df
maild   txn_date   city
satya   2015-07-21  a
satya   2015-08-11  b
satya   2016-05-11  c
xyz     2016-06-01  f
satya   2016-06-01  a
satya   2016-06-01  b

因为我需要 2016-01-01 的客户所以我这样做了

d = df[['mailid', 'txn-date']][df['txn_date'] >= '2016-01-01']

现在，对于 d 中的每个电子邮件 ID，我必须从基本 Dataframe df 中获取他们最近 12 个月的交易数据，并计算他们的最大交易城市。为此，我使用 for 循环，例如

x = d.groupby(['mailid'])['txn-date'].max().reset_index() #### finding their last transacted date to find out a 12 Month back date
x['max_city'] = 'N'  ## giving default value as 'N'
for idx,row in x.iterrows():
 g = row[1].date()
 h = g-timedelta(days=365)  ###getting the last 12 Month date 
 y = df[(df['mailid']==row[0]) & (df['txn_date'] >= str(h))]
 y.sort(['txn_date'],ascending=True,inplace=True)  ### sorting it bcoz i want to consider the last txn when count for one or more cities become same 
 c = y.groupby(['mailid','city']).size().reset_index()
 v = c.groupby(['mailid'])[0].max().reset_index()
 dca = pd.merge(y,c,on=['mailid','city'],how='left')
 dcb = pd.merge(dca,v,on=['mailid',0])
 m = dcb.drop_duplicates(['mailid'],take_last=True)
 row[2] = m['city'].unique()[0]

o/p:

maild  max_city
satya   b   ### as in last 12 month 2016-06-01 2015-06-01  txn in a=2 b= 2 so last is b so will consider b as max city
xyz     f

尽管我的代码对于小块数据有效（我确信它是无组织的，并且在我练习时没有使用正确的命名约定），并且循环将命中数据帧 x 中存在的每个客户的主基本数据帧 df 。

所以我主要关心的是我的 df 是否为 100Mln rows 而 x 是否为 6mln Rows 。然后 for 循环将执行 600 万次，并会命中 df 来获取匹配的 mailid 数据并执行操作以查找最大交易城市。

如果在 1 分钟内它将计算 3 个 mailid 的最大城市。那么对于 600 万，将需要 200 万分钟......这将是一个严重的问题......

因此，需要你们提出如何优化场景的建议……从而减少主基地的次数，并应用一些更方便的 PANDAS 方法来实现这一点（我还无法做到）……

请建议！！！提前致谢。

您可以使用 groupby 并更有效地应用功能。

按城市和邮寄进行分组，并获取最大日期和交易总数。按最大日期排序。

g=d.groupby(['maild','city'])['txn_date'].agg(['count','max']).sort_values('max',ascending=False)

然后通过 maild 对其进行分组并获取最高计数的索引

g.groupby(level='maild')['count'].agg(lambda x:pd.Series.argmax(x)[1])

maild
satya    a
xyz      f

顺便说一句，在您的示例中，您在 2016 年 1 月 1 日有 a 和 b 的 satya 交易。您如何确定 b 是正确答案？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

循环数据帧并从另一个数据帧获取相关数据：PANDAS 的相关文章

使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数

随机推荐

gRPC 客户端负载均衡

我在 kubernetes pod 中使用 gRPC 和 Python 作为客户端服务器我希望能够启动多个相同类型的 Pod gRPC 服务器并让客户端随机连接到它们我调度了 10 个服务器 Pod 并设置了一个服务来定位它
如何使用仅具有 URL 的 Sharp 在 NodeJS 中调整图像大小，使用 async/await，而不创建本地副本？

我工作的环境中可用的图像处理库是 NodeJSSharp https github com lovell sharp用于缩放图像它一直很稳定因为它是基于管道的但我的任务是将其转换为 TypeScript 并在可能的情况下使用 Asyn
如何同时播放两种声音？

当我尝试在小程序中同时播放两种声音时它不起作用我在用着AudioClips 是否可以在小程序中同时播放两种声音从 Java 1 3 开始使用Clip http docs oracle com javase 7 docs api ja
为什么从 Python 2 移植到 Python 3 时 ord() 会失败？ [复制]

这个问题在这里已经有答案了我正在尝试移植一个名为的 Python 库英雄协议 https github com Blizzard heroprotocol从Python 2到Python 3 该库用于解析名为风暴英雄的在线游戏的重播文
在 WPF DataGrid 中自定义行组

I want to make a DataGrid similar to this 现在我制作了一个 DataGrid 看起来像这是我的代码
在直方图上叠加箱线图或均值与误差线

我正在 Seaborn 中以非常标准的方式创建数据的直方图即 rc font size 32 axes labelsize 28 5 legend fontsize 32 0 axes titlesize 32 xtick labelsi
JPA 与 H2 数据库的连接

我正在开发一个带有 JPA 的 hibernate 项目并尝试使用 H2 嵌入式数据库获取工作 persistence xml 持久性 xml
将没有 main 方法（带有外部 jar）的 Java 项目导出到 Eclipse 中的 Jar

我创建了一个 java 项目它只处理来自 Web api 的 post 和 get 请求我需要将其导出为 jar 文件问题是我正在使用外部 jar 文件例如 httpcore 4 3 3 jar 和 gson 2 3 1 jar 我
在 Mac 上使用 C 语言时的 LibCURL

基本上我尝试简单地使用 libCURL 来下载网站并且我一直在使用以下代码 include
字符串有拼接方法吗？

JavaScriptsplice仅适用于数组对于字符串有类似的方法吗或者我应该创建自己的自定义函数 The substr and substring 方法只会返回提取的字符串不会修改原始字符串我想要做的是从字符串中删除某些部分并将更
如何在不使用 $watch 的情况下在多个控制器上保持服务数据相同？

我在 S O 上看到了一个较旧的答案其中指出这个 JavaScript 的工作原理是当我们从服务而不是价值当 JavaScript 对象从作为一项服务 Angular 将手表添加到其所有属性中然后给出了这个例子 JavaScri
使用 boost::filesystem 时出现链接器错误？

我有以下代码 include
iPad safari 浏览器如何支持 html 右键单击（上下文菜单）？

我有一个要求 iPad 需要支持右键单击现有网站按照惯例在支持触摸的设备中右键单击会转换为长按事件我已经在 Android 设备的 Chrome 中进行了测试它可以工作但在 iPad iPad Air 2 10 3 的 Safa
Vue 路由器子级，尾部斜杠

Vue 在默认子路由中添加尾部斜杠是正常行为吗例如 URL Result user test Link
WP8 主屏幕上的站点图标

iOS Android 甚至 BlackBerry 允许您指定在将页面添加到设备主屏幕时显示的图标现在 Windows 8 允许您指定将页面固定到开始屏幕时显示的图标如下所示不过这似乎不适用于 WindowsPhone8 这是正确的
不提交表单的 HTML 按钮

我有一个表格在该表格之外我有一个按钮一个简单的按钮如下所示
Python - 获取调用函数的完整文件路径？

给定一个模块mymodule py 并在其中 def foo X file path where foo was called from print X 我该如何做评论中描述的事情即如果在 test py 中我做了 from mymod
Swift ios 检查 ios9 和 ios10 中是否启用了远程推送通知

如何检查用户是否在 ios 9 或 ios 10 上启用了远程通知如果用户不允许或单击否我想切换一条消息询问他们是否要启用通知苹果推荐使用UserNotifications框架而不是共享实例所以不要忘记导入UserNotifi
AWS S3 Web 控制台覆盖存储桶策略

目前我有一个应用于测试存储桶的策略该策略旨在阻止用户使用公共读取和公共读写 ACL 上传 s3object 当我尝试通过命令行上传时请求被成功阻止并按预期拒绝访问 Write S3Object bucketname test
循环数据帧并从另一个数据帧获取相关数据：PANDAS

我有一个包含客户所有交易数据的数据框列是 mailid txn date 城市现在我遇到的情况是我必须考虑 2016 年 1 月 1 日以来的客户对于每个 mailid 我必须从基本文件中获取他们的 txn 数据并考虑他们最近 1

循环数据帧并从另一个数据帧获取相关数据：PANDAS

循环数据帧并从另一个数据帧获取相关数据：PANDAS 的相关文章

随机推荐

热门标签