Pandas GroupBy 借助 CSV 中的大型数据集

2023-11-27

一个常见的 SQLism 是“从 A 的表组中选择 A，平均值（X）”，我想在 pandas 中复制它。假设数据存储在 CSV 文件之类的文件中，并且太大而无法加载到内存中。

如果 CSV 可以容纳在内存中，那么简单的两行代码就足够了：

data=pandas.read_csv("report.csv")
mean=data.groupby(data.A).mean()

当 CSV 无法读入内存时，可以尝试：

chunks=pandas.read_csv("report.csv",chunksize=whatever)
cmeans=pandas.concat([chunk.groupby(data.A).mean() for chunk in chunks])
badMeans=cmeans.groupby(cmeans.A).mean()

除了生成的 cmeans 表包含 A 的每个不同值的重复条目外，每个 A 值在不同块中的出现都有一个条目（因为 read_csv 的 chunksize 对分组字段一无所知）。因此，最终的 badMeans 表有错误的答案......它需要计算加权平均平均值。

所以工作方法似乎是这样的：

final=pandas.DataFrame({"A":[],"mean":[],"cnt":[]})
for chunk in chunks:
    t=chunk.groupby(chunk.A).sum()
    c=chunk.groupby(chunk.A).count()
    cmean=pandas.DataFrame({"tot":t,"cnt":c}).reset_index()
    joined=pandas.concat(final,cmean)
    final=joined.groupby(joined.A).sum().reset_indeX()

mean=final.tot/final.cnt

我错过了什么吗？这看起来非常复杂......我宁愿编写一个逐行处理 CSV 的 for 循环，也不愿处理这个问题。一定有更好的方法。

我认为你可以做类似下面的事情，这对我来说似乎更简单。我做了以下数据：

id,val
A,2
A,5
B,4
A,2
C,9
A,7
B,6
B,1
B,2
C,4
C,4
A,6
A,9
A,10
A,11
C,12
A,4
A,4
B,6
B,5
C,7
C,8
B,9
B,10
B,11
A,20

我会做5块：

chunks = pd.read_csv("foo.csv",chunksize=5)
pieces = [x.groupby('id')['val'].agg(['sum','count']) for x in chunks]

agg = pd.concat(pieces).groupby(level=0).sum()
print agg['sum']/agg['count']

id
A     7.272727
B     6.000000
C     7.333333

与非 chunk 版本相比：

df = pd.read_csv('foo.csv')
print df.groupby('id')['val'].mean()

id
A     7.272727
B     6.000000
C     7.333333

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pandas GroupBy 借助 CSV 中的大型数据集的相关文章

在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv

随机推荐

从Python中的BackgroundSubtractorMOG2获取背景模型

我需要获得高斯与 opencv 混合的背景模型我知道 C 中有一个名为 getBackgroundImage 的方法我搜索了是否可以在 python 界面中获取它但没有得到好的结果我尝试了opencv 3 0 0 dev 因为它有B
如何获取BrowserWindow的url？

这是一个非常基本的问题在 Electron 中如何检查 BrowserWindow 的 url 文件名 let win app on ready gt win new BrowserWindow win loadFile path jo
将选项卡式文本转换为 html 无序列表？

我是一名初学者程序员所以这个问题可能听起来微不足道我有一些文本文件包含制表符分隔的文本例如 A B C D E 现在我想从中生成无序的 html 列表其结构为 ul li A ul li B li li C ul li D li l
禁用 IE6 客户端的 GZIP 压缩

如果用户的浏览器是 IE6 它使浏览器挂起 5 分钟并且在较大网站的几个页面中我们需要有条件地禁用 GZIP 压缩服务器是 IIS7 并且打开了静态内容压缩如果用户代理不是 Mozilla 4 0 则希望压缩继续工作 ASPX 代码
运行时出现NoClassDefFoundError，但类在classes.dex中，有什么提示？

我已经包含了一个从 Eclipse Android 项目构建的 JAR 文件并且我在 Android Studio 项目中引用它如下所示 compile files libs libraryproject jar 这有效并且我能够自动
NHibernate Fluent 和命名查询

我正在使用 Nhibernate 和 Fluent 现在我想调用一些存储过程并使用命名查询我创建了一些 xml
Firebase - 使用云功能定位特定的 Firestore 文档字段

将云函数与 Firebase 实时数据库结合使用时您可以使用云函数定位特定字段例如给定这个 JSON 结构我可以定位 user1 的电子邮件字段随 user userId email onUpdate云功能 user user1 n
Robolectric 与 Android Studio 1.1.0 配合使用时出现的清单和设置问题

我正在尝试进行 Robolectric 测试并在我们当前的项目中工作但运气不佳我的偏好是让它们在 Android Studio 1 1 0 中运行这是我的项目结构这是我的测试 import android widget Button
如何使用XMPP框架发送消息

我正在 iPhone 中使用 XMPP 框架创建一个聊天应用程序我可以收到消息但无法发送消息任何人都可以给我解决这个问题吗 void sendMessage NSString msgContent NSString messageSt
Android 应用内结算：您请求的项目无法购买。不同谷歌帐户不一致

请不要在未阅读所有内容的情况下将其作为重复项关闭案例摘要使用相同的应用程序构建使用两个 Google 测试帐户进行 IAP 交易一种有效一种无效两个谷歌帐户都有可用的信用卡并且可以从其他应用程序购买IAP 更多细节我们向测试
在linux中使用mono获取MAC地址

如何在 Linux 上的 Mono 应用程序中获取计算机的 MAC 地址借自MSDN 在VS2008和mono 2 4 2 3 Debian 2 4 2 3 dfsg 2 上测试 using System using System Net
访问任意深度的嵌套哈希值的最红宝石方式是什么？ [复制]

这个问题在这里已经有答案了给定一个哈希值例如 AppConfig service gt key gt abcdefg secret gt secret abcdefg other gt service gt key gt cred ab
如何将 JSON 数据放入 html / javascript 网格表中

我有以下 JSON 格式的数据 ID 00 50 c2 63 10 1a start 1349773838277760 end 1349773838277770 startArea areaStart endArea areaEnd dur
如何在 Python 中将向量投影到由其正交向量定义的平面上？

我有一架飞机 plane A 由其正交向量定义例如 a b c 即向量 a b c 正交于plane A 我想投影一个向量 d e f onto plane A 我怎样才能用Python做到这一点我想一定有一些简单的方法 Take d
如何访问jar文件中的资源（Excel文件）

您好我已将 java 项目导出为可执行 jar 文件在我的项目中我正在访问一个包含一些数据的 Excel 文件现在当我尝试访问 Excel 文件时无法访问该文件我的项目结构是 Java 项目文件夹 src 文件夹 resou
如何在Flutter中使用MediaQuery设置文本的scaleFactor？

通过 MediaQuery 我可以获得 Samsung S7 Edge 屏幕尺寸的高度和宽度以便我可以使用它但是如何使用MediaQuery在ListTile中布局多列动态文本呢在我的演示项目中我将文本大小设置为 12 在 Sams
Android - 如何使图标在触摸时发光？

如何在图标上获得蓝色发光效果有什么快速的方法吗我真的不想用photoshop来实现这种效果任何帮助将非常感激如果您想以编程方式生成发光可以按以下方法操作我的建议是在活动开始时只生成一次然后使用它创建一个 StateList
即使没有内存不足，我也会遇到 java.lang.OutOfMemoryError 吗？

我正在读书揭开 java lang Outofmemory 错误的面纱我想知道我是否理解正确如果 Java VM 抛出异常这是真的吗 java lang OutOfMemoryError 请求的数组大小超出VM限制这意味着VM拒绝创建
使用 Powershell 更改 IIS6 站点主目录

我正在尝试使用 powershell 更改站点的主目录这是我到目前为止所拥有的但它没有保存更改 server localhost siteName mysite iis ADSI IIS server W3SVC site iis ps
Pandas GroupBy 借助 CSV 中的大型数据集

一个常见的 SQLism 是从 A 的表组中选择 A 平均值 X 我想在 pandas 中复制它假设数据存储在 CSV 文件之类的文件中并且太大而无法加载到内存中如果 CSV 可以容纳在内存中那么简单的两行代码就足够了 data

Pandas GroupBy 借助 CSV 中的大型数据集

Pandas GroupBy 借助 CSV 中的大型数据集 的相关文章

随机推荐

热门标签

Pandas GroupBy 借助 CSV 中的大型数据集的相关文章