如何在Python中流式传输和操作大数据文件

2024-05-21

我有一个相对较大（1 GB）的文本文件，我想通过跨类别求和来减小其大小：

Geography AgeGroup Gender Race Count
County1   1        M      1    12
County1   2        M      1    3
County1   2        M      2    0

To:

Geography Count
County1   15
County2   23

如果整个文件可以放入内存但使用pandas.read_csv() gives MemoryError。所以我一直在研究其他方法，似乎有很多选择 - HDF5？使用itertools（这看起来很复杂 - 生成器？）或者只是使用标准文件方法读取第一个地理区域（70 行），对计数列求和，然后在加载另外 70 行之前写出。

有人对执行此操作的最佳方法有任何建议吗？我特别喜欢流式传输数据的想法，特别是因为我可以想到很多其他地方这会很有用。我对这种方法最感兴趣，或者类似地使用最基本的功能的方法。

Edit:在这个小案例中，我只想要按地理位置计算的总和。但是，如果我可以读取一个块，指定任何函数（例如，将 2 列添加在一起，或按地理位置取一列的最大值），应用该函数，并在读取新块之前写入输出，那将是理想的选择。

您可以使用dask.dataframe http://dask.pydata.org/en/latest/dataframe.html，在语法上类似于pandas，但在核心外执行操作，因此内存不应该成为问题：

import dask.dataframe as dd

df = dd.read_csv('my_file.csv')
df = df.groupby('Geography')['Count'].sum().to_frame()
df.to_csv('my_output.csv')

或者，如果pandas正如 @chrisaycock 所提到的，您可以使用分块读取。您可能想尝试一下chunksize范围。

# Operate on chunks.
data = []
for chunk in pd.read_csv('my_file.csv', chunksize=10**5):
    chunk = chunk.groupby('Geography', as_index=False)['Count'].sum()
    data.append(chunk)

# Combine the chunked data.
df = pd.concat(data, ignore_index=True)
df = df.groupby('Geography')['Count'].sum().to_frame()
df.to_csv('my_output.csv')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在Python中流式传输和操作大数据文件的相关文章

如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
如何从pandas中的多列计算多列

我正在尝试使用函数从 pandas 数据框中的多个列计算多个列该函数采用三个参数 a b 和 c 并返回三个计算值 sum prod 和 quot 在我的 pandas 数据框中我有三个列 a b 和 c 我想从中计算列 sum pro
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

如何在文档加载时立即进行 AJAX 调用

我想在加载文档后立即执行 ajax 调用我正在做的是加载一个字符串其中包含我将用于自动完成功能的数据这就是我所做的但它没有调用servlet 我删除了对各种 JS 脚本的调用以使其更清晰我在代码中做了几个类似的 AJAX 调用
在 macOS 上通过 Apache 本地运行 Xcode DocC 文档

Xcode 13 的 DocC 文档档案可以使用自定义 Apache 托管 htaccess文件中描述的向外部开发人员分发文档 https developer apple com documentation xcode distributi
在网络文件系统上使用 Play 框架自动重新加载

我正在 VirtualBox VM 上运行 Play 框架应用程序项目源代码位于与主机系统共享的目录中框架的自动重新加载功能不起作用这可能是由于 JNotify 无法检测到源文件的更改造成的因为文件系统不是本地的 NFS 和 v
std::vector 迭代器失效

之前有几个关于这个问题的问题我的理解是调用std vector erase只会使位于某个位置的迭代器无效after被擦除的元素然而擦除一个元素后该位置的迭代器是否仍然有效当然前提是它不指向end 擦除后我对向量如何实现的理解似
Android 8.1 中 Activity 自行旋转并恢复正常

我的应用程序在所有 Android 版本上运行良好但我注意到在 Android 8 1 0 Oreo 中当我将屏幕从纵向活动转到横向活动时以及当我按后退按钮时它会显示异常行为屏幕自动从横向旋转并恢复正常看起来 Activity
递归 lambda 表达式可能吗？

我正在尝试编写一个调用自身的 lambda 表达式但我似乎找不到任何语法或者即使它是可能的本质上我想将以下函数传输到以下 lambda 表达式中我意识到这是一个愚蠢的应用程序它只是添加但我正在探索可以在 python 中使用 l
多语言 Android 应用程序：在电子邮件和密码字段中显示英文键盘

我们正在开发一款多语言 Android 应用程序针对英语和阿拉伯语面临的问题是在登录和注册屏幕中我们希望仅以英文文本输入用户名和密码字段从而显示英文键盘无论设备区域设置语言如何已尝试在 edittext 中设置 inputtyp
Ext JS - 如何滚动到文本区域的底部

这是我下面的代码如何滚动到文本区域的底部它一定是类似的东西 Ext getCmp output setScrollPosition Ext getCmp output getScrollHeight 这是我的文本区域代码 var myW
如何向 jQuery Tokeninput 添加占位符？

如何将占位符添加到 jQuery Tokeninput 字段一个正常的placeholder属性在这里不起作用对于这样的输入
指示brew doctor忽略特定的*.dylib文件

我该如何指导brew doctor忽略特定的 dylib files e g brew doctor输出 Unexpected dylibs usr local lib libecomlodr dylib usr local lib lib
Android 谷歌地图 V2 已停止

我正在尝试构建地图应用程序并关注这个链接 https blog emildesign rhcloud com p 435一步步我在这里找到了类似的主题但对我没有帮助我想显示地图但是当我运行它时它返回强制关闭和我的 Android
Node.js 每个用户一个会话

如何防止我的用户同时从两个设备登录我的系统因此如果用户从计算机登录当他从不同的计算机登录时首先会自动关闭会话不需要使其实时我使用node js express js mongoose passport connect mongo
Findbug - ANT xslt 样式表源代码参考

我有一个 ANT 目标它在同一源代码上运行 findbugs 两次以生成 xml 和 html 报告
C# 中的 H.264（或类似）编码器？

有谁知道 C 或任何其他托管语言的开源 H 264 编码器我也许也可以用 python 实现我发现的库例如 x264 是用相当低级的 c 带有大量宏的程序和汇编语言编写的调整它们比我想象的要复杂得多我的项目不关心性能或兼容性
Java：无安全管理器：RMI 类加载器已禁用

您好我有 RMI 应用程序现在我尝试从客户端调用服务器上的一些方法我有以下代码 public static void main final String args try Setting the security manager Sy
从 x,y 屏幕空间坐标查找 2D 等距网格上的列、行（将方程转换为函数）

我试图在屏幕空间点 x y 的二维等距网格中找到行列现在我几乎知道我需要做什么即找到上图中红色向量的长度然后将其与表示网格边界的向量的长度由黑色向量表示进行比较现在我在数学堆栈交换中寻求帮助以获得用于计算点 x y 与黑色边
需要在 Android 中伪造正在扫描的 NFC 标签

好的我有一个应用程序此应用程序仅在扫描 NFC 标签任何标签时才会完成任务唯一的问题是我没有任何 nfc 标签无论如何我正试图消除对卡的需要所以我需要的是一种伪造使其看起来就像已扫描 nfc 标签的方法我可以编写应
如何使用 git 比较不在存储库中的两个文件

我想比较两个不在任何 git 存储库中的 css 文件 git中有这样的功能吗 git的 diff 比标准 Unix 更实用diff 我经常想这样做并且由于这个问题在谷歌上排名很高所以我希望这个答案出现这个问题如何使用git dif
如果存储字符串的 char 数组小于字符串，C++ 真正将字符串存储在哪里？

我正在测试 C Premiere 书中有关 C 字符串的示例 const int size 9 char name1 size char name2 size C owboy 8 characters here cout lt lt How
如何在Python中流式传输和操作大数据文件

我有一个相对较大 1 GB 的文本文件我想通过跨类别求和来减小其大小 Geography AgeGroup Gender Race Count County1 1 M 1 12 County1 2 M 1 3 County1 2 M 2

如何在Python中流式传输和操作大数据文件

如何在Python中流式传输和操作大数据文件 的相关文章

随机推荐

热门标签

如何在Python中流式传输和操作大数据文件的相关文章