如何快速读取一大块csv文件？

2024-02-17

我在用着这个答案 https://stackoverflow.com/a/13653490/3512538关于如何仅读取一块 CSV 文件pandas.

使用建议pd.read_csv('./input/test.csv' , iterator=True, chunksize=1000)效果很好，但它返回<class 'pandas.io.parsers.TextFileReader'>，所以我将其转换为数据框pd.concat(pd.read_csv('./input/test.csv' , iterator=True, chunksize=25))但这需要与最初读取文件一样多的时间！

关于如何快速读取文件的一部分有什么建议吗？

pd.read_csv('./input/test.csv', iterator=True, chunksize=1000)返回一个迭代器。您可以使用next抓取下一个的函数

reader = pd.read_csv('./input/test.csv', iterator=True, chunksize=1000)

next(reader)

这通常用在 for 循环中，一次处理一个块。

for df in pd.read_csv('./input/test.csv', iterator=True, chunksize=1000):
    pass

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

如何快速读取一大块csv文件？的相关文章

使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数

随机推荐

Chart.js 错误：您可能需要适当的加载器来处理此文件类型

我目前正在尝试使用Chart js在我的反应应用程序中但是当我去构建我的应用程序时我遇到了这个错误 ERROR in node modules chart js dist chart esm js Module parse failed
XAML 绑定到另一个元素的相反元素

我正在开发一个简单的练习想知道是否有一种方法可以仅使用 XAML 绑定到另一个元素的相反元素例如我的表单上有两个按钮开始和停止可能用于计时器我不希望两者同时启用当程序启动时停止按钮应该被禁用单击开始按钮后应将其禁用并
JavaScript 中文件大小使用什么测量单位？

我正在尝试在上传到服务器之前验证客户端的文件大小不过我认为我需要计算 JavaScript 中的最大大小那么我该怎么写4MB在 JavaScript 中我还想知道 javascript 根据文件大小计算的基本单位是什么下面是我的感冒
警告构建：运行脚本构建阶段“模块”将在每次构建期间运行，因为它未指定任何输出。为了解决这个警告

我收到一些集成到我的工作区中的框架模块的错误警告构建运行脚本构建阶段模块名称将在期间运行每个构建因为它没有指定任何输出为了解决这个问题警告将输出依赖项添加到脚本阶段或者通过取消选中基于依赖关系将其配置为在每个构建
mxGraph：当我移动边缘的手柄点时会触发哪个事件？

我移动了点我想保存移动后的位置我怎样才能赶上这个活动我知道边缘在移动后得到点我可以在几何图形中找到控制点但我需要运动结束的那一刻我不确定它是否有帮助但我通常有一个 mxEvent CHANGE 监听器并处理每个更改像这样
使用 Spray 发送带有 json 的帖子？

抱歉我无法完成这项工作我需要在帖子中添加一些 json 因此请遵循文档 http spray io documentation 1 1 M8 spray httpx request building http spray io docu
微软 - 我可以使用免费软件做什么

Visual Studio 的购买价格非常昂贵这就是为什么我想知道我可以使用什么来免费开发 ASP NET 和 silverlight 应用程序如果我使用express工具我可以开发商业应用程序吗使用 Mono 及其 IDE 怎么样
使用指针实现 strcat

在做一些关于字符串的程序时我遇到了这个小问题他们向我提出的问题是编写函数 strcat s t 的指针版本它将字符串 t 复制到 s 的末尾我把程序写成这样 include
无法解析 com.google.firebase:firebase-core:10.0.1

我想在我的 Android 应用程序中使用 Firebase 云消息传递这是我的应用程序级别 gradle 文件 apply plugin com android application android signingConfigs co
Ruby 大数组和内存

我创建了一个大数组a 其内存增长至约 500 MB a t Thread new do loop do sleep 1 print a size end end 5 000 000 times do a lt lt rand 36 10 t
@testing-library/React：单击组件外部不起作用

我正在使用 React 测试库来测试使用 FluentUI 构建的组件这是链接 https codesandbox io s keen borg 2tqmj file src App spec js https codesandbox i
想要一个 eclipse java 项目自动运行 ant 构建文件

我有一个 Eclipse Java 项目而不是插件项目该项目有一些外部依赖项我在两个单独的 ant 文件中处理它们一切工作正常但我想强制 Eclipse 在每次构建我的项目时运行 ant 文件我怎样才能做到这一点如果这是一个插
Google 表格：来自雅虎财经的 IMPORTXML [重复]

这个问题在这里已经有答案了我正在尝试从雅虎财经导入当前股票价格我使用了一些网站上的公式它部分有效我只知道如何告诉它寻找特定的查询它对于我需要的其他一些数据点工作得很好但价格变化查询从 Fw 500 Pstart 10px Fz
使用 Scala 解析器组合器解析 CSV 文件

我正在尝试使用 Scala 解析器组合器编写 CSV 解析器语法基于RFC4180 https www rfc editor org rfc rfc4180 page 2 我想出了以下代码它几乎可以工作但我无法让它正确分隔不同的记录
如何在没有断点的情况下停止 GDB 的执行？

如何在没有断点的情况下停止 GDB 执行 Just use a regular interrupt Ctrl c will work just fine GDB just forwards the SIGINT to the debuggi
使用 boost 套接字，我只需要一个 io_service 吗？

在几个不同的线程中有多个连接我基本上正在做一个使用 boost asio hpp 和那里的 tcp 东西的基类现在我正在读这个 http www boost org doc libs 1 44 0 doc html boost asio
构建基本 Web 应用程序教程中的 AWS Lambda“找不到模块 aws-sdk”

我尝试从头开始使用 AWS 运行构建基本的 Web 应用程序 https aws amazon com getting started hands on build web app s3 lambda api gateway dynamod
如何在 Emacs Lisp 中设置列表中的一部分参数？

我想设置PROGRAM ARGS of start process从列表中 Like start process process name foobar process path append some args list concat t
WinMain 和 wWinMain 之间的区别

唯一的区别是 Winmain 采用 char 作为 lpCmdLine 参数而 wWinMain 采用 wchar t 在 Windows XP 上如果应用程序条目是 WinMain Windows 是否会将命令行从 Unicode 转
如何快速读取一大块csv文件？

我在用着这个答案 https stackoverflow com a 13653490 3512538关于如何仅读取一块 CSV 文件pandas 使用建议pd read csv input test csv iterator True c

如何快速读取一大块csv文件？

如何快速读取一大块csv文件？ 的相关文章

随机推荐

热门标签

如何快速读取一大块csv文件？的相关文章