我正在使用 pandas 和 Jupiter 笔记本。我正在读取 700MB 的 CSV 文件,加载需要 69 秒。出于测试目的,这是可以接受的,因为我只需要加载它一次,并且它在笔记本实例的持续时间内保留在内存中。
pd.read_csv(path, names=['Date','Time','Seconds','Counts','Pressure'], dtype='unicode')
我尝试使用与 python 可执行文件相同的代码,这使得测试非常困难,因为每次我对程序进行更改时,我都需要等待 69 秒才能加载数据。如何加快 CSV 文件的读取速度?
你可以考虑使用dask
module https://docs.dask.org/en/latest/dataframe.html以此目的:
import dask.dataframe
data = dask.dataframe.read_csv("your.csv")
Dask 比普通 Pandas 快得多read_csv
因为它利用并行处理并且不会将整个数据加载到内存中。这埃里克·布朗的文章 https://pythondata.com/dask-large-csv-python/是了解它的潜在用途的良好入门书。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)