pandas pytables 附加：性能和文件大小的增加

2023-12-10

我有500多个PyTables每个存储大约包含 300Mb 的数据。我想使用 pandas 将这些文件合并到一个大商店中append如下面的代码所示。

def merge_hdfs(file_list, merged_store):
    for file in file_list:
        store = HDFStore(file, mode='r')
        merged_store.append('data', store.data)
        store.close()

追加操作非常慢（追加单个存储最多需要 10 分钟）merged_store），奇怪的是文件大小merged_store每个附加存储似乎都会增加 1Gb。

我已经指出了预期行的总数，根据文档应该可以提高性能，并且已阅读提高 pandas (PyTables?) HDF5 表写入性能我原本期望写入时间较长，但每 300Mb 几乎需要 10 分钟，似乎太慢了，而且我无法理解为什么会增加大小。

我想知道我是否错过了什么？

如需了解更多信息，请参阅以下 500 个 PyTable 之一的描述。

/data/table (Table(272734,)) ''
  description := {
  "index": Int64Col(shape=(), dflt=0, pos=0),
  "values_block_0": Float64Col(shape=(6,), dflt=0.0, pos=1),
  "id": StringCol(itemsize=11, shape=(), dflt='', pos=2),
  "datetaken": Int64Col(shape=(), dflt=0, pos=3),
  "owner": StringCol(itemsize=15, shape=(), dflt='', pos=4),
  "machine_tags": StringCol(itemsize=100, shape=(), dflt='', pos=5),
  "title": StringCol(itemsize=200, shape=(), dflt='', pos=6),
  "country": StringCol(itemsize=3, shape=(), dflt='', pos=7),
  "place_id": StringCol(itemsize=18, shape=(), dflt='', pos=8),
  "url_s": StringCol(itemsize=80, shape=(), dflt='', pos=9),
  "url_o": StringCol(itemsize=80, shape=(), dflt='', pos=10),
  "ownername": StringCol(itemsize=50, shape=(), dflt='', pos=11),
  "tags": StringCol(itemsize=505, shape=(), dflt='', pos=12)}
  byteorder := 'little'
  chunkshape := (232,)

这基本上就是答案here，我最近回答过。

最重要的是，您需要关闭索引store.append('df',df,index=False)。创建商店时，然后在最后对其进行索引。

此外，合并表时也关闭压缩。

索引是一项相当昂贵的操作，如果我没记错的话，只使用单个处理器。

最后，确保您创建了合并 withmode='w'因为所有后续操作都是追加的，并且您希望从一个干净的新文件开始。

我也不会指定chunksize预先。相反，在创建最终索引后，使用以下命令执行压缩ptrepack并指定chunksize=auto它会为你计算它。我认为这不会影响写入性能，但会优化查询性能。

您可以尝试调整chunksize参数为append（这是写入块大小）也为更大的数字。

显然，请确保每个附加表具有完全相同的结构（如果不是这种情况，则会引发错误）。

我创建这个问题是为了增强“内部”执行此操作的功能：https://github.com/pydata/pandas/issues/6837

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas pytables 附加：性能和文件大小的增加的相关文章

OpenCV Python cv2.mixChannels()

我试图将其从 C 转换为 Python 但它给出了不同的色调结果 In C Transform it to HSV cvtColor src hsv CV BGR2HSV Use only the Hue value hue create
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
如何使用Conda下载python包并随后离线安装？

我知道通过 pip 我可以使用以下命令下载 Python 包但 pip install 破坏了我的内部包依赖关系当我做 pip download
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
如何在ipywidget按钮中显示全文？

我正在创建一个ipywidget带有一些文本的按钮但按钮中未显示全文我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
为什么 C# Array.BinarySearch 这么快？

我已经实施了一个很简单用于在整数数组中查找整数的 C 中的 binarySearch 实现二分查找 static int binarySearch int arr int i int low 0 high arr Length 1 mid
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

在 C 中转换向量的 C++ 实现

我用 C 编写了以下代码但是发现我必须将其转换为 C 我不是 C 甚至 C 程序员请帮忙有人可以帮我将此方法更改为 C 指令特别是向量实现以下将无法编译我已经删除了复杂性以保持简单感谢期待 declspec dllexport
编码的共享 URI 中的站点无效

我尝试使用 Microsoft Graph 从共享链接中提取一些文件但是当我尝试使用 Microsoft Graph Explorer 执行此操作时它返回 error code invalidRequest message The s
我无法全局安装nodemon，“nodemon”无法识别

我想使用 nodemon 来监视我的 node js 应用程序然后执行下一行命令 npm install g nodemon or npm install nodemon g 当我移动到我的应用程序文件夹并尝试 nodemon app j
引用计数降至零后多久调用 __del__ ？

引用计数达到零后多久 del 方法调用该语言是否承诺在任何其他使用代码执行之前它会立即完成或者每个实现都可以做它喜欢的事情可能会延迟对 del 任意长请忽略程序即将退出时的情况我认为这意味着给定块中的最后一条语句已完成并且堆栈为
以高于屏幕分辨率的 dpi 打印表单

Problem 我们需要有关如何使用 WinForms 自动缩放到不同 DPI 的功能的帮助以便我们能够以 600 dpi 而不是屏幕 DPI 打印表单对于所见即所得打印我们只是简单地使用布局精美的窗口并打印它关闭滚动条和按钮等
pandas drop_duplicates 不可散列类型：'numpy.ndarray'、'set' 和 'list'

我正在尝试使用drop duplicates在a的一列上dataframe A len 1 2 2 1 2 2 3 1 4 5 2 4 5 2 结果dataframe应该看起来像 A len 1 2 2 3 1 4 5 2 我努力了df d
AffineTransform 截断图像

我有一个图像我必须将其旋转 45 90 135 180 度我在做什么 try BufferedImage src ImageIO read new File src png double ang Math toRadians 90 Af
Imagick 制作动画 GIF 而不是动画？

我正在向 imagick 发送图像当它是动画 gif 时它会删除动画并留下单个静态图像这是因为调整大小代码吗或者它是 imagick 库中固有的东西下面是我的代码这里有什么问题吗 if isset FILES image all
在 Windows 上通过 putty 通过 ssh 编写脚本

我需要编写从 Windows 机器恢复 Linux 机器的 mysql 脚本我有 putty 并且我知道它有 ssh 功能这是我所拥有的 C Progra 1 Putty putty exe ssh root 10 1 2 3 mysq
在移动设备上进行离线反向地理编码的技术？

我正在开发一个移动地图应用程序目前是 iOS 最终是 Android 我正在努力解决如何在不使用在线服务的情况下最好地支持从纬度经度到国家州的反向地理编码 Apple 的反向地理编码 API 依赖于 Google 作为后端并且在连接
在商店后使用启动器时如何防止应用程序重新启动？

在我使用应用程序商店启动它后使用启动器启动它时我的 Android 应用程序正在重新启动反之亦然有什么办法可以防止这种情况发生吗重新启动是指活动堆栈丢失这很重要因为我们的用户会在一个小时左右的时间内间歇性地设置并返回应用程序中
如何正确重写 Viewgroup 类中的 onLayout 方法

我有一个从视图组类扩展的类现在我知道在 onLayout 中你必须调用每个孩子的布局方法这里的问题是应该将什么值传递给子布局在我看来我膨胀了一个 xml 并将其附加到此类宽度和高度在 xml 中定义在 onlayout 中我得
在 python watchdog 中并行处理多个 onCreated 事件

我正在尝试检测目录上是否创建了任何新文件如果创建我想处理它需要 10 分钟才能给出输出同时其他新文件也会在该文件夹中创建我如何使用多进程注册看门狗的 oncreated 以便每次创建文件时都会生成一个新进程而不是等待一个文件完成
使用 Guzzle PHP 将文件分块上传到 URL 端点

我想使用 guzzle 将文件分块上传到 URL 端点我应该能够提供 Content Range 和 Content Length 标头使用 php 我知道我可以使用 define CHUNK SIZE 1024 1024 Size i
XSLT 转换为 xml，按键分组

我在编写 xsl 将 xml 转换为 raport 版本时遇到问题看起来像这样
使用反射将属性动态转换为其实际类型（其中实际类型是通用的）

这是一个略有不同的问题here 我将相同的代码修改为我的需要如下所示 using System using System Collections Generic using System Linq using System Reflect
由于类型转换而未使用索引？

由于对特定表进行全表扫描我有一个进程表现不佳我计算了统计数据重建了现有索引并尝试为此表添加新索引但这并没有解决问题隐式类型转换可以停止使用索引吗其他原因又如何呢全表扫描的成本比索引查找的成本大约高 1000 EDIT SQL语
从 parse.com 检索图像

我不知道这是否可能但我认为这是可能的但我不知道该怎么做我只是想从 parse com 加载图像就像从 parse com 检索对象一样我应该像从 parse com 获取字符串一样进行操作吗我刚刚找到了如何在解析时保存图像但没
如何制作输出目录选择面板？

您好我正在尝试制作一个窗格在我的计算机中显示类似 Windows 资源管理器的内容当用户完成操作后当他想要将编辑后的图像保存在磁盘上的特定位置时他可以轻松地从该窗格中选择目录我想设计这样的东西可以做类似的事情吗我的图片编辑器
pandas pytables 附加：性能和文件大小的增加

我有500多个PyTables每个存储大约包含 300Mb 的数据我想使用 pandas 将这些文件合并到一个大商店中append如下面的代码所示 def merge hdfs file list merged store for fil

pandas pytables 附加：性能和文件大小的增加

pandas pytables 附加：性能和文件大小的增加 的相关文章

随机推荐

热门标签

pandas pytables 附加：性能和文件大小的增加的相关文章