这个问题在某种程度上与“连接大量HDF5文件”.
我有几个巨大的 HDF5 文件(压缩后约 20GB),无法容纳 RAM。每个都存放几个pandas.DataFrame
格式相同且索引不重叠。
我想将它们连接起来,形成一个 HDF5 文件,并正确连接所有 DataFrame。一种方法是逐块读取它们,然后保存到单个文件中,但实际上这会花费相当多的时间。
是否有任何特殊的工具或方法可以在不迭代文件的情况下执行此操作?
请参阅文档here为了odo
项目(以前的into
)。请注意,如果您使用into
库,那么参数顺序已被切换(这就是更改名称的动机,以避免混淆!)
你基本上可以这样做:
from odo import odo
odo('hdfstore://path_store_1::table_name',
'hdfstore://path_store_new_name::table_name')
执行多个这样的操作将附加到 rhs 存储中。
这将自动为您执行块操作。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)