hdf5 和 ndarray 附加/大型数据集的省时方法

2024-03-01

背景

我有一个 k n 维时间序列，每个序列表示为 m x (n+1) 数组，其中包含浮点值（n 列加上代表日期的一列）。

Example:

k（大约 400 万）个时间序列，看起来像

20100101    0.12    0.34    0.45    ...
20100105    0.45    0.43    0.21    ...
...         ...     ...     ...

每天，我都想为数据集的子集 (onehd5f 文件。

Question

将行附加到数据集的最省时的方法是什么？

输入是一个 CSV 文件，如下所示

key1, key2, key3, key4, date, value1, value2, ...

其中日期对于特定文件来说是唯一的并且可以被忽略。我有大约 400 万个数据集。问题是我必须查找键、获取完整的 numpy 数组、调整数组大小、添加行并再次存储数组。 hd5f 文件的总大小约为 100 GB。知道如何加快速度吗？我想我们可以同意，使用 SQLite 或类似的东西是行不通的——一旦我拥有了所有数据，平均数据集将拥有超过 100 万个元素乘以 400 万个数据集。

Thanks!

你看过吗PyTables http://www.pytables.org/moin？它是一个构建在 HDF5 库之上的分层数据库。

它有多种数组类型，但“表”类型听起来适合您的数据格式。它基本上是 NumPy 记录数组的磁盘版本，其中每一列都可以是唯一的数据类型。表有一个追加方法，可以轻松添加额外的行。

就从 CSV 文件加载数据而言，numpy.loadtxt 相当快。它将文件作为 NumPy 记录数组加载到内存中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

NumPy

HDF5

hdf5 和 ndarray 附加/大型数据集的省时方法的相关文章

如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
多处理器机器中秒表的最佳实践？

我找到了一个好的question https stackoverflow com questions 28637 is datetime now the best way to measure a functions performance
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是

随机推荐

JSF2/PrimeFaces 中的命名容器 [重复]

这个问题在这里已经有答案了 PrimeFaces 中可能的命名容器有哪些当我们想要使用以下命令更新表单上的某些 UI 控件时为什么需要为 Ajax 更新调用附加命名容器 idupdate mainForm MainAccordian u
Visual Studio Code 中的语言可以扩展吗？

Scenario 我有 JSON 文件描述了一系列要执行的任务其中每个任务都可以引用 JSON 文件中的其他任务和对象 tasks id first action doSomething result id second action
如何使用python解压文件

我怎样才能提取一个 zip or rar使用 Python 文件迟到了但我对任何答案都不满意 pip install patool import patoolib patoolib extract archive foo bar rar
我可以使用 URL 打开 Windows 8 应用程序吗？

我正在创建一个具有共享会话功能的应用程序例如私人应用程序到应用程序的聊天会话我会启动应用程序并创建一个聊天室然后通过电子邮件与某人共享我想要做的是创建一个 URL 当单击它时它会打开您计算机上的应用程序如果我邀请您到我的
在 C# Windows 窗体应用程序中捕获 Ctrl + Shift + P 击键 [重复]

这个问题在这里已经有答案了可能的重复在 Windows 窗体应用程序中捕获组合键事件 https stackoverflow com questions 3062587 I need to perform a particular op
Java使用索引来一一显示数组

我在按索引显示数组时遇到问题我不知道为什么会发生这种情况任何帮助将不胜感激这是我的代码片段 create token2 String token2 create Scanner inFile2 Scanner inFile2 new
Swift 3 - 调整字体大小以适合宽度、多行

我有一个 UILabel 它设置为 42 0 pt 字体并且标签的宽度是使用基于标签本身以外的因素的自动约束设置的也就是标签右侧和左侧的内容决定标签的宽度我想自动调整字体大小以适应标签的宽度但也可以的话分成两行与此类似我知道您可
如何将表达式插入到R中的函数体中

我有一个函数f lt function x x 我想插入该行x lt 2 x into f这样它最终会变成 function x x lt 2 x x 我明白我应该使用body 但到目前为止我只知道如何替换entire身体这对于我的真正目
如何修复输入和参数张量不在同一设备上？

我看到其他人也遇到此错误我尝试按照步骤解决但仍然收到此错误运行时错误输入和参数张量不在同一设备上在 cpu 处找到输入张量在 cuda 0 处找到参数张量我运行 model to device 和 input seq to d
PDFKit - 使用 pageViewController 的 PDFView - 滑动到下一页时页面渲染缓慢

我有一个设置为使用 pageViewController 的 PDFView let pdfView PDFView let pdfDoc PDFDocument url Bundle main url forResource test w
将 Eclipse Android 项目更新到下一个版本

我在 Eclipse 中有一个 android 项目我开始在 android 版本 2 2 中开发我认为我想更新该项目以在我的 2 3 3 设备上运行有没有办法升级项目或者我需要创建一个新项目因此根据您的问题我只想说 Andr
修复发送信号中断系统调用时的竞争条件

我有一个线程read 来自套接字我希望能够异步停止线程线程伪代码如下所示 int needs quit 0 void thread read void arg while 1 if needs quit close sock fd re
AlbersEqualArea 使用 lon 和 lat 限制区域

我的数据是 100o 30o lon 和 0o 80o lat 我想使用投影来仅显示该区域在我的脑海中我想展示这样的情节但是当我尝试 AlbersEqualArea 投影时如下所示 plt figure figsize 5 129
使用 OkHttp、Okio 和 RxJava 下载文件

我正在尝试使用 OkHttp 下载文件并使用 Okio 写入磁盘我还为此过程创建了一个 rx observable 它正在工作但是它比我以前使用的 Koush 的 Ion 库明显慢以下是我创建可观察对象的方法 public Obse
无法将“System._COMObject”类型的 COM 对象转换为接口类型

我有 3 个 SSIS 包 3 个 SSIS 包中的两个可以完美运行第三个这是第二个的副本除了更改连接字符串不断引发问题无法将类型 System ComObject 的 COM 对象强制转换为接口类型 Microsoft SqlSe
在 for 循环中未设置的批处理脚本变量无效

下面是我的脚本我试图查看下面一层的文件夹并仅挑选出这些文件夹因此 9 从路径中提取最后 9 个字符但 set var 不会取消设置变量因为输出返回时相同的文件夹名称重复次另外批处理不允许我直接在 i 上执行此提取技巧因此需
存根和mockito中的区别

我是mockito新手需要知道存根和何时之间的区别 1 stub cpproxy getBinList toReturn gettestbins 2 when cpproxy getBinList thenReturn gettestbi
Delphi - TDictionary 线程安全吗

我的想法是使用 TDictionary 来管理 IdTCPServer 上的客户端连接这是一个用于理解目的的简单示例代码未经测试 var Dic TDictionary
如何使用 FFMPEG 最好地转换 Flash 兼容的 mp4 文件？

我正在尝试将不同的文件转换为闪存兼容的文件 mp4使用 ffmpeg 文件但我似乎无法让它工作当然目标是以最小的文件大小获得最好的质量到目前为止我已经有了这个它可以工作但由于某种原因它不能在 Flash 播放器中播放结果不太
hdf5 和 ndarray 附加/大型数据集的省时方法

背景我有一个 k n 维时间序列每个序列表示为 m x n 1 数组其中包含浮点值 n 列加上代表日期的一列 Example k 大约 400 万个时间序列看起来像 20100101 0 12 0 34 0 45 20100105

hdf5 和 ndarray 附加/大型数据集的省时方法

hdf5 和 ndarray 附加/大型数据集的省时方法 的相关文章

随机推荐

热门标签

hdf5 和 ndarray 附加/大型数据集的省时方法的相关文章