用于迭代 NumPy 数组的惰性求值

2024-01-07

我有一个 Python 程序，可以处理相当大的 NumPy 数组（数百兆字节），这些数组存储在磁盘上的 pickle 文件中（每个文件一个约 100MB 的数组）。当我想对数据运行查询时，我通过 pickle 加载整个数组，然后执行查询（这样从 Python 程序的角度来看，整个数组都在内存中，即使操作系统正在将其换出）。我这样做主要是因为我相信能够在 NumPy 数组上使用矢量化操作比使用 for 循环遍历每个项目要快得多。

我在一个网络服务器上运行它，该服务器有内存限制，我很快就会遇到这种情况。我对数据运行了许多不同类型的查询，因此编写“分块”代码从单独的 pickle 文件加载部分数据，处理它们，然后继续处理下一个块可能会增加很多复杂性。最好让这种“分块”对于处理这些大型数组的任何函数都是透明的。

理想的解决方案似乎是类似于生成器的东西，它定期从磁盘加载数据块，然后将数组值一一传递出去。这将大大减少程序所需的内存量，而无需对各个查询函数进行任何额外的工作。可以做这样的事情吗？

PyTables http://www.pytables.org/是一个用于管理分层数据集的包。它旨在为您解决这个问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用于迭代 NumPy 数组的惰性求值的相关文章

在 python 程序中合并第三方库的最佳实践是什么？

下午好我正在为我的工作编写一个中小型Python程序该任务需要我使用 Excel 库xlwt and xlrd 以及一个用于查询 Oracle 数据库的库称为CX Oracle 我正在通过版本控制系统即CVS 开发该项目我想知道围
Python 的键盘中断不会中止 Rust 函数 (PyO3)

我有一个使用 PyO3 用 Rust 编写的 Python 库它涉及一些昂贵的计算单个函数调用最多需要 10 分钟从 Python 调用时如何中止执行 Ctrl C 好像只有执行结束后才会处理所以本质上没什么用最小可重现示例 Ca
SQLAlchemy 通过关联对象声明式多对多自连接

我有一个用户表和一个朋友表它将用户映射到其他用户因为每个用户可以有很多朋友这个关系显然是对称的如果用户A是用户B的朋友那么用户B也是用户A的朋友我只存储这个关系一次除了两个用户 ID 之外 Friends 表还有其他字段因此
将数据从 python pandas 数据框导出或写入 MS Access 表

我正在尝试将数据从 python pandas 数据框导出到现有的 MS Access 表我想用已更新的数据替换 MS Access 表在 python 中我尝试使用 pandas to sql 但收到错误消息我觉得很奇怪使用 p
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
Python - StatsModels、OLS 置信区间

在 Statsmodels 中我可以使用以下方法拟合我的模型 import statsmodels api as sm X np array 22000 13400 47600 7400 12000 32000 28000 31000 6
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
Python 类继承 - 诡异的动作

我观察到类继承有一个奇怪的效果对于我正在处理的项目我正在创建一个类来充当另一个模块的类的包装器我正在使用第 3 方 aeidon 模块用于操作字幕文件但问题可能不太具体以下是您通常如何使用该模块 project aeidon P
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class

随机推荐

以给定概率得出 true 或 false

我正在尝试用 C 编写一个函数该函数将根据给定的概率返回 true 或 false 因此例如如果给定的概率为 0 634 则该函数有 63 4 的机会返回 true 我尝试了几种不同的方法但都失败了有什么帮助吗如果您想在 C 1
序列化对象时如何忽略事件订阅者？

当下面的类被序列化时BinaryFormatter 订阅的任何对象Roar事件也将被序列化因为对这些对象的引用由 EventHandler 委托保存 Serializable public class Lion public event
Javascript - 检测阿拉伯文本

今天我想做一个使用输入文本的阿拉伯语测验这是我的代码我知道这仍然是基本的但问题是它无法检测阿拉伯文本语言当我尝试输入文本时它显示错误警报我不知道为什么它无法检测到阿拉伯语有什么解决办法吗 function answer
在MinGW编译器中，-mwindows命令是什么，它有什么作用？

我在使用 C 程序时遇到问题当我运行 exe 时该程序将运行并且该程序的窗口将打开但控制台将在后台桌面上打开我进行了谷歌搜索发现使用 mwindows 命令作为参数进行编译会删除控制台它确实做到了但我不确定它实际上是做什么的
Xamarin选择TargetFramework和MinimumAndroidVersion

我正在开发一个 Xamarin Forms 应用程序目前仅支持 Android 默认设置将 TargetFramework 设置为 7 1 该项目的最低 Android 版本必须为 7 0 这会产生一个警告 Xamarin Forms P
Google Analytics iOS SDK [GAIReachabilityCheckerreachabilityFlagsChanged：崩溃

我的 iOS 应用程序不断遇到与 GAIReachabilityChecker 相关的崩溃这个函数似乎崩溃了 GAIReachabilityCheckerreachabilityFlagsChanged 这是错误日志线程崩溃 com
人行横道的应用程序大小增加了 71mb

我真的希望我做错了什么我已将人行横道添加到项目中并且应用程序大小明显增加为了测试我做了以下事情创建了一个新的离子项目将我的应用程序代码添加到 www 添加了 ngcordova 和各种插件运行 ionic 构建并将 apk 放到
如何使用 PowerShell 提取 Epub 元数据 (XML)？

我对 PowerShell 并不陌生但对 XML 解析很熟悉基本上我想从 OPF 文件中提取标题创建者和发布者信息该文件只是一个 xml 文件下面这本书是来自 Google 的 epub v3 样本集的 Moby Dick
基于颜色的 OpenCV 边缘/边框检测

我对 OpenCV 还很陌生很高兴能了解更多信息我一直在考虑勾画边缘和形状的想法我遇到过这段代码在 iOS 设备上运行它使用了 Canny 我希望能够以颜色呈现它并圈出每个形状有人能指出我正确的方向吗 Thanks IplIm
Spring REST 和 PATCH 方法

我正在使用 SpringBoot 和 Spring REST 我想了解 HTTP PATCH 方法来更新我的模型的属性有没有好的教程解释如何使其发挥作用 HTTP PATCH 方法和要发送的正文控制器方法以及如何管理更新操作我注意到许
无法使用 sudo 启动服务，因为 root 用户无权访问 Ruby

tl dr尝试运行需要 ruby 才能运行的服务但是 Ruby 安装的是RVM http beginrescueend com root 用户似乎无法访问它从而产生错误 usr bin env ruby No such file or
无法在 Inno Setup 欢迎页面上创建标签

我正在尝试使用以下代码在欢迎页面上创建标签或位图 LabelTarget TLabel Create WizardForm with LabelTarget do begin Parent WizardForm WelcomePage L
TouchsBegan 不适用于 UITableView

I have UITableView超过全屏我想知道的是找到我单击单元格的位置我想要做的是在单击任何单元格时显示复制选项为此我尝试过 void touchesEnded NSSet touches withEvent UIEvent
Swift 应用程序在模拟器上打开，但在设备上打不开

我已经在我的 iOS 应用程序上工作了一段时间它在模拟器上构建和运行良好但是当我尝试在我的设备上运行它时会发生一些事情出现应用程序启动屏幕应用程序崩溃我的 Xcode 输出如下 dyld Library not loaded r
如何使用Dom解析来解析XML文件？

我的问题是我使用 Dom Parsing 来解析下面的 xml 文件但这给了我 NullPointerException 错误任何帮助将不胜感激 MainActivity java public class MainActivity
OSM在Python中获取从路线A到B的持续时间和方向

我是使用地图和搜索算法的新手目前我正在使用geopy获取距离的包Nominatim from geopy geocoders import Nominatim from geopy distance import vincenty nom
根据其他列修改数据框列中的值

我有一个包含 A 列和 B 列的数据框 df A B 0 a 50 1 b 25 2 a 30 3 c 200 如果 A 列值为 a 我想将 B 列的值乘以 100 所以我的输出应该是 A B 0 a 5000 1 b 25 2 a 300
Docker 构建失败 google.golang.org/api/option

在我的 docker 文件中我有以下几行 RUN go get v u go mongodb org mongo driver mongo RUN go get d v RUN go get google golang org api o
从 localhost 到 cosmosDb 的 Mongorestore 失败，并显示“通过指定“retrywrites=false”禁用可重试写入”

蒙戈客户端 v 4 4 mongorestore host
用于迭代 NumPy 数组的惰性求值

我有一个 Python 程序可以处理相当大的 NumPy 数组数百兆字节这些数组存储在磁盘上的 pickle 文件中每个文件一个约 100MB 的数组当我想对数据运行查询时我通过 pickle 加载整个数组然后执行查询这样从

用于迭代 NumPy 数组的惰性求值

用于迭代 NumPy 数组的惰性求值 的相关文章

随机推荐

热门标签

用于迭代 NumPy 数组的惰性求值的相关文章