查询保存为 npz 的 NumPy 数组的 NumPy 数组很慢

2023-11-29

我生成一个 npz 文件，如下所示：

import numpy as np
import os

# Generate npz file
dataset_text_filepath = 'test_np_load.npz'
texts = []
for text_number in range(30000): 
    texts.append(np.random.random_integers(0, 20000, 
                 size = np.random.random_integers(0, 100)))
texts = np.array(texts)
np.savez(dataset_text_filepath, texts=texts)

这给了我这个 ~7MiB npz 文件（基本上只有 1 个变量texts，这是 NumPy 数组的 NumPy 数组）：

我加载的numpy.load():

# Load data
dataset = np.load(dataset_text_filepath)

如果我按如下方式查询，则需要几分钟：

# Querying data: the slow way
for i in range(20):
    print('Run {0}'.format(i))
    random_indices = np.random.randint(0, len(dataset['texts']), size=10)
    dataset['texts'][random_indices]

而如果我按如下方式查询，则需要不到5秒的时间：

# Querying data: the fast way
data_texts = dataset['texts']
for i in range(20):
    print('Run {0}'.format(i))
    random_indices = np.random.randint(0, len(data_texts), size=10)
    data_texts[random_indices]

为什么第二种方法比第一种方法快这么多？

dataset['texts']每次使用时都会读取该文件。load of a npz仅返回文件加载器，而不返回实际数据。它是一个“惰性加载器”，仅在访问时加载特定数组。这load文档可能更清楚，但他们说：

- If the file is a ``.npz`` file, the returned value supports the context
  manager protocol in a similar fashion to the open function::

    with load('foo.npz') as data:
        a = data['a']

  The underlying file descriptor is closed when exiting the 'with' block.

并从savez:

 When opening the saved ``.npz`` file with `load` a `NpzFile` object is
returned. This is a dictionary-like object which can be queried for
its list of arrays (with the ``.files`` attribute), and for the arrays
themselves.

更多详情请参阅help(np.lib.npyio.NpzFile)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Arrays

performance

NumPy

查询保存为 npz 的 NumPy 数组的 NumPy 数组很慢的相关文章

如何实现n个元素的查找和插入操作的动态二分查找

这个想法是使用多个数组每个长度为 2 k 根据 n 的二进制表示来存储 n 个元素每个数组都是排序的不同的数组没有以任何方式排序在上述数据结构中 SEARCH是通过对每个数组进行一系列二分查找来进行的 INSERT 是通过一系列相同
PHP 与 MySQL 查询性能（ if 、函数）

我只看到这个artice http www onextrapixel com 2010 06 23 mysql has functions part 5 php vs mysql performance 我需要知道在这种情况下什么是最好的表
是否可以使用“git gc”来打包引用日志对象？

正如答案所暗示的https stackoverflow com a 32025729 https stackoverflow com a 32025729我已经配置了远程裸仓库 git config gc pruneExpire never
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
SignalR 似乎正在减慢我的 MVC/Azure 应用程序的启动速度

我有一个 MVC 应用程序在 Windows Azure 上的 WebRole 上的 NET 4 5 下运行使用 SignalR 1 0 alpha2 并使用 ServiceBus 底板在我的 App Start 文件夹中我有 Reg
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
对具有混合类型值的数组进行数字排序

我有一个像这样的混合数组 fruits array lemon Lemon 20 banana apple 121 40 50 然后申请sort 其功能如下 sort fruits SORT NUMERIC foreach fruits a
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

C/C++ 链接器 CALL16 reloc at xxxxx 不针对全局符号

我在链接时收到这些错误这两条消息都与同一个目标文件有关 CALL16 reloc at 0x5f8 not against global symbol and could not read symbols Bad value 第二条消息似
如何指定 python pip 的安装顺序？

我正在使用 Fabric 0 9 4 pip 0 8 2 我需要为多个服务器安装一些 python 模块所有服务器都有旧版本的 setuptools 0 6c8 需要升级 pymongo 模块 Pymongo 需要 setuptools
错误 java.lang.RuntimeException：存根！在 Android 中使用 Fitnesse 测试

我正在尝试使用创建一个测试装置Fitnesse框架我想测试一个从服务器检索数据的函数 RESTFUL 服务我的测试用例非常简单 public class FriendListActivityFixture extends ColumnF
使用 Gmail API 的可续传上传附加文件

我正在尝试使用 Gmail 的可恢复选项将附件上传到电子邮件文档参考 https developers google com gmail api guides uploads resumable 目前我可以发送带有可恢复 URI 的电子
Bootstrap scrollspy 仅在第二次单击时获取高度偏移

我用 bootstrap 3 2 1 制作了一个页面并在该页面中使用了scrollspy 在第一次单击菜单中滚动页面的偏移高度不起作用但第二次单击后偏移高度起作用该代码可以在浏览器中运行但当第一次单击标题 2 或标题 3 或标题
ActiveAdmin：按关联计数排序

我有以下型号 class User lt ActiveRecord Base has many reviews end class Review lt ActiveRecord Base belongs to user end 我想按照每个
将 System.Net.WebRequest 与已知 IP 端点一起使用

我有大量已解析为 IP 地址的 DNS 名称对于这个集合我需要从其中下载 HTML 这是一个非常大的清单我需要尽可能高效地完成它我在用着System Net HttpWebRequest从每个域下载 HTML HttpWebRequ
在 System.Drawing 中找不到“点”

我所知 Point存在于命名空间中系统图但 Visual Studio 找不到它 using System Drawing class Flower public Point Location get private set 错误找不到
图像 (2D) 的 PSF（点扩散函数）

我是图像分析使用 Python 的新手我想对我的数据 CT 扫描应用 richardson lucy 反卷积来自 skimage 为此我通过特定的软件以体素数来估计PSF 它的值大约是 6 73 体素但我不知道如何将它用作函
如何在Python中获取当前模块属性的引用

我想要做的在命令行中看起来像这样 gt gt gt import mymodule gt gt gt names dir mymodule 我如何获得对中定义的所有名称的引用mymodule从内部mymodule itself 像这样的东西
PHP cookie 有一个刷新延迟[重复]

这个问题在这里已经有答案了可能的重复 Cookie只在刷新时显示我正在尝试设置一个基本的 PHP cookie 它会记住使用的颜色主题然而当我测试它时颜色主题的设置和显示之间存在一次刷新滞后澄清一下我有一个选择表单允许用户选
Swift 编译器挂起！这是一个错误吗？

有一次当我正在开发 Swift 项目时 Xcode 的状态栏中出现了编译 Swift 源代码消息无论等多久编译都没有完成我回滚了最近的更改很快意识到让编译器感到困惑的是一个非常简单的枚举结构下面是一个说明该问题的 Playg
nodeJS将数据插入PostgreSQL错误

我在使用 NodeJS 和 PostgreSQL 时遇到了一个奇怪的错误我希望你能帮助我我有大量的数据集大约有 200 万个条目我想将它们插入到数据库中一份数据由 4 列组成 id string points float mid
plone 中的文件是否存在与修订版本一样多的副本？

在 plone 中如果文件或任何内容被修改例如 4 次则存在多少个物理副本我正在使用 plone 4 1 其中文件和图像存储在文件系统上内容对象由多个持久记录组成对于文件系统上包含二进制 blob 文件的图像和文件当内容对
如何获取非公开成员的值

如何在 C 中使用 OPCDA NET 获取 OPCGroup 的非公共成员的值 private void DataChangeHandler object sender DataChangeEventArgs e try object o
当月剩余天数

指定月份剩余天数如何查找当月剩余天数示例如果当前月份是 11 月今天的日期是 16 11 2016 一个月的天数经过的天数我想动态地做在我的例子中 30 16 14 declare date date set date 16
Outlook 加载项 API 不会在 Firefox/Chrome 上持续触发 ItemChange 事件

我们已在 Outlook 加载项的清单中启用任务窗格固定并注意到除了 Windows Outlook 2016 客户端之外现在 Outlook Office Online 中也提供固定支持但是那ItemChange切换邮件项目时事
无法在单个 UIViewController 中隐藏状态栏

我想在单视图控制器中隐藏状态栏但我的代码不起作用我正在使用下面的代码 BOOL prefersStatusBarHidden return YES void viewWillApper BOOL animated UIApplicati
Undersore 的 _.now 如何工作？

它看起来不像是用 JavaScript 编写的如果你输入 now在控制台中你只能得到 function now native code 通常只有当您尝试查看某些内部工作方式对浏览器不可见的内置方法时您才会明白这一点 setTimeou
查询保存为 npz 的 NumPy 数组的 NumPy 数组很慢

我生成一个 npz 文件如下所示 import numpy as np import os Generate npz file dataset text filepath test np load npz texts for text n

查询保存为 npz 的 NumPy 数组的 NumPy 数组很慢

查询保存为 npz 的 NumPy 数组的 NumPy 数组很慢 的相关文章

随机推荐

热门标签

查询保存为 npz 的 NumPy 数组的 NumPy 数组很慢的相关文章