ndarray.resize：为 refcheck 参数传递正确的值

2023-12-02

和许多其他人一样，我的情况是我有一个类收集大量数据，并提供一种方法将数据作为 numpy 数组返回。（即使在返回数组之后，其他数据也可以继续流入）。由于创建数组是一项昂贵的操作，因此我只想在必要时创建它，并尽可能高效地完成它（具体来说，在可能的情况下就地附加数据）。

为此，我一直在阅读有关 ndarray.resize() 方法和 refcheck 参数的内容。我知道只有当“您确定没有与另一个 Python 对象共享此数组的内存”时，才应将 refcheck 设置为 False。

问题是我不确定。有时我有，有时我没有。如果 refcehck 失败，我可以接受它引发错误（我可以捕获它，然后创建一个新副本），但我希望它仅在存在“真实”外部引用时才会失败，而忽略我知道安全的外部引用。

这是一个简化的说明：

import numpy as np

def array_append(arr, values, refcheck = True):
    added_len = len(values)
    if added_len == 0:
        return arr
    old_len = len(arr)
    new_len = old_len + added_len
    arr.resize(new_len, refcheck = refcheck)
    arr[old_len:] = values
    return arr

class DataCollector(object):

    def __init__(self):
        self._new_data = []
        self._arr = np.array([])

    def add_data(self, data):
        self._new_data.append(data)

    def get_data_as_array(self):
        self._flush()
        return self._arr

    def _flush(self):
        if not self._new_data:
            return
#        self._arr = self._append1()
#        self._arr = self._append2()
        self._arr = self._append3()
        self._new_data = []

    def _append1(self):
        # always raises an error, because there are at least 2 refs:
        # self._arr and local variable 'arr' in array_append()
        return array_append(self._arr, self._new_data, refcheck = True)

    def _append2(self):
        # Does not raise an error, but unsafe in case there are other
        # references to self._arr
        return array_append(self._arr, self._new_data, refcheck = False)

    def _append3(self):
        # "inline" version: works if there are no other references
        # to self._arr, but raises an error if there are.
        added_len = len(self._new_data)
        old_len = len(self._arr)
        self._arr.resize(old_len + added_len, refcheck = True)
        self._arr[old_len:] = self._new_data
        return self._arr

dc = DataCollector()
dc.add_data(0)
dc.add_data(1)
print dc.get_data_as_array()
dc.add_data(2)
print dc.get_data_as_array()
x = dc.get_data_as_array()  # create an external reference
print x.shape
for i in xrange(5000):
    dc.add_data(999)
print dc.get_data_as_array()
print x.shape

问题：

有没有更好（快速）的方法来完成我想做的事情（增量创建 numpy 数组）？
有没有一种方法可以告诉 resize() 方法：“执行 refcheck，但忽略我知道安全的一个引用（或 n 个引用）”？（这将解决 _append1() 总是失败的问题）

The resize方法有两个主要问题。第一个是当用户调用时返回对 self._arr 的引用get_data_as_array。现在，调整大小将根据您的实现执行以下两件事之一。它会修改你给你的用户的数组，即用户将采取a.shape并且形状会发生不可预测的变化。否则它会破坏该数组，使其指向错误的内存。你可以通过始终拥有来解决这个问题get_data_as_array return self._arr.copy()，但这让我想到了第二个问题。resize实际上效率不是很高。我相信一般来说， resize 必须分配新的内存，并在每次调用它来增长数组时进行复制。另外，现在您每次想要将数组返回给用户时都需要复制该数组。

另一种方法是设计自己的动态数组，看起来像这样：

class DynamicArray(object):

    _data = np.empty(1)
    data = _data[:0]
    len = 0
    scale_factor = 2

    def append(self, values):
        old_data = len(self.data)
        total_data = len(values) + old_data
        total_storage = len(self._data)
        if total_storage < total_data:
            while total_storage < total_data:
                total_storage = np.ceil(total_storage * self.scale_factor)
            self._data = np.empty(total_storage)
            self._data[:old_data] = self.data

        self._data[old_data:total_data] = values
        self.data = self._data[:total_data]

这应该非常快，因为您只需要将数组增长 log(N) 倍，并且最多使用 2*N-1 存储，其中 N 是数组的最大大小。除了增加数组之外，您只是制作视图_data这不涉及任何复制，并且应该是恒定时间。

希望这有用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

ndarray.resize：为 refcheck 参数传递正确的值的相关文章

如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数

随机推荐

实体框架 - 选择分组依据，选择最大日期

我有一个笔记简报 public int Id get set public string Title get set public DateTime Created get set public int ParentNoteId get s
EAV 数据建模

其他人如何使用关系建模工具将逻辑模型或第三范式映射到使用 EAV 的数据库 EAV 是一种非关系型设计你无法实现anyEAV 的范式因为它不是关系 EAV 是一个例子平台内效应反模式如果你需要很多属性你可以考虑序列化为 blobXM
面对 SwiftUI 中 didSet 情况下 State 或 Binding 的一些奇怪行为

我正在使用另一个视图的 Binding 更新我的 State 变量我的 State 的 didSet 中有一些代码当我从 State 设置值而不是从 Binding 设置值时它会触发因此我必须向 Binding 提供 didSet这
从 Web 服务创建 JSON 返回“字符串”以与 jquery ajax 一起使用

我尝试使用此处找到的教程在 ASP NET 应用程序中实现一个简单的 Web 服务 http dotnetslackers com articles ajax JSON EnabledWCFServicesInASPNET35 aspx 1
iOS：按钮的非方形点击区域

我需要制作一些相互重叠的三角形按钮虽然 UIButtons 可以采用透明图像作为背景并且 UIControls 可以具有自定义视图但它们的点击区域始终是方形的如何为我的按钮创建三角形点击区域我有 FLash 背景所以我通常会为我
ScrollView 中的 ListView 在 Android 上不滚动

我在滚动时遇到问题ListView里面一个ScrollView 我有一个 Activity 顶部有一些 EditText 然后是一个带有两个选项卡的选项卡主机每个选项卡都有一个 ListView 当 EditText 视图聚焦时软键盘会
如何在 Squarespace 表单提交中跟踪 UTM 数据

我见过很多关于更改参数值的最简单方法的问题但没有看到关于如何更改参数本身的问题例如 example com utm campaign 1 utm source 2 会成为 example com SQF CAMPAIGN 1 SQF S
如何在泛型方法调用中使用类型变量 (C#)

我有一个类型变量t传递到一个方法中我想在调用时将其用作通用参数IQueryable Join像下面这样 queryResult Join
将 firestore CRUD 限制为特定域内的用户

我正在尝试在 Firestore 中创建一条规则限制对属于特定域的用户的所有 CRUD 操作的使用我的问题是规则上下文中似乎不存在 contains 子句这是我的规则 service cloud firestore match dat
“NullInjectorError：没有 Overlay 提供程序！”在控制台中（角度材质）

我在使用 Angular Material 时遇到错误具体来说 ERROR Error Uncaught in promise Error StaticInjectorError AppModule CdkConnectedOverlay
Tomcat servlet-api.jar问题

我正在使用 Tomcat 和 Java Servlet JSP 等运行 Web 应用程序我知道为了使用Servlet 它依赖于Servlet api jar 文件最初我把这个jar文件放在 WEB INF lib directory 在
如何在 C# 中从字节数组生成哈希码？

假设我有一个存储字节数组的对象并且我希望能够有效地为其生成哈希码我过去曾为此使用过加密哈希函数因为它们很容易实现但它们所做的工作比加密单方面应做的工作要多得多而且我不关心这一点我只是使用哈希码作为哈希表的键这是我今天的内容 s
如何在 SQL Server 表中保存回历日期？什么类型的柱？

如何在 Microsoft SQL Server 表中保存回历日期 0000 01 01 9999 01 01 什么类型的柱我选择datetime2 这样对吗 CREATE TABLE dbo MyDates ID int IDENTIT
错误：在 Alpine Docker 映像上安装 PostGIS 时出现无法满足的约束

好的所以任务看起来很简单使用Alpine图像因为它是轻量级且安全的来执行一些PostgreSQL数据库创建迁移我正在使用以下内容Dockerfile使用代码here FROM alpine latest RUN apk add
高斯过程回归增量学习

我正在使用高斯过程回归的 scikit learn 实现here我想拟合单个点而不是拟合整组点但所得的 alpha 系数应保持不变例如 gpr2 GaussianProcessRegressor for i in range x sha
可以通过 Chrome 扩展程序修改窗口对象吗？ [复制]

这个问题在这里已经有答案了我想做一个 Chrome 扩展在里面提供一个新对象window 当在加载了扩展程序的浏览器中查看网页时我想window mything可通过 Javascript 使用这window mything对象将具
WPF TreeView HierarchicalDataTemplate - 绑定到具有不同子集合的对象

我正在尝试将集合绑定到 wpfTreeView使用数据模板进行控制集合中的每个项目人还包含两个不同的集合汽车书籍类型为汽车和书籍以下是所涉及对象的简化列表以节省空间 public class Person public st
将参数从 Cloud 函数传递到 Dataflow

我想将 Google Cloud Storage 上上传的文件的文件名从 Cloud Functions 传递到 Dataflow 以便我可以处理上传的文件我为云函数编写的代码是 const google require googleap
NavigationView 获取/查找标题布局

在我的 NavigationView 中我有一个带有 id viewId 和活动按钮的标题布局要设置这些按钮我在活动中执行以下操作onPostCreate final View panel findViewById R id view
ndarray.resize：为 refcheck 参数传递正确的值

和许多其他人一样我的情况是我有一个类收集大量数据并提供一种方法将数据作为 numpy 数组返回即使在返回数组之后其他数据也可以继续流入由于创建数组是一项昂贵的操作因此我只想在必要时创建它并尽可能高效地完成它具体来说在可能的

ndarray.resize：为 refcheck 参数传递正确的值

ndarray.resize：为 refcheck 参数传递正确的值 的相关文章

随机推荐

热门标签

ndarray.resize：为 refcheck 参数传递正确的值的相关文章