沿 dask 数组的轴应用函数

2023-11-26

我正在分析来自气候模型模拟的海洋温度数据，其中 4D 数据数组（时间、深度、纬度、经度；表示为dask_array下面）通常具有 (6000, 31, 189, 192) 的形状和 ~25GB 的大小（因此我希望使用 dask；尝试使用 numpy 处理这些数组时遇到内存错误）。

我需要在每个级别/纬度/经度点沿时间轴拟合三次多项式并存储所得的 4 个系数。因此我设置了chunksize=(6000, 1, 1, 1)所以我为每个网格点都有一个单独的块。

这是我获取三次多项式系数的函数（time_axis轴值是在其他地方定义的全局一维 numpy 数组）：

def my_polyfit(data):    
    return numpy.polyfit(data.squeeze(), time_axis, 3)

（所以在这种情况下，numpy.polyfit返回长度为 4 的列表）

这是我认为需要将其应用到每个块的命令：

dask_array.map_blocks(my_polyfit, chunks=(4, 1, 1, 1), drop_axis=0, new_axis=0).compute()

时间轴现在消失了（因此drop_axis=0）并且在它的位置上有一个新的系数轴（长度为 4）。

当我运行这个命令时我得到IndexError: tuple index out of range，所以我想知道我在哪里/如何误解了map_blocks?

我怀疑如果您的函数返回与其消耗的维度相同的数组，您的体验会更顺畅。例如。您可以考虑按如下方式定义您的函数：

def my_polyfit(data):
    return np.polyfit(data.squeeze(), ...)[:, None, None, None]

那么你可能可以忽略new_axis, drop_axis bits.

从性能角度来看，您可能还需要考虑使用更大的块大小。如果每个块有 6000 个数字，您就有超过一百万个块，这意味着您可能会在调度上花费比实际计算更多的时间。一般来说，我会拍摄几兆字节大小的块。当然，增加块大小会导致映射函数变得更加复杂。

Example

In [1]: import dask.array as da

In [2]: import numpy as np

In [3]: def f(b):
    return np.polyfit(b.squeeze(), np.arange(5), 3)[:, None, None, None]
   ...: 

In [4]: x = da.random.random((5, 3, 3, 3), chunks=(5, 1, 1, 1))

In [5]: x.map_blocks(f, chunks=(4, 1, 1, 1)).compute()
Out[5]: 
array([[[[ -1.29058580e+02,   2.21410738e+02,   1.00721521e+01],
         [ -2.22469851e+02,  -9.14889627e+01,  -2.86405832e+02],
         [  1.40415805e+02,   3.58726232e+02,   6.47166710e+02]],
         ...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Dask

沿 dask 数组的轴应用函数的相关文章

如何恢复tensorflow inceptions检查点文件（ckpt）？

I have inception resnet v2 2016 08 30 ckpt文件是预先训练的初始模型我想使用恢复这个模型 saver restore sess ckpt filename 但为此我将需要编写训练该模型时使用的变量
在 Python 中解析 TCL 列表

我需要在双括号上拆分以空格分隔的 TCL 列表例如 OUTPUT 172 25 50 10 01 01 Ethernet 172 25 50 10 01 02 Ethernet Traffic Item 1 172 25 50 10 01
Pandas set_levels，如何避免标签排序？

我使用时遇到问题set levels多索引 from io import StringIO txt Name Height Age Metres A 1 25 B 95 1 df pd read csv StringIO txt heade
Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

AWS 安全组 - EC2 到 RDS

我想问一下如何将 EC2 连接到 AWS 中的 RDP 我已将 EC2 安全组包含 EC2 实例添加到默认 RDP 组中并且数据正在流动连接正常 EC2 安全组已启用端口 80 至 0 0 0 0 0 并通过 SSH 连接到我的 I
错误：不变违规：dangerouslyRenderMarkup(...)：无法在工作线程中渲染标记

设置状态导致第二次渲染后反应测试失败到目前为止 JSDOM 和 Mocha 的测试进展顺利到目前为止还没有必要测试任何改变其状态的组件我发现我的第一个问题是测试一个改变其状态的组件错误 1 Reduced Test Case cu
JavaFX 在全屏模式下更改场景

我在使用 JavaFX 时遇到问题我创建了两个场景和切换按钮当我单击该按钮时我正在改变场景但早些时候我将全屏设置为 true 按下按钮后 Windows 任务栏会显示一会儿有没有办法在不显示此任务栏的情况下更改场景有代码主班
是否有所有国际句号标点符号的字符集？

我正在尝试将 utf 8 字符串解析为一口大小的段例如我想将文本分解为句子是否存在与所有语言的句子结尾相对应的字符或正则表达式的全面集合我正在寻找能够捕捉拉丁语句号感叹号和问号中文和日文句号等的东西类似上面的东西但
未捕获的 InvalidValueError：不是功能或功能集合

看到最近的一个video由 Google 开发人员制作我决定制作一张英国的区域地图这个网站上提到了几种可能性但我后来不得不放弃所以我最终使用了这个网站数据下载的示例页面 http mapit mysociety org area
RxJs Observables：在更多异步请求后运行 retryWhen

我的用例是用户从我们的 API 请求资产由于 JWT 过期而失败作为 httpOnly cookie 传递 API 返回 401 状态代码我们再次使用refresh token对它们进行身份验证无需用户执行任何操作以通过客户端向
查询查找外键

我有一个数据库需要删除一些外键但我事先不知道外键是否仍然存在我发现了一些存储过程 http forums mysql com read php 97 218825 247526 这可以解决问题但我不想为此创建存储过程我尝试在存储过
使用 Wss4jSecurityInterceptor 会引发 WRONG_DOCUMENT_ERR：节点在与创建它的文档不同的文档中使用

我正在将应用程序升级到 Java 11 和 Spring boot 2 1 2 并在尝试通过 SOAP 与外部合作伙伴进行通信时遇到以下错误导致此问题的是 Wss4jSecurityInterceptor 在运行 java 8 和 Spr
为什么使用 ConfigurationManager.GetSection 会导致“SecurityException：请求失败”，但 ConfigurationManager.OpenExeConfiguration 不会？

我有一些好奇的事情希望 Net 专家可以帮助我我有一个自定义配置部分为了掌握它我这样做 var s TestConfigurationSection ConfigurationManager GetSection testSectio
CSS Hacks、Firefox 3.5 和 Google Chrome

我四处搜寻据说 body nth of type 1 在 CSS 中使用仅针对 Safari 和 Google Chrome 你瞧 Mozilla 也正确地解读了它我又搜索了十遍但一无所获所以我就在这里有没有仅适用于 Google
安装 Raqm (Libraqm) Windows 10

我正在尝试改变方向 of text on an image using pil on python3 但我无法这样做因为依赖性未安装 libraqm 我找不到安装方法libraqm 我尝试通过pip安装但是没有成功我也尝试找到它我找
寻找最大元素的时间复杂度分析

我遇到了一个家庭作业问题其中哪一个是最佳算法最佳情况运行时间的渐近紧上限该算法在任意大小的整数数组中查找最大元素n O log n O n2 O n O 1 O n log n 根据我的理解它是 O n 因为即使这是最好的情况我们仍然
Windows 10 Gradle：JAVA_HOME 设置为无效目录

我试图奔跑 gradlew bootRun同时Git Bash and 电源外壳并得到这个错误 ERROR JAVA HOME is set to an invalid directory C Program Files Java jre
如何对 C# 和 F# 尽可能友好地公开类型？

例如如果我用 F 编写了一个模块 module Lib type A member this x1 x let helpa x let helpb x type B member this y1 x let helpc x typeA w
在 Google 跟踪代码管理器中的 Analytics 上跟踪本地主机

我在使用 Google 标签管理器在本地主机上跟踪 Google Analytics 时遇到问题我可以在 Analytics API 上看到 https developers google com analytics devguides
如何使用 Intent 过滤器仅过滤特定 URL

我想过滤特定的 URL http gaapa cz mobile 但是这个过滤器会在每个 URl 上触发这是错误的吗
检测 scala 对象中的内部对象

我想获取 scala 对象的内部对象列表示例代码 object Outer val v def d object O1 object O2 object Main def main args Array String Outer getC
如何使用 Spring Security Java 配置将 HTTP 请求重定向到 HTTPS？

我有一个 Spring Security 版本 3 2 3 应用程序它监听 HTTP 和 HTTPS 我希望对 HTTP 端口的任何请求都重定向到 HTTPS 如何仅使用 Java 进行配置 Spring Security javadoc
Volley JsonObjectRequest Post 参数不再起作用

我正在尝试在 Volley JsonObjectRequest 中发送 POST 参数最初它正在工作对我来说遵循官方代码所说的在 JsonObjectRequest 的构造函数中传递包含参数的 JSONObject 的操作然后突然它
沿 dask 数组的轴应用函数

我正在分析来自气候模型模拟的海洋温度数据其中 4D 数据数组时间深度纬度经度表示为dask array下面通常具有 6000 31 189 192 的形状和 25GB 的大小因此我希望使用 dask 尝试使用 numpy 处

沿 dask 数组的轴应用函数

Example

沿 dask 数组的轴应用函数 的相关文章

随机推荐

热门标签

沿 dask 数组的轴应用函数的相关文章