来自 DataFrame 的 Dask 数组

2023-12-20

有没有一种方法可以轻松地将数值数据帧转换为数组?如同values使用 pandas DataFrame。我似乎找不到任何方法来使用提供的 API 来执行此操作,但我认为这是一个常见的操作。


编辑:是的,现在这是微不足道的

您可以使用.values财产

x = df.values

旧的,现在不正确的答案

目前还没有简单的方法可以做到这一点。这是因为 dask.array 需要知道其所有块的长度,而 dask.dataframe 不知道这个长度。这不可能是一个完全懒惰的操作。

话虽这么说,你可以使用它来完成它延迟延迟 http://dask.pydata.org/en/latest/delayed-overview.html如下:

import dask.array as da
from dask import compute

def to_dask_array(df):
    partitions = df.to_delayed()
    shapes = [part.values.shape for part in partitions]
    dtype = partitions[0].dtype

    results = compute(dtype, *shapes)  # trigger computation to find shape
    dtype, shapes = results[0], results[1:]

    chunks = [da.from_delayed(part.values, shape, dtype) 
              for part, shape in zip(partitions, shapes)]
    return da.concatenate(chunks, axis=0)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

来自 DataFrame 的 Dask 数组 的相关文章

  • 如何将压缩的 (gz) CSV 文件读入 dask Dataframe 中?

    有没有办法读取通过 gz 压缩到 dask 数据帧中的 csv 文件 我直接尝试过 import dask dataframe as dd df dd read csv Data gz 但出现 unicode 错误 可能是因为它正在解释压缩
  • 来自 DataFrame 的 Dask 数组

    有没有一种方法可以轻松地将数值数据帧转换为数组 如同values使用 pandas DataFrame 我似乎找不到任何方法来使用提供的 API 来执行此操作 但我认为这是一个常见的操作 编辑 是的 现在这是微不足道的 您可以使用 valu
  • 与 HDF5 相比,为什么从 CSV 导入时 pandas 和 dask 的性能更好?

    我正在使用的系统当前运行大型 gt 5GB csv 文件 为了提高性能 我正在测试 A 从磁盘创建数据帧的不同方法 pandas VSdask http pythondata com dask large csv python 以及 B 将
  • 使用 Daskivot_table 后,我丢失了索引列

    在将数据透视表用于 Dask Dataframe 并将数据保存到 Parquet 文件后 我丢失了索引列 import dask dataframe as dd import pandas as pd df pd DataFrame df
  • 在 SageMath 中运行时使用 Dask 会抛出 ImportError

    最近 我一直在尝试使用 Dask 并行化一些 Sage 运行 OSX 11 2 3 的 MacBook Pro 上的 Sage 9 4 代码 我遇到的问题是 虽然我可以在 Sage 中运行 Dask 但每当我包含任何非 纯 python 代
  • Dask:Dataframe groupBy 上的独特方法

    我想知道在使用 Dask 进行 groupBy 聚合后是否可以获取给定列中唯一项目的数量 我在文档中没有看到类似的内容 它可以在 pandas dataframe 上使用并且非常有用 我已经看到一些与此相关的问题 但我不确定它是否已实施 有
  • dask:并行模型中的共享内存

    我已经阅读了 dask 文档 博客等 但我仍然不是 100 清楚如何做到这一点 我的用例 我有大约 10GB 的参考数据 一旦加载 它们就是只读的 通常我们将它们加载到 Dask Pandas 数据框中 我需要这些参考数据来处理 丰富 修改
  • 集群上运行的 Dask 程序出现文件未找到错误

    我有 4 台机器 M1 M2 M3 和 M4 调度程序 客户端 工作线程都在 M1 上运行 我已将 csv 文件放入 M1 中 其余的机器都是工人 当我在 dask 中使用 read csv 文件运行程序时 它给我错误 找不到文件 当您的一
  • dask 和 pandas 数据帧中 apply 的不兼容性

    的一个样本triggers我的专栏Dask数据框看起来像下面这样 0 Total Traffic DNS UDP 1 TCP RST 2 Total Traffic 3 IP Private 4 ICMP Name triggers dty
  • 使用 pandas 从 Google Cloud Storage 读取 CSV 文件

    我正在尝试将一堆 CSV 文件从 Google Cloud Storage 读取到 pandas 数据帧中 如中所述将 csv 从 Google Cloud 存储读取到 pandas 数据框 https stackoverflow com
  • 如何在单线程中运行 dask.distributed 集群?

    如何在单个线程中运行完整的 Dask distributed 集群 我想用它来调试或分析 注意 这是一个常见问题 我将这里的问题和答案添加到 Stack Overflow 中 仅供将来重用 本地调度程序 如果您可以使用单机调度程序的 API
  • 本地 Dask 工作线程无法连接到本地调度程序

    在 OSX 10 12 6 上运行 Dask 0 16 0 时 我无法连接本地dask worker给当地人dask scheduler 我只是想关注官方达斯克教程 https github com dask dask tutorial b
  • python dask DataFrame,支持(可并行化)行应用吗?

    我最近发现dask http dask pydata org en latest index html旨在成为一个易于使用的 python 并行处理模块 对我来说最大的卖点是它可以与熊猫一起使用 在阅读了其手册页后 我找不到一种方法来完成这
  • Dask“没有名为 xxxx 的模块”错误

    使用dask分布式我尝试提交一个位于另一个名为worker py的文件中的函数 在工人中我有以下错误 没有名为 worker 的模块 但是我无法弄清楚我在这里做错了什么 这是我的代码示例 import worker def run self
  • dask allocate() 或 apply() 中的变量列名

    我有适用于pandas 但我在将其转换为使用时遇到问题dask 有一个部分解决方案here https stackoverflow com questions 32363114 how do i change rows and column
  • dask apply:AttributeError:“DataFrame”对象没有属性“name”

    我有一个参数数据框 并对每一行应用一个函数 该函数本质上是几个 sql queries 和对结果的简单计算 我正在尝试利用 Dask 的多处理 同时保持结构和界面 下面的例子有效并且确实有显着的提升 def get metrics row
  • python future 和元组解包

    实现像使用 future 进行元组解包这样的事情的优雅 惯用的方法是什么 我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货 理想情况下我想写一些类似的东西 a b c ex submit f x y
  • 用发电机创建一个背包

    我想创建一个dask Bag or dask Array 来自生成器列表 问题是生成器 评估时 对于内存来说太大了 delayed array delayed generator for generator in list of gener
  • 如何使用分布式 Dask 和预先训练的 Keras 模型进行模型预测?

    我正在加载预训练的 keras 模型 然后尝试使用 dask 并行化大量输入数据 不幸的是 我遇到了一些与我如何创建 dask 数组有关的问题 任何指导将不胜感激 Setup 首先我从这个仓库克隆https github com sanch
  • 从“dask.DataFrame”中切出几行

    通常 当与大型企业合作时dask DataFrame 仅获取几行来测试所有后续操作会很有用 目前 根据对 Dask 数据框进行切片 https stackoverflow com questions 44475492 slicing a d

随机推荐

  • JavaScript解析字符串和对象的引用[重复]

    这个问题在这里已经有答案了 是否可以通过对象本身获取对象的引用 obj 以及字符串形式的属性 地址 城镇 街道 所以最后它解决了 obj 地址 城镇 街道 我可以想象 eval 函数 Try function getValue obj pa
  • Echo 将我的制表符更改为空格

    我将来自网络的以下结构作为如何在 BASH 中读取文件的基本示例 cat inputfile txt while read line do echo line done 不过 我的 inputfile txt 是制表符分隔的 并且上述命令中
  • 何时索引、在 Mongoid 中索引什么?

    我对索引有点陌生 但我对索引的用例很好奇 我认为它使对索引字段的查询速度更快 是否有确定索引内容和何时索引的标准 我应该期望获得什么样的性能优势 特别是在 Rails 应用程序上将 Mongoid 与 MongoDb 结合使用 查看Inde
  • 如何停止 goroutine [重复]

    这个问题在这里已经有答案了 我有一个调用函数的 goroutine 并且有一个特殊参数 我想启动或停止这个 goroutine 我的问题是这段代码永远不会停止我的 goroutine 它每次都会创建一个新作业 quit make chan
  • TextView Marquee 不起作用[重复]

    这个问题在这里已经有答案了 我尝试过使用选框但不起作用 这是我的代码 请让我知道哪里出了问题
  • 单击标记时,Google 地图 v3 打开最后一个信息窗口

    我有一个共享的infoWindow对于我所有的标记 如果我使用 jquery 的话效果很好 each function 但是如果我将其更改为 JavaScrips 的本机 for 或 while 循环 则它不会按预期工作 每当我单击一个标记
  • 为什么它返回一个随机值而不是我给函数的值?

    在C程序中 有一个交换函数 该函数采用一个名为x的参数 我希望它通过更改主函数内交换函数中的x值来返回它 当我将参数视为变量时 我想要它 但是当我直接为参数设置整数值时 程序会产生随机输出 include
  • 与 Nodejs Express 共享 Laravel 4 会话

    我正在尝试从 NodeJS 上标头的 Cookie 中获取 Laravel 会话 ID 到目前为止我已经尝试过 function nodeDecrypt data key iv var decipher crypto createDecip
  • 使用 CQL 3.0 在集合上创建自定义索引

    我一直在关注CQL 3 0数据建模文档 http www datastax com documentation cql 3 0 webhelp cql ddl ddl anatomy table c html concept ds qqw
  • 禁用数据库访问

    我创建了一个 MySQL 服务器 现在用户login可以访问所有数据库 我希望该用户无法访问 因此无法执行任何操作 3 个数据库 information schema mysql phpmyadmin 所以用户可以使用除这 3 个之外的所有
  • GCC 接受 `constexpr struct {} s;`,但 Clang 拒绝它。谁是正确的?

    以下代码可以使用 GCC 正常编译 constexpr struct s 但 Clang 拒绝了它 并出现以下错误 错误 默认初始化 const 类型 const struct anonymous struct at 对象 而没有用户提供的
  • Docker Compose 中的无效类型错误

    我在 Docker Compose 中遇到错误 撰写文件是 version 2 services api build context dockerfile webapi dockerfile ports 210 web build cont
  • 无法在 app.module 中导入 MatDialogModule

    我是角度初学者 我正在使用角度材质对话框 首先 我向我的项目添加了材料并使用它 angular material 当我添加 import MatDialogModule from angular material dialog in app
  • Django 的 classonly 方法有什么用? [复制]

    这个问题在这里已经有答案了 源代码如下 class classonlymethod classmethod def get self instance owner if instance is not None raise Attribut
  • 如何使用Java Swing实现可拖动选项卡?

    如何使用 Java Swing 实现可拖动选项卡 我想将选项卡拖放到不同位置以重新排列选项卡 而不是静态 JTabbedPane EDIT Java 教程 拖放和数据传输 http java sun com docs books tutor
  • AngularJS,ng-repeat 和 ng-include 不渲染

    你好 我开始学习 Angular 当我结合使用 ng repeat 和 ng include 时遇到了问题 无论我做什么 我都无法渲染模板 我有一个简单的控制器 用于创建工作区列表 每个工作区都有一个 TemplateUrl 属性 我知道该
  • Chrome 中比 translateZ(0) 更好的解决方案来解决子像素边框图像缩放问题

    我遇到了边界图像切片线显示在使用 Transform scale 放大的元素上的问题 如下所示 这似乎只发生在 Chrome 中 通过阅读其他帖子 这似乎是 Chrome 子像素渲染问题 我尝试过 backface visibility h
  • ColdFusion CFC CORS 和 AJAX 帖子

    我正在尝试将表单发布到远程服务器 目前的总体思路是 HTML 将在本地运行并通过 AJAX 发布到远程服务器 因此有一个表单 JS 和它要发布到的 CFC 下面是JS document ready function submit click
  • 如何在 Swagger 规范中接收动态响应

    我想通过我的 API 从我的数据库请求一个表 但是 我不知道该表将有多少列 也不知道它将包含什么 我如何在 Swagger 中指定这一点 这就是我想做的 paths reports id get summary Detailed resul
  • 来自 DataFrame 的 Dask 数组

    有没有一种方法可以轻松地将数值数据帧转换为数组 如同values使用 pandas DataFrame 我似乎找不到任何方法来使用提供的 API 来执行此操作 但我认为这是一个常见的操作 编辑 是的 现在这是微不足道的 您可以使用 valu