Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在 SageMath 中运行时使用 Dask 会抛出 ImportError
最近 我一直在尝试使用 Dask 并行化一些 Sage 运行 OSX 11 2 3 的 MacBook Pro 上的 Sage 9 4 代码 我遇到的问题是 虽然我可以在 Sage 中运行 Dask 但每当我包含任何非 纯 python 代
Dask
SAGE
使用 Python 在 Parquet 中嵌套数据
我有一个文件 每行一个 JSON 这是一个示例 product id abcdef price 19 99 specs voltage 110v color white user Daniel Severo 我想创建一个包含以下列的镶木地板
python
json
parquet
Dask
Python Dask:无法将非有限值(NA 或 inf)转换为整数
我正在尝试从 postregres 表中捕获一个非常大的结构化表 它大约有 200 000 000 条记录 我在用dask而不是 pandas 因为它更快 当我将数据加载到df它比 pandas 快得多 我正在尝试使用将 dask Data
python3x
pandas
Dask
如何重命名 Dask Dataframe 的索引
我将如何重命名 dask 数据帧上的索引 我尝试过像这样 df index name foo 但重新检查 df index name 显示它仍然是以前的样子 这似乎不是一种有效的方法 所以如果有更直接的方法我不会感到惊讶 d index n
python
pandas
Dask
在 Pandas DataFrame 中保留具有一定数量的非 NaN 条目的索引
假设我有以下数据框 df1 pd DataFrame data 1 np nan np nan 1 1 np nan 1 1 1 columns X index a a a b b b c c c print df1 X a 1 0 a N
python
pandas
Dask
Dask:定期更新已发布的数据集并从其他客户端提取数据
我想将数据附加到published dask dataset来自队列 如 redis 然后其他 python 程序将能够获取最新数据 例如每秒 分钟一次 并执行一些进一步的操作 这可能吗 应该使用哪个附加接口 我应该将它加载到pd Data
Dask
daskdistributed
daskdataframe
如何正确使用dask的upload_file()将本地代码传递给worker
我有一个函数local code py我想通过 dask 传递给工作人员的文件 我在这里看到了问题的答案 说这可以使用upload file 功能 但我似乎无法让它工作 因为我仍然得到ModuleNotFoundError 相关部分代码如下
python
Dask
daskdistributed
演员和幕后工作者
client Client 127 0 0 1 8786 direct to workers True future1 client submit Counter workers ninja actor True counter1 futu
Dask
daskdistributed
有没有办法获得 dask 中每组最大的项目?
我有以下数据集 location category percent A 5 100 0 B 3 100 0 C 2 50 0 4 13 0 D 2 75 0 3 59 0 4 13 0 5 4 0 我正在尝试获取数据框中按位置分组的最大类别
pandas
GROUPING
Dask
TopN
以内存高效的方式将大型 csv 读入稀疏 pandas 数据帧
熊猫read csv函数似乎没有稀疏选项 我有 csv 数据 里面有很多零 它压缩得很好 并且去掉了任何0值将其减小到几乎原始大小的一半 我尝试先将其加载到密集矩阵中read csv然后打电话to sparse 但它需要很长时间并且在文本字
python
pandas
NumPy
scipy
Dask
Dask 中的遮罩
我只是想知道是否有人可以帮助我展示如何使用 dask 在掩码数组上应用 sum 或 mean 等函数 我希望仅计算没有掩码的值的数组的总和 平均值 Code import dask array as da import numpy as n
mask
Dask
使用 Daskivot_table 后,我丢失了索引列
在将数据透视表用于 Dask Dataframe 并将数据保存到 Parquet 文件后 我丢失了索引列 import dask dataframe as dd import pandas as pd df pd DataFrame df
python
Dask
在“from_delayed”JSON 文件中发现 DASK 元数据不匹配
我刚刚开始我的冒险DASK我正在学习 json 格式的示例数据集 我知道对于初学者来说这不是世界上最简单的数据格式 我有一个数据集json格式 我通过加载数据dd read json到数据框 一切顺利 问题发生在 例如 compute or
python
Dataset
Bigdata
Dask
与 HDF5 相比,为什么从 CSV 导入时 pandas 和 dask 的性能更好?
我正在使用的系统当前运行大型 gt 5GB csv 文件 为了提高性能 我正在测试 A 从磁盘创建数据帧的不同方法 pandas VSdask http pythondata com dask large csv python 以及 B 将
python
HDF5
Dask
如何在多台机器上运行dask? [关闭]
Closed 这个问题需要多问focused help closed questions 目前不接受答案 我最近找到了达斯克 我有关于 Dask Dataframe 和其他数据结构的非常基本的问题 Dask Dataframe 是不可变数据
Dask
来自 DataFrame 的 Dask 数组
有没有一种方法可以轻松地将数值数据帧转换为数组 如同values使用 pandas DataFrame 我似乎找不到任何方法来使用提供的 API 来执行此操作 但我认为这是一个常见的操作 编辑 是的 现在这是微不足道的 您可以使用 valu
Dask
如何将压缩的 (gz) CSV 文件读入 dask Dataframe 中?
有没有办法读取通过 gz 压缩到 dask 数据帧中的 csv 文件 我直接尝试过 import dask dataframe as dd df dd read csv Data gz 但出现 unicode 错误 可能是因为它正在解释压缩
python
csv
pandas
Dask
dask 持久行为不一致
如果我注释掉这一行 我发现 dask 的奇怪行为仍然存在 client Client memory limit 20GB n workers 1 Connect to distributed cluster and override def
python
python3x
Dask
daskdistributed
如何从 Dask-Yarn 作业中捕获工人的日志?
我尝试过使用以下内容 config dask distributed yaml and config dask yarn yaml logging file config path to config ini or logging vers
Dask
如何使用 Dask.array 高效地将大型 numpy 数组发送到集群
我的本地计算机上有一个大型 NumPy 数组 我想将其与集群上的 Dask array 并行化 import numpy as np x np random random 1000 1000 1000 然而 当我使用 dask array
NumPy
Dask
«
1
2
3
4
5
6
7
»