map_partitions的返回值是多少？

2023-11-21

dask API 表示，map_partition 可用于“在每个 DataFrame 分区上应用 Python 函数”。根据此描述并根据“map”的通常行为，我期望 map_partitions 的返回值是（类似于）一个长度等于分区数量的列表。列表中的每个元素都应该是函数调用的返回值之一。

但是，对于以下代码，我不确定返回值取决于什么：

#generate example dataframe
pdf = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD'))
ddf = dd.from_pandas(pdf, npartitions=3)

#define helper function for map. VAL is the return value
VAL = pd.Series({'A': 1})
#VAL = pd.DataFrame({'A': [1]}) #other return values used in this example
#VAL = None
#VAL = 1
def helper(x):
    print('function called\n')
    return VAL

#check result
out = ddf.map_partitions(helper).compute()
print(len(out))

VAL = pd.Series({'A': 1})导致 4 个函数调用（可能有 1 个用于推断 dtype，3 个用于分区）以及 len == 3 和类型 pd.Series 的输出。
pd.DataFrame({'A': [1]})结果相同，但结果类型是 pd.DataFrame。
VAL = None导致 TypeError ...为什么？ map_partitions 的可能用途不能是do某事而不是return某物？
VAL = 1结果只有 2 个函数调用。 map_partitions的结果是整数1。

因此，我想问一些问题：

map_partitions的返回值是如何确定的？
除了分区数量之外，还有哪些因素影响函数调用的数量/每个分区调用一次函数需要满足什么标准？
只“执行”某些操作（即过程）的函数的返回值应该是什么？
应该如何设计一个返回任意对象的函数？

The Dask DataFrame.map_partitions函数根据映射函数的输出类型返回一个新的 Dask Dataframe 或 Series。请参阅API文档以获得彻底的解释。

map_partitions的返回值是如何确定的？

请参阅上面提到的 API 文档。
除了分区数量之外，还有哪些因素影响函数调用的数量/每个分区调用一次函数需要满足什么标准？

你是对的，我们立即调用它一次来猜测输出的数据类型/列。您可以通过指定一个来避免这种情况meta=直接关键字。除此之外，每个分区都会调用该函数一次。
只“执行”某些操作（即过程）的函数的返回值应该是什么？

您始终可以返回一个空数据框。您可能还想考虑将数据帧转换为一系列延迟延迟对象，通常更常用于临时计算。
应该如何设计一个返回任意对象的函数？

如果您的函数不返回系列/数据帧，那么我建议将您的数据帧转换为一系列延迟延迟对象与DataFrame.to_delayed method.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Dask

map_partitions的返回值是多少？的相关文章

DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

覆盖 lxml 行为以编写 Null 标签的结束和开始元素

root etree Element document rootTree etree ElementTree root firstChild etree SubElement root test 输出是
Angular材料日期选择器限制范围选择

我有一个有角度的材料日期选择器范围开始日期和结束日期目前它是自由选择的这意味着我可以选择任何开始日期和任何结束日期我想稍微改变一下我希望将差异限制在 7 天之内我不想让用户选择 2 个日期相差超过 7 天的日期所以在日历里
Wi-Fi Direct 和“普通”Wi-Fi - 不同的 MAC？

我目前正在尝试通过 Wi Fi Direct 连接两部知道彼此 MAC 地址的手机并偶然发现以下问题我收到的 MAC 地址 WifiManager wifiMan WifiManager this getSystemService Co
从 Shiny App 调用 R 脚本

我开发了一个闪亮的应用程序它显示一些动态图表这些图表是在执行时根据某些按钮的值生成的这个闪亮的应用程序从之前经过处理和转换的原始 csv 中获取数据除了闪亮的应用程序之外我还得到了一个 Rscript 来对原始数据进行所有这些转
如何将 DispatchTimeInterval 转换为 NSTimeInterval （或 Double）？

我需要减去一个DispatchTimeInterval从一个NSTimeInterval or Double 有没有标准的方法来转换DispatchTimeInterval to an NSTimeInterval DispatchTime
如何使 Flexbox 底部元素的内容为其容器的 100% 高度

如果我制作一个具有 2 个子项和列流的 Flexbox 并将第二个子项设置为flex grow 1第二个子项扩展以填充弹性盒这有效 ps 不想让示例与 safari 支持变得混乱所以使用 Chrome 或 Firefox box siz
广播意图回调：result=CANCELLED forIntent

我有一个移动应用程序它注册到 c2dm 服务器我有一个服务器向我的应用程序发送消息以推送通知服务器从 google c2dm 接收到 ok 结果代码在 LogCat 中我看到我的应用程序收到了消息但立即产生了我在帖子中遇到的错误
Google Apps 脚本的 Jdbc 连接错误

我创建了一个 Google Cloud Project MySQL 数据库与 Google Apps 脚本提供的 Jdbc 服务结合使用连接一切都按计划进行我基本上按照文档中的方式进行连接 var conn Jdbc getCloud
创建网站的移动版本

我正在寻找创建我们网站网络应用程序的移动版本有什么好方法可以提供最好的功能最全的版本创建它的部分原因是而不是 iPhone 应用程序所以我想提供一个 iPhone Web 应用程序充分利用 iPhone 版本的 WebKit 因
嵌套 if 语句和“&&”运算符

if a b c d doSomething if a if b if c if d doSomething 这两者之间有任何性能差异吗例如当a 变为0的情况下它会继续运行第一个if语句中的b c 和d 吗或者它的工作方式与第二
c 中右值存储在哪里？

在C中我有这段代码 int a a 10 5 3 我想问 10 5 3 存放在哪里据我所知 a位于堆栈上怎么样 10 5 3 这个右值是如何计算的通常右值存储在程序本身内换句话说编译器本身在程序运行之前计算 10 5
为CDK中的资源添加条件

我创建了一个将部署在多个区域的 CDK 堆栈其中一个构造只能部署在一个区域在 Cloudformation 中我只需向资源添加一个条件但我还没有找到一种方法来对 CDK 构造执行类似的操作可以定义一个CfnCondition并将其
精确控制 GLSL 中的纹理位

我正在尝试使用 OpenGL 和 GLSL 实现八叉树遍历方案并且希望将数据保留在纹理中虽然纹理数据有多种格式可供选择不同大小的浮点数和整数但我在弄清楚是否有一种方法可以更精确地控制位从而实现更高的效率和紧凑的存储方面遇到了一些麻
如何计算jquery中mousedown事件期间的时间？

我试图在 mousedown up 事件上的一个按钮上执行 2 个不同的功能但它不起作用因为我无法检测 mousedown 事件的时间 var flag ClikerButton mousedown function e if mous
获取目录中文件的数量

如何统计目录中的文件数我在类参考中找不到任何相关内容NSFileManager contentsOfDirectoryAtPath error 返回一个NSArray 只需发送count到数组
LLDB (Swift)：将原始地址转换为可用类型

是否有一个 LLDB 命令可以将原始地址转换为可用的 Swift 类例如 lldb po 0x7df67c50 as MKPinAnnotationView 我知道这个地址指向 MKPinAnnotationView 但它不在我可以选择的
为什么 pandas DataFrame 可以互相改变？

我试图保留 pandas DataFrame 的副本以便我可以在保存原始数据的同时对其进行修改但是当我修改副本时原始数据框也会发生变化前任 df1 pd DataFrame col1 a b c d col2 1 2 3 4 df1
onCompleted 可以与 useMutation 一起使用吗？

我在 React 项目中使用 useMutation 钩子突变运行成功但之后未达到 onCompleted 我已在突变中将notifyOnNetworkStatusChange 设置为true 但这似乎没有帮助 const create
OnClickListener - 事件的 x,y 位置？

我有一个从 View 派生的自定义视图我希望在单击视图时收到通知以及单击发生的 x y 位置长按也是如此看起来像这样做我需要覆盖onTouchEvent 有没有办法从事件的 x y 位置OnClickListener相反但是如
map_partitions的返回值是多少？

dask API 表示 map partition 可用于在每个 DataFrame 分区上应用 Python 函数根据此描述并根据 map 的通常行为我期望 map partitions 的返回值是类似于一个长度等于分区数量的列

map_partitions的返回值是多少？

map_partitions的返回值是多少？ 的相关文章

随机推荐

热门标签

map_partitions的返回值是多少？的相关文章