map_partitions的返回值是多少?

2023-11-21

dask API 表示,map_partition 可用于“在每个 DataFrame 分区上应用 Python 函数”。根据此描述并根据“map”的通常行为,我期望 map_partitions 的返回值是(类似于)一个长度等于分区数量的列表。列表中的每个元素都应该是函数调用的返回值之一。

但是,对于以下代码,我不确定返回值取决于什么:

#generate example dataframe
pdf = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD'))
ddf = dd.from_pandas(pdf, npartitions=3)

#define helper function for map. VAL is the return value
VAL = pd.Series({'A': 1})
#VAL = pd.DataFrame({'A': [1]}) #other return values used in this example
#VAL = None
#VAL = 1
def helper(x):
    print('function called\n')
    return VAL

#check result
out = ddf.map_partitions(helper).compute()
print(len(out))
  • VAL = pd.Series({'A': 1})导致 4 个函数调用(可能有 1 个用于推断 dtype,3 个用于分区)以及 len == 3 和类型 pd.Series 的输出。
  • pd.DataFrame({'A': [1]})结果相同,但结果类型是 pd.DataFrame。
  • VAL = None导致 TypeError ...为什么? map_partitions 的可能用途不能是do某事而不是return某物?
  • VAL = 1结果只有 2 个函数调用。 map_partitions的结果是整数1。

因此,我想问一些问题:

  1. map_partitions的返回值是如何确定的?
  2. 除了分区数量之外,还有哪些因素影响函数调用的数量/每个分区调用一次函数需要满足什么标准?
  3. 只“执行”某些操作(即过程)的函数的返回值应该是什么?
  4. 应该如何设计一个返回任意对象的函数?

The Dask DataFrame.map_partitions函数根据映射函数的输出类型返回一个新的 Dask Dataframe 或 Series。请参阅API文档以获得彻底的解释。

  1. map_partitions的返回值是如何确定的?

    请参阅上面提到的 API 文档。

  2. 除了分区数量之外,还有哪些因素影响函数调用的数量/每个分区调用一次函数需要满足什么标准?

    你是对的,我们立即调用它一次来猜测输出的数据类型/列。您可以通过指定一个来避免这种情况meta=直接关键字。除此之外,每个分区都会调用该函数一次。

  3. 只“执行”某些操作(即过程)的函数的返回值应该是什么?

    您始终可以返回一个空数据框。您可能还想考虑将数据帧转换为一系列延迟延迟对象,通常更常用于临时计算。

  4. 应该如何设计一个返回任意对象的函数?

    如果您的函数不返回系列/数据帧,那么我建议将您的数据帧转换为一系列延迟延迟对象与DataFrame.to_delayed method.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

map_partitions的返回值是多少? 的相关文章

  • DreamPie 不适用于 Python 3.2

    我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用 我使用了 添加解释器 DreamPie 应用程序并添加了 Python 3 2
  • Python 多处理示例不起作用

    我正在尝试学习如何使用multiprocessing但我无法让它发挥作用 这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
  • 如何在Windows上模拟socket.socketpair

    标准Python函数套接字 套接字对 https docs python org 3 library socket html socket socketpair不幸的是 它在 Windows 上不可用 从 Python 3 4 1 开始 我
  • 如何等到 Excel 计算公式后再继续 win32com

    我有一个 win32com Python 脚本 它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的 这可能需要一分钟 如何强制工作簿计算值
  • 打破嵌套循环[重复]

    这个问题在这里已经有答案了 有没有比抛出异常更简单的方法来打破嵌套循环 在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签 并且至少继续一个外循环 for x in range 10 fo
  • Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

    据我了解 distinct 哈希分区 RDD 来识别唯一键 但它是否针对仅移动每个分区的不同元组进行了优化 想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上 所有重复键
  • 运行多个 scrapy 蜘蛛的正确方法

    我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
  • 在 NumPy 中获取 ndarray 的索引和值

    我有一个 ndarrayA任意维数N 我想创建一个数组B元组 数组或列表 其中第一个N每个元组中的元素是索引 最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
  • Python 中的二进制缓冲区

    在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区 内存映射文件 https docs python org library mmap
  • python pandas 中的双端队列

    我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
  • Pandas Dataframe 中 bool 值的条件前向填充

    问题 如何转发 fill boolTruepandas 数据框中的值 如果是当天的第一个条目 True 到一天结束时 请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
  • 表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

    这个问题在这里已经有答案了 我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
  • 从 pygame 获取 numpy 数组

    我想通过 python 访问我的网络摄像头 不幸的是 由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
  • 如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

    给定一个在多个服务器上同时执行的 Django 应用程序 该应用程序如何记录到单个共享日志文件 在网络共享中 而不保持该文件以独占模式永久打开 当您想要利用日志流时 这种情况适用于 Windows Azure 网站上托管的 Django 应
  • 如何从没有结尾的管道中读取 python 中的 stdin

    当管道来自 打开 时 不知道正确的名称 我无法从 python 中的标准输入或管道读取数据 文件 我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
  • 在 Python 类中动态定义实例字段

    我是 Python 新手 主要从事 Java 编程 我目前正在思考Python中的类是如何实例化的 我明白那个 init 就像Java中的构造函数 然而 有时 python 类没有 init 方法 在这种情况下我假设有一个默认构造函数 就像
  • 您可以在 Python 类型注释中指定方差吗?

    你能发现下面代码中的错误吗 米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
  • Spark.read 在 Databricks 中给出 KrbException

    我正在尝试从 databricks 笔记本连接到 SQL 数据库 以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
  • 改变字典的哈希函数

    按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例
  • PyAudio ErrNo 输入溢出 -9981

    我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

  • 覆盖 lxml 行为以编写 Null 标签的结束和开始元素

    root etree Element document rootTree etree ElementTree root firstChild etree SubElement root test 输出是
  • Angular材料日期选择器限制范围选择

    我有一个有角度的材料日期选择器范围 开始日期和结束日期 目前 它是自由选择的 这意味着 我可以选择任何开始日期和任何结束日期 我想稍微改变一下 我希望将差异限制在 7 天之内 我不想让用户选择 2 个日期相差超过 7 天的日期 所以在日历里
  • Wi-Fi Direct 和“普通”Wi-Fi - 不同的 MAC?

    我目前正在尝试通过 Wi Fi Direct 连接两部知道彼此 MAC 地址的手机 并偶然发现以下问题 我收到的 MAC 地址 WifiManager wifiMan WifiManager this getSystemService Co
  • 从 Shiny App 调用 R 脚本

    我开发了一个闪亮的应用程序 它显示一些动态图表 这些图表是在执行时根据某些按钮的值生成的 这个闪亮的应用程序从之前经过处理和转换的原始 csv 中获取数据 除了闪亮的应用程序之外 我还得到了一个 Rscript 来对原始数据进行所有这些 转
  • 如何将 DispatchTimeInterval 转换为 NSTimeInterval (或 Double)?

    我需要减去一个DispatchTimeInterval从一个NSTimeInterval or Double 有没有标准的方法来转换DispatchTimeInterval to an NSTimeInterval DispatchTime
  • 如何使 Flexbox 底部元素的内容为其容器的 100% 高度

    如果我制作一个具有 2 个子项和列流的 Flexbox 并将第二个子项设置为flex grow 1第二个子项扩展以填充弹性盒 这有效 ps 不想让示例与 safari 支持变得混乱 所以使用 Chrome 或 Firefox box siz
  • 广播意图回调:result=CANCELLED forIntent

    我有一个移动应用程序 它注册到 c2dm 服务器 我有一个服务器向我的应用程序发送消息以推送通知 服务器从 google c2dm 接收到 ok 结果代码 在 LogCat 中 我看到我的应用程序收到了消息 但立即产生了我在帖子中遇到的错误
  • Google Apps 脚本的 Jdbc 连接错误

    我创建了一个 Google Cloud Project MySQL 数据库 与 Google Apps 脚本提供的 Jdbc 服务结合使用 连接一切都按计划进行 我基本上按照文档中的方式进行连接 var conn Jdbc getCloud
  • 创建网站的移动版本

    我正在寻找创建我们网站 网络应用程序的移动版本 有什么好方法可以提供最好的 功能最全的版本 创建它的部分原因是而不是 iPhone 应用程序 所以我想提供一个 iPhone Web 应用程序 充分利用 iPhone 版本的 WebKit 因
  • 嵌套 if 语句和“&&”运算符

    if a b c d doSomething if a if b if c if d doSomething 这两者之间有 任何 性能差异吗 例如 当a 变为0的情况下 它会继续运行第一个if语句中的b c 和d 吗 或者它的工作方式与第二
  • c 中右值存储在哪里?

    在C中 我有这段代码 int a a 10 5 3 我想问 10 5 3 存放在哪里 据我所知 a位于堆栈上 怎么样 10 5 3 这个右值是如何计算的 通常 右值 存储 在程序本身内 换句话说 编译器本身 在程序运行之前 计算 10 5
  • 为CDK中的资源添加条件

    我创建了一个将部署在多个区域的 CDK 堆栈 其中一个构造只能部署在一个区域 在 Cloudformation 中 我只需向资源添加一个条件 但我还没有找到一种方法来对 CDK 构造执行类似的操作 可以定义一个CfnCondition并将其
  • 精确控制 GLSL 中的纹理位

    我正在尝试使用 OpenGL 和 GLSL 实现八叉树遍历方案 并且希望将数据保留在纹理中 虽然纹理数据有多种格式可供选择 不同大小的浮点数和整数 但我在弄清楚是否有一种方法可以更精确地控制位 从而实现更高的效率和紧凑的存储方面遇到了一些麻
  • 如何计算jquery中mousedown事件期间的时间?

    我试图在 mousedown up 事件上的一个按钮上执行 2 个不同的功能 但它不起作用 因为我无法检测 mousedown 事件的时间 var flag ClikerButton mousedown function e if mous
  • 获取目录中文件的数量

    如何统计目录中的文件数 我在类参考中找不到任何相关内容NSFileManager contentsOfDirectoryAtPath error 返回一个NSArray 只需发送count到数组
  • LLDB (Swift):将原始地址转换为可用类型

    是否有一个 LLDB 命令可以将原始地址转换为可用的 Swift 类 例如 lldb po 0x7df67c50 as MKPinAnnotationView 我知道这个地址指向 MKPinAnnotationView 但它不在我可以选择的
  • 为什么 pandas DataFrame 可以互相改变?

    我试图保留 pandas DataFrame 的副本 以便我可以在保存原始数据的同时对其进行修改 但是当我修改副本时 原始数据框也会发生变化 前任 df1 pd DataFrame col1 a b c d col2 1 2 3 4 df1
  • onCompleted 可以与 useMutation 一起使用吗?

    我在 React 项目中使用 useMutation 钩子 突变运行成功 但之后未达到 onCompleted 我已在突变中将notifyOnNetworkStatusChange 设置为true 但这似乎没有帮助 const create
  • OnClickListener - 事件的 x,y 位置?

    我有一个从 View 派生的自定义视图 我希望在单击视图时收到通知 以及单击发生的 x y 位置 长按也是如此 看起来像这样做 我需要覆盖onTouchEvent 有没有办法从事件的 x y 位置OnClickListener相反 但是 如
  • map_partitions的返回值是多少?

    dask API 表示 map partition 可用于 在每个 DataFrame 分区上应用 Python 函数 根据此描述并根据 map 的通常行为 我期望 map partitions 的返回值是 类似于 一个长度等于分区数量的列