dask API 表示,map_partition 可用于“在每个 DataFrame 分区上应用 Python 函数”。根据此描述并根据“map”的通常行为,我期望 map_partitions 的返回值是(类似于)一个长度等于分区数量的列表。列表中的每个元素都应该是函数调用的返回值之一。
但是,对于以下代码,我不确定返回值取决于什么:
#generate example dataframe
pdf = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD'))
ddf = dd.from_pandas(pdf, npartitions=3)
#define helper function for map. VAL is the return value
VAL = pd.Series({'A': 1})
#VAL = pd.DataFrame({'A': [1]}) #other return values used in this example
#VAL = None
#VAL = 1
def helper(x):
print('function called\n')
return VAL
#check result
out = ddf.map_partitions(helper).compute()
print(len(out))
-
VAL = pd.Series({'A': 1})
导致 4 个函数调用(可能有 1 个用于推断 dtype,3 个用于分区)以及 len == 3 和类型 pd.Series 的输出。
-
pd.DataFrame({'A': [1]})
结果相同,但结果类型是 pd.DataFrame。
-
VAL = None
导致 TypeError ...为什么? map_partitions 的可能用途不能是do某事而不是return某物?
-
VAL = 1
结果只有 2 个函数调用。 map_partitions的结果是整数1。
因此,我想问一些问题:
- map_partitions的返回值是如何确定的?
- 除了分区数量之外,还有哪些因素影响函数调用的数量/每个分区调用一次函数需要满足什么标准?
- 只“执行”某些操作(即过程)的函数的返回值应该是什么?
- 应该如何设计一个返回任意对象的函数?
The Dask DataFrame.map_partitions函数根据映射函数的输出类型返回一个新的 Dask Dataframe 或 Series。请参阅API文档以获得彻底的解释。
-
map_partitions的返回值是如何确定的?
请参阅上面提到的 API 文档。
-
除了分区数量之外,还有哪些因素影响函数调用的数量/每个分区调用一次函数需要满足什么标准?
你是对的,我们立即调用它一次来猜测输出的数据类型/列。您可以通过指定一个来避免这种情况meta=
直接关键字。除此之外,每个分区都会调用该函数一次。
-
只“执行”某些操作(即过程)的函数的返回值应该是什么?
您始终可以返回一个空数据框。您可能还想考虑将数据帧转换为一系列延迟延迟对象,通常更常用于临时计算。
-
应该如何设计一个返回任意对象的函数?
如果您的函数不返回系列/数据帧,那么我建议将您的数据帧转换为一系列延迟延迟对象与DataFrame.to_delayed method.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)