我正在将 Apache-Beam 与 Python SDK 结合使用。
目前,我的管道读取多个文件,解析它们并从其数据生成 pandas 数据帧。
然后,它将它们分组为single数据框。
我现在想要的是检索这个单一的胖数据帧,将其分配给一个普通的 Python 变量。
可以做吗?
PCollection
只是执行图中的一个逻辑节点,其内容不一定实际存储在任何地方,因此这是不可能直接实现的。
但是,您可以要求您的管道编写PCollection
到文件(例如将元素转换为字符串并使用WriteToText
with num_shards=1
),运行管道并等待其完成,然后从主程序中读取该文件。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)