如何检索 PCollection 的内容并将其分配给普通变量?

2024-02-09

我正在将 Apache-Beam 与 Python SDK 结合使用。

目前,我的管道读取多个文件,解析它们并从其数据生成 pandas 数据帧。 然后,它将它们分组为single数据框。

我现在想要的是检索这个单一的胖数据帧,将其分配给一个普通的 Python 变量。

可以做吗?


PCollection只是执行图中的一个逻辑节点,其内容不一定实际存储在任何地方,因此这是不可能直接实现的。

但是,您可以要求您的管道编写PCollection到文件(例如将元素转换为字符串并使用WriteToText with num_shards=1),运行管道并等待其完成,然后从主程序中读取该文件。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何检索 PCollection 的内容并将其分配给普通变量? 的相关文章

随机推荐

  • 反转 SVG 路径

    有没有简单的方法来反转 SVG 路径 我怎样才能让它从左上角开始 而不是从右下角开始
  • KeyCollection 作为 IEnumerable 会产生不一致的 LINQ 行为

    以下代码打印 false IEnumerable
  • 具有可移动和可旋转角色/物体/等的游戏中的 AABB

    我正在创建我的第一个 3D 游戏 但遇到了一些问题 我读到AABB https en wikipedia org wiki Minimum bounding box Axis aligned minimum bounding box相交以及
  • 正则表达式获取年份的最后两位数

    我必须使用正则表达式才能获取年份的最后两位数字 但前提是存在 4 位数字 我有以下正则表达式 当有 4 位数字时 它可以完美工作 示例 2014 14 2 然而 我需要这个只有在出现 4 位数字时才起作用 当只有 2 位数字存在时 我在清空
  • lupdate 和条件包含在 .pro 文件中

    我有一个包含条件包含的 pro 文件 如下所示 contains CONFIG embedded SOURCES a cpp HEADERS a h else SOURCES b cpp HEADERS b h 当我从终端运行 lupdat
  • 臭名昭著的 Apache 错误“父进程:子进程已退出,状态为 3221225477”

    我读过一些与臭名昭著的 Apache 错误相关的问题和回复 Apache error notice Parent child process exited with status 3221225477 Restarting 但到目前为止 没
  • EditorJS 总是呈现两个编辑器

    我正在尝试使用 EditorJS 的编辑器 一切工作正常 除了当我第一次加载页面时 它会在开始时初始化两个编辑器 并在每次重新加载页面时不断附加新编辑器 但它们都在里面 div div 分区我有什么遗漏的吗 react etc import
  • Webpack Uglify CSS 中的错误

    我强调要让 Uglify 与我的项目一起工作 以前我使用过 Uglify 并且没有出现问题 但现在我认为这与 SASS 相关 ERROR in css loader sass loader app scss global header sc
  • 替换表达式树中的类型

    我正在努力修改表达式树 我简化了示例 以便更容易在此处显示 让我们从两个类开始 public class Filter public string FilterableProperty1 get set public string Filt
  • 选择 * 与选择列

    如果我只需要 2 3 列并且我查询SELECT 与在选择查询中提供这些列不同 更多 更少 I O 或内存是否会导致性能下降 如果我在不需要的情况下选择 则可能会出现网络开销 但是在选择操作中 数据库引擎是否总是从磁盘中提取原子元组 或者只提
  • CMake:如何在 Visual Studio 项目中的“头文件”中显示标题?

    我用 C 创建了一个简单的库项目 并添加了 CMake 文件以自动生成 Visual Studio 项目 我的小项目只包含 2 个文件 include testproject testproject h src testproject cp
  • C# 自增运算符错误:操作数语法不正确?

    我正在看the docs https learn microsoft com en us dotnet csharp language reference operators increment operator并尝试了解操作员的实际工作原
  • ASP.Net WebAPI 区域支持

    我正在尝试向我的 asp net 4 RC 站点添加一些 WebAPI 支持 并希望将其放入一个区域中 我看到有人设法让它在测试版上运行 here http netmvc blogspot co uk 2012 03 aspnet mvc
  • 如何测试 Eclipse 包中的 URL 是否是目录?

    我正在尝试从插件内置的包的内容中填充目录 以下代码在捆绑包是文件系统时有效 但在捆绑包是 JAR 时失败 测试 URL 是否为目录的最佳方法是什么 或者是否有一种完全不同的 更好的方法来从资源包创建文件结构 static private v
  • Android Fragment:使用哪个生命周期方法来调用Web服务

    我正在开发一个涉及多个片段的应用程序 在每个片段中 我必须调用 Web 服务来获取数据 目前我正在从以下位置调用网络服务onCreateView 片段的方法 我收到的问题是 每当 Web 服务调用正在进行时 如果设备方向发生更改 则新的 W
  • 为什么 Azure 部署需要这么长时间?

    我试图理解为什么将一个小型应用程序部署到 Azure 需要 20 60 分钟 使用配置 包上传方法 而不是从 VS 内 我已读完这个情况 http msdn microsoft com en us library ff803362 aspx
  • Kotlin 相当于 Java8 中的Optional::map

    你知道是否有捷径 if x null null else f x 对于JavaOptional你可以这样做 x map SomeClass f Kotlin 利用自己的方法来实现这一想法Option 但是有map filter orElse
  • 如何在 C++ 中生成 UUID,而不使用 boost 库?

    我想为我的应用程序生成 UUID 以区分应用程序的每次安装 我想在没有 boost 库支持的情况下使用 C 生成此 UUID 如何使用其他开源库生成 UUID 注 我的平台是windows 如果您使用现代 C 这就可以了 include
  • 折旧警告不允许在 AZURE 上部署应用程序,

    将应用程序部署到 AZURE 时 我收到以下警告 节点 6568 DEP0064 DeprecationWarning tls createSecurePair 是 已弃用 请改用 tls Socket 但这不允许我的应用程序启动 Azur
  • 如何检索 PCollection 的内容并将其分配给普通变量?

    我正在将 Apache Beam 与 Python SDK 结合使用 目前 我的管道读取多个文件 解析它们并从其数据生成 pandas 数据帧 然后 它将它们分组为single数据框 我现在想要的是检索这个单一的胖数据帧 将其分配给一个普通