Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何解决 apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum 类上的酸洗错误?
当我远程运行数据管道时 会引发 PicklingError 数据管道是使用 Beam SDK for Python 编写的 并且我在 Google Cloud Dataflow 之上运行它 当我在本地运行时 管道工作正常 以下代码生成 Pi
googleclouddataflow
gcloud
ApacheBeam
使用 Apache Beam python 创建 Google 云数据流模板时出现 RuntimeValueProviderError
我无法使用 python 3 7 暂存云数据流模板 它在一个参数化参数上失败了apache beam error RuntimeValueProviderError RuntimeValueProvider option input typ
python
python3x
googleclouddataflow
ApacheBeam
bigquery DataFlow 错误:在 EU 中读写时无法在不同位置读写
我有一个简单的 Google DataFlow 任务 它从 BigQuery 表中读取数据并写入另一个表 如下所示 p beam io Read beam io BigQuerySource query select dia import
python
googlebigquery
googleclouddataflow
ApacheBeam
Dataflow SQL (GCP) 不支持使用 STRUCT 的嵌套行
使用 Dataflow SQL 我想读取 Pub Sub 主题 丰富消息并将消息写入 Pub Sub 主题 哪个 Dataflow SQL 查询将创建我想要的输出消息 Pub Sub input消息 event timestamp 1619
googleclouddataflow
googlecloudpubsub
googledataflow
如何在流式管道中按小捆绑的 N 个元素进行批处理?
我已经按照此答案中的描述实现了 N 个元素的批处理 谷歌数据流管道中的数据存储输入可以一次处理一批 N 个条目吗 https stackoverflow com questions 35065109 can datastore input
googleclouddataflow
ApacheBeam
计算一次 GroupBy,然后将其传递给 Google DataFlow (Python SDK) 中的多个转换
我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道 我需要运行多个转换 所有这些转换都希望项目按键分组 基于这个答案question https stackoverfl
googlecloudplatform
googleclouddataflow
ApacheBeam
将新文件添加到 Cloud Storage 时触发 Dataflow 作业
我想在将新文件添加到存储桶时触发数据流作业 以便处理新数据并将其添加到 BigQuery 表中 我看到云函数可以被触发 https cloud google com functions calling google cloud storag
googlecloudstorage
googleclouddataflow
googlecloudfunctions
Apache Beam:具有无限源的批处理管道
我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据 数据来自Google PubSub 它是无限制的 所以目前我正在使用流媒体管道 然而 事实证明 拥有一个 24 7 运行的流管道是相当昂贵的 为了降
googleclouddataflow
ApacheBeam
压缩保存在Google云存储中的文件
是否可以压缩已保存在 Google 云存储中的文件 这些文件由 Google 数据流代码创建和填充 数据流无法写入压缩文件 但我的要求是将其保存为压缩格式 标准 TextIO Sink 不支持写入压缩文件 因为从压缩文件中读取的可扩展性较差
googlecloudstorage
googleclouddataflow
从 Dataflow 中的 BigQuery 读取时设置 MaximumBillingTier
当我从 BigQuery 读取数据作为查询结果时 我正在运行 GCP Dataflow 作业 我正在使用 google cloud dataflow java sdk all 版本 1 9 0 设置管道的代码片段如下所示 PCollecti
googlebigquery
googlecloudplatform
googleclouddataflow
如何在数据流中正确使用“展平”
我们的管道如下所示 GCS gz 压缩文件 gt ParDo gt BigQuery 我想使用 展平 从 GCS 中提取多个文件作为管道的输入 但它一直因错误而烦恼 Workflow failed Causes 5001e5764f46ac
googleclouddataflow
在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道
我正在尝试在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道 但我一直遇到此错误Failed to construct instance from factory method Da
Java
Maven
springboot
googleclouddataflow
ApacheBeam
Apache Beam:跳过已构建的管道中的步骤
有没有办法有条件地跳过已构建的管道中的步骤 或者管道构建是否被设计为控制运行哪些步骤的唯一方法 通常 管道构造控制将执行管道中的哪些转换 但是 您可以想象一个输入 多个输出ParDo复用输入PCollection到输出之一PCollecti
googleclouddataflow
ApacheBeam
写入 BigQuery 时处理卡住
我正在使用云数据流将数据从 Pub Sub 消息导入到 BigQuery 表 我正在使用 DynamicDestinations 因为这些消息可以放入不同的表中 我最近注意到该进程开始消耗所有资源 并且消息表明该进程被卡住开始显示 Proc
Java
googlebigquery
googleclouddataflow
如何将 python 包安装到 Google Dataflow 并将其导入到我的管道中?
我的文件夹结构如下 Project Pipeline py setup py dist ResumeParserDependencies 0 1 tar gz Dependencies Module1 py Module2 py Modul
python
googleclouddataflow
在 Apache Beam 中监视与文件模式匹配的新文件
我在 GCS 或其他受支持的文件系统上有一个目录 外部进程正在向该目录写入新文件 我想编写一个 Apache Beam 流式传输管道 它可以连续监视此目录中的新文件 并在每个新文件到达时读取和处理它 这可能吗 从 Apache Beam 2
googleclouddataflow
ApacheBeam
Dataflow 2.1.0 中是否有 IntrabundleParallelization 的替代方案?
根据 dataflow 2 X 的发行说明 IntraBundleParallelization 已被删除 有没有办法控制 增加数据流 2 1 0 上 DoFns 的并行度 当我在 1 9 0 版本的数据流上使用 IntrabundlePa
googleclouddataflow
dataflow
从 Dataflow 写入 BigQuery - 作业完成时不会删除 JSON 文件
我们的 Dataflow 作业之一将其输出写入 BigQuery 我对其幕后实现方式的理解是 Dataflow 实际上将 JSON 格式的结果 分片 写入 GCS 然后启动 BigQuery 加载作业以导入该数据 但是 我们注意到 无论作业
googleclouddataflow
在 Cloud Dataflow 中进行 ETL 和解析 CSV 文件
我是云数据流和 Java 的新手 所以我希望这是正确的问题 我有一个 csv 文件 其中有 n 个列和行 可以是字符串 整数或时间戳 我需要为每一列创建一个新的 PCollection 吗 我在示例中找到的大多数文档都类似于 PCollec
csv
googleclouddataflow
Apache Beam:DoFn 与 PTransform
Both DoFn and PTransform是一种定义操作的方法PCollection 我们如何知道何时使用哪个 理解它的一个简单方法是类比map f 对于列表 高阶函数map将函数应用于列表的每个元素 返回结果的新列表 您可以将其称为
googleclouddataflow
ApacheBeam
1
2
3
4
5
6
...10
»