ApacheBeam

使用 Apache Beam 的 Dataflow 批量加载的性能问题

我正在对数据流批量加载进行性能基准测试发现与 Bigquery 命令行工具上的相同负载相比加载速度太慢文件大小约为 20 MB 包含数百万条记录我尝试了不同的机器类型并获得了最佳的负载性能n1 highmem 4加载目标 BQ 表的

googlebigquery googleclouddataflow ApacheBeam

java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2

Java apachespark go ApacheBeam jacksondatabind

在批处理管道中，如何为来自批处理源的数据分配时间戳，例如 Beam 管道中的 csv 文件

我正在批处理管道中从有界源 csv 文件读取数据并希望根据存储为 csv 文件中列的数据为元素分配时间戳如何在 Apache Beam 管道中执行此操作如果您的批量数据源包含每个元素基于事件的时间戳例如您有一个包含元组的点击事件

googleclouddataflow ApacheBeam

Python Apache Beam 端输入断言错误

我对 Apache Beam Cloud Dataflow 还很陌生所以如果我的理解不正确我深表歉意我正在尝试通过管道读取大约 30 000 行长的数据文件我的简单管道首先从 GCS 打开 csv 从数据中提取标题通过 ParDo

python googleclouddataflow ApacheBeam

使用 GlobalWindow 在 Beam 中进行状态垃圾收集

Apache Beam 最近推出了状态细胞 https beam apache org blog 2017 02 13 stateful processing html 通过StateSpec和 StateId注释在 Apache Fli

googleclouddataflow apacheflink ApacheBeam

后期数据处理 |阿帕奇光束

错过窗口的迟到数据 withAllowedLateness如记录的那样周期已从管道中消失here https beam apache org documentation programming guide watermarks and l

ApacheBeam

将侧输入应用于 Apache Beam 中的 BigQueryIO.read 操作

有没有办法将侧面输入应用于 Apache Beam 中的 BigQueryIO read 操作举例来说我在 PCollection 中有一个值我想在查询中使用该值从 BigQuery 表中获取数据使用侧面输入可以吗或者在这种情况下

googleclouddataflow ApacheBeam

Apache Beam：如何在使用重复数据删除功能时解决“ParDo 需要确定性密钥编码器才能使用状态和计时器”

我正在尝试使用 Apache Beam 的重复数据删除功能对来自 Google Cloud Pubsub 的输入消息进行重复数据删除但是我创建后遇到错误KV

Java googleclouddataflow ApacheBeam DETERMINISTIC

Dataflow/apache beam：管理自定义模块依赖项

我有一个使用 apache beam 的 py 管道它导入另一个模块 py 这是我的自定义模块我有一个这样的结构 mymain py myothermodule py 我将 myothermodule py 导入到 mymain py

python googleclouddataflow ApacheBeam

Spring 与 Apache Beam

我想将 Spring 与 Apache Beam 结合使用它将在 Google Cloud Data flow Runner 上运行数据流作业应该能够在执行管道步骤时使用 Spring 运行时应用程序上下文我想在 Apache Bea

Spring googleclouddataflow ApacheBeam

Apache Beam Pipeline 写表后查询表

我有一个 Apache Beam Dataflow 管道它将结果写入 BigQuery 表然后我想查询该表以获取管道的单独部分但是我似乎无法弄清楚如何正确设置此管道依赖性我编写的新表然后想要查询与一个单独的表连接以进行某些过滤

python googleclouddataflow ApacheBeam

在数据流模板中调用 waitUntilFinish() 后可以运行代码吗？

我有一个批处理 Apache Beam 作业它从 GCS 获取文件作为输入我的目标是根据执行后管道的状态将文件移动到两个 GCS 存储桶之一如果管道执行成功则将文件移动到存储桶 A 否则如果管道在执行过程中出现任何未处理的异常则

Java googleclouddataflow ApacheBeam

如何解决 apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum 类上的酸洗错误？

当我远程运行数据管道时会引发 PicklingError 数据管道是使用 Beam SDK for Python 编写的并且我在 Google Cloud Dataflow 之上运行它当我在本地运行时管道工作正常以下代码生成 Pi

googleclouddataflow gcloud ApacheBeam

使用 Apache Beam python 创建 Google 云数据流模板时出现 RuntimeValueProviderError

我无法使用 python 3 7 暂存云数据流模板它在一个参数化参数上失败了apache beam error RuntimeValueProviderError RuntimeValueProvider option input typ

python python3x googleclouddataflow ApacheBeam

bigquery DataFlow 错误：在 EU 中读写时无法在不同位置读写

我有一个简单的 Google DataFlow 任务它从 BigQuery 表中读取数据并写入另一个表如下所示 p beam io Read beam io BigQuerySource query select dia import

python googlebigquery googleclouddataflow ApacheBeam

在 Apache Beam 中连接行

我无法理解 Apache Beam 中的连接例如http www waitingforcode com apache beam joins apache beam read http www waitingforcode com apac

Java ApacheBeam

如何在流式管道中按小捆绑的 N 个元素进行批处理？

我已经按照此答案中的描述实现了 N 个元素的批处理谷歌数据流管道中的数据存储输入可以一次处理一批 N 个条目吗 https stackoverflow com questions 35065109 can datastore input

googleclouddataflow ApacheBeam

计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换

我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道我需要运行多个转换所有这些转换都希望项目按键分组基于这个答案question https stackoverfl

googlecloudplatform googleclouddataflow ApacheBeam

Apache Beam：具有无限源的批处理管道

我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据数据来自Google PubSub 它是无限制的所以目前我正在使用流媒体管道然而事实证明拥有一个 24 7 运行的流管道是相当昂贵的为了降

googleclouddataflow ApacheBeam

在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道

我正在尝试在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道但我一直遇到此错误Failed to construct instance from factory method Da

Java Maven springboot googleclouddataflow ApacheBeam