Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 Apache Beam 的 Dataflow 批量加载的性能问题
我正在对数据流批量加载进行性能基准测试 发现与 Bigquery 命令行工具上的相同负载相比 加载速度太慢 文件大小约为 20 MB 包含数百万条记录 我尝试了不同的机器类型并获得了最佳的负载性能n1 highmem 4加载目标 BQ 表的
googlebigquery
googleclouddataflow
ApacheBeam
java.lang.NoSuchMethodError:com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时
我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例 在一个主服务器和两个从服务器 spark2
Java
apachespark
go
ApacheBeam
jacksondatabind
在批处理管道中,如何为来自批处理源的数据分配时间戳,例如 Beam 管道中的 csv 文件
我正在批处理管道中从有界源 csv 文件 读取数据 并希望根据存储为 csv 文件中列的数据为元素分配时间戳 如何在 Apache Beam 管道中执行此操作 如果您的批量数据源包含每个元素基于事件的时间戳 例如您有一个包含元组的点击事件
googleclouddataflow
ApacheBeam
Python Apache Beam 端输入断言错误
我对 Apache Beam Cloud Dataflow 还很陌生 所以如果我的理解不正确 我深表歉意 我正在尝试通过管道读取大约 30 000 行长的数据文件 我的简单管道首先从 GCS 打开 csv 从数据中提取标题 通过 ParDo
python
googleclouddataflow
ApacheBeam
使用 GlobalWindow 在 Beam 中进行状态垃圾收集
Apache Beam 最近推出了状态细胞 https beam apache org blog 2017 02 13 stateful processing html 通过StateSpec和 StateId注释 在 Apache Fli
googleclouddataflow
apacheflink
ApacheBeam
后期数据处理 |阿帕奇光束
错过窗口的迟到数据 withAllowedLateness如记录的那样 周期已从管道中消失here https beam apache org documentation programming guide watermarks and l
ApacheBeam
将侧输入应用于 Apache Beam 中的 BigQueryIO.read 操作
有没有办法将侧面输入应用于 Apache Beam 中的 BigQueryIO read 操作 举例来说 我在 PCollection 中有一个值 我想在查询中使用该值从 BigQuery 表中获取数据 使用侧面输入可以吗 或者在这种情况下
googleclouddataflow
ApacheBeam
Apache Beam:如何在使用重复数据删除功能时解决“ParDo 需要确定性密钥编码器才能使用状态和计时器”
我正在尝试使用 Apache Beam 的重复数据删除功能对来自 Google Cloud Pubsub 的输入消息进行重复数据删除 但是 我创建后遇到错误KV
Java
googleclouddataflow
ApacheBeam
DETERMINISTIC
Dataflow/apache beam:管理自定义模块依赖项
我有一个使用 apache beam 的 py 管道 它导入另一个模块 py 这是我的自定义模块 我有一个这样的结构 mymain py myothermodule py 我将 myothermodule py 导入到 mymain py
python
googleclouddataflow
ApacheBeam
Spring 与 Apache Beam
我想将 Spring 与 Apache Beam 结合使用 它将在 Google Cloud Data flow Runner 上运行 数据流作业应该能够在执行管道步骤时使用 Spring 运行时应用程序上下文 我想在 Apache Bea
Spring
googleclouddataflow
ApacheBeam
Apache Beam Pipeline 写表后查询表
我有一个 Apache Beam Dataflow 管道 它将结果写入 BigQuery 表 然后我想查询该表以获取管道的单独部分 但是 我似乎无法弄清楚如何正确设置此管道依赖性 我编写的新表 然后想要查询 与一个单独的表连接以进行某些过滤
python
googleclouddataflow
ApacheBeam
在数据流模板中调用 waitUntilFinish() 后可以运行代码吗?
我有一个批处理 Apache Beam 作业 它从 GCS 获取文件作为输入 我的目标是根据执行后管道的状态将文件移动到两个 GCS 存储桶之一 如果管道执行成功 则将文件移动到存储桶 A 否则 如果管道在执行过程中出现任何未处理的异常 则
Java
googleclouddataflow
ApacheBeam
如何解决 apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum 类上的酸洗错误?
当我远程运行数据管道时 会引发 PicklingError 数据管道是使用 Beam SDK for Python 编写的 并且我在 Google Cloud Dataflow 之上运行它 当我在本地运行时 管道工作正常 以下代码生成 Pi
googleclouddataflow
gcloud
ApacheBeam
使用 Apache Beam python 创建 Google 云数据流模板时出现 RuntimeValueProviderError
我无法使用 python 3 7 暂存云数据流模板 它在一个参数化参数上失败了apache beam error RuntimeValueProviderError RuntimeValueProvider option input typ
python
python3x
googleclouddataflow
ApacheBeam
bigquery DataFlow 错误:在 EU 中读写时无法在不同位置读写
我有一个简单的 Google DataFlow 任务 它从 BigQuery 表中读取数据并写入另一个表 如下所示 p beam io Read beam io BigQuerySource query select dia import
python
googlebigquery
googleclouddataflow
ApacheBeam
在 Apache Beam 中连接行
我无法理解 Apache Beam 中的连接 例如http www waitingforcode com apache beam joins apache beam read http www waitingforcode com apac
Java
ApacheBeam
如何在流式管道中按小捆绑的 N 个元素进行批处理?
我已经按照此答案中的描述实现了 N 个元素的批处理 谷歌数据流管道中的数据存储输入可以一次处理一批 N 个条目吗 https stackoverflow com questions 35065109 can datastore input
googleclouddataflow
ApacheBeam
计算一次 GroupBy,然后将其传递给 Google DataFlow (Python SDK) 中的多个转换
我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道 我需要运行多个转换 所有这些转换都希望项目按键分组 基于这个答案question https stackoverfl
googlecloudplatform
googleclouddataflow
ApacheBeam
Apache Beam:具有无限源的批处理管道
我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据 数据来自Google PubSub 它是无限制的 所以目前我正在使用流媒体管道 然而 事实证明 拥有一个 24 7 运行的流管道是相当昂贵的 为了降
googleclouddataflow
ApacheBeam
在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道
我正在尝试在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道 但我一直遇到此错误Failed to construct instance from factory method Da
Java
Maven
springboot
googleclouddataflow
ApacheBeam
1
2
3
4
5
6
7
»