Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 Python 的 Dataflow/Beam 示例
我正在尝试获取以下项目的样本PCollection在 Dataflow Beam 上使用 Python SDK 虽然没有记录 Sample FixedSizeGlobally n 存在 测试时 它seems返回一个PCollection包含
googleclouddataflow
ApacheBeam
数据流进入 Beam Pipeline 时的附加参数
我正在研究 Dataflow 我已经通过 Python SDK 构建了自定义管道 我想将数据流 UI 上的参数添加到我的自定义管道中 使用附加参数 参考者https cloud google com dataflow docs guides
python3x
googleclouddataflow
ApacheBeam
dataflow
如何在数据流中使用memcache?
我想在 dafalow ParDo 中使用 Memcache 有什么想法吗 我无法使用现有的 memcahse 库 因为它们属于 appengine 并且不可序列化 罗希特 我的猜测是 你的文件中有一个私有变量DoFn类型的Memcache
googleclouddataflow
处理数据流中一对多阶段的正确方法
我有一个 Java 批处理管道 它遵循以下模式 FileIO ExtractText gt input 1 file output millions of lines of text ProcessData ProcessData 阶段包含
Java
performance
onetomany
googleclouddataflow
ApacheBeam
将 MutationGroup 流式传输到 Spanner 中
我正在尝试使用 SpannerIO 将 MutationGroups 流式传输到扳手中 目标是每 10 秒写入新的 MuationGroup 因为我们将使用 Spanner 来查询近期 KPI 当我不使用任何 Windows 时 出现以下错
Google-cloud-dataflow:无法使用“BigQueryDisposition.WRITE_TRUNCATE”通过“WriteToBigQuery/BigQuerySink”将 json 数据插入到 bigquery
给定数据集如下 slot reward result 1 rank 1 isLandscape false p type main level 1276 type ba seqNum 42544 slot reward dlg result
googlebigquery
googleclouddataflow
ApacheBeam
Apache Beam:如何同时创建许多经历相同 PTransform 的 PCollection?
提前致谢 问题 我在谷歌云上有很多文件 对于每个文件我都必须 获取文件 对每个文件进行一系列 Google Cloud Storage API 调用以对其进行索引 例如 name blob name size blob size unzip
python27
googleclouddataflow
ApacheBeam
在 Google Dataflow 中使用 FireStore
我想在带有 python 的数据流模板中使用 FireStore 我做过这样的事情 with beam Pipeline options options as p p Read from PubSub gt gt beam io ReadF
python
googlecloudplatform
googlecloudfirestore
googleclouddataflow
读取多个.gz文件并识别哪一行属于哪个文件
我正在读取多个 gz 文件以使用谷歌数据流进行处理 数据的最终目的地是BigQuery BigQuery 表对于 gz 文件内的 csv 文件中的每一列都有专用列 BQ 表中还有一个附加列 file name 它给出了该记录所属的文件名 我
googleclouddataflow
Google Dataflow(Apache Beam)JdbcIO批量插入mysql数据库
我正在使用 Dataflow SDK 2 X Java API Apache Beam SDK 将数据写入 mysql 我创建了基于管道Apache Beam SDK 文档 https beam apache org documentati
mysql
googleclouddataflow
ApacheBeam
apachebeamio
java.lang.NoClassDefFoundError:迁移到数据流 2.x 后的 org/apache/beam/sdk/runners/PipelineRunner
获取运行时错误 java lang NoClassDefFoundError org apache beam sdk runners PipelineRunner 即使我的 pom xml 中有以下内容
googleclouddataflow
ApacheBeam
在 Google Cloud Bigtable 中填充数据需要很长时间
我使用以下代码将数据填充到 Bigtable 中 CloudBigtableScanConfiguration config new CloudBigtableScanConfiguration Builder withConfigurat
googleclouddataflow
googlecloudbigtable
避免重新计算 Beam Python SDK 中所有云存储文件的大小
我正在开发一个从 Google Cloud Storage GCS 目录读取约 500 万个文件的管道 我已将其配置为在 Google Cloud Dataflow 上运行 问题是 当我启动管道时 需要几个小时 计算所有文件的大小 INFO
python
googleclouddataflow
ApacheBeam
从 Apache Beam 中的多个文件夹读取文件并将输出映射到文件名
致力于从多个文件夹中读取文件 然后使用 python sdk 和数据流运行程序将文件内容 文件名 文件内容 文件名 输出到 apache beam 中的 bigquery 最初以为我可以为每个文件创建一个 pcollection 然后将文件
python
googlecloudplatform
googleclouddataflow
ApacheBeam
如何使用 Google Cloud Dataflow 将压缩文件写入 Google Cloud Storage?
我正在尝试将 Gzipped 文件写入 Google Dataflow 程序中的 Google Cloud Storage 存储桶中 常见问题解答说 Does the TextIO source and sink support compr
googleclouddataflow
BigQuery 写入时数据流作业失败并出现后端错误
我的工作因最终导入 BigQuery 相关的几个不同错误而失败 我已经运行了 5 次 每次都失败 尽管错误消息有时会有所不同 当我在本地针对 SQLite 数据库运行该工作时 该工作运行良好 因此我认为问题出在 Google 后端 一条错误
python
googlebigquery
googleclouddataflow
Google Cloud Dataflow 中的自动缩放功能未按预期工作
我正在尝试在我的数据流作业中启用自动缩放 如中所述本文 https cloud google com dataflow service dataflow service desc autoscaling 我通过以下代码设置相关算法来做到这一
googleclouddataflow
如何将在执行同一数据流管道期间计算的架构写入 BigQuery?
我的场景是此处讨论的场景的一种变体 如何使用数据流执行期间计算的架构写入 BigQuery https stackoverflow com questions 29440279 how do i write to bigquery usin
googleclouddataflow
Apache Beam:为什么全局窗口中聚合值的时间戳是 9223371950454775?
我们从 Google Dataflow 1 9 迁移到 Apache Beam 0 6 我们注意到应用全局窗口后时间戳的行为发生了变化 在 Google Dataflow 1 9 中 我们将在窗口 组合函数之后在 DoFn 中获得正确的时间
googleclouddataflow
ApacheBeam
仅在另一个管道在谷歌数据流上完成后才执行管道
我想在谷歌数据流上运行一个管道 该管道取决于另一个管道的输出 现在我只是在本地使用 DirectRunner 运行两个管道 with beam Pipeline options pipeline options as p p beam io
python
googleclouddataflow
ApacheBeam
«
1
2
3
4
5
6
7
8
...10
»