在 Google Dataflow 中使用 FireStore

2024-02-02

我想在带有 python 的数据流模板中使用 FireStore。

我做过这样的事情：

with beam.Pipeline(options=options) as p:
(p
| 'Read from PubSub' >> beam.io.ReadFromPubSub(sub).with_output_types(bytes)
| 'String to dictionary' >> beam.Map(firestore_update_multiple)
)

这是正确的使用方式吗？

额外的信息

def firestore_update_multiple(row):
    from google.cloud import firestore
    db = firestore.Client()
    doc_ref = db.collection(u'data').document(u'one')

    doc_ref.update({
        u'arrayExample': u'DataflowRunner',
        u'booleanExample': True
    })

总体思路是正确的，但您应该考虑减少分配 firestore 连接，并批量调用。下面是一个应该执行此操作的 ParDo 示例：

class FirestoreUpdateDoFn(beam.DoFn):

  def __init__(self, max_batch_size=500):
    self.element_batch = []
    self.max_batch_size = max_batch_size

  def start_bundle(self):
    self.db = firestore.Client()
    self.batch = db.batch()
    self.some_ref = db.collection(...)

  def process(self, row):
    self.element_batch.append(row)
    if len(self.element_batch) >= self.max_batch_size:
      self._flush_updates()

  def finish_bundle(self):
    self._flush_updates()
    self.db.close()

  def _flush_updates(self):
    for elm in self.element_batch:
      self.batch.update(...)
    batch.commit()

这应该可以让您减少对 Firestore 的往返调用，并使管道速度更快。然后你会做这样的事情：

with beam.Pipeline(options=options) as p:
    (p
     | 'Read from PubSub' >> beam.io.ReadFromPubSub(sub)
                              .with_output_types(bytes)
     | 'String to dictionary' >> beam.ParDo(FirestoreUpdateDoFn())
    )

查看：

有关批量写入的 Firestore 文档 https://firebase.google.com/docs/firestore/manage-data/transactions#batched-writes
PyDoc 与批处理 API https://googleapis.github.io/google-cloud-python/latest/firestore/batch.html
如果你有心情的话可以看看的代码PubSubUnboundedSink https://github.com/apache/beam/blob/master/sdks/java/io/google-cloud-platform/src/main/java/org/apache/beam/sdk/io/gcp/pubsub/PubsubUnboundedSink.java#L237，它执行与您尝试执行的操作相同的操作：在流式传输上运行时高效写入外部服务

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

googlecloudplatform

googlecloudfirestore

googleclouddataflow

在 Google Dataflow 中使用 FireStore 的相关文章

如何查看Databricks中的所有数据库和表

我想列出 Azure Databricks 中每个数据库中的所有表所以我希望输出看起来像这样 Database Table name Database1 Table 1 Database1 Table 2 Database1 Table
Firestore - 从文档中获取特定字段

我需要的我想在 Firestore 中保存文章或注释及其各自的字段 Title 内容文本或段落创建日期所有者与其他人分享该文章人和谁可以编辑它们例如 https firebase google com docs firesto
Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
如何在 Python 中检索 for 循环中的剩余项目？

我有一个简单的 for 循环迭代项目列表在某些时候我知道它会破裂我该如何退回剩余的物品 for i in a b c d e f g try some func i except return remaining items if s
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
有人用过 Dabo 做过中型项目吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们正处于一个新的 ERP 风格的客户端服务器应用程序的开始阶段该应用程序是作为 Python 富客户端开发的我们目前正在评估 Dabo
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
Scrapy：如何使用元在方法之间传递项目

我是 scrapy 和 python 的新手我试图将 parse quotes 中的项目 item author 传递给下一个解析方法 parse bio 我尝试了 request meta 和 response meta 方法如 sc
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
Python 类继承 - 诡异的动作

我观察到类继承有一个奇怪的效果对于我正在处理的项目我正在创建一个类来充当另一个模块的类的包装器我正在使用第 3 方 aeidon 模块用于操作字幕文件但问题可能不太具体以下是您通常如何使用该模块 project aeidon P

随机推荐

有没有办法在用户安装 Ruby gem 后打印一条消息？

有没有办法配置 gem 的 gemspec 在有人使用下载并安装 gem 后立即打印重要的信息消息gem install 是的使用post install message在宝石规范中 docs http rubygems rubyforg
在 pg-promise 中使用助手时如何设置列

由node js开发我在用pg 承诺 https github com vitaly t pg promise 插入以下数据时出现问题我想在下表中插入多行数据 create table info id varchar 20 not nu
将文件从 iPhone 沙箱复制到桌面？

我正在为uni开发一个iPhone应用程序我们在iPhone的沙箱目录中创建一个sqlite数据库文件我们的应用程序在内部写入此文件我想知道如何将此文件返回到我的桌面我真的不介意如何做到这一点任何方式都可以也许甚至可以做一些事情
RSpec 1.3.3 Rails 2.3.9 Webrat 0.7.3“未定义方法‘分配’”

My spec require spec helper describe user sessions new html erb do let user session mock model UserSession as null objec
是否有用于解析 Windows 注册表文件的纯 Python 库？

是否有一个纯Python 即完全跨平台库用于解析Windows注册表文件 NTUSER DAT 只读访问是可以接受的如果没有存在哪些资源来记录注册表文件的逆向工程结构 Thanks Update由于在提出这个问题时似乎不存在纯 Pyt
Windows 8 下不会调用 NDIS 筛选器驱动程序的 FilterAttach 例程

大家我将著名的数据包捕获软件 WinPcap 从 NDIS 5 协议移植到 NDIS 6 LWF Win7下一切正常然而在Win8下 FilterAttach例程永远不会被调用我发现DriverEntry中的NdisFRegiste
JQuery隐藏不删除对象的空间？

我正在使用一些 jQuery 代码来隐藏列表项 ul items each function li gt 4 this hide 我的问题是 hide似乎隐藏了该元素但它的空间仍然被分配有没有办法删除这个空间比如display non
更改pdfptable的字体大小

如何设置 pdfptable 的字体创建短语时必须在每个单元格中设置字体 Dim yourFont As BaseFont BaseFont CreateFont Current Server MapPath fonts somefon
使用 swift 进行 google adwords 转化跟踪

我正在尝试让 google adwords 参与我关注的一个快速项目https developers google com app conversion tracking ios https developers google com ap
如何给导航栏上的backButtonItem设置action？

如何给导航栏上的backButtonItem设置action 我有一个导航栏当我按下后退按钮时我需要向用户提醒一些消息并且只有在用户做出反应后才返回到上一个视图我该怎么做谢谢 void viewDidLoad super view
如何在Python中模拟cx_Oracle游标

我在一个类中有两个以下函数我需要模拟数据库连接和游标结果 cx Oracle connect 已成功修补它按预期工作但是光标 callfunc fetch all 不会被模拟知道正确的语法是什么吗 class dbconnect d
如何使用 JsonSerialized::jsonSerialize() 忽略 null 属性？

假设我们有一个简单的对象可以使用嵌套对象进行序列化 class User implements JsonSerializable private name private email private address public funct
如何从 Oracle 日期获取 UNIX 纪元？ [复制]

这个问题在这里已经有答案了有没有人有比这更好更快的解决方案来使用 Oracle SQL 获取 unix 纪元时间戳 SQL gt select cast sysdate as date cast to date 1970 01 01 YY
从图像中删除标签

我有一张带有 2 个标签的映像在 AWS ECR 中我只想删除一个标签我可以使用以下命令轻松地从本地环境中删除 docker rmi
是否可以通过Google Places API获取“流行时代”信息

是否可以通过 Google Places API 或任何其他 API 获取流行时间信息我需要在我的应用程序中针对特定位置显示此信息这是 Google 问题跟踪器中最重要的功能请求之一超过 500 颗星 https issuetra
如果两行中满足某些条件，如何在 R 数据框中添加新列，显示当前行和前一行中的值之和？

假设您有一个包含 a 和 b 列的数据框其值如下所示由以下命令生成df lt data frame a c 0 1 2 2 3 b c 1 3 8 9 4 假设您要添加列 c 如果 a 中的值等于列 a 中紧邻前一行的值则对列 b 中
Django Rest Framework - 如何路由到函数视图

我在用Django with Django Rest Framework Django 2 0 2 djangorestframework 3 7 7 我正在尝试路由到function view 我当前的设置如下所示 project pro
您能否链接到使用BackgroundWorker 的一个很好的示例，而不将其作为组件放置在表单上？

我记得很多年前 2005年我在代码中使用了BackgroundWorker 但没有使用可视化组件但我不记得是如何使用的不幸的是我很健忘在停止使用它后很快就忘记了一切也许我正在扩展BackgroundWorker 类您能链接到以
在哪里可以查看 Web 部署历史记录？

我正在管理一家第三方供应商该供应商使用 Microsoft Web Deploy 将 ASP NET 网站推送到我们的服务器我可以在哪里找到文件发布地点时间的历史记录吗根据微软文档 http www iis net learn pu
在 Google Dataflow 中使用 FireStore

我想在带有 python 的数据流模板中使用 FireStore 我做过这样的事情 with beam Pipeline options options as p p Read from PubSub gt gt beam io ReadF

在 Google Dataflow 中使用 FireStore

在 Google Dataflow 中使用 FireStore 的相关文章

随机推荐

热门标签