将新文件添加到 Cloud Storage 时触发 Dataflow 作业

2024-05-04

我想在将新文件添加到存储桶时触发数据流作业,以便处理新数据并将其添加到 BigQuery 表中。我看到云函数可以被触发 https://cloud.google.com/functions/calling#google_cloud_storage通过存储桶中的更改,但我还没有找到使用以下方式启动数据流作业的方法gcloud Node.js 库 https://googlecloudplatform.github.io/gcloud-node/#/docs/v0.29.0.

有没有办法使用云函数来执行此操作,或者是否有其他方法可以实现所需的结果(将文件添加到存储桶时将新数据插入到 BigQuery)?


Apache Beam 从 2.2 开始支持此功能。看在 Apache Beam 中监视与文件模式匹配的新文件 https://stackoverflow.com/questions/47896488/watching-for-new-files-matching-a-filepattern-in-apache-beam/47896489#47896489.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将新文件添加到 Cloud Storage 时触发 Dataflow 作业 的相关文章

  • 在 Apache Beam 中监视与文件模式匹配的新文件

    我在 GCS 或其他受支持的文件系统上有一个目录 外部进程正在向该目录写入新文件 我想编写一个 Apache Beam 流式传输管道 它可以连续监视此目录中的新文件 并在每个新文件到达时读取和处理它 这可能吗 从 Apache Beam 2
  • 使用 Google Cloud Functions 实现微服务的 API 网关

    Inputs 例如 我们有一些服务 账户服务 产品服务 支付服务 每项服务都是一个单独的 Google Cloud Function 每个服务都有自己的 HTTP API 例如 账户服务有 https REGION FUNCTIONS PR
  • 避免 Firebase 可调用函数的 CORS 预检

    我有一个Firebase 可调用云函数 https firebase google com docs functions callable我在浏览器中的 javascript 应用程序中调用它 由于请求主机是 cloudfunctions
  • 谷歌云功能权限问题

    我在 GCP 中有两个项目 假设项目 A 和 B 项目 A 是新创建的 项目 B 已经有两年了 当我在项目 A 中创建云函数时 它是使用默认服务帐户 project appspot 创建的 但是 当我在项目 B 上创建云函数时 使用了不存在
  • 在 Google Cloud Functions 中安装私有 GitHub npm 包不起作用

    我正在尝试将微服务部署到 GCF 它依赖于私有 GitHub 托管的包 为了访问该包 我向该函数添加了一个 npmrc 文件 如下所述here https cloud google com functions docs writing sp
  • 我可以将 Selenium WebDriver 与 Google Cloud Functions 结合使用吗?

    我正在尝试使用 Selenium 构建解决方案 我可以使用 Firebase Functions 通过 Selenium 初始化和加载网页吗 我发现一些资源说 不 然而他们没有给出任何来源 而且他们已经4岁了 在 Cloud Functio
  • 在 Firebase 函数中验证 reCAPTCHA v3 导致 CORS 问题

    我有以下代码可以验证谷歌验证码 v3在我的 Firebase 函数中导致CORS issue const functions require firebase functions const nodemailer require nodem
  • Firebase 云功能 - Stripe Connect Webhook 未触发

    我正在尝试设置我的 stripe webhook 以便在创建 更新 Stripe Connect 帐户或执行任何操作时自动调用 Firebase 云函数 仅当我手动转到 Stripe 仪表板 gt Webhooks 并点击 发送测试 Web
  • 将文件从远程服务器复制到谷歌云存储桶

    如何将文件从远程服务器复制到 Google 存储桶 例如 gcloud compute scp username server path to file gs my bucket 这个方法会报错 All sources must be lo
  • Git 大文件存储与 Google 云存储

    我是该项目的一部分 我们使用 git 存储库托管在谷歌云源代码库 https cloud google com source repositories 现在我们使用谷歌云存储 https cloud google com storage 存
  • 使用 Admin SDK 将文件上传到 Firebase 存储

    根据Docs https cloud google com storage docs uploading objects storage upload object nodejs 我必须将文件名传递给函数才能上传文件 Uploads a l
  • 部署应用程序引擎后的暂存文件桶

    部署谷歌应用引擎后 谷歌云存储中至少创建了4个存储桶 项目 ID appspot com 登台 项目 ID appspot com 工件 project id appspot com vm containers 项目 ID appspot
  • Google App Engine - 破坏服务 URL 缓存

    我终于设法让图像在 App Engine 上正确旋转 现在我正在努力绕过缓存的图像 而标准缓存清除技术不起作用 因此 第一次旋转图像时 我得到了一个不同的 URL 并且图像被旋转 第二次旋转它时 我得到相同的 URL 只有在附加 s300
  • firebase批量更新和onWrite触发同步

    我在同步两个 Firebase 云函数时遇到问题 第一个函数对多个文档执行批量更新 第二个函数由onWrite触发这些文档之一 为了便于说明 假设我有两个文档A and B 在两个单独的集合中 第一个云功能更新两个文档A and B有消防库
  • 使用 Google Speech 时从 Google Cloud Storage 访问音频文件

    我使用下面的这段代码使用 Google Speech 成功解析了包含语音的 wav 文件 并将其转换为文本 但我想访问另一个 wav 文件 该文件已放置在 Google Cloud Storage 公开 上 而不是本地硬盘上 为什么不简单地
  • 如何在流式管道中按小捆绑的 N 个元素进行批处理?

    我已经按照此答案中的描述实现了 N 个元素的批处理 谷歌数据流管道中的数据存储输入可以一次处理一批 N 个条目吗 https stackoverflow com questions 35065109 can datastore input
  • Google Kubernetes Engine 中的存储 ReadWriteMany

    有没有一种方法能够提供 ReadWriteMany 存储而无需实现存储集群 我能够使用 gcsfuse 提供存储 但速度非常慢 我需要接近 GlusterFS 速度的东西 我目前正在使用 GlusterFS 另一种选择 Google Clo
  • Firebase HTTP 云函数 HTTP 错误代码 403

    自 2020 年 3 月 28 日起 我的所有 HTTP 云函数都出现错误 在我上次更新之前 它们运行良好 我只更改了一些内容 在上次部署后我收到了此错误 h1 Error Forbidden h1 h2 Your client does
  • gsutil 复制到存储失败

    我正在 us central1 a 区域的实例中工作 无法复制 200GB 文件 我试过了 gsutil m cp L my log my file gs my bucket gsutil m cp L my second log my f
  • Dataflow SQL (GCP) 不支持使用 STRUCT 的嵌套行

    使用 Dataflow SQL 我想读取 Pub Sub 主题 丰富消息并将消息写入 Pub Sub 主题 哪个 Dataflow SQL 查询将创建我想要的输出消息 Pub Sub input消息 event timestamp 1619

随机推荐