Apache Beam -> BigQuery - 用于重复数据删除的 insertId 不起作用

2023-12-10

我使用 apache beam 和 google dataflow runner 将数据从 kafka 流式传输到 BigQuery。我想利用 insertId 进行重复数据删除，我在谷歌文档中找到了描述。但即使插入是在几秒钟之内发生的，我仍然看到很多具有相同 insertId 的行。现在我想知道也许我没有正确使用 API 来利用 BQ 提供的流式插入的重复数据删除机制。

我在beam中编写的代码如下所示：

payments.apply("Write Fx Payments to BQ", BigQueryIO.<FxPayment>write()
            .withFormatFunction(ps -> FxTableRowConverter.convertFxPaymentToTableRow(ps))
            .to(bqTradePaymentTable)
            .withCreateDisposition(BigQueryIO.Write.CreateDisposition.CREATE_NEVER)
            .withWriteDisposition(BigQueryIO.Write.WriteDisposition.WRITE_APPEND));

除了所有其他字段之外，我还直接在 FxTableRowConverter.convertFxPaymentToTableRow 方法中的 TableRow 上设置 insertId，并将其作为格式函数传递给 BigQueryIO：

row.set("insertId", insertId);

我还将该字段作为一列添加到 BQ 中。没有它，插入就会失败（显然）。除了将 insertId 添加到 TableRow 对象之外，我找不到任何其他方法可以直接在 BigQueryIO 上设置 insertId 。

这是使用它的正确方法吗？因为它对我不起作用，所以我看到了很多重复，即使我不应该看到，因为就像我已经提到的那样，插入在几秒钟内发生。 BigQuery 文档指出流缓冲区将 insertId 保留至少一分钟。

您无法在 Dataflow 中手动指定 BigQuery 流式传输的 insertIdhttps://stackoverflow.com/a/54193825/1580227

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googlebigquery

ApacheBeam

Apache Beam -> BigQuery - 用于重复数据删除的 insertId 不起作用的相关文章

如何使用第二行中的值填充第一行中的空值？

我正在尝试编写一个查询仅显示每个名称的第一行但这些行的标题为空因此我想从紧邻的下一行中提取它们的标题 table1 Name Title Row Dan NULL 1 Dan Engineer 2 Dan Developer 3 Ja
在 Apache Beam 中连接行

我无法理解 Apache Beam 中的连接例如http www waitingforcode com apache beam joins apache beam read http www waitingforcode com apac
bigquery DataFlow 错误：在 EU 中读写时无法在不同位置读写

我有一个简单的 Google DataFlow 任务它从 BigQuery 表中读取数据并写入另一个表如下所示 p beam io Read beam io BigQuerySource query select dia import
Bigquery - 选择时间戳作为人类可读的日期时间

如何在 Google Bigquery 中选择时间戳存储为秒作为人类可读的日期时间 schema id STRING signup date TIMESTAMP 我使用编写了一个查询DATE功能但出现错误 SELECT DATE cr
Bigquery 取消或停止尚未启动的批量查询作业 (Status.State = "PENDING")

如果由于某种原因想要停止取消尚未启动的批量查询作业 Status State PENDING 是否可以这样做使用的库 net Google Apis Bigquery v2 1 5 0 122 beta BigQuery 现在支持取消
无法访问 Big Query 中类型为 ARRAY> 的字段

我正在尝试在 BigQuery 上使用标准 SQL 方言即不是旧版 SQL 运行查询我的查询是 SELECT date hits referer FROM refresh ga sessions xxxxxx LIMIT 1000 但不
Dataflow/apache beam：管理自定义模块依赖项

我有一个使用 apache beam 的 py 管道它导入另一个模块 py 这是我的自定义模块我有一个这样的结构 mymain py myothermodule py 我将 myothermodule py 导入到 mymain py
BigQuery 类型有多少字节

以下类型在 BigQuery 中占用多少字节时间戳 Datetime Date 我的猜测是日期可以存储在 2 个字节中时间戳可能是 8 个字节但我不确定这一点并且在https cloud google com bigquery do
将数字格式化为包含逗号 (1000000 -> 1,000,000)

在 Bigquery 中我们如何格式化将成为结果集一部分的数字使其使用逗号格式化例如 1000000 到 1 000 000 以下是标准 SQL SELECT input FORMAT d input as formatted FRO
从字符串到日期的日期格式

我正在使用上传的 csv 进行日期格式化其中日期是具有以下格式的字符串 10 30 2021 8 41 PM 我试图在谷歌大查询中将其更改为 mm dd yyyy 但不断收到错误消息提示无效日期或无效日期时间我尝试过使用子字符串
从哪里获取 Google Bigquery 使用信息（主要是处理后的数据）

我知道 BigQuery 每月免费提供第一批已处理的 1 TB 数据但我不知道在仪表板上的何处查看我的每月使用情况我曾经能够恢复到包含信息的旧仪表板但在过去的几周内旧仪表板无法访问在项目的 Google Cloud Con
BigQuery 中的列数限制？

BigQuery 中的列数有限制吗我正在考虑按照最佳实践的建议准备大量的专栏 https developers google com bigquery articles ingestionbestpractices https devel
如何在 BigQuery/SQL 中将行转置为包含大量数据的列？

我在将 BigQuery 中的大量数据表 15 亿行从行转置为列时遇到问题我可以弄清楚如何在硬编码时使用少量数据来完成此操作但是对于如此大量的数据该表的快照如下所示 CustomerID Feature Value 1 A123 3
BigQuery 是否可以进行近似字符串匹配/模糊字符串搜索？

感谢 Google 提供 BigQuery 太棒了 BigQuery 是否可以进行近似字符串匹配模糊字符串搜索 Google 是否计划将此功能添加到 BigQuery 中当然 Google 专有的近似字符串匹配算法可用于向 BigQue
在批处理管道中，如何为来自批处理源的数据分配时间戳，例如 Beam 管道中的 csv 文件

我正在批处理管道中从有界源 csv 文件读取数据并希望根据存储为 csv 文件中列的数据为元素分配时间戳如何在 Apache Beam 管道中执行此操作如果您的批量数据源包含每个元素基于事件的时间戳例如您有一个包含元组的点击事件
未找到函数：group_concat

我很感兴趣使用执行查询 group concat BigQuery 函数 https cloud google com bigquery docs reference legacy sql group concat 当我直接在 BigQue
如何添加“字符串数组”作为 BigQuery 的架构值

我想将字符串值数组存储在 BigQuery 中的单个列中为此我需要首先创建一个具有正确架构的表该数组的模式标识符是ARRAY
BigQuery：从 CSV 加载，跳过列

假设我有一个包含现有数据的表其架构如下 name Field1 type STRING name Field2 type STRING 我们的数据是 CSV Field1 Field2 Value1 Value2 我们通过创建新作业来加载
Python BigQuery 存储。并行读取多个流

我有以下玩具代码 import pandas as pd from google cloud import bigquery storage v1beta1 import os import google auth os environ G
BigQuery 未显示链接的 Firebase Analytics 事件日志的任何数据集

我将我的帐户链接到 Big Query 但 Firebase Analytics 事件不会自动加载到 BigQuery 中显示未找到数据集警告我的工作进度附在下面请查收 I have getting firebase Analyt

随机推荐

ImageField image_width 和 image_height 自动填充现有数据库？

我有一个现有的数据库表ImageField已经有一堆现有的注册表我想添加image width and image height在我的模型上但我需要一些东西来自动填充现有的表格 class ItemImage models Model
滚动时粘性导航栏？

我目前正在为自己构建一个网站我发现在多个网站上都有这种非常棒的效果其中导航栏位于图像下方但当您滚动经过它时它会粘在顶部 Example 我怎样才能实现这个目标另外如何才能达到类似的效果该网站具有类似的导航栏样式这是 Matth
为什么设置断点可以让我的代码工作？

我很新C所以我确信我做错了很多事情但这让我感到困惑我的代码应该从用户那里获取标题并在路由目录中创建一个具有该名称的文件夹仅当我在上面设置断点时它才有效makeFolder 执行由于某种原因在我点击之前稍作休息continue让它
Perl + POO 和 Mysql 错误

我刚刚学了 poo 我开始使用 perl 实现了这一点但我没有得到预期的输出 mysql 有问题吗还是坏代码另外相同的查询在控制台和工作台上运行并且此模块添加 chmod x module pm usr bin perl use
如何从外部链接导航到 Bootstrap 4 的特定选项卡

我想从外部页面链接打开 bootstrap 4 的特定选项卡第 1 页 nav html 我想从这一页转到第二页 a href index html tab 1 tab 1 a a href index html tab 2 tab 2
调整 QWidget 大小时忽略最小尺寸

有没有办法让 QWidget 及其任何子类完全忽略其最小大小我想要的是 QPushButton 在尺寸太小时时被切断而不是阻止窗口调整大小默认行为您可以使用 button setSizePolicy QSizePolicy Ign
使用 selenium python 使用复合类解析 HTML 内容

我的 GUI 中有一个显示按钮用于显示连接状态带有绿色勾号的按钮表示已建立连接带有红色叉号的按钮表示没有连接我必须使用我的代码检查状态我正在解析该特定标题栏类名容器流体的内容由此我正在解析该显示按钮的显式内容 elem d
如何从 SQLite 数据库中检索用户位置特定范围内的一组位置

我有一些位置坐标存储在我的SQLite数据库表我想检索距用户当前位置 1 公里范围内的位置现在我正在从数据库中获取所有值并编写了一个方法来检索我范围内的值这给我带来了巨大的开销因为我的表可能包含超过 1000 个坐标所以我正在寻
EF 6：另一个复杂类型中的嵌套复杂类型

假设我有一个名为 car 的实体我使用复杂类型来定义引擎部分 TableName T CAR public sealed class Car IEngine public EngineType EngineType get set C
使用 Angular js 进行应用程序设计

一直致力于使用 Angular JS 构建一个巨大的应用程序在同一主题上看到了太多关于如何最好地设计应用程序的问题但仍然感到困惑一个基本的应用程序通常有一个 1 登录页面索引页面 2 主页带页眉和页脚身体是partial com
将两个数据框导出为一个 Excel 文件，并在指定位置的 pandas 中包含两张表

我有两个数据框如下所示 df1 Date t factor plan plan score 0 2020 02 01 5 NaN 0 1 2020 02 02 23 NaN 0 2 2020 02 03 14 start 0 3 2020
Javascript如何获取所选项目的ID

我正在使用 Web2Py 将值列表发送到我的视图我的 HTML 是这样的
Excel VBA 计算另一张工作表中的公式

已解决问题出在我的公式中我使用 INDIRECT 引用单元格当工作表不同时该单元格不起作用查看答案我在一张纸上有一个公式我想要做的是使用另一张纸上的公式使用 eval 来评估该公式然而结果并不如预期该公式似乎使用工作表
使用 Chrome 查找 JavaScript 内存泄漏

我创建了一个非常简单的测试用例它创建一个 Backbone 视图将处理程序附加到事件并实例化一个用户定义的类我相信通过单击此示例中的删除按钮所有内容都会被清理并且不会出现内存泄漏代码的 jsfiddle 在这里 http
使用单例进行单元测试

我已经使用 Visual Studio Team Edition 测试框架准备了一些自动测试我希望其中一项测试按照程序中完成的正常方式连接到数据库 string r providerName ConfigurationManager Co
Delphi 字典和排序数据

我的代码是 procedure TfrmSettings btnFillDictClick Sender TObject var Dict TDictionary
在 Node.js 中复制 Java 密码哈希代码 (PBKDF2WithHmacSHA1)

编辑我的问题已更新请查看这篇文章的底部以了解最新一期我把剩下的留给那些想阅读整个故事的人我一直致力于将一个小型 Java 应用程序转换为 Node js 大部分进展顺利我必须查找大量 Java 函数来弄清楚它们的作用以及如何在 N
获取mysql查询中一行的排名

我使用此查询根据每个名字获得的票数为他们分配排名但它返回错误 1248 每个派生表必须有自己的别名这是我的代码 SELECT rownum rownum 1 AS rank name vote FROM table SELECT row
getJSON 不支持 async:false

我下面有这段代码它应该返回调用的结果我需要同步执行此操作以便我知道一切都很好但它似乎不起作用我究竟做错了什么 jQuery library http code jquery com jquery 1 9 1 min js func
Apache Beam -> BigQuery - 用于重复数据删除的 insertId 不起作用

我使用 apache beam 和 google dataflow runner 将数据从 kafka 流式传输到 BigQuery 我想利用 insertId 进行重复数据删除我在谷歌文档中找到了描述但即使插入是在几秒钟之内发生的我

Apache Beam -> BigQuery - 用于重复数据删除的 insertId 不起作用

Apache Beam -> BigQuery - 用于重复数据删除的 insertId 不起作用 的相关文章

随机推荐

热门标签

Apache Beam -> BigQuery - 用于重复数据删除的 insertId 不起作用的相关文章