谷歌数据流写入bigquery表性能

2023-12-12

我将处理数据和输出的性能与 Bigquery 表和文件进行了比较,差异显着:

输入:约 600 个文件中的 150 万条记录 转换:构造/转换每个记录中的一些字段,构造一个键并发出键、值对;最终每个键的记录都会到达一个目标、一个文件或一张表;

写入 13 个文件花了 7 分钟,写入 13 个 bigquery 表花了 60 多分钟;

尝试了解这是预期的结果还是我没有做对?写入bigquery表时应考虑哪些因素?

请帮忙,这可能会阻碍我想做的事情。


对于批处理作业,Dataflow 将数据写入 BigQuery,方法是将其写入 GCS,然后运行 ​​BigQuery 作业以将该数据导入 BigQuery。如果您想知道 BigQuery 作业需要多长时间,我认为可以查看项目中运行的 BigQuery 作业。

您可以尝试以下命令来获取有关 BigQuery 导入作业的信息。

  bq ls -j <PROJECT ID>:

上面的命令应该向您显示作业列表和持续时间等信息。 (注意项目 ID 末尾的冒号,我认为冒号是必需的)。

然后你可以尝试

bq show -j <JOB ID>

获取有关该工作的更多信息。

请注意,您必须是项目的所有者才能查看其他用户运行的作业。这适用于 Dataflow 运行的 BigQuery 作业,因为 Dataflow 使用服务帐户。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

谷歌数据流写入bigquery表性能 的相关文章

随机推荐

  • 矩阵乘法:为什么非阻塞优于阻塞?

    我试图通过阻止循环来提高缓存性能来加速矩阵乘法算法 但无论矩阵大小 块大小如何 非阻塞版本仍然明显更快 我已经尝试了 2 到 200 之间的许多值 效力 2 及其他 和优化级别 非阻塞版本 for size t i 0 i lt n i f
  • HTML 组合框,带有输入条目的选项

    我的印象是 除了选择列表中已有的任何值之外 您还可以在组合框中键入内容 但是 我似乎无法找到有关如何执行此操作的信息 我需要添加一个属性来允许输入文本吗 Before datalist 参见下面的注释 您需要提供额外的input供人们输入自
  • 在 iOS 中更新/修改地址簿联系人后的通知

    iOS 更新或更改通讯录信息后是否有通知 Use ABAddressBookRegisterExternalChangeCallback收听地址簿中的更新 您还可以收听 ABCDataBaseChangedExternallyNotific
  • 为什么 UITextField 在将自身设置为 delegate 时会锁定

    我有一个扩展 UITextfield 的类 我还将相同的类设置为它自己的委托 因此当选择文本字段时我可以更改背景颜色 一旦我选择文本字段并输入几个字母 应用程序就会锁定并崩溃 这是我的 m 文件的样子 implementation MyTe
  • 如何按需启动/停止Delphi监控线程?

    我一直在寻找一种方法来监视 Delphi 中的特定注册表更改 找一个solution在 about com 上 procedure TRegMonitorThread Execute begin InitThread method omit
  • dword ptr 和 dword ptr:es 之间的区别

    我只是在 VS2010 中检查我的 C 程序的反汇编 这里是 int main 00B613A0 push ebp 00B613A1 mov ebp esp 00B613A3 sub esp 0D4h 00B613A9 push ebx 0
  • iphone如何处理按键事件

    你好 我正在开发 iphone 应用程序 并且想要处理 iphone 中的键盘事件 在Mac中 有一个类NSEvent可以处理键盘和鼠标事件 而在ios iphone ipad 中 NSEvent的对应类是UIEvent 它只处理触摸事件
  • 保留换行符的 C++ 预处理器字符串化?

    我需要记录 出于审计 记录目的 在我的代码中传递的 lambda 函数的代码 当然 lambda对象也需要保存 所以我想出了一个宏观的解决方案 如下 define LAMBDA AND STRING lambda lambda lambda
  • Android 互联网权限被忽略

    我有一个需要互联网许可的应用程序 但它似乎不适合我 I added
  • 相似度-抛光和包装

    我在用着Ploeh SemanticComparison s Likeness作为有效表达映射过程的预期输出的一种方式 如中所述Mark Seemann 在 PluralSight 上发表的优秀高级单元测试课程 我正在测试一些数据是否已正确
  • 斯坦福-NER定制对软件编程关键字进行分类

    我是 NLP 新手 我使用斯坦福 NER 工具对一些随机文本进行分类 以提取软件编程中使用的特殊关键字 问题是 我不知道如何更改斯坦福 NER 中的分类器和文本注释器来识别软件编程关键字 例如 today Java used in diff
  • 为什么包含空字符串的列表为真?

    我在工作中发现了一些返回包含空字符串的列表的内容 为了简单起见 我创建了一个示例 big ol trickster if big ol trickster foo else print You can t trick me 而且这个条件每次
  • 如何在 Docker Compose V2 中扩展服务?

    我有三个不同的项目 ProjectS 依赖于 Project 而 Project 又依赖于 Project 假设您只想开发 ProjectC 因此我想仅在运行时使用具有一个容器的设置 项目需要项目 所以我必须定义一个带有两个图像的docke
  • 获取 vcproj 文件中 $(ProjectDir)、$(SolutionDir) 的值

    是否可以得到的值 ProjectDir or SolutionDir 在 Visual Studio 之外以编程方式 我的情况是我需要将 vcproj 文件作为文本文件读取并获取其属性 如输出目录等 问题是某些属性包含环境变量 如 Solu
  • 具有动态大小的 Fortran 数组,与 R 函数 seq() 一样简单

    我想编写像 R 函数 seq 一样工作的 Fortran 代码 例如 x lt seq 0 1 0 1 将给出向量 x lt c 0 0 1 0 2 1 我将运行几次模拟 序列的长度将发生变化 在 R 中 这很容易完成 只需改变 seq 中
  • 如何确保仅当单击按钮时它才重定向到特定网址 javascript

    所以我以某种方式构建了它将总计从结账页面转移到索引页面 在本例中是付款页面 但这是一个问题 当进入结帐页面时它会自动转到索引页面 但我希望它仅在按钮打开时才这样做单击 我尝试使用 addEventListener 执行某些操作 但它只是在i
  • 粘性表格标题

    我正在用这个plugin在我的中实现粘性表头Table 实际上 就像在插件示例和我的页面中一样 表头在表中的最后一行稍后消失 我希望我的表头在最后一行消失时消失 有机会实现这一点吗 这是一个工作示例 fiddle 我所改变的只是这一行的结尾
  • 简单赋值时不输出期望值

    当我将一些值分配给具有四位的变量时 当我简单地输出该值时 我会得到意想不到的结果 我以前从未见过这个 想知道我是否在语法上做错了什么 module main reg 3 0 x initial begin monitor b x x 001
  • Boot2Docker(在 Windows 上)使用共享文件夹运行 Mongo(不支持此文件系统)

    我正在尝试使用 Boot2Docker 在 Windows 上使用共享文件夹启动 Mongo 容器 开始使用时run it v c Users 310145787 Desktop mongo data db mongo我在容器内收到一条警告
  • 谷歌数据流写入bigquery表性能

    我将处理数据和输出的性能与 Bigquery 表和文件进行了比较 差异显着 输入 约 600 个文件中的 150 万条记录 转换 构造 转换每个记录中的一些字段 构造一个键并发出键 值对 最终每个键的记录都会到达一个目标 一个文件或一张表