如何使用 Beam 读取大型 CSV？

2024-02-20

我正在尝试弄清楚如何使用 Apache Beam 读取大型 CSV 文件。我所说的“大”是指几 GB（因此将整个 CSV 一次性读入内存是不切实际的）。

到目前为止，我已经尝试了以下选项：

使用 TextIO.read()：这不好，因为带引号的 CSV 字段可能包含换行符。此外，它尝试一次将整个文件读入内存。
编写一个 DoFn，将文件作为流读取并发出记录（例如使用 commons-csv）。但是，这仍然会一次读取整个文件。
尝试可分割的 DoFn如此处所述 https://beam.apache.org/blog/2017/08/16/splittable-do-fn.html。我的目标是让它逐渐将记录作为无界 PCollection 发出 - 基本上，将我的文件转换为记录流。然而，(1) 很难正确计数 (2) 由于 ParDo 创建多个线程，因此需要一些黑客同步，以及 (3) 我生成的 PCollection 仍然不是无限的。
尝试创建我自己的 UnboundedSource。这似乎非常复杂并且记录很少（除非我遗漏了一些东西？）。

Beam 是否提供了任何简单的东西来允许我按照我想要的方式解析文件，而不必在继续下一个转换之前将整个文件读入内存？

从 Beam 的角度来看，TextIO 应该做正确的事情，即尽快读取文本文件并将事件发送到下一阶段。

我猜您正在为此使用 DirectRunner，这就是您看到大量内存占用的原因。希望这不是太多的解释：DirectRunner 是小型作业的测试运行器，因此它将中间步骤缓冲在内存中而不是缓冲到磁盘中。如果您仍在测试管道，则应该使用一小部分数据样本，直到您认为它有效为止。然后，您可以使用 Apache Flink 运行程序或 Google Cloud Dataflow 运行程序，它们都会在需要时将中间阶段写入磁盘。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ApacheBeam

如何使用 Beam 读取大型 CSV？的相关文章

在使用窗口化的 GroupByKey 之后，Beam pipeline 不会产生任何输出，并且出现内存错误

purpose 我想加载流数据然后添加一个键然后按键计数 problem 当我尝试使用流方法无界数据加载和按键分组大数据时 Apache Beam Dataflow pipline 出现内存错误因为看起来数据是在 group by
使用 PAssert containsInAnyOrder() 比较对象的测试管道

我正在为 Apache Beam 管道编写 JUnit 测试我开始使用 DoFnTester 但它已被弃用尽管 Apache Beam 测试您的管道文档中的示例引用了已被弃用的方法我现在使用推荐的 TestPipeline 和 PA
如何在Beam 2.0中获取复合PTransform中的PipelineOptions？

升级到 Beam 2 0 后Pipeline类没有getOptions 不再上课了我有一个复合的PTransform这依赖于获取其选项expand method public class MyCompositeTransform exte
在 Apache Beam PCollection 中使用 AutoValueSchema 会出现“RuntimeException：创建者参数 arg0 不对应于架构字段”

我试图拥有我创建的 AutoValue 定义对象的 PCollection 并且我添加了适当的注释来通过以下方式推断架构DefaultSchema AutoValueSchema class 就像这样 DefaultSchema AutoV
仅在另一个管道在谷歌数据流上完成后才执行管道

我想在谷歌数据流上运行一个管道该管道取决于另一个管道的输出现在我只是在本地使用 DirectRunner 运行两个管道 with beam Pipeline options pipeline options as p p beam io
避免重新计算 Beam Python SDK 中所有云存储文件的大小

我正在开发一个从 Google Cloud Storage GCS 目录读取约 500 万个文件的管道我已将其配置为在 Google Cloud Dataflow 上运行问题是当我启动管道时需要几个小时计算所有文件的大小 INFO
如何从 Apache Beam KafkaIO 中的 kafka 主题推断 avro 架构

我正在使用 Apache Beam 的 kafkaIO 来读取 Confluence 模式注册表中具有 avro 模式的主题我能够反序列化消息并写入文件但最终我想写信给 BigQuery 我的管道无法推断架构如何提取推断架构并将其附
Apache Beam 每用户会话窗口未合并

我们有一个有用户的应用程序每个用户每次使用我们的应用程序大约 10 40 分钟我想根据发生的特定事件例如该用户已转换该用户上次会话出现问题该用户上次会话成功在此之后我想计算每天这些更高级别的事件但这是一个单独的问题为此
无法通过在 Apache Beam 中创建模板来按所需顺序运行多个管道

我有两个独立的管道分别为 P1 和 P2 根据我的要求我只需要在 P1 完全完成执行后才运行 P2 我需要通过一个模板完成整个操作基本上模板在找到 run 方式即 p1 run 时就被创建所以我可以看到我需要使用两个不同的模板
Apache Beam - Bigquery 流插入显示 RuntimeException：ManagedChannel 分配站点

我正在 Google Dataflow 中运行流式 Apache Beam 管道它从 Kafka 读取数据并将数据流式插入到 Bigquery 但在 bigquery 流插入步骤中它抛出了大量警告 java lang RuntimeEx
在 Dataflow Python flex 模板中包含另一个文件 ImportError

是否有一个包含多个文件的 Python Dataflow Flex 模板示例其中脚本导入同一文件夹中包含的其他文件我的项目结构是这样的 pipeline init py main py setup py custom py 我正在尝试将
可以使用数据流将 pubsub 消息重复数据删除回 pubsub 吗？

我有一个将数据写入 Google Cloud pubsub 的应用程序根据 pubsub 的文档由于重试机制而导致的重复偶尔可能会发生还有消息乱序的问题这在 pubsub 中也得不到保证另外根据文档可以使用 Google Cl
如何从数据流中的PCollection读取bigQuery

我有一个从 pubsub 获得的对象 PCollection 比如说 PCollection
ParDo 中的侧面输出 | Apache Beam Python SDK

由于该文档仅适用于 JAVA 我无法真正理解它的含义它指出虽然 ParDo 始终生成一个主输出 PCollection 作为 apply 的返回值但您也可以让 ParDo 生成任意数量的附加输出 PCollection 如果您选择有多
如何从 Apache Beam 中的 HTTP 响应读取大文件？

Apache Beam 的 TextIO 可用于读取某些文件系统中的 JSON 文件但如何从 Java SDK 中的 HTTP 响应产生的大型 JSON InputStream 中创建 PCollection 我认为 Beam 目前没有通
Apache Beam：具有无限源的批处理管道

我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据数据来自Google PubSub 它是无限制的所以目前我正在使用流媒体管道然而事实证明拥有一个 24 7 运行的流管道是相当昂贵的为了降
在 Apache Beam 中连接行

我无法理解 Apache Beam 中的连接例如http www waitingforcode com apache beam joins apache beam read http www waitingforcode com apac
Apache Beam Pipeline 写表后查询表

我有一个 Apache Beam Dataflow 管道它将结果写入 BigQuery 表然后我想查询该表以获取管道的单独部分但是我似乎无法弄清楚如何正确设置此管道依赖性我编写的新表然后想要查询与一个单独的表连接以进行某些过滤
Spring 与 Apache Beam

我想将 Spring 与 Apache Beam 结合使用它将在 Google Cloud Data flow Runner 上运行数据流作业应该能够在执行管道步骤时使用 Spring 运行时应用程序上下文我想在 Apache Bea
使用 Apache Beam 的 Dataflow 批量加载的性能问题

我正在对数据流批量加载进行性能基准测试发现与 Bigquery 命令行工具上的相同负载相比加载速度太慢文件大小约为 20 MB 包含数百万条记录我尝试了不同的机器类型并获得了最佳的负载性能n1 highmem 4加载目标 BQ 表的

随机推荐

ImageView 内的 Android ProgressBar

我有一个活动通过异步任务用数据填充列表视图另外我正在后台加载图片在加载图片时我想在图像视图中显示进度条而不是默认图标我在互联网上搜索了任何示例等但找不到任何有用的东西我只找到一个响应它说您必须使用图像视图和进度条进行框架布局
JQuery获取formaction和formmethod

我有一个像这样的
如何在 Git 中执行三向比较而不合并？

我想在具有公共合并基础的两个 git 分支之间执行三向差异并使用 kdiff3 查看它我发现了很多关于SO的指导以及一些非常相似的问题 1 https stackoverflow com q 26301307 3380131 2 ht
SQL Server Express (2012) 和 LocalDB 之间有区别吗？

以他的优秀和受欢迎对比图 http erikej blogspot com 2011 01 comparison of sql server compact 4 and html ErikEJ 区分了SQL Server Express 2
MySQL GROUP BY 仅返回第一行

我有一个名为forms具有以下结构 GROUP FORM FILEPATH SomeGroup SomeForm1 SomePath1 SomeGroup SomeForm2 SomePath2 我使用以下查询 SELECT FROM fo
如何将高度（阴影）添加到我的 BottomNavigationView。默认情况下它不会出现

I tried setting elevation from xml and programmatically both But nothing works 仅当您在 BottomNavigationView 中将白色设置为 android
在匿名 PHP 函数中访问父作用域的变量 [重复]

这个问题在这里已经有答案了我想编写一个函数来执行一些记录事务的脏工作但匿名函数作用域似乎没有注册父作用域 db and value变量如何将变量传递到闭包中讽刺的是 SO 标签 closures 并没有非常准确地描述它的 PHP 版
将 NSString 的 NSArray 转换为 NSMutableString 的 NSArray

如何做到这一点而不必使用 for 循环滚动整个给定数组我能想到的最好的办法是 NSMutableArray replacementArray NSMutableArray array originalArray enumerateO
从（行、列、值）数据创建 Pandas DataFrame

我有一个包含三列的 Pandas Dataframe 行列值行值都是低于某些的整数N 并且列值都是低于某个值的整数M 这些值都是正整数如何有效地创建数据框N行和M列带有 at 索引i j价值val if i j val 是我原始数
文档或博客：应用内购买和 Monotouch

我正在寻找如何创建应用内购买的开发部分 itunes的配置是没问题的但没有找到任何关于在 MonoTouch 中进行开发部分的资源有什么想法请 github 上有一些可用的源代码 https github com Redth APNS
如何确定滚动高度？

如何使用 css Overflow auto 确定分区的滚动高度我试过了 test scrollHeight test height but that just returns the size of the div not all th
比较两个 List 对象是否相等，忽略顺序[重复]

这个问题在这里已经有答案了又一个列表比较问题 List
包裹 2D 柏林噪声

我正在与 Perlin Noise 合作开发高度图生成算法我想让它环绕边缘以便可以将其视为连续的有没有简单的方法或技巧可以做到这一点我想我需要类似球形噪声的东西以便它在水平和垂直方向上环绕我也很高兴只有 1 个缠绕轴但有两个会
根据相似的列值乘以单独的 pandas 数据框中的列

假设我有 2 个数据框 df1 pd DataFrame alpha A A A B B B C C C number 1 2 3 4 5 6 7 8 9 alpha number 0 A 1 1 A 2 2 A 3 3 B 4 4 B 5
快速报告错误

I have FastReport NET http bit ly cKP3lV它链接到我的 C 2010 当我尝试将报告从工具箱拖到 Windows 应用程序时出现以下错误类型或命名空间报表不存在我尝试添加快速报告的 dll 引用
ionic-2 本机 youtube 视频播放器插件安装失败？Cordova 错误：无法获取插件？

你好我正在构建一个 ionic 2 应用程序它显示一些 YouTube 视频内容我研究了 ionic 本机文档https ionicframework com docs native youtube video player http
为什么使用 Android ADB shell 的 SQLite 3 命令返回“权限被拒绝”？

具体来说我试图使用sqlite3使用 ADB shell 命令对我正在构建的 Android 应用程序的数据库运行一些查询我不断收到 sqlite3 权限被拒绝我正在从 Google 购买的 Nexus One 上进行开发我的手机需
C Tokenizer（当字段丢失时它也会返回空。耶！）

也可以看看对于 C 来说这是一个好的 substr 吗 https stackoverflow com questions 874015 updated is this a good substr for c strtok 和朋友跳过空
Velocity 模板似乎无法使用 UTF-8

我一直在尝试使用具有以下内容的速度模板 S bj ct item 除了两个 Unicode 字符的翻译之外一切正常命令行上打印的结果字符串如下所示 S bj ct foo 我在速度网站和网络上搜索了这个问题并提出了不同的字体编码选项
如何使用 Beam 读取大型 CSV？

我正在尝试弄清楚如何使用 Apache Beam 读取大型 CSV 文件我所说的大是指几 GB 因此将整个 CSV 一次性读入内存是不切实际的到目前为止我已经尝试了以下选项使用 TextIO read 这不好因为带引号的 CS

如何使用 Beam 读取大型 CSV？

如何使用 Beam 读取大型 CSV？ 的相关文章

随机推荐

热门标签

如何使用 Beam 读取大型 CSV？的相关文章