编写镶木地板文件时如何避免空文件？

2023-11-29

我正在使用 Spark 结构化流从 Kafka 队列中读取数据。读完卡夫卡后我正在申请filter on the dataframe。我正在将这个过滤后的数据帧保存到镶木地板文件中。这会生成许多空镶木地板文件。有什么办法可以停止写入空文件吗？

df = spark \
    .readStream \
    .format("kafka") \
    .option("kafka.bootstrap.servers", KafkaServer) \
    .option("subscribe", KafkaTopics) \
    .load()

Transaction_DF = df.selectExpr("CAST(value AS STRING)")

decompDF = Transaction_DF.select(zip_extract("value").alias("decompress"))
filterDF = decomDF.filter(.....) 

query = filterDF .writeStream \
    .option("path", outputpath) \
    .option("checkpointLocation", RawXMLCheckpoint) \
    .start()

有什么办法可以停止写入空文件。

是的，但你宁愿not do it.

许多空 parquet 文件的原因是 Spark SQL（结构化流的底层基础设施）尝试猜测加载数据集的分区数量（每批来自 Kafka 的记录），并且执行得“很差”，即许多分区没有数据。

当您保存没有数据的分区时，您将得到一个空文件。

您可以使用repartition or coalesce操作员设置适当的分区数量并减少（甚至完全避免）空文件。看数据集API.

你为什么要not do it? repartition and coalesce由于在分区（以及可能是 Spark 集群中的节点）之间重新整理数据的额外步骤，可能会导致性能下降。这可能很昂贵并且不值得这样做（因此我说你宁愿不这样做）。

然后您可能会问自己，如何知道正确的分区数量？这是一个非常好的问题any星火项目。答案相当简单（如果您了解 Spark 处理什么以及如何处理，那么答案就很明显）：“了解您的数据”，以便您可以计算有多少数据是完全正确的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

编写镶木地板文件时如何避免空文件？的相关文章

在 Scala 中创建 Java 对象

我有一个 Java 类 Listings 我在 Java MapReduce 作业中使用它如下所示 public void map Object key Text value Context context throws IOExcept
必须设置 Ignite 网格名称线程本地，或者应在 org.apache.ignite.thread.IgniteThread 下访问此方法

这个错误是什么意思我正在尝试从 Apache Spark 映射函数中检索 Ignite 缓存我在这里错过了什么吗最有可能的Ignite or IgniteCache实例被序列化并与函数一起发送到执行器你应该避免这种情况并获得Igni
Spark 上的 Kubernetes 驱动程序 pod 清理

我在 kubernetes 1 19 上运行 Spark 3 1 1 作业完成后执行程序 Pod 就会被清理但驱动程序 Pod 仍处于完成状态驱动程序完成后如何清理要设置任何配置选项吗 NAME READY STATUS RESTA
如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中？

当我尝试在 Spark conf 中设置包依赖项 spark sftp 时我收到 ClassNotFoundException 但当我使用以下命令执行脚本时它会起作用 Spark submit packages com springml
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
Spark Collect_list 并限制结果列表

我有以下格式的数据框 name merged key1 internalKey1 value1 key1 internalKey2 value2 key2 internalKey3 value3 我想做的是将数据框分组name 收集列表并l
java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2
Python - 将整数或字符串发送到 Spark-Streaming

我可以通过 CSV 文件发送我的数据首先将我的随机数写入CSV文件然后发送但是可以直接发送吗我的套接字代码 import socket host localhost port 8080 s socket socket socket
Spark 2.1无法在CSV上写入Vector字段

当我将代码从 Spark 2 0 迁移到 2 1 时我偶然发现了与 Dataframe 保存相关的问题这是代码 import org apache spark sql types import org apache spark ml l
Spark 物理计划和逻辑计划

我有两个问题在不添加任何额外代码来打印提交的 Spark 作业的逻辑和物理计划的情况下有没有办法查看集群上运行的 Spark 作业的物理和逻辑计划有没有办法动态修改集群上正在运行的 Spark 作业的执行计划以获得更好的性能请分享您
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
Spark：用列的平均值替换数据框中的空值

如何创建 UDF 以编程方式将每列中 Spark 数据框中的空值替换为列平均值例如在示例中数据 col1 空值的值为 2 4 6 8 5 5 5 示例数据 col1 col2 col3 2 null 3 4 3 3 6 5 null
任务和分区之间有什么关系？

我能说么 Spark任务的数量等于Spark分区的数量吗执行器运行一次执行器内部的批处理等于一个任务吗每个任务只产生一个分区 1 的重复并行度或可以同时运行的任务数量由以下公式设置 Executor实例的数量配置每个执行器的
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple

随机推荐

从网址中删除 web/app_dev.php/

我已经在 symfony 2 中完成了我的应用程序现在我想从网址中删除 web app dev php 我读到了这一点并在这样做之后 php app console cache clear env prod no debug 并添加 h
创建 libcurl http post 表单

我如何创建一个curl form 例如在stackoverflow上发帖如果我查看问题表单页面的来源我会看到
有没有办法获取队列中的最后一个元素？

我知道堆栈是最好也是最简单的方法但是是否有可能获得队列中的最后一个元素而无需将任何内容出列您可以简单地执行以下操作 Assumes T is a reference type if it s a value type then you
删除文本文件中的特定行

我正在研究一个选项如果用户输入确切的标题和作者该选项将能够删除指定的行但是我无法让它发挥作用我的功能内容如下所示 fnRemoveBook echo Title read Title echo Author read Author
如何在java中从tcp流播放声音

还有另一个应用程序在此套接字上写入原始 wav 文件客户端启动并开始收听当前正在播放的歌曲 Socket clientSocket new Socket localhost 9595 AudioInputStream stream Aud
TypeScript 错误 TS2339：“EventTarget”类型上不存在属性“matches”

我收到一个我无法从 TypeScript 中理解的错误我正在使用一段完全有效的 JavaScript 但它在我的 IDE 中以及通过 Gulp 进行预处理期间都标记了错误我已将其剥离回其核心但仍然收到错误即使这是完全有效的 JS d
将段落的每一行包裹在一个跨度中

我有一个 div 元素它将显示一个没有换行符的段落如示例中所示 div Lorem Ipsum is simply dummy text of the printing and typesetting industry Lorem Ip
无法同时满足约束 - 没有适当的约束

我已经检查并删除了每个用户限制但仍然收到以下错误ONLY旋转设备后我完全不知道为什么有人有什么想法吗 2013 01 14 21 30 31 363 myApp 35869 c07 Unable to simultaneously s
声纳添加新项目

我正在尝试添加一个新项目到sonar 运行声纳跑步者时我收到以下错误任何人都可以帮助我解决这个问题 sonar runner Runner configuration file opt lampp htdocs typo3 sonar
如何在不使用 SQLAlchemy 引擎的情况下将数据帧写入 Postgres 表？

我有一个数据框我想写入Postgres数据库此功能需要成为Flask app 现在我通过创建一个单独的脚本来运行此插入部分SQLAlchemy 引擎并将其传递给df to sql 将数据框写入数据库表但是当我将此功能集成到 Flas
将不同大小的圆形打包成矩形 - d3.js

我试图打包圈子不同尺寸放入一个长方形容器中不包装在圆形容器中d3 js捆绑在一起在下面d3 layout pack 这是我想要实现的布局我找到了这张纸在这个问题上但我不是数学家无法彻底理解这篇文章并将其转换为代码任何人都可以建议
Django 简单标签在 if 条件下不起作用

我想通过使用审核工具添加块来自定义 django admin 的视频对象更改表单当我在 if 条件下使用自定义 simpletags 时它不起作用模型 py class Video models Model class Meta db
Spring RestController - 找不到 java.lang.Integer 类型的返回值的转换器

我目前正在尝试创建我的第一个带弹簧的休息服务我不想让他回来XML结果基于JAXB 在一个非常基本的休息控制器上 import org springframework web bind annotation import java uti
如何获取未过时的位置？

启用 GPS 后 GPS 需要一段时间才能准备就绪因此使用此代码可能会获得已过时的位置位置 locationManager getLastKnownLocation LocationManager GPS PROVIDER 我无法使用
Safari set-cookie 不适用于第一方 cookie

当我登录时我返回到浏览器 Overview URL https subdomain domain de 8444 api auth login Status 200 Source Network Adresse xxx xxx x xx
如何在 File::Find::Rule 中的“or”替代中使用 mindepth 和 maxdepth？

我有以下文件夹结构作为一个最小的示例 dir a b c txt d txt c q txt b bb txt d dd txt q txt 我想找到所有 txt文件但排除其中的所有内容dir b从搜索中使用File Find Rule
如何绕过 Safari 的 XSS 审核器以在 POST 上渲染远程 Flash 对象？

我有一个表单允许您嵌入 YouTube 视频当它发布时它会呈现 YouTube 视频问题是 Safari 自 5 0 起有一个 XSS Auditor 会抛出以下消息 Refused to load an object URL f
使用 dplyr 对除某些列之外的所有列进行突变

我发现across 对于在多个列上重复操作非常有用但是我仍然没有完全理解如何选择特定列进行操作假设我想将一个函数应用于mtcars except gear and carb 我尝试过类似的东西 Function to use over
Socket.Send 和 Stream.Write 有什么区别？（与 tcp ip 连接相关）

在处理服务器客户端连接时我已经看到这两种方法都被有效地使用而没有任何明显的优点但我怀疑如果其中之一没有任何已知的优点它们都会存在有谁知道两者之间有什么明显的区别吗非常感谢您的帮助谢谢 Socket Send是直接通过WINS
编写镶木地板文件时如何避免空文件？

我正在使用 Spark 结构化流从 Kafka 队列中读取数据读完卡夫卡后我正在申请filter on the dataframe 我正在将这个过滤后的数据帧保存到镶木地板文件中这会生成许多空镶木地板文件有什么办法可以停止写入空文件吗

编写镶木地板文件时如何避免空文件？

编写镶木地板文件时如何避免空文件？ 的相关文章

随机推荐

热门标签

编写镶木地板文件时如何避免空文件？的相关文章