Spark 结构化流如何处理背压？

2023-11-26

我正在分析 Spark 结构化流的背压功能。有谁知道详情吗？是否可以通过代码调整流程传入记录？谢谢

如果您的意思是动态更改结构化流中每个内部批次的大小，那么NO。结构化流中没有基于接收器的源，因此完全没有必要。从另一个角度来看，Structured Streaming 无法做到真正的背压，因为，比如 Spark 无法告诉其他应用程序放慢将数据推送到 Kafka 的速度。

一般来说，结构化流默认会尝试尽可能快地处理数据。每个源都有一些选项可以控制处理速率，例如maxFilesPerTrigger在文件源中，以及maxOffsetsPerTrigger在卡夫卡源中。请阅读以下链接了解更多详细信息：

http://spark.apache.org/docs/latest/structed-streaming-programming-guide.html#input-sources http://spark.apache.org/docs/latest/structed-streaming-kafka-integration.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark 结构化流如何处理背压？的相关文章

在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2
如何从 Spark MLLib 中的 TF Vector RDD 获取单词详细信息？

我使用创建了术语频率HashingTF在斯帕克我已经使用术语频率tf transform对于每个单词但结果是以这种格式显示的
使用 Spark 版本 2.2 的 row_number() 函数创建 PySpark DataFrame 中每行的行号

我有一个 PySpark DataFrame valuesCol Sweden 31 Norway 62 Iceland 13 Finland 24 Denmark 52 df sqlContext createDataFrame valu
Spark-获取RDD中的文件名

我正在尝试处理每天都在增长的 4 个文本文件目录我需要做的是如果有人试图搜索发票号码我应该给他们包含该发票号码的文件列表我能够通过将文本文件加载为 RDD 来映射和减少文本文件中的值但是如何获取文件名和其他文件属性呢从 Spar
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
Spark SQL如何读取压缩的csv文件？

我尝试过使用apispark read csv读取带有扩展名的压缩 csv 文件bz or gzip 有效但在源代码中我没有找到任何可以声明的选项参数codec type 即使在这个link https github com databr
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
Spark：Shuffle Write、Shuffle 溢出（内存）、Shuffle 溢出（磁盘）之间的区别？

我有以下 Spark 工作试图将所有内容保留在内存中 val myOutRDD myInRDD flatMap fp gt val tuple2List ListBuffer String myClass ListBuffer tuple
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
使用 Apache Spark 读取 JSON - `corrupt_record`

我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point
如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
Spark-submit，客户端无法通过以下方式进行身份验证：[TOKEN，KERBEROS]；

我使用 kerberos 设置了 hadoop 集群但是当我运行 Spark Submit 时它抛出异常 17 10 19 08 46 53 WARN scheduler TaskSetManager Lost task 0 0 in

随机推荐

有条件地向 ui-select 添加“multiple”属性

我正在尝试添加multiple归因于ui select指令基于某个属性的值使用ng attr 指示不幸的是这对我不起作用我设置了一个 plunker 示例来展示正在发生的事情笨蛋的例子 Edit 读完上述内容后我终于明白了GitH
我们可以在 Firebase Cloud Messaging 中创建多少个主题？

我正在构建一个使用 Firebase Cloud Messaging 的应用程序但我有一些疑问我想知道我们可以在一个应用程序实例中制作多少个主题 In 官方文档它写道当单个应用实例订阅过多主题时它检索错误TOO MANY 主题我想
如何在我的 PHP/SQL/HTML/CSS 代码上实现 MVC 风格？ [关闭]

Closed 这个问题需要多问focused 目前不接受答案我一直在开发一个程序来可视化一些数据我的程序从 MySQL 数据库获取特定输入并绘制一些图表 libchart 库创建一些表格等我的问题是现在那里是一个代码地狱我有大约
在加特林场景之间共享数据

我有一个场景在包含用户名和密码的 CSV 文件的帮助下获取会话 ID 并使用 saveAs 保存它们我希望能够在以下场景中使用这些会话 ID 该场景执行一些需要会话 ID 的操作此外我还想将会话 ID 与其用户名相关联所以本质上
WAMP 和 pcntl_fork

有没有办法让 pcntl fork 在 WAMP 中工作我需要开发一个分叉解决方案并在本地进行测试不这是不可能的这PCNTL扩展需要 nix 平台现在话虽如此你想做什么你能在不分叉的情况下解决它吗 Edit 启动后台进程的一
angularjs $http.get 获取json在服务层不起作用

我正在开发一个 AngularJS 应用程序作为我的 AngularJS 学习的一部分我有控制器从那里我调用服务层 leagueManager service teamsService function http var teams
Python sys.stdout.flush() 不起作用

下面的代码应该打印从 1 到 10 中间间隔 1 秒但是它在实际打印任何内容之前等待 10 秒然后一次性打印所有内容如何取消缓冲输出 import sys import time for count in range 10 sys s
IE8 不会下载启用了 UAC 的自定义 mime/类型的文件

我在本地计算机 Windows 7 x64 IE8 net 3 5 C 上运行一个 net 服务该服务将文件返回到浏览器以响应用户操作使用 firefox 或 chrome 可以正确下载文件并且我们的应用程序通过自定义 mime 类型
Python上下文管理的成员变量？

上下文管理器定义设置清理功能 enter and exit 惊人的我想保留一个作为成员变量当我的类对象超出范围时我希望执行此清理操作据我所知这基本上是 C 构造函数析构函数自动发生的行为 class Animal object
Laravel 全局中间件无法获取会话

protected middleware App Http Middleware Syspoint class use Session class Syspoint echo Session get syspoint 我有一个中间件需要在每
如何在 PHP 中生成随机 64 位值作为十进制字符串

Oauth 需要一个随机 64 位无符号数字编码为十进制格式的 ASCII 字符串你们能帮我用 php 实现这个吗谢谢这是一个非常有趣的问题如何在 PHP 中创建任意长度随机数的十进制表示不使用可选扩展这是解决方案步骤一任
使用 PHP 创建电子邮件帐户

我正在尝试使用 PHP 创建电子邮件这是我的代码到目前为止它是非常基本的直到我能得到一个工作脚本这是我得到的最接近的但它说它已经添加了电子邮件尽管在 cpanel 中该电子邮件不存在所以它显然不存在请注意出于安全原因此代
何时使用以及如何编写循环半代码[关闭]

很难说出这里问的是什么这个问题模棱两可含糊不清不完整过于宽泛或言辞激烈无法以目前的形式合理回答如需帮助澄清此问题以便重新打开访问帮助中心我们什么时候使用循环半另外是否应该有人简要说明如何编写其代码您可以使用循环半来避免
每次我想使用数据库时是否都需要打开 MongoDB 连接？

在我正在使用的示例中是以下代码 lets require import the mongodb native drivers var mongodb require mongodb We need to work with MongoCli
Laravel 中的“批量分配”是什么意思？

当我浏览 Laravel Document 关于 Eloquent ORM 主题部分时我得到了一个新术语批量分配文档显示如何进行批量分配以及 fillable or guarded属性设置但经历了这些之后我对批量分配以及它是如
正则表达式 - 匹配句子中每个单词中除第一个字母以外的所有字母

我几乎在这里得到了答案但我遗漏了一些东西我希望这里有人可以帮助我我需要一个正则表达式来匹配句子中每个单词中除第一个字母之外的所有字母然后我需要用正确数量的星号替换匹配的字母例如如果我有以下句子 There is an enorm
通过 eclipseLink 生成 sql 时出现问题 - 缺少分隔符

我正在将 eclipseLink 与 jpa 一起使用在我的 persistence xml 中我定义生成一个 create sql 文件将生成该文件但每个 sql 语句缺少分隔符是否可以在 persistence xml 中或
从 Google Cloud Composer 运行 docker 运算符

至于文档 Google Cloud Composer 气流工作节点由专用的 kubernetes 集群提供服务我有一个包含 ETL 步骤的 Docker 我想使用气流运行它最好在托管 Workers 的同一个 Kubernetes 上或
如何在 DELETE 语句中使用行的物理位置 (ROWID)

我有一个表其中有很多重复的行并且没有主键我只想删除重复的记录但是当我尝试这样做时它会删除所有对等记录我怎样才能找到ROWID来自 Postgres 中的表在 PostgreSQL 上行的物理位置称为 CTID 因此如果您想查
Spark 结构化流如何处理背压？

我正在分析 Spark 结构化流的背压功能有谁知道详情吗是否可以通过代码调整流程传入记录谢谢如果您的意思是动态更改结构化流中每个内部批次的大小那么NO 结构化流中没有基于接收器的源因此完全没有必要从另一个角度来看 Struct

Spark 结构化流如何处理背压？

Spark 结构化流如何处理背压？ 的相关文章

随机推荐

热门标签

Spark 结构化流如何处理背压？的相关文章