我正在分析 Spark 结构化流的背压功能。有谁知道详情吗?是否可以通过代码调整流程传入记录?
谢谢
如果您的意思是动态更改结构化流中每个内部批次的大小,那么NO。结构化流中没有基于接收器的源,因此完全没有必要。从另一个角度来看,Structured Streaming 无法做到真正的背压,因为,比如 Spark 无法告诉其他应用程序放慢将数据推送到 Kafka 的速度。
一般来说,结构化流默认会尝试尽可能快地处理数据。每个源都有一些选项可以控制处理速率,例如maxFilesPerTrigger
在文件源中,以及maxOffsetsPerTrigger
在卡夫卡源中。请阅读以下链接了解更多详细信息:
http://spark.apache.org/docs/latest/structed-streaming-programming-guide.html#input-sources
http://spark.apache.org/docs/latest/structed-streaming-kafka-integration.html
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)