在 Pyspark 中,我可以从列表创建 RDD 并决定有多少个分区:
sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)
我决定对 RDD 进行分区的分区数量如何影响性能?
这与我的机器的核心数量有何关系?
主要影响是指定太少的分区或far分区太多。
分区太少您不会利用集群中所有可用的核心。
分区过多管理许多小任务将会产生过多的开销。
在两者之间,第一个对性能的影响更大。对于分区计数低于 1000 的情况,调度过多的小任务此时影响相对较小。如果您有数万个分区,那么 Spark 会得到very slow.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)