我正在使用 Apache Spark 本地模式运行 pyspark 2.2.0 作业,并看到以下警告:
WARN RowBasedKeyValueBatch: Calling spill() on RowBasedKeyValueBatch. Will not spill but return 0.
出现此警告的原因可能是什么?这是我应该关心的事情还是我可以安全地忽略它?
如..所示here https://stackoverflow.com/questions/41661849/spill-to-disk-and-shuffle-write-spark此警告意味着您的 RAM 已满,并且部分 RAM 内容已移至磁盘。
另请参阅火花常见问题解答 http://spark.apache.org/faq.html
我的数据是否需要适合内存才能使用 Spark?
不会。如果内存无法容纳数据,Spark 的运算符会将数据溢出到磁盘,从而使其能够在任何大小的数据上良好运行。同样,不适合内存的缓存数据集要么会溢出到磁盘,要么会在需要时即时重新计算,具体取决于 RDD 的存储级别。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)