在两个 Spark 作业之间共享 Spark RDD 数据的最佳方式是什么?
我有一个案例,作业 1:Spark 滑动窗口流应用程序将定期消耗数据并创建 RDD。我们不想将其持久化到存储中。
作业 2:查询作业将访问作业 1 中创建的相同 RDD 并生成报告。
我很少看到他们建议 SPARK Job Server 的查询,但由于它是开源的,不确定它是否是一个可能的解决方案,但任何指针都会有很大的帮助。
谢谢 !
简而言之,你不能在作业之间共享 RDD。共享数据的唯一方法是将数据写入 HDFS,然后将其拉入其他作业。如果速度是一个问题,并且您想要维持恒定的数据流,您可以使用 HBase,这将允许从第二个作业进行非常快速的访问和处理。
为了获得更好的想法,您应该看这里:
序列化 RDD
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)