我正在尝试使用 Spark 将 parquet 文件从本地计算机读取和写入到 S3。但我似乎无法正确配置我的 Spark 会话来执行此操作。显然需要进行配置,但我找不到关于如何进行配置的明确参考。
目前我的 Spark 会话读取本地镶木地板模拟并定义如下:
val sparkSession = SparkSession.builder.master("local").appName("spark session example").getOrCreate()
我必须稍微纠正一下himanshuIIITian 的帖子,(抱歉)。
使用 s3a 连接器,而不是旧的、过时的、未维护的 s3n。 S3A:速度更快,可与较新的 S3 集群(首尔、法兰克福、伦敦等)配合使用,可扩展性更好。 S3N 存在基本性能问题,只有在最新版本的 Hadoop 中完全删除该连接器才能解决这些问题。继续前行。
您无法安全地使用 s3 作为 Spark 查询的直接目标,而不是使用当今可用的经典“文件系统”提交器。写入您的本地 file://,然后使用 AWS CLI 界面复制数据。您将获得更好的性能以及通常期望从 IO 获得的可靠写入的保证
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)