我使用动态框架在 S3 中写入镶木地板文件,但如果文件已存在,我的程序会附加一个新文件而不是替换它。我用的句子是这样的:
glueContext.write_dynamic_frame.from_options(frame = table,
connection_type = "s3",
connection_options = {"path": output_dir,
"partitionKeys": ["var1","var2"]},
format = "parquet")
有没有类似的东西"mode":"overwrite"
取代我的镶木地板文件?
目前 AWS Glue 不支持“覆盖”模式,但他们正在开发此功能。
作为解决方法,您可以将 DynamicFrame 对象转换为 Spark 的 DataFrame 并使用 Spark 而不是 Glue 编写它:
table.toDF()
.write
.mode("overwrite")
.format("parquet")
.partitionBy("var_1", "var_2")
.save(output_dir)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)