AWS Glue 的 stackoverflow 上的多个答案都说要设置 --conf 表参数。但是,有时在一项作业中,我们需要在一项作业中设置多个 --conf 键值对。
我尝试了以下方法来设置多个 --conf 值,所有这些都会导致错误:
- 添加另一个名为 --conf 的表参数。这会导致 AWS Dashboard 删除名为 --conf 的第二个参数,并将焦点设置为名为 --conf 的第一个参数的值。 Terraform 也只考虑带有 key 的两个表参数
--conf
相等并用第二个参数的值覆盖第一个参数中的值。
- 在表 --conf 参数的值中用空格分隔配置键值参数。例如。
spark.yarn.executor.memoryOverhead=1024 spark.yarn.executor.memoryOverhead=7g spark.yarn.executor.memory=7g
。这会导致作业启动失败。
- 在表 --conf 参数的值中使用逗号分隔配置键值参数。例如。
spark.yarn.executor.memoryOverhead=1024, spark.yarn.executor.memoryOverhead=7g, spark.yarn.executor.memory=7g
。这会导致作业启动失败。
- 将 --conf 的值设置为
--conf
字符串分隔每个键值。例如。spark.yarn.executor.memoryOverhead=1024 --conf spark.yarn.executor.memoryOverhead=7g --conf spark.yarn.executor.memory=7g
。这会导致胶水作业挂起。
如何在 AWS Glue 中设置多个 --conf 表参数?
您可以传递多个参数,如下所示:
Key: --conf
value:Spark.yarn.executor.memoryOverhead=7g --conf Spark.yarn.executor.memory=7g
这对我有用。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)