如何使用 Apache Spark 将 JSON 文件转换为 parquet?

2023-12-29

我是 Apache Spark 1.3.1 的新手。如何将 JSON 文件转换为 Parquet?


Spark 1.4 及更高版本

您可以使用sparkSQL 首先将JSON 文件读入DataFrame,然后将DataFrame 写入parquet 文件。

val df = sqlContext.read.json("path/to/json/file")
df.write.parquet("path/to/parquet/file")

or

df.save("path/to/parquet/file", "parquet")

Check here http://spark.apache.org/docs/latest/sql-programming-guide.html#json-datasets and here http://spark.apache.org/docs/latest/sql-programming-guide.html#parquet-files获取示例和更多详细信息。

火花1.3.1

val df = sqlContext.jsonFile("path/to/json/file")
df.saveAsParquetFile("path/to/parquet/file")

与 Windows 和 Spark 1.3.1 相关的问题

在 Windows 上将 DataFrame 保存为 parquet 文件将引发java.lang.NullPointerException,如上所述here https://issues.apache.org/jira/browse/SPARK-6961.

在这种情况下,请考虑升级到更新的 Spark 版本。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Apache Spark 将 JSON 文件转换为 parquet? 的相关文章

随机推荐