我有一组基于 Avro 的配置单元表,我需要从中读取数据。由于Spark-SQL使用hive serdes从HDFS读取数据,因此比直接读取HDFS慢很多。因此,我使用数据块 Spark-Avro jar 从底层 HDFS 目录读取 Avro 文件。
一切正常,除非桌子是空的。我已设法使用以下命令从 hive 表的 .avsc 文件中获取架构,但收到错误“未找到 Avro 文件"
val schemaFile = FileSystem.get(sc.hadoopConfiguration).open(new Path("hdfs://myfile.avsc"));
val schema = new Schema.Parser().parse(schemaFile);
spark.read.format("com.databricks.spark.avro").option("avroSchema", schema.toString).load("/tmp/myoutput.avro").show()
解决方法:
我已在该目录中放置了一个空文件,并且同样的工作正常。
还有其他方法可以达到同样的目的吗?比如conf设置什么的?
您不需要使用emptyRDD。以下是 PySpark 2.4 对我有用的内容:
empty_df = spark.createDataFrame([], schema) # spark is the Spark Session
如果您已经有另一个数据帧的模式,您可以这样做:
schema = some_other_df.schema
如果不这样做,则手动创建空数据框的架构,例如:
schema = StructType([StructField("col_1", StringType(), True),
StructField("col_2", DateType(), True),
StructField("col_3", StringType(), True),
StructField("col_4", IntegerType(), False)]
)
我希望这有帮助。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)