如何在 Spark 中创建空数据帧

2024-05-06

我有一组基于 Avro 的配置单元表，我需要从中读取数据。由于Spark-SQL使用hive serdes从HDFS读取数据，因此比直接读取HDFS慢很多。因此，我使用数据块 Spark-Avro jar 从底层 HDFS 目录读取 Avro 文件。

一切正常，除非桌子是空的。我已设法使用以下命令从 hive 表的 .avsc 文件中获取架构，但收到错误“未找到 Avro 文件"

val schemaFile = FileSystem.get(sc.hadoopConfiguration).open(new Path("hdfs://myfile.avsc"));

val schema = new Schema.Parser().parse(schemaFile);

spark.read.format("com.databricks.spark.avro").option("avroSchema", schema.toString).load("/tmp/myoutput.avro").show()

解决方法：

我已在该目录中放置了一个空文件，并且同样的工作正常。

还有其他方法可以达到同样的目的吗？比如conf设置什么的？

您不需要使用emptyRDD。以下是 PySpark 2.4 对我有用的内容：

empty_df = spark.createDataFrame([], schema) # spark is the Spark Session

如果您已经有另一个数据帧的模式，您可以这样做：

schema = some_other_df.schema

如果不这样做，则手动创建空数据框的架构，例如：

schema = StructType([StructField("col_1", StringType(), True),
                     StructField("col_2", DateType(), True),
                     StructField("col_3", StringType(), True),
                     StructField("col_4", IntegerType(), False)]
                     )

我希望这有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

Avro

sparkavro

如何在 Spark 中创建空数据帧的相关文章

为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
逆变方法参数类型

wiki 逆变方法参数类型 https en wikipedia org wiki Covariance and contravariance 28computer science 29 Contravariant method argum
如何抑制spark输出控制台中的“Stage 2===>”？

我有数据帧并试图获取不同的计数并且能够成功获取不同的计数但是每当 scala 程序执行时我都会收到此消息 Stage 2 gt 1 1 2 我如何在控制台中抑制特定的此消息 val countID dataDF select substr
如何发现 Scala 远程 Actor 已死亡？

在 Scala 中当另一个远程 actor 终止时可以通过设置 trapExit 标志并以第二个 actor 作为参数调用 link 方法来通知一个 actor 在这种情况下当远程参与者通过调用 exit 结束其工作时第一个参与者
Scala 如何忽略 Java 的检查异常？

例如如果调用 JavaThread sleep这会抛出一个已检查的InterruptedException来自 Scala 源文件然后不需要将调用包含在 Scala 中try catch Scala 如何删除将调用包围在 a 中的规则tr
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
在 Scala 和 SBT 中调试较长的编译时间

在我的 Scala SBT 项目中我有一个文件需要 5 分钟才能编译所有其他的都可以在几秒钟内编译这使得开发非常痛苦我确信我滥用了一些 Scala 构造但我不知道如何调试它如何在 Scala 中调试较长的编译时间我正在使用 S
Scala 和变量中的模式匹配

我是 Scala 新手有点想知道模式匹配是如何工作的想象一下我有以下内容 case class Cls i Int case b Cls i gt Ok case e Cls gt Ok case f Cls gt Ok case s
Scala：如何在超类上实现克隆方法，并在子类中使用它？

我可能会以错误的方式处理这个问题但我想要一个像这样的对象 class MyDataStructure def myClone val clone new MyDataStructure do stuff to make clone the
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
AVRO - 具有联合记录类型支持的复杂记录

我正在尝试使用联合数据类型支持的成员记录类型构建 AVRO 的复杂记录 namespace proj avro protocol app messages doc application messages types name record
对 Scala Not Null 特征的库支持

Notice 从 Scala 2 11 开始 NotNull已弃用据我了解如果您希望引用类型不可为空则必须混合魔法NotNull特征编译器会自动阻止你输入null 可以值在里面看到这个邮件列表线程 http www nabble
使用 scala 集合 - CanBuildFrom 麻烦

我正在尝试编写一个接受任何类型集合的方法CC 并将其映射到一个新的集合相同的集合类型但不同的元素类型我正在挣扎基本上我正在尝试实施map but 不在集合本身上问题我正在尝试实现一个带有签名的方法它看起来有点像 def map
类型级编程有哪些示例？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我不明白类型级编程是什么意思也无法使用Google找到合适的解释有人可以提供一个演示类型级编程的示例吗范式的解释和或定义将
Avro 模式中是否可以有一个可选字段（即该字段根本不会出现在 .json 文件中）？

Avro 模式中是否可以有一个可选字段即该字段根本不会出现在 JSON 文件中在我的 Avro 架构中我有两个字段 name author type null string default null name importance t
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
如何获取 Kafka 偏移量以进行结构化查询以进行手动且可靠的偏移量管理？

Spark 2 2引入了Kafka的结构化流源据我了解它依赖 HDFS 检查点目录来存储偏移量并保证恰好一次消息传递但是旧码头比如https blog cloudera com blog 2017 06 offset manag
Scala 解析器组合器的运算符优先级

我正在研究需要考虑运算符优先级的解析逻辑我的需求并不太复杂首先我需要乘法和除法比加法和减法具有更高的优先级例如 1 2 3 应视为 1 2 3 这是一个简单的例子但你明白了我需要将更多自定义标记添加到优先级逻辑中我可以根据此处

随机推荐

来自函数参数的动态 Typescript 对象属性

我有一个函数它接受一个n参数的数量并生成一个新对象其中包含参数到唯一哈希的键值映射 Typescript 有没有办法从函数的参数动态推断返回对象的键 Example 生成字典的CreateActionType函数 function c
使用 qtp 功能单击特定链接

我想通过创建一个在操作中调用的函数来自动执行 Flipkart 的登录过程 Function Website this is the function Systemutil Run iexplore exe http www flipkar
VBA写入Word，更改字体格式

我正在 Excel 中编写 VBA 脚本以将基于某些表格的文本输出到 Word 文档在大多数情况下一切都很顺利我在 stackoverflow 的帮助下自学我有一个相当长的代码因此将其全部复制到这里会很困难我将尝试展示相关部分
时间序列数据 - 如何[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在考虑进行一项为期一个月的研究受试者记录他的饮酒量和排尿频率我想让受试者每天记录这些活动这样我就有一个月的数据每天的排尿次
Kubernetes Pod 动态环境变量

我需要能够将自定义环境变量分配给 Pod 的每个副本一个变量应该是一些随机的 uuid 另一个唯一的数字怎么可能实现呢我更愿意继续使用带有副本的部署如果这不是开箱即用的如何通过自定义复制控制器控制器管理器来实现有没有可用的钩
使用 SESSION_CONTEXT 的实体框架核心行级安全性

我正在使用 ASP NET Core 和 Entity Framework 7 Core 编写一个使用行级安全性的多租户应用程序由于我的数据库托管在 Microsoft SQL Server 上因此我使用了this https msdn
Facebook 点赞按钮点赞错误的网址

如果我尝试制作一个 facebook like 按钮来喜欢以下网址 http go style co uk nggallery page 7029 image 35 该按钮喜欢以下网址 http go style co uk test ga
如何以编程方式创建证书签名请求 (CSR)？

如何用C实现呢 openssl req new key cert key out cert csr openssl x509 req in cert csr CA rootCA crt CAkey rootCA key CAcreatese
Monolog Logger 在每个日志消息的末尾输出空数组

我的记录器对象在每行末尾输出空数组例如 2017 08 17 12 26 02 import log INFO checkForDuplicates is processing 2017 08 17 12 26 04 import log
如何使用 JavaFX 中的 JCSG 库将 MeshView 转换为 CSG 对象

我正在使用 JavaFX 的 JCSG 库我有一些MeshView我想将它们转换成的对象CSG对象有办法实现吗最简单的方法是组合javafx scene shape Mesh对象与 CSG 对象前提是您有TriangleMesh正在
BlackBerry - 带居中位图的 ButtonField

我有一个从 ButtonField 扩展的类 class BitmapButtonField extends ButtonField private Bitmap bitmap private int buttonWidth private
XML 序列化基类列表

我有课A从类继承B 我有一个班级名单B其中包含A and B items List b myList new List b myList Add new A 当我尝试使用序列化此列表时XmlSerializable 抛出异常如果我将列表定
Doctrine/Symfony 如何使用数组中的特定数据更新实体

我环顾四周太久了但没有运气我的情况是我有一个有点大的表 60 列在 Doctrine Entity 中表示在 FosREST 上工作我想要实现的是我想发送带有特定数据的 JSON 例如 phone gt new phone n
一项活动中有多个 YouTube 玩家

我正在使用 Youtube Android Player API 如下所述 https developers google com youtube android player https developers google com you
基于现有数据库表创建@TableVariable？

我想在存储过程中使用表变量但这是一个问题我的表非常大声明表变量也需要很长的代码来编写和调试请告诉我一些快速声明表变量的方法是否可以基于现有表创建表变量或者请分享任何创建用于创建表变量的代码的提示 Thanks 右键单击表格选择
Java 8 Streams - 按层次结构对嵌套列表进行排序

给出以下示例我想要一个对列表和嵌套列表进行排序的流函数 class Foo public int sort public List
如何在onSaveInstanceState中使用变量[重复]

这个问题在这里已经有答案了我刚刚开始在 android 上学习编程并且在使用变量时遇到问题onSaveInstanceState 这是我的代码 int resultCode Override public void onCreate B
Python：代码统计

你知道是否有一个可以生成代码统计信息的 Python 库吗我正在考虑指向一个包并获取类函数方法文档块行等的数量它最终可能会包含无用的东西例如 lambda 的数量或其他疯狂的统计数据只是为了好玩人们通常不会用十几两行代码就能
将最后一行除以组的第一行

我有一个如下所示的数据框 ID Quantity Time 54 100 2020 01 01 00 00 05 54 87 2020 01 01 00 00 06 58 400 2020 01 01 00 00 08 58 390 202
如何在 Spark 中创建空数据帧

我有一组基于 Avro 的配置单元表我需要从中读取数据由于Spark SQL使用hive serdes从HDFS读取数据因此比直接读取HDFS慢很多因此我使用数据块 Spark Avro jar 从底层 HDFS 目录读取 Avr

如何在 Spark 中创建空数据帧

如何在 Spark 中创建空数据帧 的相关文章

随机推荐

热门标签

如何在 Spark 中创建空数据帧的相关文章