Spark SQL：嵌套类镶木地板错误

2024-01-23

我似乎无法写镶木地板JavaRDD<T>其中 T 是一个说法，Person班级。我将其定义为

public class Person implements Serializable
{
    private static final long serialVersionUID = 1L;
    private String name;
    private String age;
    private Address address;
....

with Address:

public class Address implements Serializable
{
    private static final long serialVersionUID = 1L;
    private String City; private String Block;
    ...<getters and setters>

然后我创建一个JavaRDD像这样：

JavaRDD<Person> people = sc.textFile("/user/johndoe/spark/data/people.txt").map(new Function<String, Person>()
    {
        public Person call(String line)
        {
            String[] parts = line.split(",");
            Person person = new Person();
            person.setName(parts[0]);
            person.setAge("2");
            Address address = new Address("HomeAdd","141H");
            person.setAddress(address);
            return person;
        }
    });

注意-我是手动设置的Address对所有人都一样。这基本上是一个嵌套的 RDD。尝试将其另存为镶木地板文件时：

DataFrame dfschemaPeople = sqlContext.createDataFrame(people, Person.class);
dfschemaPeople.write().parquet("/user/johndoe/spark/data/out/people.parquet");

地址类别为：

import java.io.Serializable;
public class Address implements Serializable
{
    public Address(String city, String block)
    {
        super();
        City = city;
        Block = block;
    }
    private static final long serialVersionUID = 1L;
    private String City;
    private String Block;
    //Omitting getters and setters
}

我遇到错误：

引起原因：java.lang.ClassCastException：com.test.schema.Address 无法转换为 org.apache.spark.sql.Row

我正在运行spark-1.4.1。

这是一个已知的错误？
如果我通过导入相同格式的嵌套 JSON 文件来执行相同的操作，我就可以保存到镶木地板。
即使我创建一个子 DataFrame，例如：DataFrame dfSubset = sqlContext.sql("SELECT address.city FROM PersonTable");我仍然遇到同样的错误

那么什么给出呢？如何从文本文件中读取复杂的数据结构并保存为镶木地板？看来我不能这么做。

您使用的 java api 有限制

来自火花文档：http://spark.apache.org/docs/1.4.1/sql-programming-guide.html#interoperating-with-rdds http://spark.apache.org/docs/1.4.1/sql-programming-guide.html#interoperating-with-rdds

Spark SQL 支持自动将 JavaBeans 的 RDD 转换为 DataFrame。使用反射获得的 BeanInfo 定义了表的模式。目前，Spark SQL 不支持包含嵌套或复杂类型（例如列表或数组）的 JavaBean。您可以通过创建一个实现 Serialized 并具有其所有字段的 getter 和 setter 的类来创建 JavaBean。使用 scala case 类它可以工作（更新为写入 parquet 格式）

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD

case class Address(city:String, block:String);
case class Person(name:String,age:String, address:Address);
object Test2 {
  def main(args: Array[String]): Unit = {

     val conf = new SparkConf().setAppName("Simple Application").setMaster("local");
      val sc = new SparkContext(conf)
      val sqlContext = new org.apache.spark.sql.SQLContext(sc);
      import sqlContext.implicits._
      val people = sc.parallelize(List(Person("a", "b", Address("a", "b")), Person("c", "d", Address("c", "d"))));

      val df  = sqlContext.createDataFrame(people);
      df.write.mode("overwrite").parquet("/tmp/people.parquet")
  }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark SQL：嵌套类镶木地板错误的相关文章

Spring Batch 多线程 - 如何使每个线程读取唯一的记录？

这个问题在很多论坛上都被问过很多次了但我没有看到适合我的答案我正在尝试在我的 Spring Batch 实现中实现多线程步骤有一个包含 100k 条记录的临时表想要在 10 个线程中处理它每个线程的提交间隔为 300 因此在任何时
Java中反射是如何实现的？

Java 7 语言规范很早就指出本规范没有详细描述反射我只是想知道反射在Java中是如何实现的我不是问它是如何使用的我知道可能没有我正在寻找的具体答案但任何信息将不胜感激我在 Stackoverflow 上发现了这个关于 C
在 java 类和 android 活动之间传输时音频不清晰

我有一个android活动它连接到一个java类并以套接字的形式向它发送数据包该类接收声音数据包并将它们扔到 PC 扬声器该代码运行良好但在 PC 扬声器中播放声音时会出现持续的抖动中断安卓活动 public class Sen
制作一个交互式Windows服务

我希望我的 Java 应用程序成为交互式 Windows 服务用户登录时具有 GUI 的 Windows 服务我搜索了这个我发现这样做的方法是有两个程序第一个是服务第二个是 GUI 程序并使它们进行通信服务将从 GUI 程序获取
Android：捕获的图像未显示在图库中（媒体扫描仪意图不起作用）

我遇到以下问题我正在开发一个应用程序用户可以在其中拍照附加到帖子中并将图片保存到外部存储中我希望这张照片也显示在图片库中并且我正在使用媒体扫描仪意图但它似乎不起作用我在编写代码时遵循官方的Android开发人员指南所以我不
Android MediaExtractor seek() 对 MP3 音频文件的准确性

我在使用 Android 时无法在eek 上获得合理的准确度MediaExtractor 对于某些文件例如this one http www archive org download emma solo librivox emma 01
加速代码 - 3D 数组

我正在尝试提高我编写的一些代码的速度我想知道从 3d 整数数组访问数据的效率如何我有一个数组 int cube new int 10 10 10 我用价值观填充其中然后我访问这些值数千次我想知道由于理论上所有 3d 数组都存储在内
磁模拟

假设我在 n m 像素的 2D 表面上有 p 个节点我希望这些节点相互吸引使得它们相距越远吸引力就越强但是如果两个节点之间的距离比如 d A B 小于某个阈值比如 k 那么它们就会开始排斥谁能让我开始编写一些关于如何随时间更新
斯坦福 NLP - 处理文件列表时 OpenIE 内存不足

我正在尝试使用斯坦福 CoreNLP 中的 OpenIE 工具从多个文件中提取信息当多个文件而不是一个传递到输入时它会给出内存不足错误 All files have been queued awaiting termination
如何在PreferenceActivity中添加工具栏

我已经使用首选项创建了应用程序设置但我注意到我的 PreferenceActivity 中没有工具栏如何将工具栏添加到我的 PreferenceActivity 中 My code 我的 pref xml
Java TestNG 与跨多个测试的数据驱动测试

我正在电子商务平台中测试一系列商店每个商店都有一系列属性我正在考虑对其进行自动化测试是否有可能有一个数据提供者在整个测试套件中提供数据而不仅仅是 TestNG 中的测试我尝试不使用 testNG xml 文件作为机制因为这些属性
在 Mac 上正确运行基于 SWT 的跨平台 jar

我一直致力于一个基于 SWT 的项目该项目旨在部署为 Java Web Start 从而可以在多个平台上使用到目前为止我已经成功解决了由于 SWT 依赖的系统特定库而出现的导出问题请参阅相关thread https stackove
Google App Engine 如何预编译 Java？

App Engine 对应用程序的 Java 字节码使用预编译过程以增强应用程序在 Java 运行时环境中的性能预编译代码的功能与原始字节码相同有没有详细的信息这是做什么的我在一个中找到了这个谷歌群组消息 http groups
如何从泛型类调用静态方法？

我有一个包含静态创建方法的类 public class TestClass public static
获取 JVM 上所有引导类的列表？

有一种方法叫做findBootstrapClass对于一个类加载器如果它是引导的则返回一个类有没有办法找到类已经加载了您可以尝试首先通过例如获取引导类加载器呼叫 ClassLoader bootstrapLoader ClassLo
编译器抱怨“缺少返回语句”，即使不可能达到缺少返回语句的条件

在下面的方法中编译器抱怨缺少退货声明即使该方法只有一条路径并且它包含一个return陈述抑制错误需要另一个return陈述 public int foo if true return 5 鉴于Java编译器可以识别无限循环 https
有没有办法为Java的字符集名称添加别名

我收到一个异常埋藏在第 3 方库中消息如下 java io UnsupportedEncodingException BIG 5 我认为发生这种情况是因为 Java 没有定义这个名称java nio charset Charset Ch
当我从 Netbeans 创建 Derby 数据库时，它存储在哪里？

当我从 netbeans 创建 Derby 数据库时它存储在哪里如何将它与项目的其余部分合并到一个文件夹中右键单击Databases gt JavaDB in the Service查看并选择Properties This will
如何修复 JNLP 应用程序中的“缺少代码库、权限和应用程序名称清单属性”？

随着最近的 Java 更新许多人都遇到了缺少 Java Web Start 应用程序的问题Codebase Permissions and Application name体现属性尽管有资源可以帮助您完成此任务但我找不到任何资源综合的
节拍匹配算法

我最近开始尝试创建一个移动应用程序 iOS Android 它将自动击败比赛 http en wikipedia org wiki Beatmatching http en wikipedia org wiki Beatmatching 两

随机推荐

每次击键后 React 输入都会失去焦点

我的导航组件上有一个搜索栏每次击键后输入都会失去焦点您必须重新单击它才能键入下一个键这是输入
以编程方式结合 OpenGL 和 UIKit 元素进行屏幕截图

我想知道是否有人可以提供一个如何截取混合 OpenGL 和 UIKit 元素的屏幕截图的示例自从苹果公司推出UIGetScreenImage private 这已经成为一项相当困难的任务因为苹果用来替换它的两种常用方法仅捕获 UIKit
对齐内容不适用于弹性项目

我有一个嵌套在列方向弹性盒中的行方向弹性盒但是当我想使用时align content对孩子来说这是行不通的当我更换时display flex父级的display block 有用在下面的代码中我们可以看到 row align co
在 Chrome 和 Mac 中信任 MEAN 堆栈的 https://localhost:3000/

我在 macOS Sierra 10 12 3 中使用 Chrome 我想我已经设置好了ssl for localhost很久以前现在两者http localhost and https localhost 在 Chrome 中返回下面
无法执行目标 org.codehaus.gmavenplus:gmavenplus-plugin:1.6.1:generateStubs (groovy) : 类路径 InitationTargetException: 启动失败:

我正在尝试使用 mvn verify 进行编译但收到以下错误 Failed to execute goal org codehaus gmavenplus gmavenplus plugin 1 6 1 generateStubs gro
如何在 PostgreSQL hstore 中查询带通配符的值

我正在尝试查询 hstore 以获取与搜索条件匹配的某个键的所有值我可以像这样获取某个键的所有值 SELECT DISTINCT svals slice data ARRAY Supplier FROM products 我还可以得到一个
默认情况下，接口是否扩展对象？ [复制]

这个问题在这里已经有答案了如果您定义如下接口 interface I1 在任何代码部分你都可以这样写 I1 i1 i1 equals null 那么 equals 方法从何而来接口是否也扩展了超类 Object 如果是这样接口如何扩展
登录时从数据库填充 JTable

我正在使用 JDBC 从 Oracle 数据库连接填充 JTable 它目前正在工作但我正在尝试对破坏它的代码进行修改目前它在创建 JTable 时通过查询数据库来填充 JTable 我正在尝试将此功能移至 ActionListene
Java 应用程序中 Mashape Unirest 的 java.lang.NoSuchFieldError：org.apache.http.message.BasicLineFormatter.INSTANCE

我有一个 Maven Java 项目它使用Mashape Unirest http unirest io java html用于向其他 URL 发送 HTTP 请求我目前正在编写集成测试使用TestNG 使用 Unirest 发送正常
在目标内设置 Makefile 变量

我在 makefile 中有一个目标 all TARGETS 我想要一个不同于all仅因为它设置了一个环境变量就像是 all abc TARGETS ABC 123 但这不起作用因为依赖关系是在设置变量之前处理的我考虑过在真正的依赖项
在 LISP 中是否可以访问函数的形式？

假设我全局定义了一个函数 defun x y 1 y Edit my first example was too complicated 是否可以将函数 x 强制到一个列表中例如 x y 1 y 提前致谢 PS Danlei 的示例在
在子例程内分配数组并将其传回时，FORTRAN 中存在内存泄漏问题

我使用指针将一些数组传递给子例程然后在该子例程内分配该数组并将其发送回第一个子例程在一个模块中我有这样的东西 module call test subroutine bla use test double precision dimen
Android：在工具栏布局中绘制线条/边框？

我要求 appBar 应该如下所示背景只是透明的我使用此布局来获取应用程序栏隐藏详细信息
当 isValid() 返回 false 时，Symfony 2.6.3 {{ form_errors( form ) }} 为空

我正在使用 Symfony V2 6 3 我有一个简单的表单其中包含基于 Type 类的三个字段 Type 类通过指定的实体类setDefaultOptions 有use Symfony Component Validator Const
Android WebView 缓存

我正在编写一个应用程序其中用户会看到一个 URL 列表为了让它显示得更快我想检测 Wi Fi 状态并在后台加载 URL 这样当用户选择 URL 时他们会快速显示数据特别是在连接到 Wi Fi 时我有办法做到这一点吗是的使用应
访问嵌套的 JSON 对象

我正在构建一个 Angular 应用程序并且还使用 Angular 翻译因为它需要使用双语言 I ve seem正确创建了我的 JSON 通过检查器运行它但是当我尝试访问 JSON 对象中超出第一级的项目时它返回未定义例如我的角
#define NULL nullptr 安全吗？

我在许多最顶层的头文件中看到了以下宏 define NULL 0 C 03 在整个代码中 NULL and 0可以互换使用如果我把它改成 define NULL nullptr C 11 会引起不良副作用吗我可以想到唯一好的副作用
在越狱设备上以编程方式发送短信

我使用的是 iOS 6 iphone 4S 我希望能够发送未被注意到的短信因此在这种情况下使用标准视图控制器将不起作用我尝试使用 BOOL sendSMSWithText id arg1 serviceCenter id arg2 to
升级到 3.5.1 后，Post 部分中的 WordPress JS 错误

升级到 WordPress 版本 3 5 1 后我遇到了一些 JS 错误因此无法在管理面板中使用一些基本的 WP 功能例如在帖子编辑页面上我无法将编辑器切换到 html 模式无法单击任何链接编辑选项卡等请建议应该采取什么措
Spark SQL：嵌套类镶木地板错误

我似乎无法写镶木地板JavaRDD

Spark SQL：嵌套类镶木地板错误

Spark SQL：嵌套类镶木地板错误 的相关文章

随机推荐

热门标签

Spark SQL：嵌套类镶木地板错误的相关文章