为什么读取带有空值的 csv 文件会导致 IndexOutOfBoundException?

2023-12-08

我有一个带有以下结构的 csv 文件

Name | Val1 | Val2 | Val3 | Val4 | Val5
John     1      2
Joe      1      2
David    1      2            10    11

我可以将其加载到 RDD 中。我尝试创建一个架构,然后创建一个Dataframe从中得到一个indexOutOfBound error.

代码是这样的......

val rowRDD = fileRDD.map(p => Row(p(0), p(1), p(2), p(3), p(4), p(5), p(6) )

当我尝试执行某项操作时rowRDD,给出错误。

任何帮助是极大的赞赏。


这不是你问题的答案。但它可能有助于解决您的问题。

从问题中我看到您正在尝试从 CSV 创建数据框。

使用 CSV 创建数据框可以轻松完成Spark-csv package

使用下面的 Spark-csv scala 代码可用于读取 CSVval df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load(csvFilePath)

对于您的示例数据,我得到以下结果

+-----+----+----+----+----+----+
| Name|Val1|Val2|Val3|Val4|Val5|
+-----+----+----+----+----+----+
| John|   1|   2|    |    |    |
|  Joe|   1|   2|    |    |    |
|David|   1|   2|    |  10|  11|
+-----+----+----+----+----+----+

您还可以使用最新版本推断Schema。看到这个answer

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

为什么读取带有空值的 csv 文件会导致 IndexOutOfBoundException? 的相关文章

随机推荐

  • .NET 中有可序列化的通用键/值对类吗?

    我正在寻找一个可以包含在 Web 服务中的键 值对对象 我尝试使用 NETSystem Collections Generic KeyValuePair lt gt 类 但它无法在 Web 服务中正确序列化 在 Web 服务中 Key 和
  • 根据不同列中的值将多列中的值替换为 NA

    我有一个小口 A tibble 20 x 6 id X 1 Y 1 number X 2 Y 2
  • Github:我可以查看存储库的下载数量吗?

    在 Github 中 有没有办法可以查看存储库的下载数量 2019 年更新 Ustin s answer指着 API repos owner repo traffic clones 获取每天或每周的克隆总数和细分 但是 仅限过去 14 天
  • SQL Server 操作系统错误 5:“5(访问被拒绝。)”

    我开始学习 SQL 并且我有一本书提供了可以使用的数据库 下面的这些文件位于目录中 但问题是当我运行查询时 它给了我这个错误 消息 5120 级别 16 状态 101 第 1 行 无法打开物理文件 C Murach SQL Server 2
  • 如何创建动态 JSF 表单字段

    我发现了一些类似的问题 例如this一 但是有很多方法可以做到这一点 这让我更加困惑 我们正在得到一个XML我们正在阅读的文件 这XML包含一些需要呈现的表单字段的信息 所以我创建了这个自定义DynamicField java其中包含我们需
  • 如何使用 dapper 映射多个列表

    我有三个类 用户 订单 和 项目 它们存储在单个表中 订单和项目都与用户存在n n关系 为了实现这一点 我有两个交叉表 UserOrders UserProjects 来映射这些关系 public class User public str
  • 在drawable文件夹中共享png图像

    我正在将共享与应用程序的以下代码集成 private void socialShare Uri uri Uri parse android resource com example myproject drawable appicon In
  • 识别 CD

    我希望能够确定 CD 驱动器中的音乐专辑 CD 是什么 例如 如果有人声称其驱动器中的 CD 是 Eminem The Eminem Show 我希望能够验证该 CD 确实是 The Eminem Show 有任何想法吗 我已经申请了 Gr
  • 汇编将指针传递给函数

    我正在尝试将 DWORD 变量作为指针参数发送到函数中 variable1 dd 1 push variable1 push variable adress call InitPoiner InitPoiner push ebp mov e
  • 了解 posix 进程间信号量

    根据我的理解 信号量应该可以跨相关进程使用 而无需将其放置在共享内存中 如果是这样 为什么下面的代码会死锁 include
  • VS Code 问题:当我保存时,行和空格会自动添加并破坏代码

    我正在使用 VS code 当我保存时 它会自动在标签和代码的其他部分添加额外的空格和行 当我将其改回之前的语法并再次保存后 这个问题再次出现 然后我的代码无法工作 最近我更改了设置中的一些属性 我认为它连接到了 Prettier 扩展 从
  • 函数是javascript中的对象吗?

    var obj var fn function obj prop some value fn prop some value assert obj prop fn prop Both are objects both have the pr
  • React webpack 包的预加载动画

    我有一个单页网络应用程序 大约有300Kb大 它与 webpack 捆绑在一起并使用 React Redux 如何在页面加载之前放置一个小的加载旋转器 我可以想象 将样式和CSS放入静态索引 html 使用像这样的异步加载器克鲁克斯 pos
  • DatePicker 返回 1 月 1 日的错误年份

    我的应用程序中有一个 DatePicker 控件 例如 如果我尝试选择 2011 年 1 月 1 日 它将返回 2010 年 1 月 1 日 如果我选 择 2040 年 1 月 1 日 则会返回 2039 年 1 月 1 日 依此类推 12
  • 当我的应用程序进入前台时,视图不会重新加载刷新数据

    我有关于重新加载视图的问题 我在我的应用程序中使用标签栏 当我按下主页按钮时 我的应用程序处于后台 现在我的问题是现在开始 我希望每次显示我的第一个选项卡时都如此 所以 每次我得到第一个标签栏的视图 但是当我得到第一个标签栏的视图时 我打电
  • 迭代字符串的各行

    我有一个多行字符串定义如下 foo this is a multi line string 我们将这个字符串用作我正在编写的解析器的测试输入 解析器函数接收一个file object 作为输入并对其进行迭代 它也确实调用了next 方法直接
  • 无法从泛型方法返回对象

    我不明白为什么以下代码无法编译 我已经声明了泛型类型T这延伸了Customer Customer属于类型Customer那么为什么我不能回来Customer来自此方法的对象而不进行强制转换 public class CustomerExam
  • 如何将按钮与文本输入顶部对齐? [复制]

    这个问题在这里已经有答案了 这是我所拥有的 HTML div class combobox div
  • Form.Show() 不显示其子控件

    我有一个表格 frmPleaseWait 有一个MarqueeProgressBar and a Label当 UI 在我们拥有的结构不良的应用程序中加载数据时 我想使用它 问题是frmPleaseWait Show 显示表单但不显示其中的
  • 为什么读取带有空值的 csv 文件会导致 IndexOutOfBoundException?

    我有一个带有以下结构的 csv 文件 Name Val1 Val2 Val3 Val4 Val5 John 1 2 Joe 1 2 David 1 2 10 11 我可以将其加载到 RDD 中 我尝试创建一个架构 然后创建一个Datafra