为什么读取带有空值的 csv 文件会导致 IndexOutOfBoundException？

2023-12-08

我有一个带有以下结构的 csv 文件

Name | Val1 | Val2 | Val3 | Val4 | Val5
John     1      2
Joe      1      2
David    1      2            10    11

我可以将其加载到 RDD 中。我尝试创建一个架构，然后创建一个Dataframe从中得到一个indexOutOfBound error.

代码是这样的......

val rowRDD = fileRDD.map(p => Row(p(0), p(1), p(2), p(3), p(4), p(5), p(6) )

当我尝试执行某项操作时rowRDD，给出错误。

任何帮助是极大的赞赏。

这不是你问题的答案。但它可能有助于解决您的问题。

从问题中我看到您正在尝试从 CSV 创建数据框。

使用 CSV 创建数据框可以轻松完成Spark-csv package

使用下面的 Spark-csv scala 代码可用于读取 CSVval df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load(csvFilePath)

对于您的示例数据，我得到以下结果

+-----+----+----+----+----+----+
| Name|Val1|Val2|Val3|Val4|Val5|
+-----+----+----+----+----+----+
| John|   1|   2|    |    |    |
|  Joe|   1|   2|    |    |    |
|David|   1|   2|    |  10|  11|
+-----+----+----+----+----+----+

您还可以使用最新版本推断Schema。看到这个answer

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

csv

apachespark

apachesparksql

为什么读取带有空值的 csv 文件会导致 IndexOutOfBoundException？的相关文章

Spark - Scala - 用另一个数据帧中的查找值替换数据帧中的值

我正在 Databricks 上使用 Spark 编程语言是Scala 我有两个数据框主要数据框见截图 1 https i stack imgur com EShir png 查找数据框见截图3 https i stack imgur
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
BigQuery：从 CSV 加载，跳过列

假设我有一个包含现有数据的表其架构如下 name Field1 type STRING name Field2 type STRING 我们的数据是 CSV Field1 Field2 Value1 Value2 我们通过创建新作业来加载
Python + Pandas + dataframe：无法将一个数据帧附加到另一个数据帧

我有两个大的 CSV 文件我已将它们转换为 Pandas 数据框它们都有相同名称和相同顺序的列 event name category category id description 我想将一个数据帧附加到另一个数据帧最后想将生成的数
使用 boost::spirit::qi 解析键入的 csv 文件

我想解析带有键入值的 CSV 文件每列的类型在标题中定义例如 int double double int unsigned 12 1 3 23445 1 42 45 46 47 48 49 结果数据结构可能类似于这个二维向量 using
PySpark 中别名方法的用途是什么？

在用 Python 学习 Spark 时我很难理解其目的alias方法及其用途这文档 http spark apache org docs latest api python pyspark sql html显示它被用来创建现有的副本D
将 Scala Dataframe 写入 CSV 文件时应用 UTF8 编码

在 Spark2 Scala 中将数据帧写入 CSV 文件时如何正确应用 UTF8 编码我正在使用这个 df repartition 1 write mode SaveMode Overwrite format csv option he
使用 Spark pandas_udf 创建列，具有动态数量的输入列

我有这个 df df spark createDataFrame row a 5 0 0 0 11 0 row b 3394 0 0 0 4543 0 row c 136111 0 0 0 219255 0 row d 0 0 0 0 0
fputcsv 和记事本

我使用 fputcsv 生成 csv 文件它工作得很好但是当我在记事本 Windows 中查看 csv 文件时没有新行所有行都在 1 行中并且在应该换行的地方有一个正方形损坏的字符例如 Mac 上的其他编辑器可以正确显示带有中
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
PySpark Yarn 应用程序在 groupBy 上失败

我正在尝试在 Yarn 模式下运行一个处理大量数据的作业 2TB 从谷歌云存储读取管道可以总结如下 sc textFile gs path json map lambda row json loads row map toKvPair g
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
在 Spark 2.1.0 中启用 _metadata 文件

Spark 2 1 0 中保存空 Parquet 文件似乎已损坏因为无法再次读入它们由于模式推断错误我发现从 Spark 2 0 开始写入 parquet 文件时默认禁用写入 metadata 文件但我找不到重新启用此功能的配置设
pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
有谁知道一种更快的方法来执行 String.Split() 吗？

我正在读取 CSV 文件的每一行并且需要获取每一列中的各个值所以现在我只是使用 values line Split delimiter where line是保存由分隔符分隔的值的字符串衡量我的表现ReadNextRow我注意到它花费
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table

随机推荐

.NET 中有可序列化的通用键/值对类吗？

我正在寻找一个可以包含在 Web 服务中的键值对对象我尝试使用 NETSystem Collections Generic KeyValuePair lt gt 类但它无法在 Web 服务中正确序列化在 Web 服务中 Key 和
根据不同列中的值将多列中的值替换为 NA

我有一个小口 A tibble 20 x 6 id X 1 Y 1 number X 2 Y 2
Github：我可以查看存储库的下载数量吗？

在 Github 中有没有办法可以查看存储库的下载数量 2019 年更新 Ustin s answer指着 API repos owner repo traffic clones 获取每天或每周的克隆总数和细分但是仅限过去 14 天
SQL Server 操作系统错误 5：“5（访问被拒绝。）”

我开始学习 SQL 并且我有一本书提供了可以使用的数据库下面的这些文件位于目录中但问题是当我运行查询时它给了我这个错误消息 5120 级别 16 状态 101 第 1 行无法打开物理文件 C Murach SQL Server 2
如何创建动态 JSF 表单字段

我发现了一些类似的问题例如this一但是有很多方法可以做到这一点这让我更加困惑我们正在得到一个XML我们正在阅读的文件这XML包含一些需要呈现的表单字段的信息所以我创建了这个自定义DynamicField java其中包含我们需
如何使用 dapper 映射多个列表

我有三个类用户订单和项目它们存储在单个表中订单和项目都与用户存在n n关系为了实现这一点我有两个交叉表 UserOrders UserProjects 来映射这些关系 public class User public str
在drawable文件夹中共享png图像

我正在将共享与应用程序的以下代码集成 private void socialShare Uri uri Uri parse android resource com example myproject drawable appicon In
识别 CD

我希望能够确定 CD 驱动器中的音乐专辑 CD 是什么例如如果有人声称其驱动器中的 CD 是 Eminem The Eminem Show 我希望能够验证该 CD 确实是 The Eminem Show 有任何想法吗我已经申请了 Gr
汇编将指针传递给函数

我正在尝试将 DWORD 变量作为指针参数发送到函数中 variable1 dd 1 push variable1 push variable adress call InitPoiner InitPoiner push ebp mov e
了解 posix 进程间信号量

根据我的理解信号量应该可以跨相关进程使用而无需将其放置在共享内存中如果是这样为什么下面的代码会死锁 include
VS Code 问题：当我保存时，行和空格会自动添加并破坏代码

我正在使用 VS code 当我保存时它会自动在标签和代码的其他部分添加额外的空格和行当我将其改回之前的语法并再次保存后这个问题再次出现然后我的代码无法工作最近我更改了设置中的一些属性我认为它连接到了 Prettier 扩展从
函数是javascript中的对象吗？

var obj var fn function obj prop some value fn prop some value assert obj prop fn prop Both are objects both have the pr
React webpack 包的预加载动画

我有一个单页网络应用程序大约有300Kb大它与 webpack 捆绑在一起并使用 React Redux 如何在页面加载之前放置一个小的加载旋转器我可以想象将样式和CSS放入静态索引 html 使用像这样的异步加载器克鲁克斯 pos
DatePicker 返回 1 月 1 日的错误年份

我的应用程序中有一个 DatePicker 控件例如如果我尝试选择 2011 年 1 月 1 日它将返回 2010 年 1 月 1 日如果我选择 2040 年 1 月 1 日则会返回 2039 年 1 月 1 日依此类推 12
当我的应用程序进入前台时，视图不会重新加载刷新数据

我有关于重新加载视图的问题我在我的应用程序中使用标签栏当我按下主页按钮时我的应用程序处于后台现在我的问题是现在开始我希望每次显示我的第一个选项卡时都如此所以每次我得到第一个标签栏的视图但是当我得到第一个标签栏的视图时我打电
迭代字符串的各行

我有一个多行字符串定义如下 foo this is a multi line string 我们将这个字符串用作我正在编写的解析器的测试输入解析器函数接收一个file object 作为输入并对其进行迭代它也确实调用了next 方法直接
无法从泛型方法返回对象

我不明白为什么以下代码无法编译我已经声明了泛型类型T这延伸了Customer Customer属于类型Customer那么为什么我不能回来Customer来自此方法的对象而不进行强制转换 public class CustomerExam
如何将按钮与文本输入顶部对齐？ [复制]

这个问题在这里已经有答案了这是我所拥有的 HTML div class combobox div
Form.Show() 不显示其子控件

我有一个表格 frmPleaseWait 有一个MarqueeProgressBar and a Label当 UI 在我们拥有的结构不良的应用程序中加载数据时我想使用它问题是frmPleaseWait Show 显示表单但不显示其中的
为什么读取带有空值的 csv 文件会导致 IndexOutOfBoundException？

我有一个带有以下结构的 csv 文件 Name Val1 Val2 Val3 Val4 Val5 John 1 2 Joe 1 2 David 1 2 10 11 我可以将其加载到 RDD 中我尝试创建一个架构然后创建一个Datafra

为什么读取带有空值的 csv 文件会导致 IndexOutOfBoundException？

为什么读取带有空值的 csv 文件会导致 IndexOutOfBoundException？ 的相关文章

随机推荐

热门标签

为什么读取带有空值的 csv 文件会导致 IndexOutOfBoundException？的相关文章