如何将包含多个字段的大型 csv 加载到 Spark

2024-05-17

新年快乐！！！

我知道以前曾提出/回答过此类类似的问题，但是，我的问题有所不同：

我有大尺寸的 csv，有 100+ 个字段和 100MB+，我想将其加载到 Spark (1.6) 进行分析，csv 的标题看起来像附件sample http://www.rocksled.com/wp-content/uploads/2016/12/flight201601_sample.csv（只有一行数据）

非常感谢。

更新 1（2016.12.31.1:26pm 美国东部时间）：

我使用以下方法并且能够加载数据（具有有限列的示例数据），但是，我需要自动分配标题（来自 csv）作为 DataFrame 中的字段名称，但是，DataFrame 看起来像：

Can anyone tell me how to do it? Note, any manual manner is what I want to avoid.

>>> import csv
>>> rdd = sc.textFile('file:///root/Downloads/data/flight201601short.csv') 
>>> rdd = rdd.mapPartitions(lambda x: csv.reader(x))
>>> rdd.take(5) 
>>> df = rdd.toDF() 
>>> df.show(5)

正如评论中所述，您可以将spark.read.csv用于spark 2.0.0+（https://spark.apache.org/docs/2.0.0/api/python/pyspark.sql.html https://spark.apache.org/docs/2.0.0/api/python/pyspark.sql.html)

df = spark.read.csv('your_file.csv', header=True, inferSchema=True)

Setting header to True将把标题解析为数据帧的列名。环境推断模式 to True将获取表模式（但会减慢读取速度）。

另请参阅此处：使用 Spark 加载 CSV 文件 https://stackoverflow.com/questions/28782940/load-csv-file-with-spark

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

csv

apachespark

PySpark

如何将包含多个字段的大型 csv 加载到 Spark 的相关文章

将类型安全配置conf文件传递给DataProcSparkOperator

我正在使用 Google dataproc 提交 Spark 作业并使用 google Cloud Composer 来安排它们不幸的是我面临着困难我依靠 conf文件类型安全配置文件将参数传递给我的 Spark 作业我正在将
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
Spark Streaming 中是否需要检查点

我注意到 Spark 流示例也有检查点代码我的问题是检查点有多重要如果是为了容错那么在此类流应用程序中发生故障的频率是多少这一切都取决于您的用例假设您正在运行一个流作业它仅从 Kafka 读取数据并计算记录数如果您的应用程序在
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h
Scala 中的行聚合

我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行我知道我可以使用 UDF 来做到这一点但也许有一种更简单的方法 Thanks Porting 这个Python答案
从 pySpark 中的字典构建一行

我正在尝试在 pySpark 1 6 1 中动态构建一行然后将其构建到数据帧中总体思路是扩展结果describe例如包括偏斜和峰度这是我认为应该起作用的 from pyspark sql import Row row dict C0
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
用于读取类似 CSV 行的 Python 正则表达式

我想解析传入的类似 CSV 的数据行值用逗号分隔逗号周围可能有前导和尾随空格并且可以用或引用例如这是有效的行 data1 data2 data3 data4 data5 但这是格式错误的 data1 data2 da ta3
PySpark DataFrame 上分组数据的 Pandas 式转换

如果我们有一个由一列类别和一列值组成的 Pandas 数据框我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
处理错误“TypeError: Expected tuple, got str”将 CSV 加载到 pandas 多级和多索引 (pandas)

我正在尝试加载 CSV 文件这个文件 https drive google com file d 13a eVeSzy6HkhffQw32S57U hm5YCj0 view usp sharing 创建一个多索引多级数据帧它有5 五指
在 pandas 中获取组名称的有效方法

我有一个包含大约 300 000 行的 csv 文件我将其设置为按特定列分组每个组大约有 140 名成员总共 2138 个组我正在尝试生成组名称的 numpy 数组到目前为止我已经使用 for 循环来生成名称但处理所有内容都需
Python CSV Writer 在文件末尾留下一个空行

以下代码在 txt 文件末尾留下一个空白行我怎样才能不让 writerows 不终止最后一行 with open fname wb as myFile Start the CSV Writer wr csv writer myFile d
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
Python itertools groupby 中令人不安的奇怪行为/错误？

我在用itertools groupby解析一个短的制表符分隔的文本文件文本文件有几列我想做的就是对具有特定值的所有条目进行分组x在特定的列中下面的代码对名为的列执行此操作name2 寻找变量中的值x 我尝试使用以下方法来做到这一点c
在 python 2 或 python 3 中编写 csv 文件的便携式方法

在我的 Windows 机器上我通常在 python 2 中这样做来编写 csv 文件 import csv f open out csv wb cr csv writer f delimiter cr writerow a b c f
如何在每行中添加行号？

假设这些是我的数据 Maps and Reduces are two phases of solving a query in HDFS Map is responsible to read data from input location
使用 Java 在浏览器中下载 CSV 文件

我正在尝试在 Web 应用程序上添加一个按钮单击该按钮会下载一个 CSV 文件该文件很小大小仅约 4KB 我已经制作了按钮并附加了一个侦听器文件也准备好了我现在唯一需要做的就是创建单击按钮时下载 csv 文件的实际事件假设 fi
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案

随机推荐

通过套接字发送动态数组（在记录内）？

我正在尝试直接使用 SendBuf 将记录从服务器传输到客户端但是该记录有一个动态数组的成员并且我在某处在 SOF 中读到发送记录时成员必须是静态的固定长度但问题是我无法确定如何我会将来发送许多论点我怎么解决这个问
Api 控制器中长时间运行的任务（使用 Web API，自托管 OWIN）

我想在自托管 OWIN 环境中的 ApiController 中运行长时间运行的任务例如 4 5 分钟但是我想在开始该任务后一旦开始长时间运行的任务就发回响应而不等待它完成这个长时间运行的任务与 HTTP 无关并且顺序运行一
如何将表格中的td高度设置为0px？

我有一个包含几行的 HTML 表这是动态构建的全部 tr 有一个 td inside If one td 里面没有 HTML 内容我希望它是不可见的如何才能做到这一点并不是说里面的 HTML 是动态渲染的我不想使用display
Magento --“SQLSTATE[23000]：违反完整性约束..”客户更新

迁移服务器后每次尝试更新客户信息时都会出现错误我正在使用一个客户激活插件 http www magentocommerce com magento connect vinai extension 489 customer activat
如果在中执行 document.write，为什么 DHTML 行为在 IE8 中不起作用？

我们有一个 3rd 方 Web 应用程序可以在 IE6 中运行但不能在 IE8 中运行示例代码如下在IE6中会弹出 message from htc 消息但在IE8中不会弹出测试 html
在 FsCheck 中生成唯一字符串

我需要生成独特的非null用作的字符串Dictionary键我尝试过类似的事情 public static Gen
如何为 NSAttributedString 内的文本设置“隐藏”属性？

我有一个 Cocoa 应用程序NSTextView控件将其文本保存在NSAttributedString 实际上我相信这是一个NSMutableAttributedString 我可以轻松地在该字符串内的不同字符范围上设置和修改不同的文本属
JPA 中的复合键

我想创建一个具有自动生成的主键的实体而且还有一个由其他两个字段组成的唯一复合键我如何在 JPA 中执行此操作我想这样做是因为主键应该用作另一个表中的外键并且使其复合并不好在下面的代码片段中我需要命令和模型是唯一的 pk当然是主键
Haskell - lambda 表达式

我试图了解什么是有用的以及如何在 Haskell 中实际使用 lambda 表达式我不太明白使用 lambda 表达式相对于定义函数的约定方式有何优势例如我通常会执行以下操作 let add x y x y 我可以简单地打电话 add
Android Studio：lambda 不起作用[重复]

这个问题在这里已经有答案了当尝试使用 lambda 表达式时我遇到了一些 Gradle 构建错误错误 41 100 错误 source 1 7 不支持 lambda 表达式使用 source 8 或更高版本来启用 lambda 表达
自动提取数据 - Oracle SQL Developer

我通过 SQL Developer 连接到 Oracle 数据库我想编写一个返回每月数据集的查询然后将该数据提取到分隔文本文件中我知道如何做到这一点就好了我想知道是否有一种方法可以编写一个脚本来运行查询并在一年内逐月提取数据这样我
将渐变应用于 Material UI 的主题背景

我试图将 MuiTheme 的默认背景颜色设置为渐变我有以下代码 export const theme createMuiTheme palette type dark background default linear gradient
将函数中的会话变量传递给 codeigniter 中的助手

这就是我正在尝试做的事情这是控制器中的功能 public function get started if test login this gt session gt all userdata this gt load gt view te
如何从 C# 运行 PowerShell 脚本

我正在尝试使用 C 运行 PowerShell 脚本但没有成功这是我的功能 private void ExecutePowerShellCommand string scriptfile RunspaceConfiguration ru
Android Studio - 错误：未捕获翻译错误：com.android.dx.cf.code.SimException：本地 0001：无效

我刚刚使用 Android Studio 设置了一台新计算机并从 bitbucket 导入了我的项目问题是我现在在尝试构建项目时遇到此错误信息 Gradle 任务 app clean app generateDebugSources
Selenium 中的断言和验证

有人可以解释一下断言和验证之间的区别吗我知道验证意味着它检查它是否存在如果不存在则测试失败并停止在那里正确吗那么即使断言失败了断言还会继续吗我已经阅读了文档但仍然无法理解它不你已经搞反了在 Selenium IDE
Laravel 路由中的“as”关键字是什么意思？

据我从 Laravel 文档中了解到它用于重定向但也许我错了 I wrote Route get user profile as gt profile function echo some text 然后我期望我的 URL 重定向自ht
未捕获的 ReferenceError：未定义角度 - Mean.IO

我已遵循安装步骤 http mean io docsmean io 但是当我浏览 localhost 3000 时我得到一个空白页面当我打开控制台时我得到一个指向相同错误的文件列表未捕获的引用错误角度未定义我的问题是类似的to
如何获取对象的所有属性？

如何在 JavaScript 中使用反射获取对象的所有属性循环遍历对象并获取属于该对象且不属于该对象的每个键一个函数 var properties for var key in obj if obj hasOwnProperty key
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc

如何将包含多个字段的大型 csv 加载到 Spark

如何将包含多个字段的大型 csv 加载到 Spark 的相关文章

随机推荐

热门标签