如何在pyspark中使用多行选项将数据帧保存到json文件中

2023-11-29

在 Pyspark 中，我想将数据帧保存为 json 文件，但格式如下

说这是我的数据框

>>> rdd1.show()
+----------+-----+
|        f1|   f2|
+----------+-----+
|AAAAAAAAAA|99999|
| BBBBBBBBB|99999|
| CCCCCCCCC|99999|
+----------+-----+

如果我将上面的数据框保存为 json 文件，它会给出如下所示的输出

>>>rdd1.coalesce(1).write.json("file:///test_directory/sample4")
{"f1":"AAAAAAAAAA","f2":"99999"}
{"f1":"BBBBBBBBB","f2":"99999"}
{"f1":"CCCCCCCCC","f2":"99999"}

但我想要像下面这样的

[{"f1":"AAAAAAAAAA","f2":"99999"},{"f1":"BBBBBBBBB","f2":"99999"},{"f1":"CCCCCCCCC","f2":"99999"}]

我努力了选项（“multiLine”，“true”）和lineSep =“，”似乎没有一个起作用，这些选项仅适用于读取而不是写入。请为这个问题提出一个解决方案

Use to_json with collect_list函数并写为.text().

Example:

df.show()
#+-----+-----+
#|   f1|   f2|
#+-----+-----+
#|AAAAA| 9999|
#|  BBB|99999|
#| CCCC| 9999|
#+-----+-----+

from pyspark.sql.functions import *

df.agg(to_json(collect_list(struct(col("f1"),col("f2")))).alias("d")).\
write.\
mode("overwrite").\
text("<path>")

#output
#[{"f1":"AAAAA","f2":"9999"},{"f1":"BBB","f2":"99999"},{"f1":"CCCC","f2":"9999"}]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

json

PySpark

如何在pyspark中使用多行选项将数据帧保存到json文件中的相关文章

如何格式化 Highcharts 的 (x,y) 对数据的日期时间

我的序列化方法会产生如下所示的日期时间字符串 2014 07 09T12 30 41Z 为什么下面的代码不起作用 function container highcharts xAxis type datetime series data x
jQuery AJAX 请求在 IE8 中失败，并显示消息“错误：调用 open 方法之前无法调用此方法。”

我正在使用 jQuery 1 4 2 并尝试执行一个简单的 AJAX 请求目标 URL 返回一个 JSON 字符串我使用 jslint 对其进行了验证该请求在 Firefox 和 Chrome 中有效但不想在 IE8 中工作我无法
GitHub Actions：如何将 toJSON() 结果传递给 shell 命令

因此我正在与 Github Actions 合作进行端到端测试我正在查看的设置是让一项作业检索要测试的 url 列表而我的第二项作业使用该列表创建一个矩阵并测试所有这些我的问题是当我实际运行测试脚本时必须从命令行完成因为我使用
将 List 转换为 JSON

Hi guys 有人可以帮助我如何将我的 HQL 查询结果转换为带有对象列表的 JSON 并通过休息服务获取它这是我的服务方法它返回查询结果列表 Override public List
如何使用jq将JSON对象流转换为数组

我想用jq将 json 对象流放入 json 数组中例如来自 a 1 b 2 to a 1 b 2 但这是行不通的 echo a 1 b 2 jq 自从我得到 a 1 b 2 用吸吮它 s option jq s lt lt lt a
Android REST API 连接

我有点傻对此感到抱歉我编写了一个 API 它返回一些 JSON 我的目标是从 Android 应用程序使用此 API 我已经尝试过使用 AsyncTask 但失败了我想像这样使用它调用该类告知 URL 和结果的类型哪个json
使用 ruamel.yaml，如何使带有 NEWLINE 的变量成为不带引号的多行

我正在生成用作协议的 YAML 其中包含一些生成的 JSON import json from ruamel import yaml jsonsample id 123 type customer account other myyamel
使用 TestRestTemplate 和 MockRestServiceServer 时，解析异常而不是实体列表不起作用

我有一个简单的控制器 CODE https github com joergi tryouts blob main kotlin mockrestserver src main kotlin io joergi kotlinmockrest
jQuery 解析 JSON

当我尝试解析 JSON 验证的字符串时收到此错误 JSON parse 意外字符当我删除需要转义的字符 style width 400px 时它完美地工作我缺少什么在使用 parseJSON 之前是否有一种独特的方法来转义字符 va
使用 Apache Spark 读取 JSON - `corrupt_record`

我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point
JSON.stringify 对于大型对象来说非常慢

我在 javascript 中有一个非常大的对象大约 10MB 当我对其进行字符串化时需要很长时间因此我将其发送到后端并将其解析为一个对象实际上是带有数组的嵌套对象这也需要很长时间但这不是我们在这个问题中的问题问题我怎样才能
NSData 不接受有效的 base64 编码字符串

我正在 iOS 7 客户端实现 JSON Web Token 身份验证效果很好我的应用程序接收令牌并可以使用它们对我的服务器进行经过身份验证的调用现在我希望我的客户端代码检查令牌的过期日期以便它知道何时重新进行身份验证检查 J
JSON 从子对象获取父对象

我怎样才能得到discount值如果品牌id 983 示例 JSON prods info rate 100 grocery brand A brand id 983 brand B
Pyspark：相当于 np.where [重复]

这个问题在这里已经有答案了这个操作在 Pyspark 中相当于什么 import pandas as pd import numpy as np df pd DataFrame Type list ABBC Set list ZZXY d
Emoji 字符无法编码为 JSON

我有一个UITextView我称之为messageField 其中的数据messageField is POST ed 以 JSON 格式发送到服务器当用户输入表情符号字符时我无法将数据编码为JSON 我认为 Emoji 使用 Unic
如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
如何在 Angular 2 karma jasmine 测试中从 JSON 文件加载模拟数据？

我在写信业力茉莉花测试用例角2 我们遇到了在单独的 JSON 文件中模拟数据的需求因为数据很大希望确保代码整洁为此我进行了很多搜索但没有找到合适的解决方案我们已经使用以下方式模拟 HTTP 服务模拟后端所以我们不能使用Angula
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
如何在谷歌地图android上显示多个标记

我想在谷歌地图android上显示带有多个标记的位置问题是当我运行我的应用程序时它只显示一个位置标记这是我的代码 public class koordinatTask extends AsyncTask
使用 Ajax 请求作为源数据的 Jquery 自动完成搜索

我想做的事我想使用 jquery 自动完成函数创建一个输入文本字段该函数从跨域curl 请求获取源数据结果应该与此示例完全相同 CSS 在这里并不重要 http abload de img jquerydblf5 png http a

随机推荐

Vue 模板或渲染函数尚未定义，我两者都没有使用？

这是我的主要 JavaScript 文件 import Vue from vue new Vue el app 我的 HTML 文件 div div 使用运行时构建的 Vue js 的 Webpack 配置 alias vue vue di
通过计时器在 JDialog 中设置动态 JLabel 文本

我正在尝试制作一个 JDialog 它将在 JLabel 上向用户显示动态消息该消息应该是从 1 到 10 的计数并且应该每秒更改一个数字问题是当我调试它时它在 dia setVisible true 之后立即停止除非我关闭 J
在 R 中提取日期

我在 R 中处理日期方面遇到了很大的困难而在 SPSS 中可以很轻松地做到这一点但我很乐意留在 R 中完成我的项目我的数据框中有一个日期列想要完全删除年份以保留月份和日期这是我的原始数据的峰值 gt head ds date 1
在不改变宽度的情况下减少条之间的间距

我正在创建一个像这样的条形图 gender M F numbers males females bars plt bar gender numbers width 0 1 bottom None align center data None
合并具有公共元素和多个数据点的数组

我正在尝试使用直接的 Javascript 将两个 Javascript 数组合并为一个数组我正在努力准确地完成以下两个问题中所提出的问题然而我的数据有几个点需要合并而不是单个项目并且数组之间有一个完全相同的公共元素以下是其他问
匹配 Swift 中对象的数据类型

Swift 中如何匹配对象的数据类型 Like var xyz Any xyz 1 switch xyz case let x where xyz as AnyObject println x is AnyObject Type case
如何使用循环来抓取 R 中多个网页的网站数据？

我想应用一个循环来从 R 中的多个网页中抓取数据我能够抓取一个网页的数据但是当我尝试对多个页面使用循环时我收到了一个令人沮丧的错误我花了几个小时修修补补但无济于事任何帮助将不胜感激这有效 GET COUNTRY DATA li
数据帧 R 中的成对减法

我有一个包含 576 行和 5 列的数据框如下所示 Sample Value1 Value2 A 23 2 NA A 21 5 23 5 A 22 4 22 56 B 20 56 26 54 B 21 5 25 3 B 22 3 24 6
替换 snprintf(3) 的 C++ 习惯用法是什么？

我有一些 C 代码在解析某个文件头失败时需要生成错误消息在这种情况下我需要确保标头中的某个 4 字节字段是 OggS 如果不是则返回一条错误消息例如 invalid capture pattern FooB waiting Ogg
jQuery: text() 和 html() 之间有什么区别？

jQuery 中的 text 和 html 函数有什么区别 div html a href example html Link a b hello b vs div text a href example html Link a b hel
转换unicode

我有一个UITextField输入一个unicode值当我点击UIButton需要将其转换并显示在UILabel 下面的代码对我来说工作正常我的代码中的unicode NSString str NSString stringWithUT
范围解析运算符和常量

我们来看下面的代码 include
类型擦除类型擦除，“有什么”问题吗？

所以假设我想使用类型擦除来键入擦除我可以为变体创建伪方法以实现自然的 pseudo method print auto self auto os os lt lt self std variant
删除多维数组

在 C FAQ 中 16 16 给出了以下示例 void manipulateArray unsigned nrows unsigned ncols typedef Fred FredPtr FredPtr matrix new FredP
MVC3 和 Code First 迁移 - “自数据库创建以来，支持‘blah’上下文的模型已发生变化”

我使用 Entity Framework Code First 开始我的项目当我准备好后我将数据库和代码上传到我的主机提供商一切顺利我需要向我的一个类添加一个新字段并且我不想丢失数据库中的数据因此我尝试关注一些有关使用 Cod
如何使用 jQuery 更改元素的同级文本而不更改 html？

我试图仅替换文本但不触及任何其他标签 p a href login php i class fa fa sign in i Login a p p each function this text this text replace Log
无法使用 MRTK v2.0.0-RC1 进行构建

我曾尝试在 Unity 2018 3 10f1 上构建新 MRTK 版本 2 0 0 RC1 的场景示例但每次每个示例都会出现构建错误其中显示找不到类型或命名空间名称 HandJointKind 您是否缺少 using 指令或程序集引
在Python中，我可以调用导入模块的main()吗？

在Python中我有一个modulemyModule py 我在其中定义了一些函数和一个main 它需要一些命令行参数我通常从 bash 脚本中调用这个 main 现在我想把一切都放进一个小package 所以我想也许我可以将我的简单b
日期时间到数字以及向后转换

R 中的日期时间我有这个日期 2016 10 29 15 00 00 我想将其转换为数字并向后转换为我的相同日期和时间我用它来将其转换为数字 as numeric as POSIXct 2016 10 29 15 00 00 我怎样才能
如何在pyspark中使用多行选项将数据帧保存到json文件中

在 Pyspark 中我想将数据帧保存为 json 文件但格式如下说这是我的数据框 gt gt gt rdd1 show f1 f2 AAAAAAAAAA 99999 BBBBBBBBB 99999 CCCCCCCCC 99999 如

如何在pyspark中使用多行选项将数据帧保存到json文件中

如何在pyspark中使用多行选项将数据帧保存到json文件中 的相关文章

随机推荐

热门标签

如何在pyspark中使用多行选项将数据帧保存到json文件中的相关文章