如何在 JSON 中使用 read.schema 仅指定特定字段：SPARK Scala

2024-01-07

我正在尝试以编程方式在看起来像 json 的 textFile 上强制执行 schema(json)。我尝试使用 jsonFile 但问题是从 json 文件列表创建数据帧，spark 必须对数据进行 1 次传递才能为数据帧创建模式。因此它需要解析所有需要较长时间的数据（自从我的数据被压缩且大小为 TB 以来，需要 4 个小时）。因此，我想尝试将其作为文本文件读取，并强制执行模式以单独获取感兴趣的字段，以便稍后查询结果数据帧。但我不确定如何将其映射到输入。有人可以给我一些关于如何将模式映射到像输入一样的 json 的参考吗？

input :

这是完整的架构：

records: org.apache.spark.sql.DataFrame = [country: string, countryFeatures: string, customerId: string, homeCountry: string, homeCountryFeatures: string, places: array<struct<freeTrial:boolean,placeId:string,placeRating:bigint>>, siteName: string, siteId: string, siteTypeId: string, Timestamp: bigint, Timezone: string, countryId: string, pageId: string, homeId: string, pageType: string, model: string, requestId: string, sessionId: string, inputs: array<struct<inputName:string,inputType:string,inputId:string,offerType:string,originalRating:bigint,processed:boolean,rating:bigint,score:double,methodId:string>>]

但我只对少数领域感兴趣，例如：

res45: Array[String] = Array({"requestId":"bnjinmm","siteName":"bueller","pageType":"ad","model":"prepare","inputs":[{"methodId":"436136582","inputType":"US","processed":true,"rating":0,"originalRating":1},{"methodId":"23232322","inputType":"UK","processed":falase,"rating":0,"originalRating":1}]


 val  records = sc.textFile("s3://testData/sample.json.gz")

  val schema = StructType(Array(StructField("requestId",StringType,true),
                          StructField("siteName",StringType,true),
                          StructField("model",StringType,true),
                          StructField("pageType",StringType,true),
                          StructField("inputs", ArrayType(
                                StructType(
                                            StructField("inputType",StringType,true), 
                                            StructField("originalRating",LongType,true), 
                                            StructField("processed",BooleanType,true), 
                                            StructField("rating",LongType,true), 
                                            StructField("methodId",StringType,true)
                                            ),true),true)))

    val rowRDD = ?? 

    val inputRDD = sqlContext.applySchema(rowRDD, schema)
    inputRDD.registerTempTable("input")

     sql("select * from input").foreach(println)

有什么办法可以映射这个吗？或者我需要使用子解析器什么的。由于限制，我想使用 textFile。

尝试过：

val  records =sqlContext.read.schema(schema).json("s3://testData/test2.gz")

但不断收到错误：

<console>:37: error: overloaded method value apply with alternatives:
     (fields: Array[org.apache.spark.sql.types.StructField])org.apache.spark.sql.types.StructType <and>
      (fields: java.util.List[org.apache.spark.sql.types.StructField])org.apache.spark.sql.types.StructType <and>
      (fields: Seq[org.apache.spark.sql.types.StructField])org.apache.spark.sql.types.StructType
     cannot be applied to (org.apache.spark.sql.types.StructField, org.apache.spark.sql.types.StructField, org.apache.spark.sql.types.StructField, org.apache.spark.sql.types.StructField, org.apache.spark.sql.types.StructField, org.apache.spark.sql.types.StructField)
           StructField("inputs",ArrayType(StructType(StructField("inputType",StringType,true), StructField("originalRating",LongType,true), StructField("processed",BooleanType,true), StructField("rating",LongType,true), StructField("score",DoubleType,true), StructField("methodId",StringType,true)),true),true)))
                                              ^

它可以加载具有预定义架构的以下代码，spark 不需要遍历 ZIP 文件中的文件。问题中的代码有歧义。

import org.apache.spark.sql.types._

val input = StructType(
                Array(
                    StructField("inputType",StringType,true), 
                    StructField("originalRating",LongType,true), 
                    StructField("processed",BooleanType,true), 
                    StructField("rating",LongType,true), 
                    StructField("score",DoubleType,true), 
                    StructField("methodId",StringType,true)
                )
            )

 val schema = StructType(Array(
    StructField("requestId",StringType,true),
    StructField("siteName",StringType,true),
    StructField("model",StringType,true),
    StructField("inputs",
        ArrayType(input,true),
                true)
    )
)

val  records =sqlContext.read.schema(schema).json("s3://testData/test2.gz")

并非所有字段都需要提供。如果可能的话最好提供一切。

如果某些行无效，Spark 会尽力解析所有行。它将添加 _corrupt_record 作为包含整行的列。而如果它是普通的 json 文件。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 JSON 中使用 read.schema 仅指定特定字段：SPARK Scala 的相关文章

HttpHostConnectException：连接被拒绝 Android

我正在尝试通过 HttpPost 连接并将用户名和密码发送到网站然后从该网站接收字符串我过去尝试过各种对我有用的方法但现在当我发送用户名和密码标识符时应用程序超时长达 4 分钟然后抛出以下异常 07 16 16 32 32 897
Scala 中值类的隐式 Json 格式化程序

我有许多值类组成了一个更大的对象案例类 final case class TopLevel foo Foo bar Bar final case class Foo foo String extends AnyVal final case
在 ASP.NET MVC 中强制使用 Json() 中的小写属性名称

鉴于以下课程 public class Result public bool Success get set public string Message get set 我将在控制器操作中返回其中之一如下所示 return Json ne
com.google.gson.internal.LinkedTreeMap 无法转换为我的类[重复]

这个问题在这里已经有答案了我在从 JSON 字符串获取对象时遇到一些问题我上课了Product public class Product private String mBarcode private String mName priv
如何使用 keyTextTransform() 进行嵌套 json？

我的模型有一个 json 字段我可以使用以下查询访问 jsonfield key1 from django contrib postgres fields jsonb import KeyTextTransform MyModel obj
Spark SQL如何读取压缩的csv文件？

我尝试过使用apispark read csv读取带有扩展名的压缩 csv 文件bz or gzip 有效但在源代码中我没有找到任何可以声明的选项参数codec type 即使在这个link https github com databr
如何在没有 ASP.NET 的情况下从 json 客户端调用 .NET AuthenticationService

我有一个 WCF 4 服务位于安全子文件夹中在客户端使用 NET AuthenticationService 使用表单身份验证进行身份验证后可以访问该服务此 WCF 服务适用于通过 json 进行通信的移动应用程序客户端但不是 AS
如何使用 JSON.net 处理同一属性的单个项目和数组

我正在尝试修复我的 SendGridPlus 库以处理 SendGrid 事件但我在 API 中对类别的处理不一致方面遇到了一些麻烦在以下示例中有效负载取自SendGrid API 参考 http sendgrid com docs
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
覆盖 QWebView 中的页面回复

我试图在 Qt 的 QWebView 中拦截页面表单请求并在某些情况下使用替代内容进行响应 QNetworkReply ngcBrowser createRequest Operation operation const QNetwor
使用 scala 从 Spark 中的数组数组中的结构中提取值

我正在使用 scala 将 json 数据读入 Spark 数据帧架构如下 root metadata array nullable true element struct containsNull true playerId strin
.NET NewtonSoft JSON反序列化映射到不同的属性名称

我有以下从外部接收的 JSON 字符串 team v1 attributes eighty min score home or away home score 22 team id 500 v1 attributes eighty min
Spark - 如何在本地运行独立集群

是否有可能运行Spark独立集群仅在一台机器上进行本地操作这与仅在本地开发作业基本上不同即local 到目前为止我正在运行 2 个不同的虚拟机来构建集群如果我可以在同一台机器上运行一个独立的集群该怎么办例如三个不同的 JVM 正
通用特征的隐式转换

我正在实现一个数据结构并希望用户能够使用任何类型作为密钥只要他提供一个合适的密钥类型来包装它我有这个关键类型的特质这个想法是进行从基类型到键类型的隐式转换反之亦然实际上只使用基类型该特征看起来像这样 trait Key T
应用程序内的 SQLite 文件版本兼容性

我有一个 C NET 应用程序一种复杂的计算应用程序其中用户输入数据处理后的信息使用 JSON 序列化和 EF 保存到 SQLite 文件中需要时可以将其加载到我们的应用程序中应用程序在开发过程中经历了很多变化类也被修改因此
如何捕获 Oozie Spark 输出

有没有办法捕获spark的输出然后将其输入到shell上我们当前正在使用 scala 创建 jar 文件并希望我们的 Spark 输出成为 shell 输入我的想法是使用 wf actionData spark XXXX var 我只
Ajax JSON 数据和灯箱冲突

我有一个带有灯箱插件的画廊设置光廊 http sachinchoolur github io lightGallery docs 该画廊与静态 HTML 完美配合当我动态抓取 API 数据并尝试让灯箱处理这些项目时问题就出现了我似乎无
将 JSON 导出到环境变量

如果我有这样的 JSON hello1 world1 testk testv 我想将每个键值对导出为环境变量如何通过 shell 脚本来做到这一点例如当我在终端上写时 echo hello1 world1应该打印其他键值对吗注意上
为什么《Scala 中的函数式编程》一书的“无异常处理错误”一章中没有提到“scala.util.Try”？

在 Scala 中的函数式编程一书中的无异常处理错误一章中作者给出从函数体抛出异常的问题 Use Option如果我们不关心实际的异常 Use Either如果我们关心实际的异常 But scala util Try没有提到从我
AWS SES模板html部分是多行

我正在使用 AWS SES 按照文档发送电子邮件https docs aws amazon com ses latest DeveloperGuide send personalized email api html https docs

随机推荐

如何在 ASP .NET MVC 5 中为 AspNetUser 创建 SecurityStamp

当我在应用程序运行时通过注册操作创建用户时应用程序用户将获得安全标记当我通过以下方式添加用户时 if context Users Any System Diagnostics Debug WriteLine INSIDE var has
python：获取实际的环境变量进行修改并传递给子进程

嗯看来环境变量的情况在Python中并不一致使用读取环境变量并不是什么秘密os environ or os getenv返回当前env的状态os模块已导入仍然可以使用分配来更新环境os environ keys 但一旦我用过os pu
“contains”方法不适用于 ArrayList，还有其他方法吗？

我想添加一个int 到 ArrayList 如果还没有 int 但由于某种原因它不起作用在这种情况下 arrlist 是ArrayList
在 Android 手机的“设置”->“选择区域设置”中添加/删除语言条目

我的问题如何在 Android 手机的设置 gt 语言和键盘设置 gt 选择区域设置或选择语言中添加或删除语言条目源代码 level 我将提供更多关于我想要什么和我已经做了什么的细节请原谅我如果我提供任何愚蠢的理解或信息我对
如何在 SQLAlchemy 中回滚 python 中的 dataframe.to_sql？

engine create engine postgresql username password host 5432 database transactions to sql transactions engine if exists a
在 Java 中使用 Scanner 作为全局变量是不好的做法吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案将输入扫描器例如键盘声明为类中的全局变量是否被认为是不好的编程实践例如 public static Scanner input new S
docker安装问题安装后找不到文件

我在 ubuntu 14 04 上安装了 docker 守护进程正在运行但当我跑步时docker ps a 我收到这个错误 bash usr local bin docker No such file or directory 我该如何解
JavaFX CSS 动态样式

在提问之前我在网上搜索并搜索了我的问题的答案但找不到类似的内容我希望我的应用程序用户能够从 JavaFX ColorPicker 中选择颜色并根据他们的选择更新整个应用程序窗口颜色按钮颜色字体等我的应用程序中有很多屏幕我真的
如何打印 TensorFlow 和 Keras 损失函数中的中间变量？

我正在编写一个自定义目标来训练 Keras 带有 TensorFlow 后端模型但我需要调试一些中间计算为了简单起见假设我有 def custom loss y pred y true diff y pred y true retu
如何使用 HttpClient 改善缓慢的 DNS？

我有一个针对特定域的请求需要很长时间才能完成平均 22 秒请求本身不会返回大量数据 var httpClient new HttpClient instantiated at app start and reused var requ
WooCommerce 3.0 结帐期间出现“不应直接访问属性”问题

我的日志显示了很多以下消息 order total 被错误调用不应直接访问订单属性此消息是在 3 0 版本中添加的它会为订单上的每个属性重复该消息这些消息的原因是什么我应该采取什么措施来纠正它们 WooCommerce 3 0 修
C++：新手初始化列表问题

这里是新手我正在查看公司代码看起来类 A 中没有成员变量但在 A 的构造函数中它初始化了对象 B 即使类 A 不包含任何 B 类型的成员变量或根本不包含任何成员变量我想我还不太明白甚至无法提出问题所以这是怎么回事我的直觉是
ASP.Net MVC - 捕获某些 URL 进行 301 重定向

我正在从旧的网站设计转向具有新 URL 的新设计以前的所有页面名称都是名为 PageXX html PageX html Index html 的静态文件其中 X 是数字我的网站现在是动态的但我想捕获这 3 个传入 url 然后尝试
Java - 如何根据元素的属性分隔列表

我有一个要对其执行操作的对象列表然而我首先需要将列表分成单独的列表以便具有相同parentID的所有项目都在同一个列表中然后分别对每个列表执行操作原因是该操作将对象的parentID作为范围根据此处的要求根据元素的给定属性分隔
文件上传以及 Jersey Restful Web 服务中的其他对象

我想通过上传图像和员工数据来在系统中创建员工信息我可以使用球衣通过不同的休息时间来做到这一点但我想在一次休息中实现这一目标我在下面提供了结构请帮助我在这方面该怎么做 POST Path upload2 Consumes MediaT
Firebase 无法将检索到的数据保存到 ArrayList

检索数据有效但我无法将检索到的数据保存到 ArrayList 中在 onDataChanged 方法之后 ArrayList profile 似乎有 2 个值但在 return 语句中它有 0 static List
MVC 网格的 Kendo UI 如何隐藏 ID 列

我想隐藏 Kendo 网格的 ID 列但仍然能够引用它来执行其他操作我尝试将 Width 设置为 0 但这只会使其变得非常宽 Html Kendo Grid Model Name LineItems Columns columns gt
使用 jQuery 的 AJAX 单选按钮

我需要帮助来提交带有单选按钮的 RSVP 如下所示 Attending
嵌套方法调用和委托有什么区别？

考虑以下第一种方法 public void f3 f2 f1 和这个第二种方法 class Sample public delegate void MyDelegate string s MyDelegate obj public Sa
如何在 JSON 中使用 read.schema 仅指定特定字段：SPARK Scala

我正在尝试以编程方式在看起来像 json 的 textFile 上强制执行 schema json 我尝试使用 jsonFile 但问题是从 json 文件列表创建数据帧 spark 必须对数据进行 1 次传递才能为数据帧创建模式因此它需

如何在 JSON 中使用 read.schema 仅指定特定字段：SPARK Scala

如何在 JSON 中使用 read.schema 仅指定特定字段：SPARK Scala 的相关文章

随机推荐

热门标签