Spark SQL 编程初级实践

2023-11-02

1．Spark SQL 基本操作

将下列 JSON 格式数据复制到 Linux 系统中，并保存命名为 employee.json。

{ "id":1 , "name":" Ella" , "age":36 }

{ "id":2, "name":"Bob","age":29 }

{ "id":3 , "name":"Jack","age":29 }

{ "id":4 , "name":"Jim","age":28 }

{ "id":5 , "name":"Damon" }

{ "id":5 , "name":"Damon" }

为 employee.json 创建 DataFrame，并写出 Scala 语句完成下列操作：

将下列 json 数据复制到你的 ubuntu 系统/usr/local/spark 下，并保存命名为 employee.json。

scala> import org.apache.spark.sql.SparkSession

scala> val spark=SparkSession.builder().getOrCreate()

scala> import spark.implicits._

scala> val df = spark.read.json("file:///usr/local/spark/employee.json")

(1) 查询所有数据；

(2) 查询所有数据，并去除重复的数据；

(3) 查询所有数据，打印时去除 id 字段；

(4) 筛选出 age>30 的记录；

(5) 将数据按 age 分组；

(6) 将数据按 name 升序排列；

(7) 取出前 3 行数据；

(8) 查询所有记录的 name 列，并为其取别名为 username；

(9) 查询年龄 age 的平均值；

(10) 查询年龄 age 的最小值。

2．编程实现将 RDD 转换为 Da

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

json

大数据

scala

Spark SQL 编程初级实践的相关文章

阶乘的 Scala 排列

我怎样才能找到n Scala 中某些字母的排列 Scala 2 9 RC1 scala gt abc permutations toList res58 List String List abc acb bac bca cab cba
在 JavaScript 中按属性过滤 JSON 数据

我有一个 JSON 序列化集合 id person1 date 7 20 2014 17 20 09 listed name Tom name Tom contact info email protected cdn cgi l email
如何在 Golang 中将 []byte XML 转换为 JSON 输出

有没有办法在 Golang 中将 XML byte 转换为 JSON 输出我有以下功能body is byte但我想在一些操作之后将此 XML 响应转换为 JSON 我试过了Unmarshal in xml打包没有成功 POST func
使用 JQuery 定义要附加的 HTML 模板

我有一个正在循环的数组每次条件成立时我想附加一份副本HTML下面的代码到具有一些值的容器元素我可以在哪里放置此 HTML 以以智能方式重复使用 a href class list group item div class image
如何在phonegap应用程序中使用存储在localStorage中的json feed？

这就是我正在做的向我的网络服务器发出请求响应采用 json 格式使用 jquery 模板在我的应用程序中呈现回调数据非常简单就像魅力一样问题是我想在本地存储一些数据这样我的应用程序就不必每次都从服务器获取它 3g 很慢每笔
Scala 如何忽略 Java 的检查异常？

例如如果调用 JavaThread sleep这会抛出一个已检查的InterruptedException来自 Scala 源文件然后不需要将调用包含在 Scala 中try catch Scala 如何删除将调用包围在 a 中的规则tr
编码的 nsdata utf8 json，在 ios 中带有重音字符

我向网络服务器发出一个发布请求该服务器用 JSON 回答我这是响应的标头 Cache Control private Content Length 826 Content Type application json charset ut
使用 YAML.load 解析 json 安全吗？

我使用的是红宝石2 1 0 我有一个 json 文件例如测试 json item apple 1 banana 2 使用 YAML load 加载此文件是否安全 YAML load File read test json 我正在尝试加载
PHP 中的 MongoDB - 如何将项目插入集合中的数组中？

这必须很容易但我似乎无法弄清楚假设我有一个集合users这是集合中的第一项 id ObjectId 4d8653c027d02a6437bc89ca name Oscar Godson email email protected cdn
错误 - jmeter.util.BeanShellInterpreter：调用 bsh 方法时出错：eval 源文件：内联评估：

当我运行将 Beanshell 后处理器作为采样器子级的 jmeter 脚本时出现以下错误错误 jmeter util BeanShellInterpreter 调用 bsh 方法时出错 eval 源文件内联评估 https i st
Play Framework 2.3 (Scala) 中的自定义 JSON 验证约束

我设法使用自定义约束实现表单验证但现在我想对 JSON 数据执行相同的操作如何将自定义验证规则应用于 JSON 解析器示例客户端的 POST 请求包含用户名 username 我不仅要确保该参数是非空文本而且还要确保该用户确实存在
自动完成仅显示消息并且结果可用，使用向上和向下箭头键进行导航。而是显示列表

我的问题很清楚我正在使用 jquery 自动完成我不知道为什么它只向我显示消息 9 results are available use up and down arrow keys to navigate 没有向我显示结果列表这是我的
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
使用 C++ 和 BOOST 读取 JSON 文件

HTTP 服务器向我发送一个 JSON 响应字符串如下所示 folders id 109 parent id 110 path 1 105 110 id 110 parent id 105 path 1 105 files id 26
玩：将表单字段绑定到双精度型？

也许我只是忽略了一些明显的事情但我无法弄清楚如何将表单字段绑定到 Play 控制器中的双精度型例如假设这是我的模型 case class SavingsGoal timeframeInMonths Option Int amount
Scala 解析器组合器的运算符优先级

我正在研究需要考虑运算符优先级的解析逻辑我的需求并不太复杂首先我需要乘法和除法比加法和减法具有更高的优先级例如 1 2 3 应视为 1 2 3 这是一个简单的例子但你明白了我需要将更多自定义标记添加到优先级逻辑中我可以根据此处
jQuery AJAX 请求在 IE8 中失败，并显示消息“错误：调用 open 方法之前无法调用此方法。”

我正在使用 jQuery 1 4 2 并尝试执行一个简单的 AJAX 请求目标 URL 返回一个 JSON 字符串我使用 jslint 对其进行了验证该请求在 Firefox 和 Chrome 中有效但不想在 IE8 中工作我无法

随机推荐

AD PCB布局拖动元器件时出现的红线、绿线（Optimal Placement Vector）

文章目录问题设置操作详解问题初学AD 看到很多PCB布局拖动元器件时会显示红线绿线但在我自己操作界面拖动时没有红绿线显示应该是设置的问题那该怎样隐藏和显示红绿线呢于是网上各种找但找到的都是提出的同样问题或者感性分
【mindspore】【训练警告】执行训练代码时存在的警告

1 使用Ascend训练efficientnet的时候出现以下警告这里我怀疑是mindspore环境更新导致的环境从mindspore1 0 1更新到了mindspore1 1 1 当然其中的一些警告是之前的见过的也有一些是没有见过的
【统计建模与R软件】第二章 R软件的使用上机练习5 R语言作图线性回归多图绘制线条格式箭头文字图例

上机练习及解析 1 数据的读取数据 weight height 4 17 1 75 5 58 1 8 5 18 1 65 6 11 1 9 4 5 1 74 4 61 1 91 5 17 1 75 4 53 1 8 5 33 1 65 5
测试驱动开发系列之二--嵌入式系统TDD策略

嵌入式系统TDD策略这篇文章中主要介绍嵌入式TDD周期和如何不受跨平台问题影响而保持开发的步伐我们看到了双目标系统的优势和如何包容在目标系统中测试所带来的风险然后也解答了一些常见的关于TDD的疑惑 5 1目标硬件的瓶颈对于很多嵌入式
如何获取浏览器URL中查询字符串的参数

首先要知道Location这个对象以及这个对象中的一些属性 href 设置或返回完整的url 如本博客首页返回http www cnblogs com wymninja host 设置或返回主机名和当前的URL的端口号本博客首页返回www
【老生谈算法】matlab实现数字图像压缩与编码算法——图像压缩算法

基于matlab 的数字图像图像压缩与编码含matlab源程序 1 文档下载本算法已经整理成文档如下有需要的朋友可以点击进行下载说明文档点击下载本算法文档老生谈算法 matlab实现数字图像压缩与编码算法 doc 更多mat
算法：反转链表&二分查找&时间复杂度、空间复杂度&斐波那契

学习方法书 OutLiers 异类不一样的成功启示录 Chunk it up 切碎知识点 Deliberate practicing 刻意练习 Feedback 反馈 Sorting Linked List链表 Binary Tree二
Android——定时器轮询

文章目录 1 Executor 2 Handler 3 Timer 4 AlarmManager 4 WorkManager kotlin 1 Executor kotlin fun mExecutor val executor Sched
如果线上遇到了OOM，该如何解决？

常说要对生产环境保持敬畏之心快速解决问题也是一种敬畏的表现今天就和大家聊聊 Java 进程触发了 OOM 后如何排查为什么会 OOM OOM 全称 Out Of Memory 表示内存耗尽当 JVM 因为没有足够的内存来为对象分配空
Latex: 使 tabular 居中

参考 How to center the table in Latex Latex 使 tabular 居中解决方法1 centering begin tabular end tabular 解决方法2 begin center begi
opencv和python的区别,Opencv、libopencv、Python-Opencv的区别

最近在树莓派上安装opencv 准备用于深度学习方面的内容结果总是在安装的时候傻傻分不清这三者的区别总是傻瓜式的按照百度上的步骤安装 OpenCV is computer vision a library written using h
blob 在线解码_roon、NAS图文全攻略

前几天 eric已经发表了欧博旗舰RDS1电池数字界面转盘旗舰RDB1电池解码器开箱篇开箱篇试听欧博旗舰RDS1电池数字界面转盘旗舰RDB1电池解码器支持roon Tidal MQA 本地播放评论篇开盖照本地播放评论篇试听欧
HCIP华为认证网络工程师多久能够考过呢

hcip华为认证网络工程师多久能考过
HP服务器RAID配置两种方法

其实所有阵列的配置方法都大同小异只要知道了阵列的原理有操作过一种服务器其它品牌的服务器操作方法类似下面以DL380G7 DL580G7 和DL388G9创建RAID的方法放在博客上方便查询 DL380G7 DL580G7 方法一
Oracle 忘记用户名和密码的解决办法

很久以前装了Oracle 今天终于下决心要学一学了结果一上午的时间就贡献给如何连接数据库上了忘记了安装时设置的用户名和密码怎么办查了下网上的资料终于解决了方法一首先进入sqlplus 进入的方式有两种一种是通过cmd命令台输入
Windos平台,官方编译LibYuv详细教程-Ninja编译

Windos平台官方编译LibYuv详细教程 Ninja编译前言阅读可有效节约您的时间编译教程前言阅读可有效节约您的时间首先说一下结论为什么要用ninja编译Libyuv 下面是官方的编译教程 https github co
自动驾驶仿真软件SCANeRstudio（二）场景、仿真、分析

scaner scenario driver 驾驶员模型 traffic driver virtual driver human driver walker driver 一动态基础部分创建场景 1 创建Riviera地形模式 sim
ChatGPT 是什么？

ChatGPT是一种基于GPT 3 5架构的大型语言模型由OpenAI公司开发该模型使用了先进的机器学习技术可以自动学习并理解自然语言从而使其能够回答各种问题生成文本和对话 ChatGPT模型基于GPT 3模型但是具有更多的参数
把“SC”表中“叶平”老师教的课的成绩都更改为此课程的平均成绩

前言做数据库sql练习遇到的此问题自己第一次写有些复杂想在网上搜寻下比较简洁高效的写法但是几乎都是复制粘贴错误的也在复制粘贴半天找不到比较高质量的还是自己写一下吧建表语句不在此处列出有更高效简洁的写法欢迎留言评论实现
Spark SQL 编程初级实践

1 Spark SQL 基本操作将下列 JSON 格式数据复制到 Linux 系统中并保存命名为 employee json id 1 name Ella age 36 id 2 name Bob age 29 id 3 name Ja

热门标签