Spark-scala-API

2023-05-16

1、sc.version
2、集群对象：SparkContext；获得Spark集群的SparkContext对象，是构造Spark应用的第一步！
SparkContext对象代表整个 Spark集群，是Spark框架功能的入口，可以用来在集群中创建RDD、累加器变量和广播变量。
SparkContext对象创建时可以指明连接到哪个集群管理器上，在Spark-Shell启动时，默认连接到本地的集群管理器。
使用SparkContext对象（在Shell里，就是sc变量）的master方法，可以查看当前连接的集群管理器：sc.master
3、分布数据集：RDD；使用SparkContext对象创建RDD数据集，然后，才能干点有意义的事情！
Spark的核心抽象是一个分布式数据集，被称为弹性分布数据集（RDD），代表一个不可变的、可分区、可被并行处理的成员集合。
RDD对象需要利用SparkContext对象的方法创建，Spark支持从多种来源创建RDD对象，比如：从本地文本文件创建、从Hadoop 的HDFS文件创建、或者通过对其他RDD进行变换获得新的RDD。
下面的示例使用本地Spark目录下的README.md文件创建一个新的RDD：
    scala> val textFile = sc.textFile("README.md")
    textFile: spark.RDD[String] = spark.MappedRDD@2ee9b6e3
我们看到，执行的结果是，返回了一个Spark.RDD类型的变量textFile，RDD是一个模板类，方括号里的String代表这个RDD对象成员的类型。由于是一个对象，因此值用地址表示：spark.MappedRDD@2ee9b7e3 。
SparkContext对象的textFile方法创建的RDD中，一个成员对应原始文件的一行。我们看到在执行的结果中可以看到返回一个 RDD，成员类型为String，我们将这个对象保存在变量textFile中。
使用README.md文件，创建一个RDD，保存到变量 textFile中。
4、操作数据集：RDD可以执行两种操作：变换与动作
RDD的内部实现了分布计算的功能，我们在RDD上执行的操作，是透明地在整个集群上执行的。也就是说，当RDD建立后，这个RDD就不属于本地了，它在整个集群中有效。当在RDD上执行一个操作，RDD内部需要和集群管理器进行沟通协商。
对一个RDD可以进行两种操作：动作（action）和变换（transformation）。动作总是从集群中取回数据，变换总是获得一个新的RDD，这是两种操作的字面上的差异。
事实上，当在RDD上执行一个变换时，RDD仅仅记录要做的变换，只有当RDD上需要执行一个动作时，RDD才通过集群管理器启动实质分布计算。
这有点像拍电影，变换操作只是剧本，只有导演喊Action的时候，真正的电影才开始制作。
5、感受动作和变换的区别;RDD操作分为两种：动作和变换，只有动作才会触发计算！
下面的例子首先做一个映射变换，然后返回新纪录的条数。map是一个变换，负责将原RDD的每个记录变换到新的RDD，count是一个动作，负责获取这个RDD的记录总数。
先执行map，你应该看到很迅速干净地返回：
    scala> val rdd2=textFile.map(line=>line.length)
    rdd2: org.apache.spark.rdd.RDD[Int] = MappedRDD[52] ...
再执行count，这会有些不一样：
    scala> rdd2.count()
    ......
    res10: Long = 141
    .....
当执行map时，我们看到结果很快返回了。但当执行count时，我们可以看到一堆的提示信息，大概的意思就是和调度器进行了若干沟通才把数据拉回来。
看起来确实这样，变换操作就只是写写剧本，Action才真正开始执行计算任务。
6、RDD动作：获取数据的控制权；RDD动作将数据集返回本地
对一个RDD执行动作指示集群将指定数据返回本地，返回的数据可能是一个具体的值、一个数组或一个HASH表。
让我们先执行几个动作：
    scala> textFile.count() // 这个动作返回RDD中的记录数
    res0: Long = 126

    scala> textFile.first() // 这个动作返回RDD中的第一个记录
count是一个动作，负责获取这个RDD的记录总数。first也是一个动作，负责返回RDD中的第一条记录。
在使用Spark时，最好在脑海中明确地区隔出两个区域：本地域和集群域。RDD属于集群域，那是Spark管辖的地带；RDD的动作结果属于本地域，这是我们的地盘。
只有当RDD的数据返回本地域，我们才能进行再加工，比如打印等等。
7、RDD变换：数据的滤镜；RDD变换总是返回RDD，这让我们可以把变换串起来！
RDD变换将产生一个新的RDD。下面的例子中，我们执行一个过滤（Filter）变换，将获得一个新的RDD，由原 RDD中符合过滤条件（即：包含单词Spark）的记录成员构成：
    scala> val linesWithSpark = textFile.filter(line => line.contains("Spark"))
    linesWithSpark: spark.RDD[String] = spark.FilteredRDD@7dd4af09
变量lineWithSpark现在是一个RDD，由变量textFile这个RDD中所有包含"Spakr"单词的行构成。
由于一个RDD变换总是返回一个新的RDD，因此我们可以将变换和动作使用链式语法串起来。下面的例子使用了链式语法解决一个具体问题：在文件中有多少行包含单词“Spark”？
    scala> textFile.filter(line => line.contains("Spark")).count()
    res3: Long = 15
这等同于：
    scala> val rdd1 = textFile.filter(line => line.contains("Spark"))
    ...
    scala> rdd1.count()
    res12: Long = 15
用链式语法写起来更流畅一些，不过这只是一种口味的倾向而已。
8、RDD操作组合；RDD的变换有点像PS的滤镜，有时要用好几个滤镜，才能把脸修好。
RDD的诸多动作和变换，经过组合也可以实现复杂的计算，满足相当多现实的数据计算需求。
假设我们需要找出文件中单词数量最多的行，做个map/reduce就可以了：
    scala> textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)
    res4: Long = 15
上面语句首先使用map变换，将每一行（成员）映射为一个整数值（单词数量），这获得了一个新的RDD。然后在这个新的RDD上执行reduce动作，找到（返回）了单词数量最多的行。
9、count ：计数
使用count成员函数获得RDD对象的成员总数，返回值为长整型
10、top ：前N个记录
使用top成员函数获得RDD中的前N个记录，可以指定一个排序函数进行排序比较。如果不指定排序函数，那么使用默认的Ascii码序进行记录排序。
返回值包含前N个记录的数组，记录类型为T。
11、take：无序采样
使用take成员函数获得指定数量的记录，返回一个数组。与top不同，take在提取记录前不进行排序，它仅仅逐分区地提取够指定数量的记录就返回结果。可以将take方法视为对RDD对象的无序采样。
返回值包含指定数量记录的数组，记录类型为T。
12、first : 取第一个记录；使用first成员函数获得RDD中的第一个记录。
使用RDD的first方法获得第一条记录。不过，没有last方法！
13、max : 取值最大的记录
使用max成员函数获得值最大的记录，可以指定一个排序函数进行排序比较。默认使用 Ascii码序进行排序。
14、min : 取值最小的记录
使用min成员函数获得值最小的记录，可以指定一个排序函数进行排序比较。默认使用 Ascii码序进行排序。
15、reduce : 规约RDD；使用RDD的reduce方法进行聚合！
使用reduce成员函数对RDD进行规约操作，必须指定一个函数指定规约行为。
语法
    def reduce(f: (T, T) => T): T
参数 f : 规约函数 , 两个参数分别代表RDD中的两个记录，返回值被RDD用来进行递归计算。
示例
下面的示例使用匿名函数，将所有的记录连接起来构成一个字符串：
    scala> textFile.reduce((a,b)=>a+b)
    res60:String = #Apache SparkSpake is a fast...
16、collect : 收集全部记录
使用collect成员函数获得RDD中的所有记录，返回一个数组。collect方法可以视为对RDD对象的一个全采样。
17、map : 映射
映射变换使用一个映射函数对RDD中的每个记录进行变换，每个记录变换后的新值集合构成一个新的RDD。
语法
    def map[U](f: (T) => U)(implicit arg0: ClassTag[U]): RDD[U]
参数
    f : 映射函数，输入参数为原RDD中的一个记录，返回值构成新RDD中的一个记录。
   下面的示例将textFile的每个记录（字符串）变换为其长度值，获得一个新的RDD，然后取回第一个记录查看：
    scala> textFile.map(line=>line.length).first()
    res13:Int = 14
18、filter : 过滤
过滤变换使用一个筛选函数对RDD中的每个记录进行筛选，只有筛选函数返回真值的记录，才被选中用来构造新的RDD。
语法
    def filter(f: (T) => Boolean): RDD[T]
参数
    f : 筛选函数，输入参数为原RDD中的一个元素，返回值为True或False 。
    下面的示例仅保留原RDD中字符数多于20个的记录（行），获得一个新的RDD，然后取回第一个记录查看：
    scala> textFile.filter(line=>line.length>20).first()
    res20: String = Spark is a fast and generic .
19、sample : 采样；使用RDD的sample方法获得一个采样RDD！
采样变换根据给定的随机种子，从RDD中随机地按指定比例选一部分记录，创建新的RDD。采样变换在机器学习中可用于进行交叉验证。
语法
    def sample(withReplacement: Boolean, fraction: Double, seed: Long = Utils.random.nextLong): RDD[T]
参数
    withReplacement : Boolean , True表示进行替换采样，False表示进行非替换采样
    fraction : Double, 在0~1之间的一个浮点值，表示要采样的记录在全体记录中的比例
    seed ：随机种子
示例
下面的示例从原RDD中随机选择20%的记录，构造一个新的RDD，然后返回新RDD的记录数：
    scala> textFile.sample(true,0.2).count()
    res12: Long = 26

20、union : 合并；使用RDD的union方法，可以获得两个RDD的并集！
合并变换将两个RDD合并为一个新的RDD，重复的记录不会被剔除。
语法
    def union(other: RDD[T]): RDD[T]
参数
    other : 第二个RDD
示例
下面的示例，首先对textFile这个RDD进行一个每行反转的映射变换，获得一个新的RDD，再将这个新的RDD和原来的RDD：textFile进行合并，最后我们使用count查看一下总记录数：
    scala> textFile.map(line=>line.reverse).union(textFile).count()
    res13: Long = 282
可以看到，合并后的总记录数是原来的2倍。

21、intersection : 相交；使用RDD的intersection方法，可以获得两个RDD的交集！
相交变换仅取两个RDD共同的记录，构造一个新的RDD。
语法
    def intersection(other: RDD[T]): RDD[T]
参数
    other : 第二个RDD
示例
下面的示例将每个记录进行逆转后的RDD与原RDD相交，获得一个新的RDD，我们使用collect回收全部数据以便显示：
    scala> textFile.map(line=>line.reverse).intersection(textFile).collect()
    res27: Array[String] =Array("   ","")

可以看到，只有空行被保留下来，因为空行的逆序保持不变。

22、distinct : 剔重；使用RDD的distinct方法，可以进行记录剔重！
剔重变换剔除RDD中的重复记录，返回一个新的RDD。
语法
    def distinct(): RDD[T]
示例
下面的示例将RDD中重复的行剔除，并返回新RDD中的记录数：
    sala> textFile.distinct().count()
    res20: Long =91

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark-scala-API 的相关文章

对 Scala Not Null 特征的库支持

Notice 从 Scala 2 11 开始 NotNull已弃用据我了解如果您希望引用类型不可为空则必须混合魔法NotNull特征编译器会自动阻止你输入null 可以值在里面看到这个邮件列表线程 http www nabble
使用 scala 集合 - CanBuildFrom 麻烦

我正在尝试编写一个接受任何类型集合的方法CC 并将其映射到一个新的集合相同的集合类型但不同的元素类型我正在挣扎基本上我正在尝试实施map but 不在集合本身上问题我正在尝试实现一个带有签名的方法它看起来有点像 def map
Java 中的“Lambdifying”scala 函数

使用Java和Apache Spark 已用Scala重写面对旧的API方法 org apache spark rdd JdbcRDD构造函数其参数为 AbstractFunction1 abstract class AbstractF
类型级编程有哪些示例？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我不明白类型级编程是什么意思也无法使用Google找到合适的解释有人可以提供一个演示类型级编程的示例吗范式的解释和或定义将
有没有办法通过API调用访问私有数据集

我正在使用 CKAN 2 8 运行 Mirth 3 6 1 作为新手我遇到了一个问题有没有办法通过 API 请求访问 CKAN 中私有数据集中的资源我好像做不到我有一个拥有公共数据集的组织我可以通过 API 路由器通过 Mirth
SoftLayer_Account::getOperatingSystemReloadImages

我想在 OSReload 期间使用 API 获取可用操作系统列表我发现提到了 SoftLayer Account getOperatingSystemReloadImages 方法但找不到该方法的用法谁能帮我解决这个问题谢谢我找不
玩：将表单字段绑定到双精度型？

也许我只是忽略了一些明显的事情但我无法弄清楚如何将表单字段绑定到 Play 控制器中的双精度型例如假设这是我的模型 case class SavingsGoal timeframeInMonths Option Int amount
Scala 解析器组合器的运算符优先级

我正在研究需要考虑运算符优先级的解析逻辑我的需求并不太复杂首先我需要乘法和除法比加法和减法具有更高的优先级例如 1 2 3 应视为 1 2 3 这是一个简单的例子但你明白了我需要将更多自定义标记添加到优先级逻辑中我可以根据此处
Spring @RequestMapping 带有可选参数

我的控制器在请求映射中存在可选参数的问题请查看下面的控制器 GetMapping produces MediaType APPLICATION JSON VALUE public ResponseEntity
scala play框架如何对异步控制器进行单元测试

使用 Scala play 2 5 版并尝试遵循以下文档中的单元测试控制器指南 https www playframework com documentation 2 5 x ScalaTestingWithScalaTest https
为什么在 Scala 中函数类型需要以单独的参数组传递到函数中

我是 scala 新手我用两种方式编写了相同的代码但我对两种方式有点困惑在第二种方式中 f 的参数类型是自动派生的但在 type1 中 scala 编译器无法执行相同的操作我只是想了解这背后的想法是什么 Type1 给出编译错误
如何在 apache Spark 作业中执行阻塞 IO？

如果当我遍历 RDD 时我需要通过调用外部阻塞服务来计算数据集中的值怎么办您认为如何才能实现这一目标值 Future RDD Double Future sequence tasks 我尝试创建一个 Futures 列表但由于
Scalatest PlusPlay Selenium 无法调整窗口大小

对此已经研究了一段时间我似乎找不到使用 scalatest plus 调整窗口大小的方法我发现在线搜索或文档的唯一方法http doc scalatest org 2 1 5 index html org scalatest selen
使用 Apache Spark 读取 JSON - `corrupt_record`

我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point
关于 scala.math.Integral 的问题

有什么方法mkNumericOps andmkOrderingOps of scala math Integral http www scala lang org api current scala math Integral html我们
将字符串转换为枚举值的 Scala 安全方法

假设我有枚举 object WeekDay extends Enumeration type WeekDay Value val Mon Tue Wed Thu Fri Sat Sun Value 我希望能够将 String 转换为 Wee
Spark Scala 相当于 SKEW 连接提示

Spark SQL 有一个可用的倾斜提示请参阅here https docs databricks com spark latest spark sql skew join html relation columns and skew v
为什么 Scala 选项的 foreach 比 get 更好？

为什么使用foreach map flatMap等被认为比使用更好get对于 Scala 选项如果我使用isEmpty我可以打电话get安全好吧这又回到了告诉不要问考虑这两行 if opt isDefined println o
对象内的类中的 Scala 抽象类型

如果我这样做 object Parent class Inner extends Testable type Self lt Inner def inner new Inner object Child class Inner extend
Scala：如何获取数据框中的行范围

我有一个DataFrame通过运行创建sqlContext readParquet 文件的一个 The DataFrame由 300 M 行组成我需要使用这些行作为另一个函数的输入但我想以较小的批次进行操作以防止 OOM 错误目前

随机推荐

linux启动xfce桌面,Linux推荐使用Xfce桌面环境的8个原因

出于几个原因包括好奇心 xff0c 几周前我开始使用Xfce作为我的Linux桌面原因之一是后台守护进程占用了我非常强大的主工作站上所有的CPU和I O带宽当然 xff0c 有些不稳定可能是因为我删除了一些提供后台守护进程的RPM包
记一次性能优化，单台4核8G机器支撑5万QPS

前言这篇文章的主题是记录一次Python程序的性能优化 xff0c 在优化的过程中遇到的问题 xff0c 以及如何去解决的为大家提供一个优化的思路 xff0c 首先要声明的一点是 xff0c 我的方式不是唯一的 xff0c 大家在性能优
zabbix三种常用报警方式：邮件、微信和短信报警

部署环境 xff1a xff08 Zabbix的版本为3 4 10 xff09 Zabbix server xff1a 192 168 2 205 Centos 7 Zabbix agent xff1a 192 168 2 204 Cent
git中为当前项目添加user.name和user.email

git config add user name span class hljs string 39 yourName 39 span git config add user email span class hljs string 39
javascript错误解决:Unable to modify the parent container element before the child element is closed...

网页错误详细信息用户代理 Mozilla 4 0 compatible MSIE 8 0 Windows NT 5 1 Trident 4 0 Mozilla 4 0 compatible MSIE 6 0 Windows NT 5 1
一对多，多对多，一对一的理解

关系维护方和被维护方的理解 xff1a 关系维护方就是hibernate会主动去修改维护的 xff0c 比如one1设置为关系维护方 xff0c one2为被维护方 xff0c 那么在one1 save时 xff0c 会主动修改one2 x
炉石服务器维护周期,炉石传说：新手老手都要看！一个版本的周期你真的了解吗...

炉石传说的一年由三个版本构成 xff0c 一个版本约占四个月的时间那么 xff0c 一个版本要经历哪些阶段哪 xff1f 什么时候分解卡牌合成卡牌才合适哪 xff1f 今天作者就带大家一探究竟 01版本初期新版本上线第一天后就算进入了版
多元线性回归f检验和t检验_T检验与F检验，傻傻分不清楚？

1 T 检验和 F 检验的由来一般而言 xff0c 为了确定从样本 sample 统计结果推论至总体时所犯错的概率 xff0c 我们会利用统计学家所开发的一些统计方法 xff0c 进行统计检定通过把所得到的统计检定值 xff0c 与统计
电脑键盘部分按键失灵_笔记本键盘部分失灵怎么办,笔记本个别键失灵的处理方法...

据理解 xff0c 85 以上的用户都有遇上电脑键盘部分失灵的情况 xff0c 而键盘失灵 xff0c 不但会负面影响我们的工作 xff0c 而且还会负面影响我们的心情 xff0c 因此 xff0c 要认真对待 xff0c 不能马虎 xff
html实现点餐页面_前端页面之食堂点餐页面

写在前面 xff1a 我是这一项食堂点餐系统的开发者 xff0c 虽然现在准确的来说 xff0c 他还只算一个前端页面 xff0c 根本就不能算作一个项目这是我上周五晚上开始这个前端页面的规划图 xff0c 虽然最后我添加了一些东西 xf
关于#include "stdafx.h"（转）

xff08 1 xff09 Standard Application Frame Extend没有函数库 xff0c 只是定义了一些环境参数 xff0c 使得编译出来的程序能在32位的操作系统环境下运行 Windows和MFC的includ
在C++中使用openmp进行多线程编程

声明 xff1a 本文是基于Joel Yliluoma写的Guid into OpenMP Easy multithreading programming for C 43 43 而写的 xff0c 基本是按照自己的理解 xff0c 用自己
mysql去空格trim_mysql去空格函数trim

一 xff0c mysql去除左空格函数 xff1a ltrim str returns the string str with leading space characters removed 例子 xff1a 代码示例 mysql gt
计算机屏幕蓝光,电脑如何设置防蓝光？降低电脑屏幕蓝光危害的方法

如果使用电脑玩游戏或者处理文件 xff0c 长时间面对电脑屏幕会导致眼睛特别疲劳干涩 xff0c 时间久了还有可能会对眼睛造成一定的危害电脑屏幕中的蓝光会对眼睛造成伤害 xff0c 所以防电脑蓝光对于电脑日常使用非常重要大家可以参考下面
文件服务器存储,文件服务器存储

文件服务器存储内容精选换一换弹性文件服务与其他云服务的关系如图1所示 FTP SFTP连接适用于从线下文件服务器或ECS服务器上迁移文件到OBS或数据库当前仅支持Linux操作系统的FTP 服务器连接FTP或SFTP服务器时 xf
如何清服务器redis缓存信息,redis desktop manager怎么清空缓存?redis desktop manager清空Redis缓存的方法...

redis desktop manager是比较实用的一款Rdeis管理工具 xff0c 那么在redis desktop manager怎么清空缓存呢今日为你们带来的文章是关于redis desktop manager清空Redis缓存
服务器开启虚拟内存有用吗,服务器设置虚拟内存有用吗

服务器设置虚拟内存有用吗内容精选换一换开启弹性云服务器的虚拟内存后 xff0c 会导致硬盘I O性能下降 xff0c 因此 xff0c 平台提供的Windows弹性云服务器默认未配置虚拟内存如果弹性云服务器内存不足 xff0c 建议
bat管理mstsc 远程桌面连接

批量添加用户 64 echo off set 34 用户名文件 61 a txt 34 set 34 用户组名称 61 administrators 34 文件路径可以有空格 xff0c 但是不需要额外加 34 引号 for f 34 us
logback与Log4J的区别

2019独角兽企业重金招聘Python工程师标准 gt gt gt Logback和log4j是非常相似的 xff0c 如果你对log4j很熟悉 xff0c 那对logback很快就会得心应手下面列举了logback相对于log4j的一些
Spark-scala-API

1 sc version 2 集群对象 xff1a SparkContext xff1b 获得Spark集群的SparkContext对象 xff0c 是构造Spark应用的第一步 xff01 SparkContext对象代表整个 Spa

Spark-scala-API

Spark-scala-API 的相关文章

随机推荐

热门标签