python语法-pyspark实战(数据输出)

2023-11-16

将RDD对象转化为python对象
(1)collect算子

"""
collect算子
功能:将RDD各个分区内的数据,统一收集到Driver中,形成一个list对象
    用法:rdd.collect() 返回值是一个list
"""

(2)reduce算子

"""
collect算子
功能:将RDD各个分区内的数据,统一收集到Driver中,形成一个list对象
    用法:rdd.collect() 返回值是一个list
"""

"""
reduce算子
语法:rdd.reduce(func)
    func:(T,T) -> T
    2参数传入1个返回值,返回值和参数要求类型一致
"""
from pyspark import SparkConf, SparkContext
import os

os.environ['PYSPARK_PYTHON'] = 'D:\Python3.9\python.exe'  # 通过os设置环境变量

if __name__ == '__main__':
    # 构建Spark执行环境
    conf = SparkConf().setMaster("local[*]").setAppName("create_rdd")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize(range(1, 10))

    print(rdd.reduce(lambda a, b: a + b))

(3)take算子

"""
take算子
功能:取RDD得前N个元素,组合成list返回给你
用法:sc.parallelize([3,2,1,4,5,6]).take(5)
    取出前五个元素组合成list返回给你
"""

from pyspark import SparkContext,SparkConf
import os

os.environ['PYSPARK_PYTHON'] = 'D:\Python3.9\python.exe'  # 通过os设置环境变量

if __name__ == '__main__':
    # 构建Spark执行环境
    conf = SparkConf().setMaster("local[*]").setAppName("create_rdd")
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize(range(1, 10))

    print(rdd.take(5))

(4)count算子

"""
count算子
功能:计算RDD有多少条数据,返回值是一个数字
用法:sc.parallelize([3,2,1,4,5,6]).count
    输出:6
"""

将RDD对象转化为文件

"""
saveAsTextFile算子
功能:将RDD的数据写入文本文件中
    支持本地写出,hdfs等文件系统
代码:rdd = sc.parallelize([1,2,3,4,5,6])
    rdd.saveAsTextFile("../test.txt")
"""

在这里插入图片描述

参考内容:黑马程序员

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python语法-pyspark实战(数据输出) 的相关文章

随机推荐

  • 如何模拟微信小程序请求code

    官方文档有写到获取小程序Code 调用接口获取登录凭证 code 通过凭证进而换取用户登录态信息 包括用户在当前小程序的唯一标识 openid 微信开放平台帐号下的唯一标识 unionid 若当前小程序已绑定到微信开放平台帐号 及本次登录的
  • 在使用uni-app开发小程序时@tap和click的区别

    在HbuilderX中 两者都是点击时触发事件 不同的是 click是组件被点击时触发 会有约300ms的延迟 内置处理优化了 tap是手指触摸离开时触发 没有300ms的延迟 但是会有事件穿透 编译到小程序端 click会被转换成 tap
  • 如何解决使用 django-ftpserver 上传中文文件名乱码的问题

    Django ftpserver 是一个基于 django 的 FTP 服务器应用 它可以让我们轻松地在 django 项目中集成 FTP 服务 它使用 pyftpdlib 库来实现 FTP 协议的功能 最近 我在使用 django ftp
  • Python实现简单时钟(七段管数码结构)

    首先 全部代码如下 import turtle datetime time def drawgap turtle penup turtle fd 5 def drawline draw drawgap turtle pendown if d
  • 利用 uDig 生成 GeoServer 可用的 SLD 渲染文件

    利用 uDig 生成 GeoServer 可用的 SLD 渲染文件 导读 GeoServer 不像 ArcGIS 那样有完整的体系可以完成地图的数据整理 配图 发布整个过程 虽然它也提供了网页版的代码界面去设计通用的 SLD 格式对 WMS
  • 网络编程——epoll

    参考 TCP IP网络编程 尹圣雨 epoll epoll也是Linux下实现I O复用的一种方法 其性能优于select 基于select的I O复用服务器的设计缺陷 调用select函数后 针对所有文件描述符的循环语句 调用select
  • 前端开发中常用的校验处理

    前端开发中常用的校验处理 1 手机号码校验 2 身份证正则校验 3 必须输入中文 必须输入英文 4 其它正则校验 1 手机号码校验 function checkPhone var phone document getElementById
  • C++类和对象(一):封装

    文章目录 0 类和对象 1 封装的意义 2 结构体struct和类class区别 3 成员属性设置为私有 4 封装特性的练习案例 点和圆的位置关系 0 类和对象 C 面向对象的三大特性 封装 继承 多态 C 中万物皆对象 对象包含属性 成员
  • 基于TensorFlow 实战案例:气温预测(附 Python 完整代码和数据集)

    文章目录 1 数据获取 2 数据可视化 3 特征处理 4 构建网络模型 1 网络搭建 2 优化器和损失函数 3 网络训练 4 网络模型结构 5 预测结果 5 结果展示 完整代码及数据 各位同学好 今天和大家分享一下TensorFlow2 0
  • Vue路由跳转时报错TypeError: Cannot read properties of undefined (reading ‘$createElement‘)

    错误的原因 单词写错 将component写成components
  • css 实现虚线效果的3种方式详解

    一 效果 首先可以看一下下图显示的实现效果 用三种方式实现了虚线效果 点击查看demo代码 二 实现 1 border 属性 查看 mdn 的 border 我们知道 border 可以用于设置一个或多个以下属性的值 border widt
  • 【Web server failed to start. Port 8080 was already in use】解决方案

    问题描述 你是否遇到过这个问题呢 无论是初学者 还是中高级开发者 你都会遇到这个问题 我们就来总结一下 Web server failed to start Port 8080 was already in use Description
  • 刷脸支付俨然形成风口抓住风口才能起飞

    刷脸支付项项目的热度越来越高 更多的支付巨头参与到其中来 最近各大银行联合发布了刷脸支付刷脸付 把刷脸支付的热度推到一个新的高度 刷脸支付这么火热 各大支付巨头纷纷投入巨额资金抢占市场 随着我国支付行业的发展 刷脸支付已然成为下一代支付方式
  • 恶劣天气 3D 目标检测数据集收集

    Summary of the Adverse Weather 3D Object Detection Dataset DENSE数据集 CADC数据集 Ithaca365数据集 DENSE数据集 论文地址 https arxiv org p
  • 设备树(dtb数据)匹配struct machine_desc结构体

    1 函数调用关系 start kernel setup arch setup machine fdt 解析dtb数据 得到匹配的struct machine desc结构体 这是用来描述板级配置的 early init dt verify
  • Socket连接和Http连接

    Socket连接与HTTP连接 我们在传输数据时 可以只使用 传输层 TCP IP协议 但是那样的话 如果没有应用层 便无法识别数据内容 如果想要使传输的数据有意义 则必须使用到应用层协议 应用层协议有很多 比如HTTP FTP TELNE
  • 分数的拆分原理和方法_四年级数学计算方法和技巧汇总,附口算练习,赶紧给孩子看!...

    简便运算的方法 1 提取公因式 这个方法实际上是运用了乘法分配律 将相同因数提取出来 考试中往往剩下的项相加减 会出现一个整数 注意相同因数的提取 例如 0 92 1 41 0 92 8 59 0 92 1 41 8 59 2 借来借去法
  • java框架之ssh框架之认识

    SSH框架 1 SSH框架是什么 SSH框架是struts spring hibernate的一个集成框架 分为四层 表示层 业务逻辑层 数据持久层和域模块层 其中使用Struts作为系统的整体基础架构 负责MVC的分离 在Struts框架
  • 【实例分割】5、Look Closer to Segment Better

    文章目录 一 背景 二 动机 三 方法 3 1 Boundary Patch Extraction 3 2 Boundary Patch Refinement 3 3 Learning and Inference 四 实验 Paper ht
  • python语法-pyspark实战(数据输出)

    将RDD对象转化为python对象 1 collect算子 collect算子 功能 将RDD各个分区内的数据 统一收集到Driver中 形成一个list对象 用法 rdd collect 返回值是一个list 2 reduce算子 col