5.7 Spark简单算子案例（Python版）

2023-05-16

第一关 WordCount - 词频统计

编程要求

对文本文件内的每个单词都统计出其出现的次数。
按照每个单词出现次数的数量，降序排序。

文本文件内容如下（单词与单词之间以空格进行分割）：

hello java

hello python java

hello python python

hello flink

scala scala scala scala scala

预期输出： (scala,5) (hello,4) (python,3) (java,2) (flink,1)

代码实现

# -*- coding: UTF-8 -*-
from pyspark import SparkContext

if __name__ == "__main__":

    """
        需求：对本地文件系统URI为：/root/wordcount.txt 的内容进行词频统计
    """
    # ********** Begin **********#

    sc = SparkContext("local","pySpark")
    rdd = sc.textFile("/root/wordcount.txt")
    values = rdd.flatMap(lambda x:str(x).split(" ")).map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y).sortBy(lambda x:tuple(x)[1],False)
    print(values.collect())

    # ********** End **********#

第二关 Friend Recommendation - 好友推荐

编程要求

统计间接好友并输出结果。

预期结果：[(world_tom,2),(tom_mr,1),(mr_hadoop,1),(cat_mr,1),(world_cat,1),(cat_hadoop,2),(hive_tom,3),(world_mr,2)]

代码实现

# -*- coding: UTF-8 -*-
from pyspark import SparkContext

def word_couple(word1, word2):
    if hash(word1) > hash(word2):
        return word1 + '_' + word2
    return word2 + '_' + word1

def relations(items):
    result = []
    for i in range(1, len(items)):
        result.append((word_couple(items[0], items[i]), 0))
        for j in range(i+1, len(items)):
            result.append((word_couple(items[i], items[j]), 1))
    return result

def fun2(x):
    values = tuple(x[1])
    return ((x[0], 0) if min(values)==0 else (x[0], sum(values)))

if __name__ == "__main__":
    """
        需求：对本地文件系统URI为：/root/friend.txt 的数据统计间接好友的数量
    """
    # ********** Begin **********#
    sc = SparkContext("local", "friend recommendation")
    src = sc.textFile("/root/friend.txt").map(lambda x:x.strip().encode('utf-8').split(" "))
    rdd = src.flatMap(relations).reduceByKey(lambda x,y:0 if x==0 or y==0 else x+y).filter(lambda x:x[1]>0)
    print(rdd.collect())

    # ********** End **********#

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

5.7 Spark简单算子案例（Python版）的相关文章

STM32CubeMX+keil5+esp8266(基于hal库的stm32+esp8266连接)

MX的烧录口和时钟设置 xff1a 配置时钟 xff1a 串口1配置 xff08 用来输出提示信息 xff09 串口2配置波特率115200 xff0c 使能全局中断 xff08 用来做esp8266的串口通信 xff09 命好名生成代码并
Vue.js基础---简单的模板页面

Vue js基础简单的模板页面 1 模板页面包含了哪些东西 xff1f gt html 43 js 2 js以什么形式语法存在 xff1f 插值双大括号表达式 xff0c 插入一个动态的值在标签内文本内容上 xff0c 动态显示数据
STM32单片机，STLINK的SW仿真时“no target connected”问题及处理

1 问题介绍在KEIL5软件中使用STLINK仿真器仿真时使用SW仿真时 xff0c 遇到了no target connected的问题二解决方案通过询问买家 xff0c 自己反复调试后 xff0c 终于解决了这一问题 xff0c
Docker comsul（注册中心）

文章目录 Docker consul xff08 注册中心 xff09 什么是consul xff1f consul干什么的 xff1f 一 consul的使用场景二 consul集群三 consul部署1 建立consul服务2 设置代理
python 输入 input() 与输出 print()

目录 1 输入字符串 2 输入数字 3 输入列表理解 eval 函数的使用 4 输出 print python 使用 input 获取用户的输入 xff0c 该操作属于无脑式输入 xff0c 不管在键盘上敲入什么内容都会当作字符串类型返回
Linux 禁用/启用网络唤醒功能

使用ifconfig查看网卡设备 xff0c 这里以eth0为例 1 输入 ethtool eth0 2 在结果内查看是否有如下内容 Supports Wake on pumbgWake on g 若Wake on的值为d xff0c 表示
xrandr详细介绍

简介 xrandr是一款官方的扩展配置工具它可以设置屏幕显示的大小方向镜像等 xff0c 包括对多屏的设置详细的使用方法可以通过man xrandr查看单屏设置查询使用xrandr q或者xrandr命令可以查询当前的显示状态
VS Code中使用git（创建本地仓库及远程仓库、将本地仓库推送至远程仓库、克隆远程仓库、拉取远程仓库、解决冲突）

创建本地仓库及远程仓库将本地仓库推送至远程仓库克隆远程仓库拉取远程仓库解决冲突文章目录一创建远程仓库使用Gitee或者GitHub 二 git推送本地代码至远程仓库三 git克隆远程仓库代码到本地四 VS Code推送代码至
Java中的equals和==

一 equals和 61 61 的区别 1 根本的区别在于 equals Object obj 是一个方法 xff0c 而 61 61 是一个运算符 2 一般来说 xff0c 61 61 运比较的是在内存中的物理地址 xff0c equal
[欠驱动机器人]1.概念

目录定义反馈控制输入或状态限制不完整约束欠驱动机器人举例参考文献定义形象来看 xff0c 就是机器人驱动数量小于关节数量从数学来看 xff0c 根据牛顿定律 xff0c 机械系统的动力学方程为二阶导数形式 F 61 ma xff0c
Prometheus自主无人机入门笔记

本部分介绍自主无人机组成框架自主无人机关键技术 1 1 自主无人机的组成框架 1 1 1 硬件框架自主无人机硬件组成有机架动力系统 xff08 包括电机电调和浆 xff09 指挥系统 xff08 机载电脑飞控板 xff09 通
自主导航与路径规划无人机研究现状

目录 1 SLAM算法的研究现状 2 无人机定位研究现状 3 路径规划的研究现状参考文献 1 SLAM算法的研究现状移动机器人根据传感器获取的自身状态信息和环境信息构建环境地图的过程被称之为SLAM问题 xff0c SLAM问题能否解决
FreeRTOS学习笔记【一】——初识FreeRTOS

1 1 初识 FreeRTOS 1 1 1 什么是 FreeRTOS 我们看一下 FreeRTOS 的名字 xff0c 可以分为两部分 Free 和 RTOS xff0c Free 就是免费的自由的不受约束的意思 xff0c RTOS
FreeRTOS学习笔记【四】——FreeRTOS 中断配置和临界段

目录 4 1 Cortex M 中断 4 1 1 中断简介 4 1 2 中断管理简介 4 1 3 优先级分组定义 4 1 4 优先级设置 4 1 5 用于中断屏蔽的特殊寄存器 4 2 FreeRTOS 中断配置宏 4 2 1 configP
计算机网络——网络层课后习题答案

一 xff08 1 xff09 假设一个主机 IP 地址为 192 55 12 120 xff0c 子网掩码为 255 255 255 240 xff0c 试求其子网号主机号以及广播地址 xff08 2 xff09 如果子网掩码改为 25
python 列表list用法总结

目录 1 创建空列表 2 索引切片 3 加入元素 4 删除清空操作 5 列表长度及最值 6 运算符和表达式 7 值的索引 8 反转及排序 9 统计指定元素出现的次数 10 交换 11 列表相互赋值 python 中的列表 xff08 l
docker学习笔记

docker学习笔记 1 什么是docker 2 docker能干什么 3 docker基本使用方式3 1配置国内镜像 xff1a 3 2docker的执行原理3 3docker镜像的基本命令3 4容器的基本命令3 5其他常用的基本命令参
【Elastic (ELK) Stack 实战教程】07、Logstash 快速入门及 Input、Filter 插件讲解

目录一 Logstash 架构介绍 1 1 为什么需要 Logstash 1 2 什么是 Logstash 1 3 Logstash 架构介绍 1 4 安装 Logstash 二 Logstash Input 插件 2 1 stdin 插
【Elastic (ELK) Stack 实战教程】09、Kibana 分析站点业务日志

目录一 kibana 数据展示概述 1 1 Kibana 基本介绍 1 2 Kibana 部署架构二 Kibana 展示业务日志 2 1 日志分析介绍 2 2 两个维度分析日志 2 2 1 Nginx 访问分析 2 2 2 网站业务数据
【Elastic (ELK) Stack 实战教程】10、ELK 架构升级-引入消息队列 Redis、Kafka

目录一 ELK 架构面临的问题 1 1 耦合度过高 1 2 性能瓶颈二 ELK 对接 Redis 实践 2 1 配置 Redis 2 1 1 安装 Redis 2 1 2 配置 Redis 2 1 3 启动 Redis 2 2 配置 F

随机推荐

【Elastic (ELK) Stack 实战教程】11、使用 ElastAlert 实现 ES 钉钉群日志告警

目录一 ElastAlert 概述二安装 ElastAlert 2 1 安装依赖 2 2 安装 Python 环境 2 3 安装 ElastAlert 2 4 ElastAlert 配置文件 2 5 创建 ElastAlert 索引
【MySQL | 基础篇】02、MySQL 函数详解

目录一字符串函数 1 1 concat 字符串拼接 1 2 lower 全部转小写 1 3 upper 全部转大写 1 4 lpad 左填充 1 5 rpad 右填充 1 6 trim 去除空格 1 7 substring 截取子字符串
【MySQL | 基础篇】03、MySQL 约束

目录一概述二约束演示三外键约束 3 1 介绍 3 2 语法 3 3 删除更新行为一概述概念约束是作用于表中字段上的规则 xff0c 用于限制存储在表中的数据目的 xff1a 保证数据库中数据的正确有效性和完整性分
【MySQL | 基础篇】04、MySQL 多表查询

目录一多表关系 1 1 一对多 1 2 多对多 1 3 一对一二多表查询概述 2 1 数据准备 2 2 概述 2 3 分类三内连接 3 1 案例四外连接 4 1 案例五自连接 5 1 自连接查询 5 2 联合查询六子
【MySQL | 基础篇】05、MySQL 事务详解

目录一事务简介二事务操作 2 1 未控制事务 2 2 控制事务一 2 3 控制事务二三事务四大特性四并发事务问题五事务隔离级别六并发事务演示 6 1 脏读演示 6 2 不可重复读演示 6 3 幻读演示一事务简介
【MySQL | 进阶篇】05、MySQL 视图、触发器讲解

目录一视图 1 1 介绍 1 2 语法 1 2 1 演示示例 1 3 检查选项 1 3 1 CASCADED 级联 1 3 2 LOCAL 本地 1 3 3 示例演示 1 4 视图的更新 1 4 1 示例演示 1 5 视图作用 1 6
python 字典dict常用操作总结

目录 1 创建字典 2 添加修改删除字典元素 3 访问元素 4 计算键的个数 5 其他常用操作字典是一个包含了键值对数据的集合 1 创建字典可以直接使用一对花括号或者 dict 创建一个字典类型的数据 a 61 a 61 dict
【MySQL | 进阶篇】08、InnoDB 引擎架构、事务原理及 MVCC 讲解

目录一逻辑存储结构二架构 2 1 概述 2 2 内存结构 2 2 1 Buffer Pool 2 2 2 Change Buffer 2 2 3 Adaptive Hash Index 2 2 4 Log Buffer 2 3 磁盘
K8s 生产环境问题汇总及解决方案（持续更新 ing）

目录一前端页面显示 503 Service Temporarily Unavailable 问题背景解决方案原理二 Dockfile 构建镜像失败 xff1a When using COPY with more than one
【MySQL | 进阶篇】09、MySQL 管理及常用工具（mysqladmin、mysqlbinlog、mysqldump 等）的使用

目录一系统数据库二常用工具 2 1 mysql 示例 2 2 mysqladmin 示例 2 3 mysqlbinlog 示例 2 4 mysqlshow 示例 2 5 mysqldump xff08 数据备份 xff09 示例 2
【Python | 基础语法篇】01、字面量、注释、变量、数据类型及转换

目录一字面量 1 1 什么是字面量 1 2 常用的值类型 1 3 字符串 1 4 如何在代码中写它们 1 5 总结二注释 2 1 注释的作用 2 2 注释的分类 2 3 注释实战 2 4 总结 2 5 思考三变量 3 1 什么是
【Python | 基础语法篇】02、标识符、运算符、字符串扩展及数据输入

目录一标识符 1 1 什么是标识符 1 2 标识符命名规则 1 2 1 标识符命名规则内容限定 1 2 2 标识符命名规则大小写敏感 1 2 3 标识符命名规则不可使用关键字 1 3 案例演示 1 4 变量命名规范 1 4 1 变
【2023 阿里云云计算工程师 ACP 认证练习题库】01、VPC 专有网络题库

目录一多选题 1 1 答案与解析 2 2 答案与解析 3 3 答案与解析辑 4 4 答案与解析 5 5 答案与解析 6 6 答案与解析 7 7 答案与解析 8 8 答案与解析 9 9 答案与解析 10 10 答案与解析 11 11 答
1.9模块

第一关模块的定义任务描述在Python程序的开发过程中 xff0c 为了代码维护的方便 xff0c 我们可以把函数进行分组 xff0c 分别放到不同的 py文件里 xff0c 这样 xff0c 每个文件包含的代码就相对较少 xff0c
2.2 分布式文件系统HDFS

编程要求 1 在HDFS中创建 usr output 文件夹 xff1b 2 在本地创建hello txt文件并添加内容 xff1a HDFS的块比磁盘的块大 xff0c 其目的是为了最小化寻址开销 xff1b 3 将hello txt上传
3.2 电信数据清洗

任务描述对数据按照一定规则进行清洗清洗规则 xff1a 处理数据中的时间戳 xff08 秒级 xff09 将其转化为 34 年月日时分秒 34 这种格式 xff1b 处理数据中的省份编码 xff0c 结合mysql的表数据对应
4.1 Hbase的安装与简单操作

第一关 Hbase数据库的安装 1 首先要在官网下载好Hbase的安装包 xff08 educoder已装到 opt目录下 xff09 2 将安装包解压到 app目录下 mkdir app cd opt ulimit f 1000000 t
numpy 多级排序：lexsort 函数详解

目录 1 lexsort 排的是个啥 2 举个例子 1 lexsort 排的是个啥 lexsort 函数的定义如下 xff1a def lexsort keys axis 61 None lexsort是一种多级排序方法作用为对给定的 k
5.1 Spark的安装与使用

第一关 Scala语言开发环境的部署 1 下载解压在Scala官网根据平台选择下载Scala的安装包scala 2 17 7 tgz 解压到 app目录下 xff1a mkdir app 创建 app 目录 cd opt tar zxvf
5.7 Spark简单算子案例（Python版）

第一关 WordCount 词频统计编程要求对文本文件内的每个单词都统计出其出现的次数按照每个单词出现次数的数量 xff0c 降序排序文本文件内容如下 xff08 单词与单词之间以空格进行分割 xff09 xff1a hello j

5.7 Spark简单算子案例（Python版）

5.7 Spark简单算子案例（Python版） 的相关文章

随机推荐

热门标签

5.7 Spark简单算子案例（Python版）的相关文章