python中的MapReduce函数和过程浅析

2023-05-16

map/reduce思想是Google的JeffDean在2008年在论文《MapReduce Simplified Data Processing on Large Clusters》中提出的，而python中沿用了这种思想并内置了map()和reduce()函数。

首先来讲讲python中这两个函数怎么使用：

1. map

map()方法会将一个函数映射到序列的每一个元素上，生成新序列，包含所有函数返回值。

也就是说假设一个序列[x1, x2, x3, x4, x5 ...]，序列里每一个元素都被当做x变量，放到一个函数f(x)里，其结果是f(x1)、f(x2)、f(x3)......组成的新序列[f(x1), f(x2), f(x3) ...]。下面这张图可以直观地说明map()函数的工作原理：

如何使用map函数?

map(function, list)

function：代表函数
list：代表输入序列

我们可以用python代码来实现：

>>> def f(x):
...     return x * x
...
>>> map(f, [1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

map()传入的第一个参数是f，即函数对象本身，传入的第二个参数就是list。你可能会想，不需要map()函数，写一个循环，也可以计算出结果：

L = []
for n in [1, 2, 3, 4, 5, 6, 7, 8, 9]:
    L.append(f(n))
print L

的确可以，但是，从上面的循环代码，能一眼看明白“把f(x)作用在list的每一个元素并把结果生成一个新的list”吗？显然是不可以的。所以，map()作为高阶函数，事实上它把运算规则抽象了，因此，我们不但可以计算简单的f(x)=x^2，还可以计算任意复杂的函数，比如，把这个list所有数字转为字符串，只需要一行代码。：

>>> map(str, [1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']

2.reduce

reduce相比map稍复杂点

reduce的工作过程是：在迭代序列的过程中，首先把 前两个元素（只能两个）传给函数，函数加工后，然后把 得到的结果和第三个元素 作为两个参数传给函数参数， 函数加工后得到的结果又和第四个元素 作为两个参数传给函数参数，依次类推。也就是说，reduce把一个函数作用在一个序列[x1, x2, x3, ...]上，这个函数必须接收两个参数，reduce把结果继续和序列的下一个元素做累积计算，其效果就是：

reduce(f, [x1, x2, x3]) = f(f(x1, x2), x3)

通过图像直观地理解：

reduce函数怎么用？

reduce(function, list[, initializer])

function：代表函数
list：序列
initializer：初始值（可选）

比方说对一个序列求和，就可以用reduce()实现，这里需要注意，python中使用reduce函数时，需要加上from functools import reduce这一句：

>>> from functools import reduce
>>> def add(x, y):
...     return x + y
...
>>> reduce(add, [1, 2, 3, 4, 5])
15

最后让我们看看原文中的map/reduce工作原理：

在原文中是这样描述的：

上图1展示了在我们的实现中MapReduce全部的流程。当用户程序调用MapReduce函数时，接下来的动作将按序发生（图1中标记的数字与下面的数字是一一对应的）：

（1）用户程序中的MapReduce库首先将输入文件划分为M片，每片大小一般在16M到64M之间（由用户通过一个可选的参数指定）。之后，它在集群的很多台机器上都启动了相同的程序拷贝。

（2）其中有一个拷贝程序是特别的----master(主模块)。剩下的都是worker(分模块)，它们接收master分配的任务。其中有M个Map任务和R个Reduce任务要分配。master挑选一个空闲的worker并且给它分配一个map任务或者reduce任务。

（3）被分配到Map任务的worker会去读取相应的输入块的内容。它从输入文件中解析出键值对并且将每个键值对传送给用户定义的Map函数。而由Map函数产生的中间键值对缓存在内存中。

（4）被缓存的键值对会阶段性地写回本地磁盘，并且被划分函数分割成R份。这些缓存对在磁盘上的位置会被回传给master(主模块)，master再负责将这些位置转发给Reduce worker。

（5）当Reduce worker(Reduce分模块)从master(主模块)那里接收到这些位置信息时，它会使用远程过程调用从Map worker的本地磁盘中获取缓存的数据。当Reduce worker读入全部的中间数据之后，它会根据中间键对它们进行排序，这样所有具有相同键的键值对就都聚集在一起了。排序是必须的，因为会有许多不同的键被映射到同一个reduce task中。如果中间数据的数量太大，以至于不能够装入内存的话，还需要另外的排序。

（6）Reduce worker遍历已经排完序的中间数据。每当遇到一个新的中间键，它会将key和相应的中间值传递给用户定义的Reduce函数。Reduce函数的输出会被添加到这个Reduce部分的输出文件中。

（7）当所有的Map tasks和Reduce tasks都已经完成的时候，master(主模块)将唤醒用户程序。到此为止，用户代码中的MapReduce调用返回。

当成功执行完之后，MapReduce的执行结果被存放在R个输出文件中（每个Reduce task对应一个，文件名由用户指定）。通常用户并不需要将R个输出文件归并成一个。因为它们通常将这些文件作为另一个MapReduce调用的输入，或者将它们用于另外一个能够以多个文件作为输入的分布式应用。

原文中也举了这样一个例子：统计大量文档中每一个单词出现的次数。

对此，用户需要编写类似于如下的伪代码：

　　map(String key, String value):

　　　　// key: document name

　　　　// value: document contents

　　　　for each word w in value:

　　　　　　EmitIntermediate(w, "1");

　　reduce(String key, Iterator values):

　　　　// key: a word

　　　　// values: a list of counts

　　　　int result = 0;

　　　　for each v in values:

　　　　　　result += ParseInt(v);

　　　　Emit(AsString(result));

虽然在上述的伪代码中输入输出都是字符串类型的，但事实上，用户提供的Map和Reduce函数都是有相应类型的：

　　map　　　　(k1, v1)　　　　-> list(k2, v2)

　　reduce　　　(k2, list(v2))　　-> list(v2)

需要注意的是，输入的key和value与输出的key和value是不同的类型，而中间的key和value与输出的key和value是相同的类型。

Map函数为在每一个单词出现的时候，为它加上一个计数（在这个简单的例子中就是加1）。Reduce函数对每个单词的所有计数进行叠加。最后得到文档中出现的每个单词的次数，这样就完成了一次简单的Map/Reduce过程。

以上就是关于Map和Reduce的原理和应用的浅析，希望能对大家的理解有所帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python中的MapReduce函数和过程浅析的相关文章

强化学习专题笔记(一) 强化学习基础

一长期回报对于问题的简化 xff0c 采用理想的MDP xff0c 简化问题到具有马尔科夫性 xff0c 对于马尔科夫决策过程而言 xff0c 在理想状态下 xff0c 每一个行动都要为最终的目标最大化长期回报而努力 max t
[马士兵] 一. 初识JAVA 10.notepad++的安装_配置系统环境变量path

1 安装记事本 xff1a notepad 2 安装 xff1a 一直下一步 3 打开记事本进行设置 xff1a 设置首选项 xff1a 设置语言格式设置 xff1a 4 打开notepad 43 43 xff08 1 xff09 方式
MPC控制笔记(一)

转自我的博客笔记参考1 xff1a Understanding Model Predictive Control Youtube 带自动生成字幕笔记参考2 xff1a Understanding Model Predictive Co
【简单数学概念】为什么傅里叶变换能把时域变为频域？

一定义频率 xff1a 在1秒时间内 xff0c 完成相同变化的次数周期 xff1a 完成1次变化所消耗的时间两者的关系为 xff1a 频率 61 1 周期时域 xff1a 描述数学函数或物理信号对时间的关系 xff08 横轴是时
一文彻底搞懂嵌入式中UART、RS232、RS485、CAN协议

一文彻底搞懂嵌入式中UART RS232 RS485 CAN协议之前分享过一些使用UART RS232 RS485 CAN协议进行传感器数据读取伺服电机控制的文章 xff0c 但这些协议之间到底有什么不同 xff0c 工作原理又到底是什
ROS回调函数传参

一回调函数仅含单个参数 C 43 43 代码 void chatterCallback const std msgs String ConstPtr amp msg ROS INFO 34 I heard s 34 msg gt data
eclipse更改tomcat部署路径

eclipse中默认的项目部署路径是在项目的路径 xff0c 不像myeclipse那样部署后项目在Tomcat的安装路径webapps下这样虽然可以运行 xff0c 但是不方便开发和调试 xff0c 本文将介绍如何改变eclipse中T
OpenStack Neutron 对接OVN 使用 networking-ovn

OVN是OVS的控制平面 xff0c 它给 OVS 增加了对虚拟网络的原生支持 xff0c 大大提高了 OVS 在实际应用环境中的性能和规模使用neutron 配置mechanism drivers 为OVN时 xff0c 会有以下优点
Openstack Neutron 集成 SDN控制器

Neutron 集成SDN控制器一 xff0e Neutron的组成元素 Neutron server 可以理解为一个专门用来接收Neutron REST API 调用的服务器 xff0c 然后负责将不同的REST API分发到不同的ne
OpenStack云平台网络模式（flat\flatdhcp\vlan）及其工作机制

网络 xff0c 是OpenStack的部署中最容易出问题的 xff0c 也是其结构中难以理清的部分经常收到关于 OneStack部署网络方面问题和OpenStack网络结构问题的邮件下面根据自己的理解 xff0c 谈一谈OpenSta
Openstack卷迁移状态图
OpenStack 存储热迁移

随着存储技术的不断发展 xff0c 云计算中的存储后端种类越来越多而在不同存储后端之间进行存储热迁移则是和普遍的需求在 OpenStack 中 xff0c 云硬盘 xff08 volume xff09 支持在不同后端之间进行数据移具体
Maven的overlay插件的用法

Maven的overlay插件的用法结合cas4 0 3 本文链接 xff1a https blog csdn net qq 24874939 article details 84534854 版权 overlay插件是用户多个web项目
openstack all-in-one 环境 server resize -- No valid host found for resize

问题 xff1a 通过 openstack server resize 修改虚拟机配置 xff08 cpu xff0c 内存 xff0c 系统盘大小 xff09 本质是修改flavor openstack server resize fla
iOS开发之直播App流程介绍，直播资料收集汇总，视频推流，视频拉流，SMTP、RTMP、HLS、 PLPlayerKit

xff08 一 xff09 iOS 直播类APP开发流程分解 xff1a 1 音视频处理的一般流程 xff1a 数据采集数据编码数据传输流媒体服务器解码数据播放显示 1 数据采集 xff1a 摄像机及拾音器收集视频及音频数据 xf
【5G核心网】控制面与用户面协议栈

本章节指定 5GS 实体之间的整体网络协议栈 xff0c 比如在 UE 和 5GC 网络功能 xff0c 在 5G AN 和 5GC 网络功能 xff0c 或者在 5GC 网络功能之间 1 控制平面 5GAN和5G核心网 xff1a N2
【5G核心网】free5GC AMF源码分析

free5gc AMF 源码分析结构体 Sbi type Sbi struct Scheme string 96 yaml 34 scheme 34 96 RegisterIPv4 string 96 yaml 34 registerIP
【5G核心网】5GC核心网之网元UDM

UDM xff0c Unified Data Management xff0c 统一数据管理功能 xff0c 支持一下功能 xff1a 3GPP AKA身份验证凭证的生成用户标识处理 xff08 例如5G系统中每个用户的SUPI的存储和管
【5G核心网】 5G安全之AKA验证流程

在 5G 网络的安全类型 xff1a UE 访问网络服务所需的网络访问安全性此安全性主要涵盖信令和数据的身份验证 xff0c 完整性和加密域安全性主要涵盖不同网络节点之间的安全通信应用程序域安全性涵盖对等应用程序之间的安全性机制有
【5G核心网】free5GC Path Switch Request源码分析

Path Switch Request 过程的目的是请求将 NG U 传输承载的下行链路终结点切换到新的终结点 Figure 8 4 4 2 1 Path switch request successful operation NG RAN

随机推荐

【kubernetes/k8s概念】kube-ovn架构和部署安装

Kube OVN是一款由灵雀云自主研发的开源企业级云原生Kubernetes容器网络编排系统 xff0c 它通过将OpenStack领域成熟的网络功能平移到Kubernetes xff0c 极大增强了Kubernetes容器网络的安全性可
【kubernetes/k8s概念】OVN NorthBound DB 及 ovn-nbctl 命令

OVN 北向数据库 xff08 OVN Northbound DB xff09 是 OVN 和 CMS 之间的接口 xff0c Northbound DB 的数据几乎都是由 CMS 产生的 xff0c ovn northd 监听这个数据库的
【kubernetes/k8s概念】OVN SouthBound DB 及 ovn-sbctl 命令

OVN 南向数据库 xff08 OVN Southbound DB xff09 xff0c 南向数据库是系统的中心 xff0c 客户端是上层的 ovn northd 和下层运行在每一个传输节点的 ovn controller 南向数据库包括
strok函数用法

char strtok char strToken const char strDelimit 用来将字符串分割成一个个片段参数str指向欲分割的字符串 xff0c 参数delimiters则为分割字符串 xff0c 当strtok 在参
【kubernetes/k8s概念】thanos原理架构

概述 Thanos 是一组组件 xff0c 可以组合成具有无限存储容量的高可用度量系统 xff0c 可以无缝添加到现有 Prometheus 部署之上 Thanos 利用 Prometheus 2 0 存储格式高效地将历史指标数据存储在任何
【containerd 源码分析】containerd image list 源码分析

本文分析 containerd 列出所有镜像的分析过程 xff0c 包括 ctr image 命令行以及 containerd daemon 执行过程 xff0c 也包含镜像 metadata xff0c content 等内容 1 执行
【containerd 源码分析】containerd image pull 源码分析

本文分析 containerd pull 镜像的分析过程 xff0c 包括 ctr image 命令行以及 containerd daemon 执行过程 xff0c 也包含镜像 metadata xff0c content 等内容 1 执
【golang 配置】gogoprotobuf搭建

在go中使用 Google protobuf xff0c 有两个可选用的包goprotobuf xff08 go官方出品 xff09 和gogoprotobuf gogoprotobuf是完全兼容google protobuf xff0c
【docker 17 源码分析】docker pull image 源码分析

一 Image主要命令 docker images xff08 所有 xff09 docker images java xff08 所有java xff09 docker images java 8 xff08 固定tag的jave xff
【kubernetes/k8s概念】CNI详解

1 为什么CNI CNI是Container Network Interface的是一个标准的 xff0c 通用的接口现在容器平台 xff1a docker xff0c kubernetes xff0c mesos xff0c 容器网络解
【kubernetes/k8s概念】CNI plugin bridge源码分析

什么是bridge bridge是一个虚拟网络设备 xff0c 可以配置IP MAC地址等 xff1b 其次 xff0c bridge是一个虚拟交换机 xff0c 和物理交换机有类似的功能普通的网络设备只有两端 xff0c 从一端进来的数
【kubernetes/k8s概念】istio 原理与架构

看着有点蒙 xff0c 摘录一下 xff0c 待有时间分析源码 WHY Istio 当应用被拆分为多个微服务后 xff0c 进程内的方法调用变成了进程间的远程调用引入了对大量服务的连接管理和监控的复杂性随着微服务出现 xff0c 微服
【docker基础知识】docker坑问题汇总

1 Got starting container process caused 34 process linux go 301 running exec setns process for init caused 34 exit statu
【kubernetes/k8s概念】k8s 坑问题汇总

1 Pod始终处于Pending状态如果Pod保持在Pending的状态 xff0c 意味着无法被正常的调度到节点上由于某种系统资源无法满足Pod运行的需求系统没有足够的资源 xff1a 已经用尽了集群中所有的CPU或内存资源需要清
【华为机试036】素数伴侣

题目描述 xff1a 若两个正整数的和为素数 xff0c 则这两个正整数称之为素数伴侣 xff0c 如2和5 6和13 xff0c 它们能应用于通信加密现在密码学会请你设计一个程序 xff0c 从已有的N xff08 N为偶数 xff0
ERROR: Cannot uninstall ‘PyYAML‘. It is a distutils installed project and thus we cannot...

具体错误 xff1a ERROR Cannot uninstall 39 PyYAML 39 It is a distutils installed project and thus we cannot accurately determi
局域网vnc远程控制软件，盘点三款特别好用的局域网vnc远程控制软件

局域网vnc远程控制软件是什么软件 xff0c 其实看名字是看的出来的 xff0c 这是一款远程控制软件 xff0c 远程控制软件一般的要求都是方便快捷下面小编给大家介绍三款特别好用的局域网vnc远程控制软件第一款 xff1a IIS7
vnc访问被拒绝怎么办，vnc访问被拒绝怎么办，为什么会被拒绝？

vnc远程控制连接被拒绝的原因 xff0c 服务器作为网站建设的常用设备 xff0c 在服务器运行过程中起到举足轻重的作用用户在选择服务器是常用的方式有服务器租用虚拟主机租用以及服务器托管 xff0c 通过进行文件以及数据的下载上传等
vnc使用图文教程，vnc使用图文教程（含图片教程）

vnc使用图文教程不知道大家找到过没有 xff0c 毕竟在网上这种教程是很少的 xff0c 因为使用的人都是一些经常使用的 xff0c 但是对于小编这种基础能力差的 xff0c 还是需要vnc使用图文教程的 xff0c 所以小编也是努力了很
python中的MapReduce函数和过程浅析

map reduce思想是Google的JeffDean在2008年在论文 MapReduce Simplified Data Processing on Large Clusters 中提出的 xff0c 而python中沿用了这种思想并

python中的MapReduce函数和过程浅析

python中的MapReduce函数和过程浅析 的相关文章

随机推荐

热门标签

python中的MapReduce函数和过程浅析的相关文章