使用python实现Hadoop中MapReduce

2023-05-16

Hadoop包含HDFS(分布式文件系统)、YARN（资源管理器）、MapReduce（编程模型）。
一、MapReduce的编程原理
MapReduce 是一种编程模式，用于大规模的数据集的分布式运算。通俗的将就是会将任务分给不同的机器做完，然后在收集汇总。
map阶段（分解）：单独计算任务，每个机器尽量计算自己hdfs内部的保存信息（即复杂问题分解成多个简单任务，并数据分块存储）
reduce阶段（合并）：多个任务并行，将map的输出结果作为输入合并求解。
使用python写MapReduce是利用HadoopStreaming的API，通过STDIN(标准输入)、STDOUT(标准输出)在Map函数和Reduce函数之间传递数据。
二、程序
(1)map阶段

import sys
def map():
    #标准输入读取的数据每一行是字符串格式，可以使用split进行分割
    for line in sys.stdin:
        words = line.split(" ")
        for word in  words:
            #单词作为key，1作为value
            print("\t".join([word.strip(),"1"]))`

（2）reduce阶段

import sys
from operator import itemgetter
def reduce():
    word_count_dict = {}
    for line in sys.stdin:
        kv = line.split("\t")
        word = kv[0].strip()
        count = int(kv[1].strip())
        #使用字典类型数据get(key,default)方法，统计单词个数，如没有默认填写0，如果有在原有的基础上累加
        word_count_dict[word] = word_count_dict.get(word,0)+count
    #将统计的数据按照key值（即word）的首字母进行排序
    sorted_word_count = sorted(word_count_dict.items(),key = itemgetter(0))

    for word ,count in sorted_word_count:
        print("\t".join([word.str(count)]))

（3）运行（windows系统）
1）首先使用命令（type 文档名称）查看txt文档
打开cmd命令提示符，到文档存储路径下，输入type word.txt(word.txt是要查看的文档)，如图所示：
在这里插入图片描述
2）使用命令执行map程序
按照程序执行顺序展示结果：type word.txt | python map.py
按照程序执行，并将执行结果按照字母顺序进行排序：type word.txt | python map.py |sort

3）执行reduce程序
type word.txt | python map.py |sort |python reduce.py
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用python实现Hadoop中MapReduce 的相关文章

在 Python 中搜索文本文件并打印相关行？

如何在文本文件中搜索关键短语或关键字然后打印关键短语或关键字所在的行 searchfile open file txt r for line in searchfile if searchphrase in line print line
代码运行时出现内存问题（Python、Networkx）

我编写了一个代码来生成具有 379613734 条边的图但由于内存问题代码无法完成当经过 6200 万行时大约会占用服务器内存的 97 所以我杀了它您有解决这个问题的想法吗我的代码是这样的 import os sys impor
使用Python选择屏幕区域

我正在用 Python 开发一个屏幕截图实用程序目前它是专门针对 Linux 的到目前为止我已经能够拍摄完整桌面的屏幕截图并将其上传到 Imgur 然后将链接复制到剪贴板现在我想扩展到诸如活动窗口或特定选择的屏幕截图之类的功能如
会话cookie太大烧瓶应用程序[重复]

这个问题在这里已经有答案了我正在尝试使用会话本地加载某些数据并且它已经工作了一段时间但是现在我收到以下警告并且不再加载通过会话加载的数据 b session cookie 太大该值是 13083 字节但是标头需要 44 个
Python 中字典的合并层次结构

我有两本词典而我想做的事情有点奇怪基本上我想合并它们这很简单但它们是字典的层次结构我想以这样的方式合并它们如果字典中的项目本身就是字典并且存在于两者中我也想合并这些字典如果它不是字典我希望第二个字典中的值覆盖第一个字典中
Python 2.7从非默认目录打开多个文件（对于opencv）

我在 64 位 win7 上使用 python 2 7 并拥有 opencv 2 4 x 当我写 cv2 imread pic 时它会在我的默认 python 路径中打开 pic 即C Users Myname 但是我如何设法浏览不同的目
Pandas系列矢量化文本处理

我想使用矢量化操作改进我的 Pandas 代码假设我有一个简单的 DataFrame 其中有一个文本列其中可能包含 url Column1 0 hello http www google com 1 bye www mail com w
如何获取一个类的所有实例

我是一名初学者正在学习 Python 我想创建一个课程Person 在构造函数中我想将我创建的每个实例放入一个名为实例的集合中然后我希望实例方法返回所有实例我怎样才能做到这一点 class Person Type annota
字典键中的通配符

假设我有一本字典 rank dict V 1 A 2 V 3 A 4 正如您所看到的我在一个 V 的末尾添加了一个虽然 3 可能只是 V 的值但我想要 V1 V2 V2234432 等的另一个密钥我想检查它 checker V30
使用 ruamel.yaml，如何使带有 NEWLINE 的变量成为不带引号的多行

我正在生成用作协议的 YAML 其中包含一些生成的 JSON import json from ruamel import yaml jsonsample id 123 type customer account other myyamel
将多个 csv 文件连接成具有相同标头的单个 csv

我目前正在使用以下代码导入 6 000 个 csv 文件带标题并将它们导出到单个 csv 文件带单个标题行 import csv files from folder path r data US market merged data
python 从字典中获取唯一值

我想从我的字典中获取唯一的值 Input 320 167 316 0 319 167 401 167 319 168 380 167 265 166 期望的输出 167 0 168 166 我的代码 unique values sorted
如何在 django-rest-framework 查询集响应中添加注释数据？

我正在为查询集中的每个项目生成聚合 def get queryset self from django db models import Count queryset Book objects annotate Count authors
Python 正则表达式中的 \B+ 与 [\B]+ 与 [^\b]+

我在回答 SO 问题时遇到了一个我不明白的问题我创建了一个简化的示例来说明该问题场景我正在测试两个标记不是随机的英语单词在字符串中至少相距一定距离在这个例子中我们有一个动物列表我们要确保在羊和狼之间至少还有其他三种动物否则
如何导入 boto3 ssm ParameterNotFound 异常？

我想import the exception当一个boto3 ssm找不到参数get parameter 我正在尝试添加一些额外的内容ssm的功能moto图书馆但我现在很困惑 gt gt gt import boto3 gt gt gt
Django model.foreignKey 并返回 self.text 错误

所以我正在 Django 中处理 model py 但遇到了 2 个 pylint 错误我不明白为什么这是 pylint 的问题还是我在代码中做错了什么 E1120 No value for argument on delete in
使用 pandas 中的正则表达式在另一列中查找一列中的值

我有一个包含两列字符串的 pandas 数据框我想识别第一列中字符串的所有行 s1 出现在第二列 s2 所以如果我的专栏是 abc abcd ef gh z1y xxyyzz 我想保留第一行但不想保留第二行我能想到的唯一方法是迭代数
删除aws beanstalk上的uuid python包

这是针对所提出问题的后续帖子问题here https stackoverflow com questions 44421761 flask beanstalk deployment errors 以防万一对其他人有用自从第一篇文章以来
在 envoy 中使用 rm *（通配符）：没有这样的文件或目录

我正在使用 Python 和 Envoy 我需要删除目录中的所有文件除了一些文件外该目录是空的在终端中这将是 rm tmp my silly directory 常识表明在特使中这转化为 r envoy run rm tmp m
如何将 pygame Surface 转换为 PIL 图像？

我正在使用 PIL 来透视地变换屏幕的一部分原始图像数据是一个 pygame Surface 需要转换为 PIL 图像因此我发现了 pygame 的 tostring 函数就是为了这个目的而存在的然而结果看起来很奇怪见附图这段代码

随机推荐

Jetson TX1 学习1 GPIO

学习过程中为了防止遗忘以此文字记录如有错误多多包涵怕什么真理无穷进一寸有一寸的欢喜胡适前置内容 xff1a Jetson GPIO 库学习目标 xff1a 简单控制 Jetson TX1 官方载板 GPIO 引脚学习内容
It was either not specified and/or could not be found for the javaType (java.util.List) : jdbcType

在使用MyBatis Plus的时候 xff0c 他会将实体类以及表字段自动关联起来 xff0c 但是当我们想要指定额外的一对多关系的时候 xff0c 例如 xff1a 订单保存的时候同时需要保存订单详情列表 xff0c 此时订单与订单详情
WSL安装xfce4图像界面，并通过windows远程桌面登陆

一下载xorg xorg为X11的一个实现 xff0c xfce4需要 sudo apt install xrog 二下载xfce4 sudo apt install xfce4 三下载xrdp xrdp为远程连接软件 xff0c 默
linux 线程池（C语言实现）

线程池分为三个部分 xff1a 任务队列工作线程 xff0c N个 xff08 任务队列的消费者 xff09 管理者线程 xff0c 1个主要实现的函数 xff1a 创建线程池线程池添加任务销毁线程池任务函数 xff08 做什么 xff0
javascript之异步操作理解---回调函数，async，await以及promise对象

javascript之异步操作理解回调函数 xff0c async xff0c await以及promise对象概述概述写在前面 xff1a 虽然平时做项目 xff0c 但是发现自己写的代码还是很烂最近接触了一个对性能要求比较高的
Linux Ubuntu 查看文件大小查看磁盘大小

文章目录 1 查看某个文件的信息 xff08 其中大小以字节B为单位 xff09 2 查看文件夹的大小3 查看磁盘分区的大小参考 xff1a 1 查看某个文件的信息 xff08 其中大小以字节B为单位 xff09 span class to
虚拟化管理服务器（手动安装虚拟机，利用脚本命令安装虚拟机，虚拟机的管理，复制，快照）

实验环境 xff1a 真机的shell 手动安装虚拟机 xff1a 前提 xff1a 镜像文件已经下载好 xff0c 并要知道其所存放的路径步骤一 xff1a 在真机的shell 中输入virt manager 进入虚拟化管理步骤二 x
java面试题(仅供参考)

java面试题仅供参考框架阶段概念宝典 1 自我介绍 P2P网贷项目 4 第三个月基础框架篇 8 一基础概念篇 8 1 Get和Post的区别 xff1f 8 2 List Set Collection Collections的区
解决javaweb网站因重定向次数过多无法访问的方法

解决方法 xff1a 1 Chrome浏览器打开 chrome flags 2 搜索SameSite 3 将SameSite by default cookies 设置为 disabled 4 重启Chrome浏览器
多设备同步课程表，适用于iOS与Android

声明 xff1a 本文CSDN作者原创投稿文章 xff0c 未经许可禁止任何形式的转载 xff0c 原文链接关键词 xff1a iCloud日历同步 xff0c RFC 2445 xff0c iCalendar xff0c Outlook
Idea中配置Vue开发环境

vue开发环境搭建 1 xff0c 安装node js xff1a https nodejs org en xff0c 选择对应的版本下载安装即可安装成功后查看版本确认下是否安装成功 xff1a node v 2 xff0c webpac
小白在若依框架代码生成过程及遇到的问题

代码生成步骤创建好对象数据库的表 xff08 在数据库中或者若依导航功能里 xff09 xff1b 导入数据库代码生成 xff1b 生成代码文件 xff1b xff08 以在原来项目中文件为例 xff09 将controller层代码复制
论文笔记|Exploiting Document Level Information to Improve Event Detection via Recurrent Neural Networks

文章目录一简介二动机三创新四方法五实验六结论一简介 IJCNLP2017 Exploiting Document Level Information to Improve Event Detection via Recur
Keras Debug:ValueError: Error when checking target: expected dense_1to have shape (None, 84，) but go

解决 xff1a 输入数据不匹配 xff1f 没啥毛病呀 xff1f 一脸懵逼 xff0c 然后又看回信息 xff0c 发现问题在要求的是 None xff0c 84 xff0c 16 xff09 而给的是 xff08 84 1 xff0c
目标函数和损失函数的区别

损失函数 xff08 loss function xff09 或代价函数 xff08 cost function xff09 说人话就是 xff1a 损失函数是用来表示预测值与真实值间的差异的函数目标函数f x 说人话 xff1a 目标函
Java8 中新增的 Stream 流操作

参考文献 xff1a Java8 中新增的 Stream 流操作
前端网址转二维码实现

先安装依赖 npm install qrcode npm 2 导入模块 import from span class token string 34 jquery 34 span span class token punctuation s
【无标题】

mybatisPlus批量更新优化 span class token operator lt span update span class token assign left variable id span span class toke
Ubuntu X11VNC 远程桌面安装与使用

通过下载安装VNC实现 xff0c 远程操控Linux系统 xff0c 详细安装步骤如下 xff1a 1 控制端需下载VNC Viewer xff0c 官网地址为 xff1a Download VNC Viewer VNC Connect
使用python实现Hadoop中MapReduce

Hadoop包含HDFS 分布式文件系统 YARN xff08 资源管理器 xff09 MapReduce xff08 编程模型 xff09 一 MapReduce的编程原理 MapReduce 是一种编程模式 xff0c 用于大规模的数据

使用python实现Hadoop中MapReduce

使用python实现Hadoop中MapReduce 的相关文章

随机推荐

热门标签