Hadoop Mapreduce编程之Reduce端join实现

2023-11-04

1.数据准备

movies.dat 数据格式： // movieid::moviename::movietype

ratings.dat 数据格式： // userid::movieid::rating::timestamp

2.Mapper端开发

1）定义必要的变量

private String filename="";
IntWritable mk=new IntWritable();
Text mv=new Text();

2）通过重写setup方法获取切片的文件名

@Override
protected void setup(Context context) throws IOException, InterruptedException {
    FileSplit inputSplit = (FileSplit) context.getInputSplit(); // 获取文件切片
    filename = inputSplit.getPath().getName();   //获取文件名
}

3) map方法—根据每个文件的文件名不同来标识不同表

@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
    String[] lines = value.toString().split("::");
    if(filename.equals("movies.dat")){ // movieid::moviename::movietype
        mk.set(Integer.parseInt(lines[0].trim()));
        mv.set("M"+lines[1]+"\t"+lines[2]);
    }else{// 文件名为ratings.dat
        mk.set(Integer.parseInt(lines[1].trim()));// userid::movieid::rating::timestamp
        mv.set("R"+lines[0]+"\t"+lines[2]+"\t"+lines[3]);
    }
    context.write(mk,mv);
}

3.Reducer端开发

public class RatingReduce extends Reducer<IntWritable, Text,IntWritable,Text> {
    Text mv=new Text();
    @Override
    protected void reduce(IntWritable key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        List<String> mlist=new ArrayList<>();
        List<String> rlist=new ArrayList<>();
        for (Text value : values) {
            String info =value.toString();
            if(info.startsWith("M")){
                mlist.add(info.substring(1));
            }else {
                rlist.add(info.substring(1));
            }
        }
        // 开始拼接
        for (String movie : mlist) {
            for (String rating : rlist) {
                String res=movie+"\t"+rating;
                mv.set(res);
                context.write(key,mv);
            }
        }
    }
}

4.Driver端开发

public class RatingDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        System.setProperty("HADOOP_USER_NAME","hadoop");
        Configuration conf=new Configuration();
        conf.set("fs.defaultFS","hdfs:/mkmg/");
        Job job = Job.getInstance(conf);

        job.setJarByClass(RatingDriver.class);

        job.setMapperClass(RatingMapper.class);
        job.setReducerClass(RatingReduce.class);

        job.setMapOutputKeyClass(IntWritable.class);
        job.setMapOutputValueClass(Text.class);

        job.setOutputKeyClass(IntWritable.class);
        job.setMapOutputValueClass(Text.class);

        FileInputFormat.setInputPaths(job,new Path("D://movie/ratings.dat"),new Path("D://movie/movies.dat"));
        FileSystem fs=FileSystem.get(conf);
        Path out=new Path("D://movie_out");
        if(fs.exists(out)){
            fs.delete(out,true);
        }
        FileOutputFormat.setOutputPath(job,out);

        job.waitForCompletion(true);
    }
}

5.结论总结

/**
 * reduce端join的缺陷：-----适合大表和大表关联
 *      1）数据倾斜---分区分布不均匀
 *      2）因为reduce端采用的集合，数据量大的时候，可能会产生OOM
 *      3）reducetask本身并行度不高,导致性能比较低----经验值是：DataNode数量*0.95
 */

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Apache Hadoop

MapReduce

reduce join实现

Hadoop Mapreduce编程之Reduce端join实现的相关文章

couchdb 视图使用另一个视图？

我对 couchdb 中的视图有疑问目前我有许多视图例如 view A view B view Z 对于每个视图它们包含相同范围的键但具有不同的值 IE view A key key 1 value 10 key key 2 val
MongoDB 从两个数组计算值、排序和限制

我有一个存储浮点数组的 MongoDB 数据库假设以下格式的文档集合 id 0 vals 0 8 0 2 0 5 有一个查询数组例如带有值 0 1 0 3 0 4 我想计算集合中所有元素的距离例如差异之和对于给定的文档和查询它
PHP MongoDB映射减少数据库断言失败

我第一次使用 PHP MongoDB 进行 Map Reduce 运行 MapReduce 命令时遇到错误 My code map function emit this topic id re date this date posted r
如何具体确定MRJob中每个map步骤的输入？

我正在从事一项地图缩减工作包含多个步骤使用 mrjob 每个步骤都会接收上一步的输出问题是我不想这样我想要的是提取一些信息并在第二步中针对所有输入等使用它可以使用 mrjob 来做到这一点吗 Note 因为我不想使用emr 这个问
Log4j RollingFileAppender 未将映射器和减速器日志添加到文件中

我们希望将应用程序日志打印到本地节点上的文件中我们使用 Log4j 的 RollingFileAppender Our log4j properties文件如下 ODS LOG DIR var log appLogs ODS LOG IN
在 Hadoop MapReduce 中解析 PDF 文件

我必须在 Hadoop 的 MapReduce 程序中解析 HDFS 中的 PDF 文件所以我从 HDFS 获取 PDF 文件为输入分割它必须被解析并发送到 Mapper 类为了实现这个输入格式我已经经历过这个link http cod
FAILED 错误：java.io.IOException：所有收集器的初始化失败

我在运行 MapReduce WordCount 作业时遇到一些错误错误 java io IOException 所有收集器的初始化失败的最后一个收集器中的错误是 class wordcount wordmapper at org a
CouchDB“加入”两个文档

我有两个看起来有点像这样的文档 Doc id AAA creator id data DataKey id credits left 500 times used 0 data id AAA 我想要做的是创建一个视图它允许我传递 Data
hadoop map reduce 中的错误处理

根据文档有几种方法可以在 MapReduce 中执行错误处理以下是一些 A 使用枚举的自定义计数器每个失败记录的增量 b 记录错误并稍后分析计数器给出失败记录的数量然而为了获取失败记录的标识符可能是其唯一键以及发生异常的详细
映射减少计数示例

我的问题是关于mapreduce programming in java 假设我有 WordCount java 示例一个标准mapreduce program 我希望map函数收集一些信息并返回形成如下的reduce函数map
远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
RavenDB：为什么我会在此多重映射/归约索引中获得字段空值？

受到 Ayende 文章的启发https ayende com blog 89089 ravendb multi maps reduce indexes https ayende com blog 89089 ravendb multi m
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
更改 Hadoop 中的数据节点数量

如何改变数据节点的数量即禁用和启用某些数据节点来测试可扩展性说得更清楚一点我有4个数据节点我想一一实验1 2 3 4个数据节点的性能是否可以只更新名称节点中的从属文件临时停用节点的正确方法创建一个排除文件这列出了您想要删除
MongoDB/PyMongo：如何在 Map 函数中使用点表示法？

我正在尝试计算每个邮政编码中找到的记录数在我的 MongoDB 中嵌入了邮政编码使用点表示法它位于 a res z a 代表地址 res 代表住宅 z 代表邮政编码例如这工作得很好 db NY count a res z 141
是否可以通过编写单独的mapreduce程序并行执行Hive查询？

我问了一些关于提高 Hive 查询性能的问题一些答案与映射器和减速器的数量有关我尝试使用多个映射器和减速器但在执行中没有看到任何差异不知道为什么可能是我没有以正确的方式做或者我错过了其他东西我想知道是否可以并行执行 Hive
为什么在我的例子中 For 循环比 Map、Reduce 和 List 理解更快

我编写了一个简单的脚本来测试速度这就是我发现的结果实际上 for 循环在我的例子中是最快的这真的让我感到惊讶请查看下面正在计算平方和这是因为它在内存中保存列表还是有意为之谁能解释一下这一点 from functools imp

随机推荐

计算机msvcp120.dll丢失的解决方法

计算机msvcp120 dll丢失的解决方法相信困扰着不少小伙伴 msvcp120 dll系统文件是电脑重要的文件丢失或者被损坏的话很多软件跟游戏都会无法运行需要怎么修复呢小编今天就把教程分享给大家修复教程如下首先是打开电脑浏
el-dialog 对话框显示怎么往上调一调或者往下调调显示
Python股票历史数据预处理（一）

Python股票历史数据预处理一在进行量化投资交易编程时我们需要股票历史数据作为分析依据下面介绍如何通过Python获取股票历史数据并且将结果存为DataFrame格式处理后的股票历史数据下载链接为 http download c
layui中form.val()使用，不起作用的原因

在使用layui中 form表单数据的获取和渲染时绕不开的话题在layui中form数据的渲染有个方法 form val 但是在使用的过程中很容易陷入误区下面我就来为大家介绍如何解决form val 不显示的问题 let obj tit
error An unexpected error occurred: “https://registry.yarnpkg.com/axios: con 解决方案

error An unexpected error occurred https registry yarnpkg com axios con 今天用在跑一个项目的时候发现了这个错误看着像是网络连接不上发现这里是用的Dokcerfile
向ACCESS中的"时间/日期"字段中插入DateTime.Now时出现“标准表达式中数据类型不匹配。”错误的解决办法

在使用下面的代码向Access数据库中添加数据的时候如果是日期字段则会出现标准表达式中数据类型不匹配的错误这可能是C 中的日期类型无法直接转换成Access中的日期类型OleDbType DBDate所致 string Conne
Maximum Sum Subarray of Size K--滑动窗口题型

滑动窗口题型滑动窗口类型的题目经常是用来执行数组或是链表上某个区间窗口上的操作比如找最长的全为1的子数组长度滑动窗口一般从第一个元素开始一直往右边一个一个元素挪动当然了根据题目要求我们可能有固定窗口大小的情况也有窗口的大
电脑副业能做什么？一台电脑能做的副业

现在很多人都想在工作之余开展一些副业特别是今年经济形势不好更让很多人明白了有一份副业的重要性这样可以在自己没有工作的时候还能有一份收入那么有哪些副业可以在网络上做呢如果你只有一台电脑的话可以做哪些副业呢 1 自媒体悟空问答或
Docker常用命令超细介绍，Java校招面试指南

2 3 docker pull 前面我们介绍了 search命令可以从docker hub上搜索到相关的镜像接下来看看我们通过docker pull 来下载镜像 docker pull 镜像名称 TAG 通过镜像加速下载还是比较快的 2
解决下载github-production-release-asset-2e65be.s3.amazonaws.com上release文件慢的问题

1 问题去github下载BloomRPC工具进行测试grpc 果然一如既往的慢想到把github转到码云进行下载奈何我要下载的是release的文件有两个代下地址 GitHub代下载服务永久免费这个最近貌似挂了试试下面那个
java 之反射（结合Class理解）

反射机制使静态语言java变为准动态语言 Reflection 反射机制允许程序在执行期借助于Reflection API取得任何类的内部信息并能直接操作任意对象的内部属性及方法反射方式实例化对象 getClass 方法得到完整的
Keil MDK环境下FreeModebus移植踩坑记录

Keil MDK环境下FreeModebus移植踩坑记录文章目录 Keil MDK环境下FreeModebus移植踩坑记录 armcc arm compiler v5 环境实验一实验二 armclang arm compiler v6
NFTScan 与 Atem Network 在 NFT 数据领域达成战略合作

近日 Web3 基础设施 NFTScan 浏览器与 Atem Network 协议达成战略合作伙伴关系双方已在 NFT 数据领域展开深度了合作 Atem Network 是一个 Web3 社交平台用户可以通过 NFT 创建连接和拥有自
蓝桥杯-刷题统计

问题描述小明决定从下周一开始努力刷题准备蓝桥杯竞赛他计划周一至周五每天做 aa 道题目周六和周日每天做 bb 道题目请你帮小明计算按照计划他将在第几天实现做题数大于等于 nn 题输入格式输入一行包含三个整数 a ba b
联想笔记本BIOS设置中文详解

对于很多新装系统的小伙伴们可能很多都不是太懂BIOS中都是干什么用的小编这里给大家详细介绍一下联想笔记本的主板BIOS设置跟别的笔记本或许有些不同但大体相差不多和大家分享一下 BIOS介绍中文解释就是基本输入输出系统其实它是固
python关于初始化和实例化之----log日志打印两次的问题综述

我在写appium desktop自动化框架的时候我发现在我运行demo的时候日志会运行两次我查了一堆资料也没有发现我错在哪里一开始我以为是 init 的问题我检查了 init 方法发现他们属于同一对象没有多余的对象二然
5g信号频率是多少赫兹_我家WiFi也有“5G”，这是5G信号吗？

大家都知道5G吧 5G是最近很火热的名词大家都知道它和手机有关系有些小伙伴在用手机和电脑连WiFi的时候也能看到一些WiFi名字后面跟着一个 5G 这个 5G 是平时说的那个5G吗答案是否 5G是 5th generation m
服务器拷贝文件工具,windows命令行下也有好工具（四）－拷贝文件到多台服务器...

做系统管理员经常需要从本机向多台服务器拷贝文件或者从多台服务器向本机拷贝文件如果使用windows界面要一次次的点击鼠标进行操作太麻烦了在linux下可以使用scp命令用一个脚本就可以解决当然每次都要输入口令也可以命令行带
[Python]网络爬虫 urllib爬虫案例

urllib爬虫案例爬取公众号文章中的图片第1步确定公众号文章的地址以微信公众号 Python小屋里的一篇文章为例文章标题为报告PPT 163页基于Python语言的课程群建设探讨与实践地址为 https mp weixi
Hadoop Mapreduce编程之Reduce端join实现

1 数据准备 movies dat 数据格式 movieid moviename movietype ratings dat 数据格式 userid movieid rating timestamp 2 Mapper端开发 1 定义必要的变

Hadoop Mapreduce编程之Reduce端join实现

1.数据准备

2.Mapper端开发

1）定义必要的变量

2）通过重写setup方法获取切片的文件名

3) map方法—根据每个文件的文件名不同来标识不同表

3.Reducer端开发

4.Driver端开发

5.结论总结

Hadoop Mapreduce编程之Reduce端join实现 的相关文章

随机推荐

热门标签

Hadoop Mapreduce编程之Reduce端join实现的相关文章