用Hadoop流实现mapreduce版推荐系统基于物品的协同过滤算法

2023-10-31

以个性化新闻推荐为例，整个过程分成两个mapreduce阶段，由于hadoop流不支持多个mapreduce过程的自动化，所以所有mapreduce过程命令必须人工一个一个的执行。

1、首先需要将原始数据处理成如下形式的两个文件

文件一：Item_user_score.txt

格式：物品—用户—分数

如下图中第一行，物品100655565被用户1634974浏览过，则将分数记为1

文件二：Item_Item_number.txt

格式：物品—物品—相似度

如下图中第二行，物品100654360与物品100650498同时被两个用户浏览过

2、矩阵乘法

其实文件一和文件二分别保存着一个矩阵，第二步就是要做矩阵乘法。

step1mapper.py

#!/usr/bin/env python
"""A more advanced Reducer, using Python iterators and generators."""

from itertools import groupby
from operator import itemgetter
import sys

def read_mapper_output(file, separator='\t'):
	for line in file:
		yield line.strip().split(separator,1)

def main(separator='\t'):
	# input comes from STDIN (standard input)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

MapReduce

Hadoop

协同过滤算法

keepreder

用Hadoop流实现mapreduce版推荐系统基于物品的协同过滤算法的相关文章

Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
MongoDB 存储过程等效项

我有一个包含商店列表的大型 CSV 文件其中一个字段是邮政编码我有一个名为 ZipCodes 的独立 MongoDB 数据库它存储任何给定邮政编码的纬度和经度在 SQL Server 中我将执行一个名为 InsertStore 的
公平调度器和容量调度器有什么区别？

我是 Hadoop 世界的新手想了解公平调度程序和容量调度程序之间的区别另外我们什么时候应该使用每一个请简单地回答一下因为我在网上读了很多东西但从中得到的不多公平调度是一种为作业分配资源的方法使得所有作业随着时间的推移平均获得
Mapreduce shuffle 阶段出现内存不足错误

我在运行时遇到奇怪的错误类似字数统计映射缩减程序我有一个包含 20 个从站的 hadoop 集群每个从站都有 4 GB RAM 我将 Map 任务配置为 300MB 堆 Reduce 任务槽为 1GB 我每个节点有 2 个映射槽和 1
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
ETL informatica 大数据版（非云版）可以连接到 Cloudera Impala 吗？

我们正在尝试在 Informatica 大数据版本不是云版本上进行概念验证我发现我们可能能够使用 HDFS Hive 作为源和目标但我的问题是 Informatica 是否连接到 Cloudera Impala 如果是这样我们是否
如何在Hadoop中序列化List集合对象？

有没有办法在 Hadoop 中序列化 java 集合 The Writable接口仅适用于 Java 原语我有以下类属性 private String keywords private List
以编程方式读取 Hadoop Mapreduce 程序的输出

这可能是一个基本问题但我在谷歌上找不到答案我有一个映射缩减作业它在其输出目录中创建多个输出文件我的 Java 应用程序在远程 hadoop 集群上执行此作业作业完成后需要使用以下命令以编程方式读取输出org apache had
是否可以通过编写单独的mapreduce程序并行执行Hive查询？

我问了一些关于提高 Hive 查询性能的问题一些答案与映射器和减速器的数量有关我尝试使用多个映射器和减速器但在执行中没有看到任何差异不知道为什么可能是我没有以正确的方式做或者我错过了其他东西我想知道是否可以并行执行 Hive
将数据从 .txt 文件加载到 Hive 中以 ORC 形式存储的表

我有一个数据文件位于 txt格式我正在使用该文件将数据加载到 Hive 表中当我将文件加载到类似表中时 CREATE TABLE test details txt visit id INT store id SMALLINT STORE
为什么在我的例子中 For 循环比 Map、Reduce 和 List 理解更快

我编写了一个简单的脚本来测试速度这就是我发现的结果实际上 for 循环在我的例子中是最快的这真的让我感到惊讶请查看下面正在计算平方和这是因为它在内存中保存列表还是有意为之谁能解释一下这一点 from functools imp
AWS EMR 引导操作为 sudo

我需要更新 etc hosts适用于我的 EMR 集群 EMR AMI 4 3 中的所有实例整个脚本无非就是 bin bash echo e ip1 uri1 gt gt etc hosts echo e ip2 uri2 gt gt e
Hadoop 超立方体

嘿我正在启动一个基于 hadoop 的超立方体具有灵活的维度数有人知道这方面现有的方法吗我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它另一种方法是Z
如何在hadoop mapreduce/yarn中设置VCORES？

以下是我的配置 mapred site xml map mb 4096 opts Xmx3072m reduce mb 8192 opts Xmx6144m yarn site xml resource memory mb 40GB min
“错误：无法找到或加载主类 org.apache.hadoop.util.RunJar”是什么意思？

我正在尝试运行一个示例因为它指出 Hadoop 实践一书 http www manning com lam 第 15 页这是需要运行的命令 bin hadoop jar hadoop examples jar 但我收到这个错误 Err
Hive：为现有文件夹结构添加分区

我在 HDFS 中有一个文件夹结构如下所示但是实际上没有使用以下命令在表上创建分区ALTER TABLE ADD PARTITION命令即使文件夹结构的设置就像表有分区一样如何自动将所有分区添加到Hive表中 Hive 1 0 外
缺少依赖项 hive-builtins 会导致 Oozie 构建失败，错误代码为 410

我尝试从源代码构建 oozie 但安装失败我想安装 oozie 并热切地等待使用它我在这个阶段失败了当我从 oozie 3 3 3 目录给出 cmd 时 bin mkdistro sh DskipTests 我收到这个错误 INFO

随机推荐

PyTorch、TensorFlow和Jax构建神经网络模型的标准化流程

文章目录开始之前一 PyTorch 1 1 PyTorch 版本1 x阶段二 TensorFlow 2 1 TensorFlow 版本 1 x 阶段 2 2 TensorFlow 版本 2 x 阶段三 Jax 3 1 Jax 版本
@Transactional 事务调用与生效场景总结

1 同一个类中事务publicA掉非事务B B抛异常 AB事务生效具有传播性 Override Transactional public void A User u new User u setAccount test u setNam
深入研究webpack之Tree Shaking相关属性sideEffects用处

Tree Shaking我原来也只是了解这次碰巧深入研究了下就写个博客记录一下网上有很多讲Tree Shaking的我写的这篇跟他们侧重点不一样 Tree Shaking相关的基础知识 1 webpack会从入口文件开始不断的获取你
中科院分区2020_一文读懂SCI期刊分区和实时影响因子计算方法

作者恺忻排版审核恺忻 SCI分区 sci分区是一个sci基本常识国内很多有sci论文发表要求的高校或者科研单位在发表要求中对期刊分区一般都有明确要求因为分区不同关系着影响因子高低很多作者不知道如何查看sci期刊分区目前sc
文件操作（详细总结）

文章目录为什么要使用文件什么是文件文件的打开和关闭文件顺序读写流文件的随机读写文本文件和二进制文件文件读取结束的判定文件读取结束的原因文件缓冲区为什么要使用文件为了更好的保存数据可以将数据写到文件里在硬盘中什么
1.4 顺序与选择结构

第一关顺序结构任务描述本关介绍顺序结构程序最基本的结构就是顺序结构顺序结构就是程序按照语句顺序从上到下依次执行各条语句本关要求读者理解顺序结构对输入的三个数changeone changetwo plus能够先交换chang
20行Python代码爬取网站美女图，哇太多了，我U盘装满了

淘女郎爬虫可动态抓取淘女郎的信息和照片需要额外安装的第三方库 requests pip install requests pymongo pip install pymongo 模块功能 TaoLady py 负责发送POST请求和抓取
python一定要有主函数吗_python没有main函数吗

相信很多初学python的人看代码的时候都会先找一下main 方法从main往下看但事实上python中是没有你理解中的 main 方法的 if name main 可以看成是python程序的入口就像java中的main 方法但不
软件测试的技术深度一定比软件开发低吗？看完这篇文章秒懂

之所以会有很多人普遍觉得测试人员比开发人员要求低一是国内行业现状造成的因为国内软件企业对软件测试技术的认知比较晚即使在发展了几年后测试行业变得相对成熟和正式仍然很多企业公司的主观意识中觉得开发人员解决的是项目可用性问题而测试人员
使用tensorflow卷积神经网络实现mnist手写数字识别

在实现mnist手写数字识别的时候看了极客网上的例子自己试着实现了一下但是期间发现了很多问题于是就把值得注意的地方写在注释里面了以供后面查阅温习 import tensorflow as tf from tensorflow ex
MyBatis 解决模糊查询包含特殊字符

第一块 MyBatis 实现模糊查询方式 1 1 sql中字符串拼接 SELECT FROM 表名 WHERE 字段名 LIKE CONCAT CONCAT 参数 1 2 使用代替 SELECT FROM 表名 WHERE 字段名 LIK
Linux 嵌入式 BeagleBone 使用 Python 和 JavaScript

特点 BeagleBone 是一款面向创客的嵌入式 Linux 开发板它具有内置网络许多输入和输出以及处理要求苛刻的任务的快速处理器介绍原始的 BeagleBone 和新的 BeagleBone Black 并开始利用板的处理能力及其
PYTHON编程导论群问题汇总(五)

Q15 改变对象与绑定 P54 Univs和Univs1被绑定到不同的对象的原理不是很清楚 bigjing Univs Techs Ivys Univs1 MIT Caltech Harvard Yale Brown Univs绑定的是含有
【python】numpy随机抽样

0 前言 numpy random 模块对 Python 内置的 random 进行了补充增加了一些用于高效生成多种概率分布的样本值的函数如正态分布泊松分布等 1 随机模块 numpy random seed seed None se
Set结构的使用与实现

Set Set是继承自Collection的一个接口类 Set中只存储了key 并且要求key一定要唯一 Set的底层是使用Map来实现的其使用key与Object的一个默认对象作为键值对插入到Map中的因为Set里面的key是不能够重
pyppeteer和selenium远程操控浏览器

1 配置环境 Chrome浏览器是支持远程调试模式的这个模式打开的情况下 Puppeteer或者Selenium可以通过websocket连上去进而控制它首先我们来启动Chrome的远程调试端口你需要找到Chrome的安装位置在C
linux ld 链接.o文件,Linux：控制`ld`搜索.o目标文件的位置？

好吧情况就是这样我正在尝试使用一些较旧的软件在Ubuntu Lucid上工作正常在Natty上失败所以我徘徊了一下事实证明这个软件调用ld 并且ld最终失败了 ld crt1 o No such file No such fi
机器学习算法简介和代码（P&R语言）

机器学习算法 P R语言一般说来机器学习有三种算法 1 监督式学习监督式学习算法包括一个目标变量因变量和用来预测目标变量的预测变量自变量通过这些变量我们可以搭建一个模型从而对于一个已知的预测变量值我们可以得到对应的目标变量
Matlab学习：读取excel中数据

Matlab中大部分功能都可以通过函数调用实现在本文中所涉及的读取excel中数据这一功能可以通过下面的函数 1 实现 num xlsread fileURL n 1 其中 num 表示输出的数据可以是矩阵也可以是数组 xlsread
用Hadoop流实现mapreduce版推荐系统基于物品的协同过滤算法

以个性化新闻推荐为例整个过程分成两个mapreduce阶段由于hadoop流不支持多个mapreduce过程的自动化所以所有mapreduce过程命令必须人工一个一个的执行 1 首先需要将原始数据处理成如下形式的两个文件文件一 It