使用LFM（Latent factor model）隐语义模型进行Top-N推荐

2023-11-06

最近在拜读项亮博士的《推荐系统实践》，系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用，在此做一个总结。

隐语义模型LFM和LSI，LDA，Topic Model其实都属于隐含语义分析技术，是一类概念，他们在本质上是相通的，都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的，近些年它们也被不断应用到其他领域中，并得到了不错的应用效果。比如，在推荐系统中它能够基于用户的行为对item进行自动聚类，也就是把item划分到不同类别/主题，这些主题/类别可以理解为用户的兴趣。

对于一个用户来说，他们可能有不同的兴趣。就以作者举的豆瓣书单的例子来说，用户A会关注数学，历史，计算机方面的书，用户B喜欢机器学习，编程语言，离散数学方面的书，用户C喜欢大师Knuth, Jiawei Han等人的著作。那我们在推荐的时候，肯定是向用户推荐他感兴趣的类别下的图书。那么前提是我们要对所有item（图书）进行分类。那如何分呢？大家注意到没有，分类标准这个东西是因人而异的，每个用户的想法都不一样。拿B用户来说，他喜欢的三个类别其实都可以算作是计算机方面的书籍，也就是说B的分类粒度要比A小；拿离散数学来讲，他既可以算作数学，也可当做计算机方面的类别，也就是说有些item不能简单的将其划归到确定的单一类别；拿C用户来说，他倾向的是书的作者，只看某几个特定作者的书，那么跟A，B相比它的分类角度就完全不同了。

显然我们不能靠由单个人（编辑）或team的主观想法建立起来的分类标准对整个平台用户喜好进行标准化。

此外我们还需要注意的两个问题：

我们在可见的用户书单中归结出3个类别，不等于该用户就只喜欢这3类，对其他类别的书就一点兴趣也没有。也就是说，我们需要了解用户对于所有类别的兴趣度。
对于一个给定的类来说，我们需要确定这个类中每本书属于该类别的权重。权重有助于我们确定该推荐哪些书给用户。

下面我们就来看看LFM是如何解决上面的问题的？对于一个给定的用户行为数据集（数据集包含的是所有的user, 所有的item，以及每个user有过行为的item列表），使用LFM对其建模后，我们可以得到如下图所示的模型：（假设数据集中有3个user, 4个item, LFM建模的分类数为4）

R矩阵是user-item矩阵，矩阵值Rij表示的是user i 对item j的兴趣度，这正是我们要求的值。对于一个user来说，当计算出他对所有item的兴趣度后，就可以进行排序并作出推荐。LFM算法从数据集中抽取出若干主题，作为user和item之间连接的桥梁，将R矩阵表示为P矩阵和Q矩阵相乘。其中P矩阵是user-class矩阵，矩阵值Pij表示的是user i对class j的兴趣度；Q矩阵式class-item矩阵，矩阵值Qij表示的是item j在class i中的权重，权重越高越能作为该类的代表。所以LFM根据如下公式来计算用户U对物品I的兴趣度
我们发现使用LFM后，

我们不需要关心分类的角度，结果都是基于用户行为统计自动聚类的，全凭数据自己说了算。
不需要关心分类粒度的问题，通过设置LFM的最终分类数就可控制粒度，分类数越大，粒度约细。
对于一个item，并不是明确的划分到某一类，而是计算其属于每一类的概率，是一种标准的软分类。
对于一个user，我们可以得到他对于每一类的兴趣度，而不是只关心可见列表中的那几个类。
对于每一个class，我们可以得到类中每个item的权重，越能代表这个类的item，权重越高。

那么，接下去的问题就是如何计算矩阵P和矩阵Q中参数值。一般做法就是最优化损失函数来求参数。在定义损失函数之前，我们需要准备一下数据集并对兴趣度的取值做一说明。

数据集应该包含所有的user和他们有过行为的（也就是喜欢）的item。所有的这些item构成了一个item全集。对于每个user来说，我们把他有过行为的item称为正样本，规定兴趣度RUI=1，此外我们还需要从item全集中随机抽样，选取与正样本数量相当的样本作为负样本，规定兴趣度为RUI=0。因此，兴趣的取值范围为[0,1]。

采样之后原有的数据集得到扩充，得到一个新的user-item集K={(U,I)}，其中如果(U,I)是正样本，则RUI=1，否则RUI=0。损失函数如下所示：
上式中的

是用来防止过拟合的正则化项，λ需要根据具体应用场景反复实验得到。损失函数的优化使用随机梯度下降算法：

通过求参数PUK和QKI的偏导确定最快的下降方向；

迭代计算不断优化参数（迭代次数事先人为设置），直到参数收敛。

其中，α是学习速率，α越大，迭代下降的越快。α和λ一样，也需要根据实际的应用场景反复实验得到。本书中，作者在MovieLens数据集上进行实验，他取分类数F=100，α=0.02，λ=0.01。
【注意】：书中在上面四个式子中都缺少了

综上所述，执行LFM需要：

根据数据集初始化P和Q矩阵（这是我暂时没有弄懂的地方，这个初始化过程到底是怎么样进行的，还恳请各位童鞋予以赐教。）
确定4个参数：分类数F，迭代次数N，学习速率α，正则化参数λ。

LFM的伪代码可以表示如下：

[python] view plain copy

def LFM(user_items, F, N, alpha, lambda):
#初始化P,Q矩阵
[P, Q] = InitModel(user_items, F)
#开始迭代
For step in range(0, N):
#从数据集中依次取出user以及该user喜欢的iterms集
for user, items in user_item.iterms():
#随机抽样，为user抽取与items数量相当的负样本，并将正负样本合并，用于优化计算
samples = RandSelectNegativeSamples(items)
#依次获取item和user对该item的兴趣度
for item, rui in samples.items():
#根据当前参数计算误差
eui = eui - Predict(user, item)
#优化参数
for f in range(0, F):
P[user][f] += alpha * (eui * Q[f][item] - lambda * P[user][f])
Q[f][item] += alpha * (eui * P[user][f] - lambda * Q[f][item])
#每次迭代完后，都要降低学习速率。一开始的时候由于离最优值相差甚远，因此快速下降；
#当优化到一定程度后，就需要放慢学习速率，慢慢的接近最优值。
alpha *= 0.9

本人对书中的伪代码追加了注释，有不对的地方还请指正。

当估算出P和Q矩阵后，我们就可以使用(*)式计算用户U对各个item的兴趣度值，并将兴趣度值最高的N个iterm（即TOP N）推荐给用户。

总结来说，LFM具有成熟的理论基础，它是一个纯种的学习算法，通过最优化理论来优化指定的参数，建立最优的模型。

原文地址：http://blog.csdn.net/harryhuang1990/article/details/9924377

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

推荐系统

使用LFM（Latent factor model）隐语义模型进行Top-N推荐的相关文章

【推荐系统】geohash召回

经纬度坐标精度非常高只能表述一个点二维坐标 geohash 一种地理编码系统划分成4 8的格子编码长度越长区域大小越小位置描述的越精确 1km 一般编码长度用6 7长度 geohash比经纬度好在哪里浮点数编码成字符串占用的
使用Spark ALS模型 + Faiss向量检索实现用户扩量实例

1 通过ALS模型实现用户商品Embedding的效果获得其向量表示准备训练数据 M U I R 即用户集U 商品集I 及评分数据R 1 商品集I的选择可以根据业务目标确定商品候选集比如TopK热度召回或者流行度不高但在业务用
推荐系统系列——推荐算法评价指标

文章目录同步读书之菜根谭 9 静坐观心真妄毕现 10 得意早回头拂心莫停手推荐算法评价指标 1 评分预测指标 1 1 符号定义 1 2 平均绝对误差 1 3 均方根误差 1 4 覆盖率 2 集合推荐指标 2 1 混淆矩阵 2 2
推荐-社交推荐相关

总结近时间矩阵分解社交信息的融合模型 2018 模型性能不同社交推荐方法在不同数据集中不同用户社交强度下的性能对比研究难点与热点数据稀疏性社交关系的有效挖掘社交噪声可解释性社交推荐可扩展型社交推荐模型与多源信息的融合社交
一文搞懂基于用户的协同过滤推荐算法

本文针对无上下文信息的隐性反馈数据集每一条行为记录仅仅包含用户ID和物品ID 介绍基于用户的协同过滤算法原理基于用户的协同过滤推荐算法本质找到和待推荐用户相似的用户群推进该用户群感兴趣且待推荐用户没购买过的物品例如下图中用户a购
Java 基于协同过滤实现插画交流平台中的插画信息推荐功能

Mahout 介绍 Mahout 是 Apache Software Foundation ASF 旗下的一个开源项目提供一些可扩展的机器学习领域经典算法的实现旨在帮助开发人员更加方便快捷地创建智能应用程序 Mahout包含许多实现包
FM模型

FM模型一 FM模型的意义 1 传统模型的缺点忽略了特征之间的联系特征高维稀疏容易爆炸 2 什么是FM模型 FM就是Factor Machine 因子分解机 FM通过对两两特征组合引入交叉项特征提高模型得分其次是高维灾难通
基于用户的协同过滤算法

计算用户相似度和用户对未知物品的可能评分基于用户的协同过滤算法主要包括两个步骤 1 找到和目标用户兴趣相似的用户集合 2 找到这个集合中的用户喜欢的且目标用户没有听说过的物品推荐给目标用户例如现在有A B C D四个用户分别对a b
机器学习之电子商务网站用户行为分析及服务推荐案例

项目概述本项目案例根据某法律咨询服务网站的用户浏览记录把用户划分为训练集的用户和测试集的用户再根据找出相应用户的浏览记录划分为训练集数据和测试集数据训练集用于后续构建用户物品矩阵再根据用户物品矩阵构建物品相似度矩阵根据杰卡德相似
【推荐系统】一、推荐系统简介

1 推荐系统的作用和意义在这个时代无论信息消费者还是信息生产者都面临巨大的挑战信息消费者在大量信息中找到自己感兴趣的信息很困难信息生产者将自己生产的信息让广大消费者关注很困难推荐系统将用户与信息联系起来 1 1 用户角度推荐
基于Spark MLlib平台的协同过滤算法---电影推荐系统

说到推荐系统大家可能立马会想到协同过滤算法本文基于Spark MLlib平台实现一个向用户推荐电影的简单应用其中主要包括三部分内容协同过滤算法概述基于模型的协同过滤应用电影推荐实时推荐架构分析一协同过滤算法概述本人对算
基于Web日志挖掘的个性化推荐系统（附源码）

个性化推荐系统实现该系统主要是使用的编程语言主要是R 然后配合css在样式上进行一定优化使用shiny开发的一款web程序主要实现的核心功能是基于spark的ALS算法的课程个性化推荐系统首页界面如下图所示该系统中的所有课程名称
推荐系统用户画像标签聚类个性化搜索

最近在做短视频推荐和别的部门配合着做我们部门做用户画像这一部分回头看看我们部门以前做的用户画像只能称之为所谓的用户画像如果一个人不懂用户画像还好指挥来指挥去真的让人无言不知道其他公司的有没有这样的人儿那哈哈扯远了言归正传
深度学习系列：阿里DIN模型的原理和代码实现

一前言今天介绍阿里巴巴的DIN网络不得不说阿里妈妈的大佬是真的多经常都会更新非常多的创造性的东西比如DIN中使用的自适应正则化技术以及Dice激活函数以及注意力机制的使用并且值得注意的是DIN网络中使用的注意力机制还挺多的哈
学习PGL课程：图卷积网络GCN、图注意力网络GAT

一 GCN 什么是图卷积不同的地方在于图像像素点周围的像素个数通常是固定的而图结构上某个节点周围的节点数是不固定的图卷积网络计算公式 1 邻接矩阵解释 2 度矩阵表示节点与之相连节点的个数包括自环 3 H l 表示第l次迭代的节
推荐系统实战2——EasyRec 推荐框架环境配置

推荐系统实战2 EasyRec 推荐框架环境配置学习前言先验条件 EasyRec仓库地址 EasyRec环境配置一 EasyRec的下载二 EasyRec的初始化三 EasyRec的安装四一些额外的情况学习前言 EasyRe
基于GBDT+LR模型的深度学习推荐算法

GBDT LR算法最早是由Facebook在2014年提出的一个推荐算法该算法分两部分构成第一部分是GBDT 另一部分是LR 下面先介绍GBDT算法然后介绍如何将GBDT和LR算法融合 1 1 GBDT算法 GBDT的全称是 Grad
【技术经验分享】计算机毕业设计hadoop+spark知识图谱医生推荐系统门诊人数预测医疗数据可视化医疗大数据医疗数据分析医生爬虫大数据毕业设计大数据毕设

开发技术 springboot vue js element ui spark hadoop lstm情感分析模型 KNN CNN卷积神经线性回归协同过滤算法用户物品 MLP神经网络 SVD深度学习模型 echarts python
浅谈矩阵分解在推荐系统中的应用

推荐系统是当下越来越热的一个研究问题无论在学术界还是在工业界都有很多优秀的人才参与其中近几年举办的推荐系统比赛更是一次又一次地把推荐系统的研究推向了高潮比如几年前的Neflix百万大奖赛 KDD CUP 2011的音乐推荐比赛去年的
【技术经验分享】计算机毕业设计Python+SparkML知识图谱新闻推荐系统新闻数据分析新闻爬虫新闻大数据新闻可视化大数据毕业设计大数据毕设机器学习深度学习

开发技术 Python爬虫 springboot vue js SparkML SparkALS 机器学习深度学习协同过滤算法说明后端使用SpringBoot Mybatis Plus框架前端使用Vue js Element Pl

随机推荐

VMware-报错：无法将Ethernet0连接到虚拟网络VMnet8

by 小世界 http redcisco blog 163 com 版本 vmware10 0 0 物理机 win8 虚拟机 rhel6 3 问题无法将 Ethernet0 连接到虚拟网络 VMnet8 有关更多信息请参见 vmware
react-native-image-picker 4.0 集成

github react native image picker 4 x相对于 2 x 3 x已删除 showImagePicker 4 x相对于 2 x 3 x已删除 showImagePicker 4 x相对于 2 x 3 x已删除 s
【Linux下Docker安装JupterLab】

Linux下Docker安装JupterLab 拉取docker镜像 docker pull jupyter base notebook latest https jupyter docker stacks readthedocs io e
cicd 02--构建通用的CD流程

cicd 02 构建通用的CD流程 1 介绍 2 CD 构建过程 2 1 参数配置说明 2 2 pipeline 脚本 2 3 测试流程 3 注意事项 4 说明 1 介绍笔者在 cicd 01 构建通用的CI流程中介绍了一个通用的doc
简单分析 C 语言的 qsort() 源码

简单分析 C 语言的 qsort 源码 stdlib h 是使用 C 语言需要引入的库在系统文件下可以搜索到这个文件夹在里面可以看到有一个 qsort 文件用编译器或者记事本打开就能看到里面的源码了单从文件名看 qsort 采用的是快
unity ScriptableObject

ScriptableObject代替单例和单例一样在内存是独一份的是可以被不同的东西读取需要一些工具链配合结构是这样的 startEvent事件 gt EventListener事件监听 gt 事件数据Event 这样可以跨sce
Charles设置代理后，手机无法上网

要抓手机app的包手机配置好代理后能连接到Charles 但是手机无法上网原因 Charles开启了White list 解决方式关闭White List Tools gt White List 实现charles抓取手机访问 ht
解决“您一次只能安装一种 Adobe 产品”问题

由于dreamweaver不慎升级导致不能用故准备卸载了重新安装可是卸载之后一直装不上总是提示您一次只能安装一种 Adobe 产品用优化大师等软件卸载清除注册表信息都不行搜索后发现一款很好的软件 Windows Installe
Python变量类型的强制转换

当我们需要对数据的类型转换时只需要将数据类型作为函数名即可下面给出的函数可以执行数据类型之间的转换函数返回一个新的对象表示转换的值函数格式使用示例描述 int x base int 8 可以转换的包括String类型和其他数字
《C++API设计》阅读笔记1

1 API简介 API Application Programing Interface 提供了对某个问题的抽象以及客户与解决改问题的软件组件之间进行交互的方式组件本身通常以软件类库形式分发它们可以在多个应用程序中使用概括说 API
ROS机器人构建和深度学习应用

机器人操作系统是机器人研究和公司建模模拟和原型机器人使用最广泛的软件框架之一将您的 ROS 知识应用于实际机器人技术比人们意识到的要困难得多但是这个标题将立即为您提供创建自己的机器人技术所需的一切包含超过 14 个 ROS 机器人项
python中input（）函数详解

1 input 函数赋值后数据在python内部的类型 if name main a input print type a b input print type b c a b print c print type c 输入及输出从结果可
解决Anaconda环境未激活的warning

在cmd内键入python之后会报Warning 显示Anaconda环境未激活使用如下命令激活 conda activate base 这里base指环境名默认为base 查看环境名可以用如下命令 conda info envs
Oracle常见问题定位方法

Oracle在安装时无法正常显示出安装界面现象在vnc的界面中安装时提示 Can t connect to X11 window server using 1 0 as the value of the DISPLAY variabl
使用注解开发springmvc

第三步 pom xml文件引入相关依赖主要有Spring框架核心库 Spring MVC servlet JSTL等第四步配置web xml 映射路径不要为会404 第六步创建Controller RequestMapping
某宝滑块ua特征研究

从137版本开始某宝新加了x 82类型滑块和之前无感或者滑动验证js 类似不过浏览器特征检测反调试干扰都增加了不少变得更有难度下面稍微讲下研究过程首先处理大量三目运算符这个没啥好办法博主用ast处理的类似下面这种单步调试
贪心算法求解TSP问题（python）

这里使用贪心算法求解TSP问题的python版本 dist 为距离矩阵 start index 为起始位置 def tsp quick dist list start index int sum distance seq result n
用C++做一颗会跳动的爱心

先来看看效果程序描述程序先以较慢的速度画一个大爱心之后跳动的心其实从视觉上看就是一大一小两个心相互切换但是要调整一下大小爱心变化时的时间间隔代码主要是通过设置两个函数利用cls来清屏重复打印大心和小心并设置颜色为红色详细代
php公众号获取code,微信公众号获取code

methods getCode 非静默授权第一次有弹框 this code var local window location href 获取页面url var appid wx65adcf075369 this code this ge
使用LFM（Latent factor model）隐语义模型进行Top-N推荐

最近在拜读项亮博士的推荐系统实践系统的学习一下推荐系统的相关知识今天学习了其中的隐语义模型在Top N推荐中的应用在此做一个总结隐语义模型LFM和LSI LDA Topic Model其实都属于隐含语义分析技术是一类概念他们在

使用LFM（Latent factor model）隐语义模型进行Top-N推荐

使用LFM（Latent factor model）隐语义模型进行Top-N推荐 的相关文章

随机推荐

热门标签

使用LFM（Latent factor model）隐语义模型进行Top-N推荐的相关文章