推荐系统-基于物品的协同过滤（Item-based CF）

2023-10-30

今天我们来聊一聊基于物品的协同过滤即Item-based CF方法。有了上一篇的经验，你可能很容易就想到Item-based CF就是通过计算物品之间的相似度，然后用户曾与那些商品发生过交互，给他推荐与这些商品最接近的东西给他。这样做有什么好处呢？可解释性！虽然同样是计算相似度，但User-based只能说某个人看起来和你兴趣一致，他喜欢过这个所以我给你推荐这个；而Item-baed则是你曾经看过这个，所以我给你推荐了和这个相似的也许你会喜欢。很明显，第二种更具可解释性，毕竟那是从你直接发生过交互的商品中来的，而人与人之间的相似度，通过简单的统计其实并不能很好的衡量。

那么如何进行Item-baed CF呢？首先是计算物品之间的相似度。这里计算相似度并没有引进物品的属性，而是简单地通过分析用户的历史行为记录进行计算，简单地讲，就是如果有用户购买了某商品的同时又买了其他的商品，那么很有可能这两个商品就是相似的，所以还是可以用余弦相似度来度量

User-baesd CF我们建立了物品用户倒排表方便我们统计对同一商品存在交互的用户，避免把大量的时间浪费在计算没有交互的用户上，这里类似地我们建立用户商品倒排表，对某一用户发生过的所有物品进行两两之间的统计来计算物品之间的相似度，具体实现如下

def Item_Similarity(train):
    # Co-rated items between users
    C = {}
    N = {}
    W = {}
    for user, items in train.items():
        for i in items:
            if i not in N.keys():
                N[i] = 0
            N[i] += 1
            if i not in C.keys():
                C[i] = {}
                W[i] = {}
            for j in items:
                if j == i:
                    continue
                if j not in C[i].keys():
                    C[i][j] = 0
                    W[i][j] = 0
                C[i][j] += 1
    print('Co-rated items count finished')
    # Calculate similarity matrix
    for i, related_items in C.items():
        for j, cij in related_items.items():
            W[i][j] = cij/(N[i]*N[j])**0.5
    print('Similarity calculation finished')
    return W

有了相似度之后，我们就可以进行推荐了。首先找到用户历史上发生交互的所有商品，然后选择和该商品最相似且没有和用户发生交互的若干商品进入备选集，用两物品之间的相似度作为权值进行累加。这样最后就得到了一个商品及其权值的集合，选择得分最高的若干个结果推荐给用户，公式表示如下

其中rui为用户u对物品i的兴趣，这里可以简单地处理成只要发生交互就为1。代码实现如下

def Recommend(user, train, W, K):
    rank = {}
    already_items = train[user]
    for i in already_items:
        for j, wij in sorted(W[i].items(), key=itemgetter(1), reverse=True)[:K]:
            if j in already_items:
                continue
            if j not in rank.keys():
                rank[j] = 0
            rank[j] += wij
    return rank

到了这里我们已经完成了Item-baed CF的推荐过程了，下面还是用MovieLens的数据集进行离线实验。数据划分过程依旧和上次一样，训练集测试集4:1，采用8次计算的结果均值进行效果估计。该实验中主要的可变参数是选择和发生交互商品相似的商品数量K，下图显示了对于不同的K值推荐系统的性能

从图中我们可以看出，对于召回率和准确率而言，K值的变化对于其影响并不是线性的，一开始增大K值可以提高其表现，但很快就开始下降；对于覆盖率而言，由于参与推荐的商品越来越多，所以也越来越倾向于推荐热门商品，导致覆盖率随着K值得增大不断降低，对应的流行度也开始增加，但随着K增大到某种程度之后，流行度不再有明显的变化。

上一篇User-baed CF我们考虑了热门商品人人都爱，它对我们计算用户之间的相似度没有什么贡献，所以我们用Inverse Item Frequence来进行惩罚。同样的，在Item-baed CF中，存在着这样一种用户，他与很多商品都发生过交互，但他发生交互可能是因为他是做这个生意的或者怎么，并不是因为这些商品之间存在某种相似性，所以这里我们同样可以引入Inverse User Frequence来对物品相似度进行加权，从而避免这种用户的影响，新的相似度计算公式如下

我们使用相同参数（K=160,N=10）的模型，仅仅是相似度计算不同，算法的表现如下图所示

从图中可以看到，召回和准确率提升了，但同时覆盖率和流行度两个指标略有所下降，和我们的分析略微有一点点小出入，我觉得原因主要在于我懒得换新的参数，直接用K=160进行测试的，如此多的待选商品进入备选，商品的流行度和覆盖率表现肯定不好，感兴趣的同学可以试试K=20的情况，同时这也说明一点，离线实验的结果并不那么可信啊！！！

此外，对于Item-baed CF还有一个小trick，就是我们可以对相似度矩阵每一行进行归一化，这样可以得到更好的性能。为啥呢？我们知道物品通常属于若干类，我们再计算相似度的时候，类内的相似度肯定是大于类之间的相似度，这没问题，但不同类内的相似度却是不同的，这就导致我们的推荐的算法有了倾向性，它肯定会推荐更多当前计算相似度高的类。而我们对相似度进行归一化之后，不同类内的最大相似度都被归化到1，某种程度上我们可以认为每个类内的相似度是在同一尺度上的，这样就避免了上面说的那个问题，可以公平地在多个类之间进行推荐，所以这样也可以提高推荐的覆盖率，降低流行度。我们将上一个实验计算得到的相似度矩阵进行归一化之后再进行推荐比较一下性能

从图中我们可以看出对相似度进行归一化之后，所有的评价指标都得到了提高，说明归一化确实可以提高了Item-baed CF的性能。

===============================================================================

到这里对于基于邻域的两种协同过滤的方法都介绍完了，最后我们再来比较一下这两种方法的异同。

首先从原理上来看，User-baed CF是给用户推荐和他兴趣相似的用户喜欢的物品，某种程度上就是寻找一个兴趣相似的小群体，所以其推荐往往更加社会化，但可解释性不太高；而Item-baed CF则是给用户推荐与其喜欢的物品相似的商品，所以在粒度上会更细，个性化更高，而且基于历史记录的推荐，可解释性比较好。

其次，两种方法分别对应于维护两张表。基于用户的需要维护一个用户相似度的表，而基于物品的则需要维护一个物品相似度的表，所以对于用户特别多的情况，计算用户相似度矩阵代价太高，所以更适合Item-baed CF，物品太多的情况类似。对于新物品产生速度非常快如新闻推荐领域，基于物品的协同过滤明显不合适，因为只有更新了物品相似度表该物品才能被推荐，所以对于时效性要求比较高的领域User-baed CF更加合适。

最后，CF方法在我看来来其实都是基于统计的方法，因为它并没有一个学习的过程，所以算是推荐领域比较基础的算法，效果只能说还行，比较适合召回过程这种对排序没性能没有太大要求的场合；另外，CF方法基本上只用了用户历史行为记录，包括用户，包括商品还有环境等特征信息都没有使用，所以效果相比于后面的方法来说肯定会略差一点。

好啦，基于邻域的方法就到这里为止啦，下一篇我们要介绍的是LFM，隐因子模型~

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

协同过滤

Itembased CF

随机推荐

给你一个非空整数数组 nums ，除了某个元素只出现一次以外，其余每个元素均出现两次。找出那个只出现了一次的元素。

给你一个非空整数数组 nums 除了某个元素只出现一次以外其余每个元素均出现两次找出那个只出现了一次的元素比如 nums 4 1 2 1 2 返回 4 法一思路使用异或由于相同的元素异或结果是0 0和任意元素异或都是该元素所
谈谈Spring中都用到了哪些设计模式？

控制反转 IOC 和依赖注入 DI IoC Inversion of Control 控制翻转是Spring 中一个非常非常重要的概念它不是什么技术而是一种解耦的设计思想它的主要目的是借助于第三方即Spring 中的 IOC 容
2023全国电子设计竞赛的一点思路

2023电赛开始了看了一下题目有几个题有一点思路分享给大家不知道对不对欢迎一起讨论 C题电感电容测量装置用数字电桥的方案网上有开源的方案可以找找 ADI有个集成芯片AD5933 是测量阻抗的可以看看能不能用参考 htt
高防cdn和高防服务器有什么不一样？

高防cdn 相信很多看过我们文章的小伙伴对cdn已经很了解了 cdn的原理很简单就是构建在网络上的很多个节点为网站作内容分发使用户就近获取所需资源且分配的cdn节点都是高防节点每个节点都有防御功能还可以帮助用户隐藏真实ip 高
t-SNE数据降维（2维3维）及可视化

最近看了一个叫光谱特征在后门攻击中的用法读完之后发现是用了一个SVD也就是奇异值分解做了降维然后用残差网络的representation层残差与残差的奇异值分解后的右奇异值矩阵的第一行做乘法得到correlation 疑惑得很什么时候相
【CSS】如何设置行距、段落间距、缩进格式

在使用MarkDownHere的时候需要利用CSS编辑各个段落的格式本文记录了CSS中编辑格式的各个属性及其设置行距行距一般使用line height value 来表示比如要设置行距为2则可利用下面的属性 line height
M1（arm） Mac安装open3d

问题说在前面 open3d对arm架构的机器支持相对比较晚所以目前还在完善当中我试了官方给出的两种方法安装都出现了错误首先给出官方的安装说明 Open3D ARM support 第一种 conda环境直接使用pip安装即如下命令
python的概念及特点

1 python语言 1 1 python语言的基本概念 python是一种极少数能兼具简单与功能强大的编程语言官方介绍 python是一款易于学习且功能强大的编程语言它具有高效率的数据结构能够简单又有效地实现面象对象编程 pytho
利用labelimg制作目标检测数据集

labelimg介绍 Labelimg是一款开源的数据标注工具可以标注三种格式 1 VOC标签格式保存为xml文件 2 yolo标签格式保存为txt文件 3 createML标签格式保存为json格式 labelimg的安装 lab
Sublime Text 3 配置python 智能提示

Sublime Text 3 配置python 智能提示一安装使用插件管理包 Package Control 安装教程参考地址使用方法安装成功后会显示出package control 点击package control 搜索 ins
mysql serial 类型_Mysql自增类型serial

最近看前辈们的代码发现了一个没有接触过的类型 serial 下面是关于serial的官方介绍 SERIAL is an alias for BIGINT UNSIGNED NOT NULL AUTO INCREMENT UNIQUE SE
使用扩展的ping和扩展的traceroute命令

ping命令ping 信息包互联网探索程序命令是排除设备的可及性的一个非常普通的方法故障它使用二个互联网控制信息协议 ICMP 查询消息 ICMP响应请求和ICMP回音应答确定一台远端主机是否是活跃的 ping命令也测量用收到ECHO回
node.js+uni计算机毕设项目基于微信小程序的健康管理系统（程序+小程序+LW）

该项目含有源码文档程序数据库配套开发软件软件安装教程欢迎交流项目运行环境配置 Node js Vscode Mysql5 7 HBuilderX Navicat11 Vue Express 项目技术 Express框架 No
[转]Ubuntu自带的FTP服务器vsftpd技巧

实现了Apache多用户的虚拟主机设置那么一般这些用户都会选择用ftp上传的方式来管理自己的web内容这就需要我们再为他们开设FTP服务 Ubuntu自带的FTP服务器是vsftpd 1 安装vsftpd Ubuntu安装软件倒不是件困
ag-gride-vue滚动条调整

v deep ag layout normal overflow y overlay v deep ag theme alpine dark hover ag body horizontal scroll viewport margin r
Matlab中使用latex风格

Matlab绘图时使用latex风格的符号和字体往往能够使你的图形增色不少在Matlab中 title text xlabel ylabel和legend均可使用latex风格的符号和字体多说无益直接上例子 title E 2 t
php参考文献外文文献,web of science怎么导出参考文献

web of science导出参考文献的方法首先登录web of Science网站选择文献然后选中所需要的文献点击页面上方中间保存至Endnote online 旁边的下拉箭头选择保存位置即可本文操作环境 Windows7
通过apply进行数据预处理

数据准备这里我事先下载了一个csv文件其中包含两列时间戳和字符串大小为近8000行使用apply进行预处理 apply可以批量的改变dataframe中的数据经过上边的处理在df中添加了一列全部都是a 将A列改的值为大写 a
写给Android开发者的性能优化指南（Android 性能优化的方面方面都在这儿）

众所周知一个好的产品除了功能强大好的性能也必不可少有调查显示近90 的受访者会因为APP性能差而卸载性能也是造成APP用户沮丧的头号原因而且随着产品的更新迭代功能的越发复杂 UI页面的越发丰富性能问题变得更加严重说实话要
推荐系统-基于物品的协同过滤（Item-based CF）

今天我们来聊一聊基于物品的协同过滤即Item based CF方法有了上一篇的经验你可能很容易就想到Item based CF就是通过计算物品之间的相似度然后用户曾与那些商品发生过交互给他推荐与这些商品最接近的东西给他这样做有什么

推荐系统-基于物品的协同过滤（Item-based CF）

推荐系统-基于物品的协同过滤（Item-based CF） 的相关文章

随机推荐

热门标签

推荐系统-基于物品的协同过滤（Item-based CF）的相关文章