为推荐引擎生成测试集

2024-02-02

我正在研究基于隐式反馈的推荐引擎。我正在使用这个链接：http://insightdatascience.com/blog/explicit_matrix_factorization.html#movielens http://insightdatascience.com/blog/explicit_matrix_factorization.html#movielens

这使用 ALS（交替最小二乘法）来计算用户和项目向量。因为，我的数据集无法按时间分区。我随机从用户那里获取“x”个评分并将其放入测试集中。这是我的训练用户项目矩阵的可重现示例。




col1    col2     col3   col4   col5   col6    col7     col8    col9   col10   col1    col12    col13 
+---------------------------------------------------------------------------------------------------+
| 1        0       0     3      10      0       0         3        0      0       1       0        0 |                                                                                   | 
| 0        0       0     5      0       0        1         8        0      0       1       0        0 |                                                                                  |
| 0        0       0     6      7       1        0         2        0      0       1       0        0 |                                                                                   |
+---------------------------------------------------------------------------------------------------+



I then create a test set using this piece of code
    test_ratings = np.random.choice(counts[user,:].nonzero()[0],size=1,replace=True)
        train[user,test_ratings] = 0
        test[user,test_ratings] = counts[user,test_ratings]  
        assert(np.all((train * test) == 0))

这给了我：



col1    col2     col3   col4   col5   col6    col7     col8    col9   col10   col1    col12    col13 
+---------------------------------------------------------------------------------------------------+
| 0        0       0     0      0      0       0         3        0      0       0       0        0 |                                                                                   | 
| 0        0       0     0      0      0       1         0        0      0       0       0        0 |                                                                                  |
| 0        0       0     6      0      0       0         0        0      0       0       0        0 |                                                                                   |
+---------------------------------------------------------------------------------------------------+

这里的行是用户，列是项目。

现在，我想知道这是否是我的测试集的正确表示。我选取了一个非零值并使所有值都为零。因此，我的算法应该将非零值排名为推荐项目。

这是正确的处理方式吗？

任何帮助将非常感激

Updated:

是的，您应该使用一些原始计数创建一个测试集，并查看您的系统是否将这些用户项识别为良好匹配。

您应该注意以下几点：

仅对您拥有的项目或用户添加测试集值更多数据；
从训练数据中隐藏这些测试集值；
仅在您有数据的用户-项目对上训练您的模型，而不是在 0 上 - 这样做的原因是因为假设您的 0 代表您没有数据的对，而不是真实的评分；

Note:这张纸，隐式反馈数据集的协同过滤 http://yifanhu.net/PUB/cf.pdf，应该可以帮助您解决这些问题和其他问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

machinelearning

recommendationengine

collaborativefiltering

为推荐引擎生成测试集的相关文章

Google Colab 使用 Transformers 和 PyTorch 微调 BERT Base Case 时出现间歇性“RuntimeError: CUDA out of memory”错误

我正在运行以下代码来微调 Google Colab 中的 BERT Base Cased 模型有时代码第一次运行良好没有错误其他时候相同的代码使用相同的数据会导致 CUDA 内存不足错误以前重新启动运行时或退出笔记本返回笔
按相似度对矩阵进行排序

我有 100 个矩阵其中每一行对应一个个体列对应站点我想通过相似性度量对行进行排序以便最相似的个体在矩阵中彼此相邻我使用 k 近邻按行对矩阵进行排序并将这些排序的矩阵提供给卷积神经网络我想知道是否还有其他措施可以完成手头的任务
在 Keras 中使用有状态 LSTM 训练多变量多级数回归问题

我有时间序列P过程每个过程的长度各不相同但都有 5 个变量维度我试图预测测试过程的估计寿命我正在用有状态的方法来解决这个问题LSTM在喀拉斯但我不确定我的训练过程是否正确我将每个序列分成长度的批次30 所以每个序列都是这样的形
model.predict() 返回类而不是概率

Hello 我是第一次使用 Keras 我训练并保存了一个模型作为 json 文件及其权重该模型旨在将图像分为 3 个类别我的编译方法 model compile loss categorical crossentropy optim
Keras 可以处理不同尺寸的输入图像吗？

Keras 可以处理不同尺寸的输入图像吗例如在全卷积神经网络中输入图像可以具有任意大小然而我们在用Keras创建网络时需要指定输入形状因此我们如何使用 Keras 来处理不同的输入尺寸而不将输入图像调整为相同的尺寸谢谢你的帮
使用 TensorFlow 和 Keras 的卷积神经网络精度较低 [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我计划创建一个 CNN 来预测蘑菇类型并从互联网上收集了 2500 多张照片数据集有 156 个类别不同类型的蘑菇我在 Tensorfl
使用 glmnet 纠正 n 个数据集上的 n 个 LASSO 回归的输出（严格来说是所选的特征/变量）

注意这是对上一个问题 https stackoverflow com questions 75006466 how to replicate my results from running n lassos iteratively usi
在 R 中绘制决策树（插入符）

我已经训练了一个数据集rf方法例如 ctrl lt trainControl method LGOCV repeats 3 savePred TRUE verboseIter TRUE preProcOptions list thresh
如何创建简单的梯度下降算法

我正在研究简单的机器学习算法从简单的梯度下降开始但在尝试用 python 实现它时遇到了一些麻烦这是我试图重现的示例我获得了有关房屋的数据居住面积以英尺为单位和卧室数量以及最终的价格居住面积英尺2 2104 卧室 3 价
构建协同过滤/推荐系统

我正在设计一个网站该网站的概念是根据用户的口味向他们推荐各种商品即他们评价过的项目添加到收藏夹列表中的项目等亚马逊 Movielens 和 Netflix 就是这样的例子现在我的问题是我不知道从哪里开始了解这个系统的数学部分
在 GPU 上训练时如何处理非确定性？

在调整超参数以使模型性能更好时我注意到每次运行代码时获得的分数以及创建的模型都是不同的尽管修复了随机操作的所有种子如果我在CPU上运行就不会出现这个问题我搜索了一下发现这是使用 GPU 训练时的常见问题这是一个非常好的详细
Keras Predict_classes 方法返回“列表索引超出范围”错误

我对 CNN 和机器学习总体来说是新手并且一直在尝试遵循 TensorFlow 的图像分类教程现在可以找到Google Colabhere https colab research google com drive 1gwZp7 t
如何解决错误：PyTorch 中预期输入批量大小与目标批量大小不匹配？

我尝试通过 PyTorch 在 CIFAR10 数据集上创建逻辑模型但是我收到错误 ValueError 预期输入batch size 900 与目标batch size 300 匹配我认为正在发生的事情是 3 100 是 300 所以
地图应用的聚类算法

我正在研究地图上的聚类点纬度经度对于快速且可扩展的合适算法有什么建议吗更具体地说我有一系列纬度经度坐标和一个地图视口我正在尝试将靠近的点聚集在一起以消除混乱我已经有了解决问题的方法 see here http bouldr
在Python中表示语料库句子的一种热门编码

我是 Python 和 Scikit learn 库的初学者我目前需要从事一个 NLP 项目该项目首先需要通过 One Hot Encoding 来表示一个大型语料库我已经阅读了 Scikit learn 关于 preprocessi
池化与随时间池化

我从概念上理解最大总和池中发生的情况作为 CNN 层操作但我看到这个术语随时间变化的最大池或随时间变化的总和池例如用于句子分类的卷积神经网络 https arxiv org pdf 1408 5882 pdfYoon Kim
将列指定为多个组合回归模型中的特征和标签 (ML.NET)

我正在使用 ML NET 使用回归模型来预测一系列值我只对预测的一列分数列感兴趣但是其他一些列的值不可用于预测类我不能将它们保留为 0 因为这会扰乱预测所以我想它们也必须被预测我看到一个类似的问题here https sta
使用 to_categorical 转换 np.array 时出现内存问题

我有一个像这样的 numpy 数组 0 1 1 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 1 我这样改造它以减少内存需求 x val x val asty
提高SVM分类器准确率的技术

我正在尝试使用 UCI 数据集构建一个分类器来预测乳腺癌我正在使用支持向量机尽管我尽最大努力提高分类器的准确性但仍无法超过 97 062 我尝试过以下方法 1 Finding the most optimal C and gamma
预处理 csv 文件以与 tflearn 一起使用

我的问题是关于在将 csv 文件输入神经网络之前对其进行预处理我想使用 python 3 中的 tflearn 为著名的 iris 数据集构建一个深度神经网络数据集 http archive ics uci edu ml machine

随机推荐

如何查看linux中特定进程每5秒的内存消耗情况

我只是想知道如何找到特定进程在特定时间比如5秒的内存消耗我是linux新手因此详细的步骤将不胜感激 Use top p PID其中 PID 是进程 ID 应显示有关进程的信息包括使用的系统内存百分比类型d以及一个以秒为单位的整
条件子句中的赋值是好的 ruby 风格吗？

为了写得更简洁而不是这样做 test value method call that might return nil if test value do something with test value end 我一直在条件分配 if t
当我运行 Protractor 时，“Runtime.executionContextCreated 有无效的‘上下文’错误

当我运行量角器时我收到以下错误下面是我的 webstorm 控制台中显示的错误 C Program Files x86 JetBrains WebStorm 2016 2 bin runnerw exe C Program Files
在 PowerShell 脚本中无法通过管道将字符串输入 cmd

当我直接在 PowerShell 窗口中执行它时我有以下工作调用 myexe C MyExe exe MyString myexe works Write Output MyString myexe seems to work too 但
Visual Studio 2017 - 允许远程用户访问 IIS Express 中的网站

一直在浏览并尝试我找到的有关该主题的所有指南但没有运气我正在使用 HTTPS 运行 MVC 项目并希望使用一些远程移动设备访问调试站点来测试该网站我遵循了一个几乎可以工作的指南我想我已经非常接近让它工作了以下是我已完成的步骤关
如何获得可旋转div的四个角旋转手柄？

我有一个div 用过Jquery UI rotatable旋转 div 的插件我怎样才能让这个旋转手柄与绿色div的四个角一起旋转 box draggable rotatable 这是示例图像在黑色圆形标记中我需要放置其他三个可旋转手柄
使用supervisord管理docker容器的最佳方式

我必须在上面设置 dockerized 环境集成质量保证和生产 same服务器客户端的要求每个环境的组成如下 rabbitmq celery flower 基于 python 3 的应用程序称为 A 每个特定分支环境在它们之上
XXX.exe 中发生“System.ExecutionEngineException”类型的未处理异常

我有一个用 C 编写的 DLL 文件我尝试在我的 C 代码中使用 C DLL C 方法调用正确但进程完成后出现错误异常详细信息 Completed System ExecutionEngineException 未处理消息 Syst
格式化输出流 ios::left 和 ios::right

我有这个代码 cout lt lt std setiosflags std ios right cout lt lt setw 3 lt lt 1 lt lt setw 3 lt lt 2 lt lt n Output two values
如何编写 IQueryable 来查询递归数据库表？

我有一个这样的数据库表 Entity ID int PK ParentID int FK Code varchar Text text The ParentID字段是与同一表中另一条记录的外键递归所以该结构代表一棵树我正在尝试编写一种
SetPixel 太慢了。有没有更快的方法来绘制位图？

我正在开发一个小型绘画程序我在位图上使用 SetPixel 来绘制线条当画笔尺寸变大例如 25 像素时性能会明显下降我想知道是否有更快的方法来绘制位图以下是该项目的一些背景我使用位图这样我就可以利用图层就像在 Photo
typedef 函数指针递归

我试图声明一个采用相同类型的函数作为参数的函数 void rec void f void void f f 我最终进行了递归尝试您始终可以从void void rec void f void f f 但它不是类型安全的我尝试用typed
这是过度拟合吗？

我有一个 CNN 它在训练数据上表现非常好 96 准确率 1 损失但在测试数据上表现不佳 50 准确率 3 5 损失泄密者签名过度拟合是指验证损失开始增加而训练损失持续减少即图片改编自维基百科条目过拟合 https en wiki
在configuration.nix中从nixos-unstable安装virtualbox模块

可以从 nixos unstable 安装软件包 etc nixos configuration nix使用来自的配置这个答案 https stackoverflow com a 48838322 3040129 这是安装的示例htop来自
以等概率从 Pandas 组中随机选择——意外行为

我尝试从 12 个独特的组中随机抽样每个组都有不同数量的观察值我想从整个群体数据框中随机抽样每个组都有相同的被选择概率最简单的例子是一个包含 2 个组的数据框 groups probability 0 a 0 25 1 a 0
Chartjs初始动画想要从左到右改变（默认是从下到上）

使用chartjs 2 1 4 定制的默认图表从下到上显示动画在我们的应用程序画布的下方有两个按钮左和右在单击左侧按钮图表动画中想要从右到左单击右键图表动画想要从左到右显示请帮我找到解决方案提前致谢 var myData x
HTML5 音频无法通过 Javascript 播放，除非手动触发一次

我正在尝试使用标签和 JavaScript 来启动一个小声音文件来自动播放
ABAP 对象中的“ADD-CORRESPONDING”相当于什么？

对于以下可执行程序存在以下语法错误 OO 上下文中不支持 ADD CORRESPONDING 相当于什么ADD CORRESPONDING在ABAP对象中 REPORT CLASS lcl app DEFINITION FOR TESTI
terraform init 和 terraform plan 成功运行后，terraform apply 报告 S3 后端配置错误

我正在我的 Linux 实例上运行 terraform 我遇到了下面的恐怖情况 usr local bin terraform workspace new test enter code here 0m 0m 1m 33mBackend r
为推荐引擎生成测试集

我正在研究基于隐式反馈的推荐引擎我正在使用这个链接 http insightdatascience com blog explicit matrix factorization html movielens http insightdat

为推荐引擎生成测试集

为推荐引擎生成测试集 的相关文章

随机推荐

热门标签

为推荐引擎生成测试集的相关文章