用户行为预测论文summay

2023-11-16

用户行为预测论文summary

1、  论文名称:Modelingand Predicting Behavioral Dynamics on the Web

2、  论文作者:KiraRadinskyz, Krysta Svorey

3、  主要内容:

本篇论文主要研究了在时序上的用户行为预测模型,主要以用户在网页上的查询(query)、点击url(urls)、以及查询点击(query-click pair)等行为作为研究对象,通过训练模型来检测时序中的趋势、周期性、异常、噪声、季节性变化等特征,通过改进简单的Holt-Winters模型来检测以上特征,将改进后的模型的预测结果与传统的用户预测模型的结果进行分析和对比;并且提出了一种新的DML(dynamic model learner)方法根据提取出的时间序列的特征动态地选择预测模型和参数的估计,取得了很好的实验效果。

一、状态空间模型(state-spacemodel,SSM)

本论文中通过对简单的Holt-Winters时序数据处理模型的改进对数据进行平滑(smothing)、局部趋势(local trend)、周期性(Periodicity)、周期性+局部趋势(Periodicity+local trend)分析,实现对用户点击总次数的预测。本文通过改进模型,得到了4种时域预测模型。

(1)      平滑模型的定义


 

(2)      局部趋势模型

简单的对历史数据使用平滑模型会低估对这一区域的动态变化。故本论文在原Holt-Winter模型的基础上进行了改进,增加了一个趋势组件,形式如下:


其中d是抑制因子,bt是增长速率的估计值。

(3)      周期性模型

简单的平滑模型和局部趋势模型在数据达到峰值时性能比较糟糕,所以本文在简单的Holt-Winters模型的基础上增加了一个季节性组件,表示形式如下:


其中m是一个基于其他的参数而估计出的一个周期性参数

(4)      局部趋势和周期性模型

之前建立的模型都是讲局部趋势和周期性分开处理,而有些情况是趋势和周期性混合在一起,故本论文又设计了一个新的模型,在原来简单的Holt-Winters模型的基础上增加了趋势和周期性参数。形式如下:


(5)      突发模型

在时序数据中经常出现突发的事件,而且突发事件一般将影响一段时间。本文针对处理突发事件的情况,在简单的Holt-Winters模型的基础上增加了两个突发事件参数:Mt,代表t时刻突发性的测量值以及Kt,代表突发的发展趋势。模型的表示形式如下:



(6)      参数估计

模型参数的优化问题:模型参数的选择准则

通过计算残差平方和,选取使残差平方和最小的参数作为最优的模型参数。

  残差平方和公式如下:


二、用户查询总次数预测

(1)      贝叶斯信息准则

选取具有最小贝叶斯信息判据的模型作为预测模型

贝叶斯准则简称BIC,公式如下:


其中L为最大似然函数,q是参数个数,n是时间序列的长度

对高斯过程,则贝叶斯准则表示如下:


(2)      模型学习中存在的问题

对时间序列进行分析预测可以考虑到一些单一的元素,而没能考虑元素之间的相互作用;而回归分析则考虑到多个研究对象,但是却未利用到某个元素特殊的信息。

故本文提出的方法将时序数列分析和回归学习的方法结合在一起:首先考虑多个研究对象的总体的信息,选择一个恰当的预测模型,然后再利用某个研究对象的特殊的信息来选择特定的模型参数。

(3)      学习算法

本文将这种动态选择模型的算法定义为DML(dynamicmodel learner)

我们先将数据分为训练集和有效集,训练集用于建模,有效集用于测试,最后计算均方误差(MSE),均方误差公式如下:


我们先选取一些研究特征具有最小均方误差的参数作为模型的索引,再利用决策树方法产生一个分类器C,再利用分类器C对目标对象进行预测。具体算法描述如下:


(4)      时域特征

本论文一共提取出了时序数列的937种特征并且将时域特征分为三类:

<1>聚合特征:主要为最大值、最小值、平均值、周期性、突发事件数目、持续时间等等

<2>形状特征:主要满足旋转和尺度不变性。故将时域转换到频域,再求倒频系数,以此作为时序数列的形状特征。

<3>特定域特征:针对查询-点击对,定义了一个查询-点击熵,定义如下:


Click(ui,q)表示查询q点击ui的次数。另外:本论文用了标准的话题分类器ODP(open directory project)

 

<5>检测周期性

在周期性模型中,检测周期性主要是利用自相关系数。自相关系数如下:


选取一个恰当的阈值W,如果自相关系数大于W,则可判定为周期的。而且根据实验得出,h的值最后选择每周、每月、或者每年。

<6>检测突发

   我们认为如果数据中出现突发,则残差值就不再是线性的。我们根据残差值的变化来检测突发事件以及突发事件持续的时间。

我们定义了一个impact:


只有拥有较长的impact才会被认为是突发事件。

  并且我们定义了一个贪心过程加入了突发事件从影响力最高到最低的位置信息,并且通过BIC准则来计算模型的增长,当模型停止增长则输出突发事件。

算法过程如下图:

 

三、实验设计

本文主要设计了三个实验:1、预测 2、周期性检测 3、突发性检测

(1)主要关注的查询类型:

1、总体查询,即关注总查询次数。首先实现总查询次数的预测。

2、时域的查询。时域的查询又分为动态查询和时域的重制查询。

动态查询是指需要一些特殊时间点的更新数据的查询;

时域重制查询是指一些非常清晰地指向一段时间的查询。

3、     交替查询。交替查询是指用户在点击URL时发生改变的行为                    

得到的经验是:数据的预处理很重要!先将数据分类,确定要研究的对象,这一点很重要!

(2)用户行为预测的基础模型

本论文中还将提出的预测模型与用户行为预测的基础模型做对比:

用户搜索预测模型的基本方法定义如下:


其中W(I,yi)为时域权重函数

四、实验结果分析

本文通过对前面四种改进的Holt-Winters模型、DML模型、基础类模型等进行对比得到实验结果。

五、预测实验

(1)总查询次数预测

1、  预测查询次数:DML模型是所有预测模型中性能最好的。

2、  预测URL点击次数:DML模型在预测动态查询和时域重制查询时性能最优。

3、  预测查询-URL对的点击次数:在时域模型中,交叉突发事件的平滑模型对动态的查询次数的预测性能最好。

(2)周期性检测实验

检测周期性时将自相关系数模型和基础模型做对比,得出结论是:本文提出的自相关系数模型和基本模型召回率上的最大值都相同;而在相同的召回率下,自相关系数模型的精确度比基本模型提高了15%。

(3)突发事件检测实验

本论文将突发性检测算法与基础模型中的检测峰值的方法进行比较,得出的结论是:本文中的突发性检测算法精确度高但是召回率低。

分析原因:检测峰值的方法有可能检测到的是噪声而不是突发事件,因此我们还是趋向于本文提出的突发性检测算法要优于峰值检测算法。

 

 

 

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

用户行为预测论文summay 的相关文章

  • 老Java程序员花两天做了个消消乐(天天爱消除)

    老Java程序员花两天做了个消消乐 天天爱消除 引言 一直就想做一个消消乐 这次正好找到了素材 就自己琢磨写了一个 我觉得这个游戏难点就在消除 以及消除后的下落 其他的地方也就还好 这次做完了写个文章大家唠一波 效果图 实现思路 1 绘制窗
  • PostgreSQL

    PostgreSQL 是一个免费的对象 关系数据库服务器 ORDBMS 在灵活的BSD许可证下发行 PostgreSQL 开发者把它念作 post gress Q L PostgreSQL 的 Slogan 是 世界上最先进的 开源关系型数
  • VMware16虚拟机安装及配置(保姆级教程),这一篇就够了

    1 虚拟机VMware的下载官网地址 https www vmware com cn html VMware 安装 1 打开下载好的 exe 文件 即可开始安装 2 点击下一步 3先勾选我接受许可协议中的条款 然后点击下一步 4 自定义安装
  • 05-----撤销add,commit,push的方法(包括如何删除已经push到远程库的单个文件或者文件夹)

    1 撤销add添加的多余文件 git reset filename 撤销add到缓冲区的部分文件 2 撤销commit的多余文件 git log 先使用查看已经提交的commitId节点 git reset commit id 回退到上一个
  • 为什么我选用了springcloud而不是dubbo

    写好的代码越来越满足不了需求 因为需求总是在不断的变化 在技术选型时 实在是心有余而力不足 思来想去 就考虑了使用微服务架构来实现 功能模块化 今天主要讲讲为什么需要微服务架构 还是以故事的形式呈现 一 认识微服务 阶段一 单体服务 话说小
  • C语言密码破译

    请用C语言编程序将 China 译成密码 密码规律是 用原来的字母后面第4个字母代替原来的字母 例如 字母 A 后面第4个字母是 E 用 E 代替 A 因此 China 应译为 Glmre 请编一程序 用赋初值的方法使 cl c2 c3 c
  • IntelliJ IDEA(编码篇):集成Junit4插件,快速生成测试类

    目录 安装JUnitGenerator V2 0 修改JUnitGenerator V2 0的配置 生成JUnit4测试用例 注意 安装JUnitGenerator V2 0 1 通过网络安装 如下 2 手动下载插件安装 插件下载 http
  • 全网最简单解决方式1045-Access denied for user root@localhost(using password:YES)

    最近 Javaweb小学期 和 数据库小学期 答辩 极限赶大作业 唉 1045 Access denied for user root localhost using password YES 连接数据库时出现了这个问题 网上大概有3种解决
  • React Hooks:Effect无限回调踩坑

    场景 我的目的是通过Effect来模拟组件的componentDidMount 在渲染完成之后 通过setTimeout来处理操作 向keyIndex中push一个新的元素 并更新keyIndex 但是这个操作我确定只会执行一次 错误代码如
  • a和ajax跳转页面,ajax 页面跳转

    ajax 页面跳转 内容精选 换一换 面包屑组件 是项目中常用的一种组件 结构大致是 首页 菜单1 菜单2 菜单3 接入配置完成后 伙伴可以在能力开放页面配置伙伴平台回跳地址 以便于客户在完成订单支付后能返回到伙伴销售平台或者客户支付订单需
  • 适合下班后的副业,4个比较实际的副业兼职

    每一个上班族 都有一个发财的梦想 希望可以通过自己的努力 让领导看到自身价值 得到赏识 快速升职加薪 赚得盆满钵满 这样是不错 而且不少上班族单纯依靠工作就实现了这样的梦想 但是对于绝大部分普通人来说 还只存在于 想 如果现有的工作暂时没有
  • pdf注释上锁_如何在iPad上突出显示和注释PDF

    pdf注释上锁 Khamosh Pathak Khamosh Pathak The iPad is a great way to read PDFs but what if you want to highlight parts of it
  • STM32采用普通的IO口来测量PWM的频率

    STM32测量外部输入信号的频率的方法有很多 采用内部定时器输入捕获功能 采用普通的IO口设置外部中断 定时器的当时测量PWM信号的频率 这两种方式比较推荐使用第一种 比较使用内部的资源可以节省CPU资源的利用 当然当内部资源不够使用的时候
  • Unity LensFlares(镜头炫光)踩坑以及解决总结

    镜头光晕 Lens Flares 模拟相机镜头内的折射光线的效果 主要作用就是让太阳光 其他光源更加真实 Build in Build in管线中 可以直接添加Lens Flare组件即可获得效果 URP 2019 在Unity2019版本

随机推荐

  • 【mcuclub】CO2及TVOC检测-SGP30

    一 实物图 二 原理图 编号 名称 功能 1 VCC 电源正 2 GND 电源地 3 SDA 串行地址和数据输入 输出 4 SCL 串行时钟输入 三 简介 SGP30是一款单一芯片上具有多个传感元件的金属氧化物室内气体传感器 内部集成4个气
  • 电赛分几种_参加电赛需要具备哪些知识呢?

    本文转载自 微信公众号 47竞赛 ID gh 1814a7d91c55 经微信公众号授权转载 如需转载与原文作者联系 电赛需要准备哪些知识呢 先分析一下电赛的题目 你会发现 题目主要分为控制类 仪器仪表类 信号源类 电源类 放大器类 高频通
  • QT 布局,控件自适应大小 自动缩放 自动布局

    目录 前言 1 先来说简单的布局控件自适应 说明我们实现了自动布局 3 通过代码设置控件自动缩放重写resizeEvent 4 源码 https upload csdn net creation uploadResources 866208
  • 第1章 用物理模型进行高效的水模拟

    一 用物理模型进行高效的水模拟 一句话概括 基本网格的几何波动 动态法线贴图 1 1现状 1 快速傅里叶FFT在大中尺寸栅格取得逼真效果 并能适用于顶点shader和像素shader 2 能基于体素 Voxel 对简化的Navier Sto
  • 在培训班里学IT技术是否有用?和大家分享相关IT培训班里五大常见宣传手法、相关优势与实际效果

    目录 Introduction 引言 IT培训班常见宣传手法 培训班的优势 如何评判IT培训班的效果与质量 除IT培训班之外的学习渠道 总结 其它资料下载 Introduction 引言 随着信息技术的飞速发展 学习IT技术成为许多人追求职
  • win10搜索大文件

    直接在资源管理器的搜索框中敲 size gt 1G win 10计算机查找大文件 教你如何在Win10系统中查找大文件
  • WIN+R 实用大总结

    文章目录 cmd 与管理员cmd 打开网络共享中心 ncpa cpl 打开画画 mspaint 打开系统配置 msconfig 打开设备管理器 devmgmt msc 打开远程桌面连接 mstsc 任务管理器 taskmgr 系统属性 sy
  • Win10+vs2017 webrtc下载和编译

    现在使用webrtc的小伙伴越来越多 我也来凑凑热闹 第一步自然是下载源码 其实官网上面写的还是蛮详细的 只是环境搭建稍稍复杂了点 再加上国内不能访问google 所以简单的事情就变得复杂起来 我就按照官网上面的流程给大家简单介绍下 具体细
  • Flink Web UI 介绍

    一 提交flink任务到yarn flink run m yarn cluster yn 1 p 2 yjm 1024 ytm 1024 ynm FlinkOnYarnSession MemberLogInfoProducer d c co
  • 金蝶生成凭证模板_金蝶精斗云产品的优势

    1 金蝶精斗云产品免维护安装 产品免安装 免维护 免年结 自动升级 账号式授权加密 自动备份 会计归档 不需要固定的服务器 e64845f06572190e4634c2be37ab9ee9 png 2 金蝶精斗云系统凭证便捷生成 图片 PD
  • 反接保护电路:

    反接保护电路 通常我们的电子产品 为防止用户将正负极接反 会对接口做防反接保护 比如接口做成梯形或者开个缺口 反了不容易插进 但你真的永远不知道你的产品用户是萌妹纸还是暴力怪蜀黍 最终 这些防接反设计还是被突破了 被暴力插了进去 插进去了
  • uboot联网以及uboot重启问题

    一 配置uboot联网 虚拟机联网 配置uboot联网 1 配置uboot环境变量 setenv ipaddr 192 168 10 50 开发板ip地址 setenv ethaddr 00 04 9f 04 d2 35 mcu期间地址 多
  • ESP8266 CUT HERE FOR EXCEPTION DECODER解决办法

    串口log信息 CUT HERE FOR EXCEPTION DECODER Soft WDT reset gt gt gt stack gt gt gt ctx cont sp 3ffffd40 end 3fffffc0 offset 0
  • java使用多线程同时插入数据库数据例子

    今天自己在家准备面试内容 写了个java使用多线程往mysql数据库插入数据的例子 总结 不管数据库引擎是MYISAM还是InnoDB 情况都是 没有线程池的情况下就不说了 一直创建数据库连接一会就出错了 基本对于上万条的数据插入不可用 使
  • vue2的响应式

    结合源码分析一下vue的响应式 之前对于响应式 只是简单 很表面上的认识 知道vue的响应式主要通过Object defineProperty 方法来进行数据劫持以及发布者 订阅模式来实现的 但是如何进行数据劫持呢 发布订阅者模式又是什么呢
  • 安装pygame

    在学习了一个学期的python之后 我决定对pygame下手了 首先要安装pygame 对于一个计算机小白 安装的过程就比较的痛苦 但是怎么说 查阅了各方资料 好歹是安装完毕 预备条件 win10 python3 9 7 打开cmd win
  • 【vue2】按需引入多个组件的写法

    可以使用component标签 is 组件名 dialogTitle dialogTitle 和 rowInfo offlineRow 就是父给子传值的写法
  • 汽车雷达-综述

    目录 1 简介 2 发展史 3 技术参数 4 采用SIGe毫米波T R组件 5 汽车雷达中主要的信号处理单元 5 1 远程雷达 5 1 1 总体框图 5 1 2 FFT 5 1 3 DOA估计 5 1 3 1 和差测角 5 1 3 2 顺序
  • 多种排序算法(插入、二分法【查找、排序】、选择、冒泡、快速、希尔)

    多种排序算法 插入 二分法 查找 排序 选择 冒泡 快速 希尔 插入排序 function insertSort arr var len arr length for var i 1 i lt len i var key arr i var
  • 用户行为预测论文summay

    用户行为预测论文summary 1 论文名称 Modelingand Predicting Behavioral Dynamics on the Web 2 论文作者 KiraRadinskyz Krysta Svorey 3 主要内容 本