广告投放算法:受众行为分析与人群定向

2023-11-09

引言

“物以类聚,人以群分”这句古语不仅揭示了物与人的自组织趋向,更隐含了‘聚类’和‘人群’之间的内在联系。 例如在现代数字广告投放系统中,最为关键的‘人群定向’功能正是通过‘聚类’算法得以实现的。如果您厌倦了隔靴搔痒的空大宣传,不妨就随笔者一起钻进系统内核,抽丝剥茧般探究技术的黑盒,还原受众行为分析的真相。

广告传递信息的受众是每个在浏览器前的自然人,然而互联网上的分析手段无法触达自然人,只能以他们上网的痕迹和记录作为在数字世界中的代表,这就是Cookie. 于是,以物拟人,以物窥人,才是比任何大数据都要更大的前提。明白了这一点,也就触摸到了人群定向的天花板——不可能百分之百精准。

如何从广泛的受众中提炼目标人群呢? 正是依靠受众行为分析。它以cookie为单元,根据cookie的海量历史行为,推断其行为特征,兴趣爱好,并以此为依据,将最合适的、最有可能产生转化的广告展示给用户。受众行为分析一方面能够提高用户对于广告的反馈程度,增加转化率;另一方面能够降低广告主进行广告投放的成本,以更低廉的价格产生最佳的投放效果。

下面我们以易传媒的广告投放算法为例,浅析一下怎样由预先标注的关键词标签,一步步建立完整的受众行为分析模型,挖掘出具有相似行为特征的人群,提炼人群的属性特征,最终进行最合适的广告投放的。

一、 关键词标签

关键词标签从何而来? 从网页中来。一个Cookie会被贴上什么样的标签,是由这个Cookie浏览过的网页等历史行为所决定的。这个预处理过程,大致可分为以下三步:

(1) 记录受众的历史行为,包括产生浏览、点击、搜索、注册、购买等行为的网页地址(URL),积累原始数据;

(2) 以商品内容和新闻内容为导向,建立关键词标签库,作为受众行为分析的基础元数据;

(3) 针对所有受众相关的URL,通过网络爬虫程序和语义分析(分类和关键词提取),生成每个cookie的初始标签集合。

定义1:关键词标签模型

[关键词标签模型] 定义为一个由多元组 ,其中:

  • tagid 标签标识,每一个关键词都有唯一的一个id与之对应
  • 使得用户产生浏览(view)操作的网页中含有标识为tagid的关键词数量
  • 使得用户产生点击(click)操作的网页中含有标识为tagid的关键词数量
  • 使得用户产生搜索(search)操作的网页中含有标识为tagid的关键词数量
  • 使得用户产生注册(register)操作的网页中含有标识为tagid的关键词数量
  • 使得用户产生购买(purchase)操作的网页中含有标识为tagid的关键词数量

如图1所示,在每个关键词标签模型中,考察多种典型用户行为,如:浏览,点击,搜索,注册和购买等其它行为。在图中,每个标签就像是一根竹签,上面串着五粒或更多的糖葫芦。举例来说,关键词标签 Valentino (id为1) 的模型 表示在用户浏览的网页中共含有关键词Valentino 100个,在他/她点击过的页面中含有关键词Valentino 5个,而在他/她进行购买下单的页面中含有1个关键词Valentino。这个标签表征该用户对奢侈品品牌Valentino有相当的兴趣和关注度。

大数据图1 关键词标签及受众对象

从上述关键词标签模型可以看出,通过提取用户感兴趣的特征标签集合,并以此为依据进行广告精准投放,主要的优点在于:

能够细颗粒度地刻画出受众对某件事务或者领域的兴趣程度,从而使得投放更加精准。

可以实现“协同过滤”的功能,即利用受众类别之间相似性,预判出受众潜在的购买意向。

二、 受众对象模型

关键词标签模型记录了最原始关键词信息,将爬虫所得的非结构化文本抽象成为结构化的标签信息。接下来对标签的五个行为计数器进行加权归一化处理,遍历受众的全部关键词标签,量化每个关键词标签对于受众的重要程度,就形成了受众对象模型。

定义2:受众对象模型

[受众对象模型] 定义为一组以tagid递增排序的关键词标签模型以及权重的集合,

其中:

  • pointid 受众对象标识,与cookieid一一对应
  • 受众标识为pointid的第i个关键词标签模型
  • 关键词权重映射函数,刻画关键词对于受众的重要程度
  • 即关键词权重系数属于范围之内

如图1所示,受众对象模型刻画的是受众Cookie的历史行为特征,而其维度就是不同的关键词标签,通常可达几十个乃至上千个维度。这就好比一杆草桩上密密麻麻地插满了不同口味的糖葫芦。映射函数使得标签的行为被加权归一化,可以根据不用的业务需求进行设计。一般而言,购买行为是最强的信号,权重最高;点击则属于次强级别,表明用户的主观兴趣,有明确的目的去了解相关信息;而浏览在很多情况下是被动行为,故权重值最低。

在第一节的例子中, 假设白领女性Amanda的cookie ID为1, 拥有关键词标签Valentino: , 被加权归一化后系数;同时, Amanda还拥有另一关键词标签宝马微型车品牌Mini Cooper: , 则被加权归一化后可能有(点击行为的权重比浏览高);此外受众A还拥有其它一些标签,但权重系数比较低。那么该受众Amanda的模型就可表示为。至此,自然人的兴趣属性和特征,通过其浏览器Cookie为代表,经过上述建模手段被抽象和重构出来了。

受众对象模型是受众聚类的原子单元,可以形象地理解为多维聚类空间中的一个“点”。通过受众聚类算法,将含有相似关键词标签集合的用户聚合在一起,就组成了受众聚类模型。

本文介绍的整个受众行为分析的模型流程图如图2所示:

图2 受众行为分析模型流程框图

三、 聚类模型和算法

累积受众对象模型后,我们已经坐拥成亿量级的受众‘矿山’,其中每块矿石具有几十乃至上千的标签维度。 如何才能有效地开采矿山,提炼金子呢?这得有请在计算机届鼎鼎有名的数据挖掘工:聚类(Clustering)。聚类是一个将数据集划分为若干类的过程。聚类的宗旨和评判标准是使得同类对象相似度尽可能大,而各个类之间的相似度尽可能小。相似或不相似的描述是基于数据描述属性的取值来确定的,通常是用各对象在多维空间中的距离来表示。

定义3:受众聚类模型

[受众聚类模型] 定义由3个部分组成

其中:

  • clusterid 受众聚类标识,每一个受众聚类都有唯一的一个id与之对应
  • mean 聚类中心,,刻画受众聚类共有属性特征
  • 人群集合,所有属于标识为clusterid的受众对象集合

常用的聚类分析算法大致包括划分方法,分层方法,基于密度的方法和基于网格的方法等几类。易传媒的投放系统所搭建的受众行为分析模型借鉴了CURE (Clustering Using REpresentatives) 层次聚类算法,并在其基础上参考了其他聚类算法(例如:BIRCH等),融合改进,试图使整个聚类算法更加符合实际的广告业务需求。CURE算法将分层方法与划分方法结合到了一起。它克服了偏向发现相似大小和圆形形状聚类的问题;同时在处理高维数据和异常数据时也表现得更加高效稳定。相比其他算法,CURE算法主要有以下几个优点:

  • 通过使用“代表点”表示一个聚类,从而使得聚类算法能够适应各种不规则形状的类,而不仅仅是球形的。
  • 通过因子将代表点向聚类中心进行收缩,从而使聚类算法抵抗离群点的能力更强。
  • 通过随机抽样和划分技术,使得CURE算法能够处理超大规模的数据,以加快聚类算法的执行效率。

为了验证该模型的可靠性,易传媒技术团队根据统计学中一些经典的方法设计了验证系统,结果证明误差被控制在一个比较理想的范围内。

定义4:聚类效果指标

设受众模型总数为n,聚类将所有受众分成k类, 。

令W为所有受众距离聚类中心的总离差平方和。

为类中受众距离各自中心的离差平方和。

则有统计指标 =。

该指标的取值范围在0与1之间,它总是随着分类的个数减少而变小,而类的个数进一步减少不应以大为减小作为代价。测试结果的值在0.80左右,这表明易传媒这套算法的聚类效果比较好。

继续前面的例子,已有受众A ,若还有受众B ,受众C 等等。他们有极其相似的标签属性,并且规模足够大,那么运行聚类算法后,很可能会产生一个独立的受众聚类。这个受众聚类包括了相当数量的类似受众,其聚类属性就是标签集合”Valentino&Mini Cooper”。这个人群就是经过多道工序处理之后,数据挖掘工最终给我们淘出的亮灿灿的金子。

四、 人群定向投放

作为人群定向广告正式投放前的最后一步,受众聚类和结构化的人群分类将进行匹配映射。这种映射是利用二者标签集合的重合度来实现的。 其结果,受众聚类可能被同时映射到人群分类“奢侈品-Valentino”,“汽车-宝马”和“汽车-微型车”。根据第一节所述关键词模型的优势,它至少有如下两个用途:

当一个投放策略的人群定向选择了“奢侈品”或者“汽车”时,广告允许被指定投放给受众聚类所包含的Cookies.

利用两个标签在一个细分人群中的内在关联性,推测喜欢Valentino的人对Mini Cooper也感兴趣,可尝试进行交叉投放,例如把Mini Cooper的广告投放给曾购买过Valentino商品的回头客,反之亦然。

结语

综上所述,基于关键词标签和自然聚类的受众行为分析具有很强的扩展性和实用性。易传媒持续大量的实践统计结果表明这套受众行为分析方法使得人群定向的精准度相比于原始的分类标签法提高了30%以上。 并且,易传媒在所有涉及受众行为分析的产品中都已推广这一技术方法,包括防作弊监控和人群自然属性分析等。通过搭建这样的统一分析平台,能将所有采集到的受众信息最大限度地整合利用起来,产生规模效应。对于广告需求方来说,借助这样先进的行为定向技术,同时结合地域,人口属性定向,回头客定向等手段,多管齐下,将大大提高广告投放的精准度和投资回报比,切实做到有的放矢。

by:易传媒

End.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

广告投放算法:受众行为分析与人群定向 的相关文章

  • 蓝桥杯2022年第十三届嵌入式详解

    此前也发了关于蓝桥杯的题目 昨天刚比完赛 放松了一下 没来得及整理 早上我就把我所有的思路整理了一下 发出来 希望能帮到大家 当然也有很多不足的地方 希望大家能提出 我们一起讨论 首先 关于题目的功能 我基本全部实现 一开始发题目 花了10
  • 大数据——Hadoop 知识点整理

    目录 1 大数据的特点 4V特征 2 谈谈 Hadoop 的优缺点 3 为什么 HDFS 不适合存小文件 4 Hadoop 的核心组件有哪些 并说明下功能 5 Hadoop 与关系型数据库对比 6 如果集群中 DataNode 出现错误 比
  • Mac使用Sequel Pro技巧

    智能提示 即auto completion功能 太慢 解决方法 performance gt query editor的auto completion下有delay by的选项 可以改为0 5 连接数据库 Add to Favorites
  • I2C基本概念讲解(时序,架构,速率)

    一 什么是I2C I2C是一种同步串口总线的协议 由NXP公司设计 主要的架构为一主多从 为什么IIC是同步串口总线 因为它是通过两根线在主控制器和从机进行通讯 一根为同步时钟线 SCL 一根为串行数据线 SDA 两根总线需要上拉电阻 总线
  • qml 静态编译程序执行错误 无法定位程序输入点 CreateDXGIFactory2 于动态链接库 dxgi.dll 上...

    重新编译 qt 静态库即可 或 删除该动态库 no feature d3d12 解决方案请参考如下网址 https forum qt io topic 78380 entry point not found the procedure en
  • 面Android的时候要想些什么

    http blog zhuimengfb com 2017 04 23 E9 9D A2Android E7 9A 84 E6 97 B6 E5 80 99 E8 A6 81 E6 83 B3 E4 BA 9B E4 BB 80 E4 B9
  • 再见,深圳。

    春去秋来 我已离开深圳好长一段时间了 回首最近的一年 就像是一场梦 一场让我无法忘记的梦 2011年6月份 我辞去了原先的工作 开始了新的职业旅程 其实在这之前的几年 我一直想从事软件业 可惜不得其门而入 仔细想想 根本的原因是自己把行业的
  • 最简易操作:让vscode终端支持x11图形化界面

    1 配置vscode ssh远程连接服务器 略 在vscode中远程 ssh 右键ssh打开ssh配置文件 添加以下三行 Host HostName User ForwardX11 yes ForwardX11Trusted yes For
  • 【驱动】ina3221 德州仪器3通道电流采样芯片驱动

    说明 基于stm32f103的ina3221电流采样芯片驱动 使用LL库进行开发 已经过验证 INA3221 是一款三通道 高侧电流和总线电压监视器 具有一个兼容I2C 和SMBUS 的接口 INA3221不仅能够监视分流压降和总线电源电压
  • 14、RGB和YCbCr颜色模型

    1 RGB颜色模型 RGB颜色模型就是用红 R 绿 G 蓝 B 三种颜色的混合 从而实现各种颜色的表示 混合得到的颜色如下图所示 可以看出用不同的颜色进行混合 可以得到其他的色彩 三种颜色同时存在时得到的是白色 一种色彩都没的时候得到的是黑
  • python numpy 找出第二大/小的数/索引

    对于numpy我们很容易通过np max或者np argmax找到最大的数 但是如何定位第n大的数呢 百度一下 python找第二大的数方法 居然是将找到最大值复制为最小值后 再找出最大值 显然这个方法也太不智能了 正解如下 import
  • pytorch网络冻结的三种方法区别:detach、requires_grad、with_no_grad

    pytorch网络冻结的三种方法区别 detach requires grad with no grad 文章目录 pytorch网络冻结的三种方法区别 detach requires grad with no grad 1 require
  • Android新闻论坛app(IDEA,SpringBoot,SSM,MySQL)+全套视频教程

    项目功能介绍 本系统包含后台管理和前端app双端系统 后台管理的功能包含 登录 退出 修改管理员信息 基本信息与头像 资源管理 角色管理 资源权限分配 字典管理 用户管理 新闻管理 app端功能 登录 退出 动态 发布动态 点赞 评论 新闻
  • 代码随想录算法训练营19期第46天

    139 单词拆分 视频讲解 动态规划之完全背包 你的背包如何装满 LeetCode 139 单词拆分 哔哩哔哩 bilibili 代码随想录 初步思路 动态规划 总结 单词就是物品 字符串s就是背包 单词能否组成字符串s 就是问物品能不能把
  • 图的点,边和度之间的关系

    有向图 1 所有顶点的度数之和 等于 边数的二倍 2 所有顶点的入度之和 等于 出度之和 3 n个顶点的有向完全图有n n 1 条边 4 n个顶点的强连通图至少有n条边 无向图 1 所有顶点的度数之和 等于 边数的二倍 2 n个顶点的无向完
  • 双目相机标定——从MATLAB到OpenCV

    说明 本文章属于转载内容 若有侵权 请联系删除 原文链接 https zhuanlan zhihu com p 153329285 原文链接 OpenCV和MATLAB均能对双目相机进行标定 但两者都各有优缺点 OpenCV标定的结果更方便
  • ssh服务器:安装,启用查看 (***)

    如何查看ssh服务是否开启 ssh服务器 安装 安装 ssh 命令行安装 sudo apt install ssh synaptic安装 安装之前 安装之后 开饭端口 开饭防火墙 及其他 ssh使用 如何查看ssh服务是否开启 https
  • win10开机“正在准备自动修复”,且无法修复你的电脑

    昨天一顿操作 先是快速启动 后来又觉得快速启动没用又关掉了 第二天过来 发现电脑开不起来了 进到里面怎么自动修复不得行 网上大多数的答案是重装 经过半天努力摸索 终于修好了 原理就不想深究了 准备 一个U盘 并且制作PE系统 修复历程 1

随机推荐

  • 虚拟机可以ping主机却无法ping www.baidu.com

    通常这种情况是DNS出问题了 查看主机IP 命令 ipconfig 看虚拟机网络配置 发现果然是DNS错了 多写了一个I 改过来看看是否可以ping百度 记得要先重启网络哦 成功
  • C# SuperSocket 手把手教你入门 傻瓜教程---2(服务器和客户端双向通信)

    C SuperSocket 手把手教你入门 傻瓜教程系列教程 C SuperSocket 手把手教你入门 傻瓜教程 1 服务器单向接收客户端发送数据 C SuperSocket 手把手教你入门 傻瓜教程 2 服务器和客户端双向通信 C Su
  • sql server服务器物理内存满,解决内存不足问题

    解决内存不足问题 12 21 2017 本文内容 适用于 SQL Server 所有支持的版本 SQL Server 内存中 OLTP 相比 SQL Server 随着需求的不断增加 为 内存中 OLTP 安装和分配的内存量可能会不足 这时
  • 需求分析之矩阵分析法

    如何划分优先级 理解需求 矩阵分析法 理解需求 什么是需求 需求就是用户对目标软件系统的功能 行为 性能 设计约束等方面的期望 什么是需求分析 需求分析是一个发现需求到定义需求的一个过程 矩阵分析法 需求分析李的矩阵分析法主要帮助产品人员用
  • Qt 模型视图编程之增删行列

    背景 Qt 模型视图编程中模型定义了标准接口对数据进行访问 可根据需求继承对应的抽象模型类来实现自定义的数据模型 一个基本的数据模型至少要实现以下虚函数 rowCount 行数 返回要显示多少行 columnCount 列数 返回要显示多少
  • slf4j中的MDC

    一 slf4j中MDC是什么 slf4j除了trace debug info warn error这几个日志接口外 还可以配合MDC将数据写入日志 换句话说MDC也是用来记录日志的 但它的使用方式与使用日志接口不同 在使用日志接口时我们一般
  • 简易多元线性回归学习

    目录 多元线性回归 一 问题分析 二 数据预处理 excel 1 数据清洗 2 数据全数值化 三 使用EXcel回归 回归实现 回归分析 四 使用代码实现回归 Statsmodels 1 数据处理 2 绘制热力图探讨价格与其他之间的联系 3
  • ceph安装部署

    Ceph 简介 存储基础 单机存储设备 单机存储的问题 分布式存储的类型 分布式存储 软件定义的存储 SDS Ceph 架构 Ceph 核心组件 编辑 Pool中数据保存方式支持两种类型 OSD 存储后端 Ceph 数据的存储过程 Ceph
  • 灰度发布是什么?

    在如今的互联网时代 大厂都是采用灰度发布的策略进行应用线上部署的 如果身在小公司的测试同学想进入大厂 那么灰度发布就是大家必须要了解的知识点了 希望通过本文能够帮助大家快速的理解什么是灰度发布 并让大家了解研发 运维 测试 运营是如何在这一
  • pnpm与npm和yarn的区别

    作为一名前端程序员 对npm和yarn这两个包管理器一定不陌生 那么你听说过pnpm么 它到底是个什么东西 和npm还有yarn有什么区别 又有什么作用呢 本文就将解决以下这几个问题 pnpm是什么 有什么作用 pnpm有什么优势和特点 p
  • 国产中标麒麟系统-docker安装

    背景 中标麒麟的 华为国产机器 需要安装docker 但是在线安装老是失败 可能操作不对 离线安装可以的 不管怎么样 安装成功就是目的 系统架构是aarch64 如果你是其他系统架构 按照这个步骤离线安装是可以的 不过安装包需要换一下相应路
  • Spring 事务管理

    http www redsaga com spring ref 2 0 html transaction html transaction declarative 9 1 简介 Spring框架引人注目的重要因素之一是它全面的事务支持 Sp
  • 如何不让访问php文件路径,防止别人通过路径查看你的模板文件方法汇总nginx篇...

    为了防止别个盗取你辛苦的模板 做一个安全防护还是有必要的 之前的一篇已经介绍了apache下如何禁止的办法 这一篇将介绍nginx下的方法 通过nginx一般都是通过配置文件nginx conf配置来禁止用户访问的 1 禁止访问corefr
  • Excel大数据量单元格快速填充

    个人简介 一个从会计转行数据分析师的三旬老汉 擅长领域 数据分析 数据仓库 大数据 博客内容 平时会将自己工作中遇到的问题进行归纳总结 分享给各位小伙伴 意在帮助大家少加班 不掉发 让我们相互学习 一起进步 文章目录 前言 一 填充 一 编
  • C51教程 第三个51程序:数码管显示

    keil proteus 第三个51程序 让数码管循环显示0 9 这是一个AT89c51单片机教程 我们每次都会提供博文教程以及附带资料下载 单片机就是一个小型CPU 在电子领域应用广泛 电视 冰箱 洗衣机 空调等产品中都能见到他们的身影
  • 【C语言】让你不再害怕指针——C指针详解(经典,非常详细)

    目录 前言 复杂类型说明 一 细说指针 1 指针的类型 2 指针所指向的类型 3 指针的值 或者叫指针所指向的内存区或地址 4 指针本身所占据的内存区 二 指针的算术运算 三 运算符 和 四 指针表达式 五 数组和指针的关系 六 指针和结构
  • GPT专业应用:如何让GPT策划方案

    身为一名职场打工人 或多或少会面临需要写策划案的难题 不管是策划一场线下活动 还是策划业务发展的方向 甚至到生活中还需要策划婚礼 策划房屋装修 策划和朋友的聚会等等 那么如何快速积累经验 找准方向便成为了不可或缺的技能 在这里 我们将介绍如
  • python输出最长字符串_使用Python打印最长的字母子字符串,并打结...

    我将通过以下方式解决该问题 gt 让我们定义两个字符串 当前字母递增的字符串和当前最长的字符串 gt 两个字符串都以第一个字母初始化 这样我们就可以随时阅读他们的最后一封信 gt 然后遍历输入字符串s 从第二个字符开始 gt 如果当前字符c
  • 合并两个有序单链表(Java)

    思想 准备两个链表l1和l2 判断是否有链表为空 如果l1为空 则不用比较直接返回l2 如果l1为空 则直接返回l2 比较l1和l2节点 选出最小的那个节点 将该节点设为合并后的链表的head 头 节点 同时将指向该节点的l1或l2后移 方
  • 广告投放算法:受众行为分析与人群定向

    引言 物以类聚 人以群分 这句古语不仅揭示了物与人的自组织趋向 更隐含了 聚类 和 人群 之间的内在联系 例如在现代数字广告投放系统中 最为关键的 人群定向 功能正是通过 聚类 算法得以实现的 如果您厌倦了隔靴搔痒的空大宣传 不妨就随笔者一