如何计算留存率（Hive Sql or Spark sql）

2023-11-09

在互联网行业中，用户在某段时间内开始使用应用，经过一段时间后，仍然继续使用该应用的用户，被认作是留存用户，这部分用户占当时新增用户的比例即是留存率，会按照每隔1单位时间（例日、周、月）来进行统计。顾名思义，留存指的就是“有多少用户留下来了”。留存用户和留存率体现了应用的质量和保留用户的能力，那么我们怎么样计算留存率呢？看下面这个例子：

如上示例所示，我们如何通过Hive Sql 或者 Spark Sql 解决这个问题呢

我们将问题拆开，先求某一天的数据，比如我们求20180501 这一天的的用户活跃数，次日留存用户数，三日留存用户数，七日留存用户数：SQL如下：

select a.dayno 日期,
count(distinct a.uid) 活跃用户数,
count(distinct b.uid) 次日留存用户数,
count(distinct c.uid) 三日留存用户数,
count(distinct d.uid) 七日留存用户数
from act_user_info a
left join act_user_info b on a.uid = b.uid and b.dayno = a.dayno + 1
left join act_user_info c on a.uid = c.uid and c.dayno = a.dayno + 3
left join act_user_info d on a.uid = d.uid and d.dayno = a.dayno + 7
group by a.dayno

我们知道：留存率= 某日新增的用户数，过后几日还登录的用户数 / 某日新增的用户数*100% ，由此我们可以得出

select  aa.dayno 日期,
  aa.活跃用户数,
  aa.次日留存用户数,
  aa.三日留存用户数,
  aa.七日留存用户数, 
concat(round(100 * 次日留存用户数/活跃用户数, 2), '%') 次日留存率,
concat(round(100 * 三日留存用户数/活跃用户数, 2), '%') 三日留存率,
concat(round(100 * 七日留存用户数/活跃用户数, 2), '%') 七日留存率
from (
select a.dayno 日期,
count(distinct a.uid) as 活跃用户数,
count(distinct b.uid) as  次日留存用户数,
count(distinct c.uid) as 三日留存用户数,
count(distinct d.uid) as 七日留存用户数
from act_user_info a
left join act_user_info b on a.uid = b.uid and b.dayno = a.dayno + 1
left join act_user_info c on a.uid = c.uid and c.dayno = a.dayno + 3
left join act_user_info d on a.uid = d.uid and d.dayno = a.dayno + 7
group by a.dayno
) aa;

至此我们求出了答案，我们对此问题升级：比如需要求如下的值：

180日内的留存

针对这两个问题，我们又该怎么解决。

首先我们理解下题目，7日内的留存，也就是从次日一直到底七日的留存，当然我们也可以利用上面的方式计算，但是上面的方式要是计算180日内的留存就很麻烦了，那针对于这种连续日求留存我们又应该怎么求呢，同理我们先将问题拆分

首先我们需求求出连续7日内的留存数，如下：

select a.dayno 日期,
       (b.dayno - a.dayno) as days,   
count(distinct a.uid) as 活跃用户数,
count(distinct b.uid) as  n日留存用户数,
from act_user_info a
left join act_user_info b on a.uid = b.uid and b.dayno > a.dayno  and b.dayno - a.dayno >=180
group by a.dayno,days
order by days asc

进而我们求出SQL 如下：

select aa.日期,
       aa.活跃用户数,
	   concat(aa.days, '日用户留存'),
	   aa.n日留存用户数,
       concat(round(100 * aa.n日留存用户数/aa.活跃用户数, 2), '%')	 as  n日留存用户数 
from (
select a.dayno 日期,
       (b.dayno - a.dayno) as days,   
count(distinct a.uid) as 活跃用户数,
count(distinct b.uid) as  n日留存用户数,
from act_user_info a
left join act_user_info b on a.uid = b.uid and b.dayno > a.dayno  and b.dayno - a.dayno >=180
group by a.dayno,days
order by days asc) as aa

再进一步，我们如何求出连续180日的活跃用户呢，我们先分析这个问题，连续180日的活跃用户也就是这个用户出现在180日内的每一天，具体sql如下：

select  bb.uid, count(1) as num  from 
(select 
distinct b.dayno, 
         b.uid,		
from act_user_info a
inner join act_user_info b on a.uid = b.uid  and b.dayno > a.dayno 
      and b.dayno - a.dayno >=180) as bb
group by bb.uid	 
where count(1) >=180

至此我们对留存率和留存用户数据的计算到此结束

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

面试

sql

如何计算留存率（Hive Sql or Spark sql）的相关文章

MYSQL 查询返回“资源 id#12”而不是它应返回的数值

不知道为什么但这返回了错误的值我正在取回此资源 ID 12 而不是我正在寻找的数值 1 执行此操作的代码是 type SELECT account type from user attribs WHERE username userna
如何在TOAD的DataGrid中显示sys_refcursor数据

请我需要帮助我搜索了很多并且变得更加困惑我使用 Toad 9 7 25 并且我做了这个程序在一个包中 PROCEDURE ReportaCC pfcorte IN DATE lcursor IN OUT SYS REFCURSOR I
检查 SELECT 子句中的另一个表中是否存在某个值

我想查询 table1 中的名称并查找 table2 中是否存在名称我有以下查询但它似乎不起作用有什么建议我做错了什么吗 select A name CASE WHEN A name in select B name in tabl
使用 SQL Filestream 时出现 OutOfMemoryException

我正在尝试将大约 600 MB 的 zip 文件上传到 SQL 2008 FILESTREAM 表但出现 OutOfMemoryException 我正在使用 SqlFileStream 类上传文件如本教程中所述 http www ag
ClassCastException：java.util.Date 无法转换为 java.sql.Date

你好我的代码抛出了ClassCastException StackTrace 显示 java lang ClassCastException java util Date cannot be cast to java sql Date a
模式更新后 jOOQ 生成的类的运行时验证？

我用org jooq util DefaultGenerator在构建过程中生成 jOOQ 类来表示我的数据库模式当应用程序运行时架构预计会在应用程序不知情的情况下发生更改此类更改可能与已生成的代码兼容也可能不兼容如何在运行时检测
插入多行并返回主键时 Sqlalchemy 的奇怪行为

插入多行并返回主键时我注意到一些奇怪的事情如果我在 isert 查询中添加使用参数值我会得到预期的行为但是当将值传递给游标时不会返回任何内容这可能是一个错误还是我误解了什么我的sqlachemy版本是0 9 4 下面如何重现错
限制 SQL Server 连接到特定 IP 地址

我想将 SQL Server 实例的连接限制为特定 IP 地址我想阻止来自除特定列表之外的任何 IP 地址的任何连接这是可以在 SQL Server 实例或数据库中配置的东西吗听起来像是你会使用Windows防火墙 http tech
sql查询将两列与一列连接起来

我在 MS Access 2010 中有 2 个表如下所示 USERS u id u name LOAN l id l from ref users u id l to ref users u id l amount Users u id
如何使用PostGIS将多边形数据转换为线段

我在 PostgreSQL PostGIS 中有一个多边形数据表现在我需要将此多边形数据转换为其相应的线段谁能告诉我如何使用 PostGIS 查询进行转换提前致谢一般来说将多边形转换为线可能并不简单因为没有一对一的映射 http
查找 PostgreSQL 中所有范围集合的所有交集

我正在寻找一种有效的方法来查找时间戳范围集之间的所有交集它需要与 PostgreSQL 9 2 配合使用假设这些范围代表一个人可以见面的时间每个人都可以有一个或多个空闲时间范围我想找到all可以召开会议的时间段即所有人都有空的时间
更改迁移中的自动增量值（PostgreSQL 和 SQLite3）

我有一个托管在 Heroku 上的项目想要更改表的自动增量起始值我在本地使用 SQLite3 Heroku 使用 PostgreSQL 这是我在迁移中所拥有的 class CreateMytable lt ActiveRecord Mi
如何在 Visual Studio 中更改 Azure 数据库表的列顺序

我整个下午都在寻找在 MS Visual Studio 2022 中重新排序 Azure 数据库表列的方法没有运气在其他应用程序中可以通过拖动或剪切和粘贴轻松重新排列列这里无能为力此时我什至不确定可以在 VS 中移动列我只对
分层查询

我希望我能够解释困扰我的问题我有以下分层数据集这只是 34K 记录的子集 PARENT ID CHILD ID EXAM TUDA12802 TUDA12982 N TUDA12982 TUDA12984 J TUDA12984 TUD
插入触发器最终在分区表中插入重复行

我有一个分区表我认为适当的INSERT触发器和一些限制不知何故 INSERT语句为每个语句插入 2 行INSERT 一个用于父分区一个用于相应的分区设置简要如下 CREATE TABLE foo id SERIAL NOT NUL
独立对列进行排序，使得所有空值都位于每列的最后

这是一个名为的示例表animal name color fox brown fox red dog gold 现在我想要的是这样的结果 fox dog brown gold red 名称应该是结果的列不同颜色值作为行我的第一个想法是
列中差异的数量

我想检索一列每行中有多少个字母的差异例如如果您有一个值 test 而另一行有一个值 testing 则 test 和 testing 之间的差异为 4 个字母该列的数据值为 4 I have reflected about it an
是否有适用于所有数据库的标准sql

如下所示不同数据库的语法有所不同是否存在适用于所有数据库的标准方法有没有什么工具可以将任意sql转换为任意sql SQL Server 2005 CREATE TABLE Table01 Field01 int primary key
如何从 PostgreSQL 中的时间戳列值提取一天中的时间（或小时）？

我正在尝试从 PostgreSQL 中的时间戳列中提取一天中的时间这是我的做法但是太糟糕了知道如何做得更好吗 SELECT date part hour date demande text hours date part min
Laravel leftJoin 仅右表的最后一条记录

我是 Laravel 的新手我有两张桌子 1 产品 2 价格 products id product int p key name varchar prices id price int p key id product int

随机推荐

接口超时分析

原文接口突然超时 1 网络异常 1 1 网络抖动经常上网的我们肯定遇到过这样的场景大多数情况下我们访问某个网站很快但偶尔会出现网页一直转圈加载不出来的情况有可能是你的网络出现了抖动丢包了网页请求API接口或者接口返回数据
Ubuntu16.04下caffe安装编译全过程（CPU）

caffe是深度学习最好用的框架之一但caffe的安装编译过程相对较复杂本人在安装编译时百度了好几个版本都没有一次成功过因此在此总结一下自己的编译过程本文是在Ubuntu16 04下安装编译caffe 其他版本会略有不同该教程本
com.alibaba.druid.support.logging.JakartaCommonsLoggingImpl.

问题 IDEA调试JDBC出错 com alibaba druid support logging JakartaCommonsLoggingImpl error create connection SQLException url jdb
外包测试3年，离职后成功入职阿里，拿到offer的那天我泪目了...

一提及外包测试大部分人的第一印象就是工作强度大技术含量低没有归属感外包工作三年总体感受就是这份工作缺乏归属感心里总有一种落差进步空间不大接触不到核心技术公司没有针对你的技术培训与探究工作简单业务重复通常是工具人的存在
QDockWidget布局方式

上图为DockWidget多控件效果图 QDockWidget dock QLatin1String Last filters QWidget multiWidget new QWidget QVBoxLayout layout new Q
oracle生成不同uuid,oracle生成uuid

select sys guid from dual gt 78AE331ADB2B4CE7AB598B1317B39D58 但该函数如下问题 1 返回类型为RAW 2 没有 dash 分隔符 3 返回的字母大写为了使产生的uuid符合rf
vue3之createApp分析

函数定义 createApp函数定义在文件 packages runtime dom src index ts中 export const createApp args gt const app ensureRenderer createA
Python 贝叶斯在文本分类的应用案例

关注微信公共号小程在线关注CSDN博客程志伟的博客 1 1 文本编码技术简介 1 1 1 单词计数向量在开始分类之前我们必须先将文本编码成数字一种常用的方法是单词计数向量在这种技术中一个样本可以包含一段话或一篇文章这个样
10种排序算法总结(Python 版)

文章目录 1 冒泡排序 O n 2 2 快速排序 O nlogn 3 简单插入排序 O n 2 4 希尔排序 O n log n 5 简单选择排序 O n 2 6 堆排序 O n log n 7 归并排序 O n log n 8 计数排序
解决keil5编译报错 undefined symbol

在编译keil5 工程时出现报错 xxx axf Error L6218E Undefined symbol xxx referred from xxxo 正常情况下遇到Undefined symbol问题根据经验有以下几种原因 1 c文件
pinia实现持久化存储

pinia的作用是什么 Pinia 是 Vue 的存储库它允许您跨组件页面共享状态如果您熟悉 Composition API 您可能会认为您已经可以通过一个简单的 export const state reactive 这对于单页应用
论文笔记--Attention is all you need

Attention is all you need transformer模型摘要当前的序列转录模型基于encoder和decoder的循环或卷积神经网络较好的做法是在encoder和decoder中间加入一个注意力机制我们提出了一
使用Spyder，导入tensorflow以及相关库出现kernel died等问题的解决方法

自从使用了Spyder之后感觉腰不算了腿不疼了走路都带风了呵呵好吧那是之前使用Spyder给我的感觉就好像一台快报废的电脑重新装了系统一样刚开始顺风顺水可是后来就发现毕竟是老年机容易出现个什么白内障风湿病什么的做一些
离散数学：数学语言与证明方法（练习题）

练习1 1 判断下列命题是真是假 1 x x 答假 x 并不是 x 元素 2 x x 答真 x 是 x 子集 3 x x 答真 x 是 x 元素 4 x x 答假 x 不是 x 子集 5 x 答真是 x 元素但不是任何集合元素
SpringBoot：构建一个SpringBoot项目

文章目录一创建项目 1 点击 File gt Project 2 选择 Spring Initializr 3 填写项目基本信息 5 目录结果 6 pom xml 依赖 7 主函数入口二项目启动测试三项目源码 SpringBo
MongoDB常见问题

问题一还原报错 root mongodb bin mongorestore h 127 0 0 1 27017 d runoob directoryperdb data db runoob 2022 12 19T19 47 23 909
[LeetCode-21]-Merge Two Sorted Lists(有序列表合并)

文章目录题目相关 Solution 不带头结点增加头结点使用递归题目相关题目解读合并两个有序列表并返回新列表原题描述原题链接 Merge two sorted linked lists and return it as a
合并两个有序表到新的有序表

系列目录左右移动旋转数组元素查找两个升序数组的中间数判断数组的某一个元素的数量是否超过了整个数组数量的一半文图介绍将有序数组A和有序数组B合并得有序数组C A 1 2 3 4 5 B 2 3 4 5 6 C 1 2 2 3 3
java什么时候用异常_深入理解Java异常的使用场景

最近在项目代码中遇见异常滥用的情形分析下会带来哪些后果 1 代码可读性变差业务逻辑难以理解异常流与业务状态流混在一起无法从接口协议层面理解业务代码只能深入到方法 Method 内部才能准确理解返回值的行为可看一下代码 publ
如何计算留存率（Hive Sql or Spark sql）

在互联网行业中用户在某段时间内开始使用应用经过一段时间后仍然继续使用该应用的用户被认作是留存用户这部分用户占当时新增用户的比例即是留存率会按照每隔1单位时间例日周月来进行统计顾名思义留存指的就是有多少用户留下来了

如何计算留存率（Hive Sql or Spark sql）

如何计算留存率（Hive Sql or Spark sql） 的相关文章

随机推荐

热门标签

如何计算留存率（Hive Sql or Spark sql）的相关文章