基于产品的RFM模型的k-means聚类分析

2023-11-09

首先我们可以看看数据集的数据形态：
在这里插入图片描述
导入rfm数据，查看数据的统计学参数

df =pd.read_csv('rfm.csv')
df.describe()

在这里插入图片描述
在实施Kmeans聚类之前，我们必须检查这些关键k-means假设
-变量对称分布(不倾斜)
-具有相同平均值的变量
-方差相同的变量

从这个表中，我们发现了这个问题:均值和方差不相等
解决:使用scikit-learn库中的标量来缩放变量

#绘制RFM值的分布
f,ax = plt.subplots(figsize=(10, 12))
plt.subplot(3, 1, 1); sns.distplot(rfm.Recency, label = 'Recency')
plt.subplot(3, 1, 2); sns.distplot(rfm.Frequency, label = 'Frequency')
plt.subplot(3, 1, 3); sns.distplot(rfm.MonetaryValue, label = 'Monetary Value')
plt.style.use('fivethirtyeight')
plt.tight_layout()
plt.show()

在这里插入图片描述

还有另一个问题:变量的不对称分布(数据倾斜)
解决方案:对数转换(仅为正值)将管理倾斜程度

我们使用这些结构化预处理步骤的顺序
1。取消数据倾斜-log转换的倾斜
2。标准化到相同的平均值
3。比例化到相同的标准偏差
4。存储为单独的数组用于分簇

#解决数据倾斜，log transfrom
rfm_log = rfm.apply(np.log, axis = 1).round(3)

# 查看分布
f,ax = plt.subplots(figsize=(10, 12))
plt.subplot(3, 1, 1); sns.distplot(rfm_log.Recency, label = 'Recency')
plt.subplot(3, 1, 2); sns.distplot(rfm_log.Frequency, label = 'Frequency')
plt.subplot(3, 1, 3); sns.distplot(rfm_log.MonetaryValue, label = 'Monetary Value')
plt.style.use('fivethirtyeight')
plt.tight_layout()
plt.show()

在这里插入图片描述

在这里插入图片描述
接下来运用kmeans聚类人群

数据预处理
选择一些集群
对预处理数据运行k-means聚类
分析每个集群的平均RFM值

数据预处理

#标准化变量
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(rfm_log)
#存储导独立的数组里
rfm_normalized= scaler.transform(rfm_log)

选择合适的簇值

肘部判定方法
绘制群集数量与群集内的平方和误差(SSE) -从每个数据点到其群集中心的平方距离的和
在情节中找出一个“肘部”
肘部——代表“最佳”簇数的点

from sklearn.cluster import KMeans

#获取最佳的kmeans
ks = range(1,8)
inertias=[]
for k in ks :
    # Create a KMeans clusters
    kc = KMeans(n_clusters=k,random_state=1)
    kc.fit(rfm_normalized)
    inertias.append(kc.inertia_)

# Plot ks vs inertias
f, ax = plt.subplots(figsize=(15, 8))
plt.plot(ks, inertias, '-o')
plt.xlabel('Number of clusters, k')
plt.ylabel('Inertia')
plt.xticks(ks)
plt.style.use('ggplot')
plt.title('find the best clustering ?')
plt.show()

在这里插入图片描述
如图，我们在图中选择一个“肘”，在这里选择斜率开始缓慢下降的点，故选择3作为kmeans的簇

# 创建kmeans类
kc = KMeans(n_clusters= 3, random_state=1)
kc.fit(rfm_normalized)

#创建一个聚类后的标签列
cluster_labels = kc.labels_

#增加新列
rfm_k3 = rfm.assign(K_Cluster = cluster_labels)

#计算每个簇下的R F M值的平均值
rfm_rfm_k3.groupby('K_Cluster').agg({'Recency': 'mean','Frequency': 'mean','MonetaryValue': ['mean', 'count'],}).round(0)

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

产品

pandas

Machine Learning

python

数据挖掘

基于产品的RFM模型的k-means聚类分析的相关文章

Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
让 VoiceChannel.members 和 Guild.members 返回完整列表的问题

每当我尝试使用 VoiceChannel members 或 Guild members 时它都不会提供适用成员的完整列表我从文本命令的上下文中获取 VoiceChannel 和 Guild 如下所示 bot command name
Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

word无法显示图片的问题终于搞定！oh yeah！

我的word中的图片只显示一个方框这个问题困扰我有一段时间了今天终于搞定原因如下 Word中不能显示公式问在Word 2003中编辑好的公式无法显示只显示为一个方框该怎么办答 Word把使用公式编辑器输入的公式作为图形处理
SPECCPU 2017测试指导

一依赖包下载安装安装前需要安装依赖包可通过本地源进行安装 yum install gcc gfortran 离线场景下需要外网下载好后传到本地再安装 Deepin gfortran安装包手动安装3个gfortran的包可选 yum
UDS应用层协议解析（史上最全）

UDS应用层协议解析 UDS应用层协议解读下诊断服务分类基础服务类 0x10 诊断会话模式任何会话模式切换至默认会话模式时非默认会话模式下设置的状态需要reset 28服务 85服务设置的状态需要恢复至默认状态 27服务解锁状态需
Win平台搭建WordPress环境

Win平台搭建WordPress环境 WordPress是一个开源流行的个人信息发布平台使用PHP编写现在有众多的网站都使用WordPress来搭建的同时WordPress还提供了大量的插件能够帮助人们搭建个性化的网站安装PHP
在IntelliJ IDEA上使用Maven创建Spring项目HelloWorld

因为IDEA自带Maven插件所以使用IDEA是不需要在下载Maven的文件的也可使用自己下载的Maven Spring我们则是通过Maven来下载构建所以不需要下载jar包的大神勿喷请自行绕道本博客面向第一次接触spring的
使用Python绘制语音信号的波形图

improt library import numpy as np import wave import pylab as pl download open souce audio in http www voiptroubleshoote
（一）基于物联网的智能安防监控机器人2207231212569

基于物联网的智能安防监控机器人2207231212569 项目摘要机器人是人类一直期待的东西但自动化的东西有点不同理想情况下机器人能够做的事情比自动化机器人想做的要多得多自动化机器人希望实现监控和制造商想要实现的另一主要可用性但
【六袆 - Dubbo】Dubbo服务的简单调用；

这里写目录标题 1 Dubbo服务的基本调用过程 1 1在Java中定义dubbo服务以interface接口的方式 1 2 Provider提供服务的具体实现并声明为dubbo服务 1 3 Consumer使用dubbo服务 1 Du
ArrayList LinkedList Set HashMap介绍

在Java中提供了Collection和Map接口其中List和Set继承了Collection接口同时用Vector ArrayList LinkedList三个类实现List接口 HashSet TreeSet实现Set接口直接有
11-13 输入输出流的位置

1 获取文件流的读取位置使用 ftell 函数可以获取当前文件流的读取位置其返回值为当前位置距 0 位置的字节数文件以二进制形式打开后默认从 0 位置开始读取读取一定字节后读取位置会向后推移该字节数例如下面的代码未读取时 p
Java中FileInputStream简介说明

转自 Java中FileInputStream简介说明 FileInputStream简介说明 FileInputStream对象的功能用于从文件中读取数据我们可使用new 关键字创建此对象 FileInputStream功能用于从文件
C++报错 invalid operands to binary expression

C 报错 invalid operands to binary expression c 为什么加 const 就解决了 invalid operands to binary expression c 为什么加 const 就解决了 inv
四种IO模型

四种IO模型目录一什么是IO 二阻塞IO 三非阻塞IO 四信号驱动IO 五异步IO 目录一什么是IO 对于IO的简单理解我们首先通过两个数据之间的交互过程来理解什么是IO 向上面这样数据从对应的发送缓冲区发送到对应的接受
视频中的I帧、B帧、P帧

视频文件都是一帧一帧存储的为了使文件的大小减小通常会对文件进行压缩 mpeg4 MP4 文件中的每一帧开始都是固定的 00 00 01 b6 那么在接下来的每一帧分别是什么帧呢 I帧 B帧 P帧一般在这固定帧的后面2bit就是标志是什
【山河送书第十一期】：朋友圈大佬都去读研了，这份备考书单我码住了，考研书籍五本！！

朋友圈大佬都去读研了这份备考书单我码住了数据结构与算法分析计算机网络自顶向下方法现代操作系统深入理解计算机系统概率论基础教程原书第10版线性代数原书第10版线性代数及其应用重磅推荐参与方式往期赠书回顾八九月的朋
【翻译】torch.device的使用举例

参考链接 class torch device 原文及翻译 torch device torch device栏目 class torch device torch device 类型 A torch device is an object
我们为什么选择CentOS

服务器操作系统大多采用Unix和Linux操作系统而Linux发行版本系统中多使用CentOS Redhat Ubuntu Gentoo Debian 而这些发行版本可以大体分为两类一类是商业公司维护的发行版本一类是社区组织维护的发
Spark Shuffle 中 JVM 内存使用及配置内幕详情

引言 Spark 从1 6 x 开始对 JVM 的内存使用作出了一种全新的改变 Spark 1 6 x 以前是基于静态固定的JVM内存使用架构和运行机制如果你不知道 Spark 到底对 JVM 是怎么使用你怎么可以很有信心地或者是完全确
面试官的技术面试技巧与步骤

面试官进行技术面试的常用技巧与步骤面试需求解读人员需求与岗位说明了解岗位需求和工作内容明确岗位对人员的知识技能工作经验和基本素质要求面前准备分析应聘者简历判断人员需求岗位说明与应聘人员的匹配度发现需进一步确认的信息分析
基于产品的RFM模型的k-means聚类分析

首先我们可以看看数据集的数据形态导入rfm数据查看数据的统计学参数 df pd read csv rfm csv df describe 在实施Kmeans聚类之前我们必须检查这些关键k means假设变量对称分布不倾斜具有相同

基于产品的RFM模型的k-means聚类分析

基于产品的RFM模型的k-means聚类分析 的相关文章

随机推荐

热门标签

基于产品的RFM模型的k-means聚类分析的相关文章