数据分析及数据分析的工作流程

2023-05-16

1. 什么是数据分析

数据分析是根据业务问题，对数据进行收集，清洗，处理和建模的过程，用于识别有助于业务的信息，获取关键业务结论并辅助决策

界定业务问题（以宜家为例）

WHAT

通过顾客购买产品所产生的营业收入和利润数据，随时了解企业的经营状况
问题：

我们这个月的收入和利润如何？
每个顾客在我店里大概都会花多少钱？
家具类产品里面是沙发卖的好还是桌子好？

WHY

通过数据挖掘，发现与 17年相比，18年的用户花费在高价产品（2000+）的比例少了很多
问题转变为：

为什么顾客购买的平均单价在下降？
我们在这里对数据进行了深挖，可以看到，和 18年相比， 19年的用户花费在高价产品（2000+）的比例少了很多，
背后的原因可能涉及到经济，市场和其他等因素，但对宜家来说，直接的原因就是用户没有花钱在价格高的产品上。

HOW

采取“精准营销”模式，识别高价值顾客，实施针对性的营销方案，发放专属优惠券促进顾客购买。 .此时，问题拆分为：
1.定义高价值顾客，并从数据中识别高价值顾客的具体特征；
2.选择那些在收到优惠券之后使用的顾客，将优惠券推送至会员卡，并跟踪分析后续的使用和购买情况。

定义好问题和分析计划的步骤

界定业务问题与分析计划

Step 1识别关键环节，将 What 转变为 Why

与关键的业务人员一同参与，识别能用数据驱动业务发展的关键环节。
业务人员从自身角度出发往往是带着 WHAT问题而来，
我们需要用数据引导他们走向 WHY/HOW的问题层。

Step 2选择分析计划

根据业务目标找到所有可能解决的技术方法与所需数据，选择分析计划。
不同的分析方法在所需的数据准备工作上会有较大差别，实施时间长度也会有所不同，
因此要在这里罗列出各个方案的细节目标与数据需求。

Step 3明确衡量分析项目成功的标准
最终哪些数据的变化，能够体现数据分析实现的价值？

数据收集与评估

在收集过程中，我们需要注意的是各数据源的格式以及相关关系，而在评估过程中，主要是数据的完整性，及时性、准确性和一致性

评估整体数据状况

在数据收集过程前---评估各个数据源的完整性和及时性

数据收集

设想自己要的分析数据集的形态是怎样的
收取：结合分析问题，确定 “分析单位”，数据围绕 “分析单位”
收集
拼接：最重要的是注意到表和表之间的关联关系 o一对一 o一对多 o多对多（尽量避免）
聚合：基于以往工作经验或行业通用的分析框架，对数据进
行聚合，可固化在 SQL代码中形成标签化工具。

在分析数据集后

评估汇总数据的准确性和一致性

经过SQL语言的抽样和聚合处理注意分析数据和原始数据的差异

关键的数据——（进行）简单的统计

查询如:用户年龄的最大最小值
订单金额的最大值最小值和分布快速排除在收集数据中
因为SQL语句所产生的问题

数据清洗

数据清洗涉及数据缺失，异常和其他问题的处理

数据缺失

缺失的信息来自于哪个数据表？在原表中它们也是缺失的吗？
如果在原表也缺失，那么是否是有收集信息的疏漏？

从业务角度上,性别或者收入这类较为敏感的信息,很有可能是因为在注册时就拒绝填写而产生
如果业务团队反馈数据当时是收集过的,那么说明底层数据的录入有问题

缺失信息的比例是多少？

在排除了系统和流程问题之后,才会考虑技术处理的方法

当缺失比例超过90%→可以进行删除
当缺失比例较低→→可以采用均值,中位数或者回归方式填充

数据异常

o数据有明显违背常识的错误 o数据的离群值
o特殊数字来标注“缺失值”

数据整理
.对数据进行统一的格式化和命名规则处理 .对某些信息进行重新编码以满足后续分析需求

数据探索与可视化

在本节中，我们将开始研究我们变量的统计特性，以及不同变量之间的关系。探索性数据分析的主要目标如下：
1.找数据现象的规律
2.提出初步的业务洞见
3.为解决问题提供关键变量在这个阶段中数据可视化将发挥巨大的作用
热力图
用横轴和纵轴列出所有想要分析的变量，两两交叉就可以看到他们的相关关系。特别适合用于直接对数据量较大的、相对原始的数据进行分析。
箱线图
如果一个数据集中包含了一个分类变量和一个或者多个连续变量，那么你可能会想知道连续变量会如何随着分类变量水平的变化而变化，而箱形图就可以提供这种方法。

桑基图
桑基图是一种特定类型的流程图，最初是用来分析电厂生产的能量是流向何处的。业务决策者可以非常直观的看到业务情况，以及是否有需要处理的异常。

地图
地图是一种在地图分区上使用视觉符号（通常是颜色、阴影或者不同疏密的晕线）来表示一个范围值的分布情况的地图。
数据可视化

寻找数据现象的规律，提出初步的业务洞见，为解决问题提供关键变量
衍生变量
基于业务需求，在最初的数据架构表之外，产生的变量称为衍生变量
多维度的衍生变量使得我们后续的分析模型更加准确，如何找到这些变量也依赖于我们对业务的理解
数据探索
通过数据可视化，实现单变量分布情况分析 .通过数据可视化（热力图、箱线图），获取不同变量之间的相关关系强弱

数据分析模型

是将数据中的洞见转变成商业决策的关键步骤，也是我们所有数据分析工作中最终产生价值的环节。所谓分析模型，就是对数据分析中各种规律的抽象总结。
前情提要：宜家的 2个商业问题
1.定义高价值顾客，并从数据中识别高价值顾客的具体特征。

2.选择那些在收到优惠券之后使用的顾客，将优惠券推送至会员卡，并跟踪分析后续的使用和购买情况。

1.三个主要的变量：顾客注册时长，会员是否关注微信公众号，以及最近一次购买金额
聚类分析模型用户画像
分类预测模型用户购买行为预测

关键词
聚类分析模型
.将各个顾客之间距离最近的个体合成一个小群体，直到每个个体都存在于一个小群体，然后我们用类似的方法将小群体合成大群体。

o城市新居住者：购买店面发生改变，送货地址发生改变，购买产品为生活日用类为主，注册手机号与所购买城市不同。
o新婚家庭：顾客为男性为主，购买产品为家具类为主，双人床和衣柜等高价格家具关注度高于其他人群。
o初为父母：顾客户女性为主，初次购买儿童 /婴幼儿产品类型。

分类预测模型
.对每类顾客有个 0到 1的打分，分数越高，使用优惠券的可能性就越高。

选择从高到低依次选择顾客发优惠券，定向营销。

案例

WHAT

每个顾客在宜家大概都会花多少钱？

分析数据的收集

o设想自己要的分析数据集的形态是怎样的，是分析顾客的购买金额，顾客是“分析单位 ”

o数据的收集应该围绕顾客的信息而来，一行数据对应一个独立用户（遇到数据量极大的分析问题，需要考虑是否对数据进行抽样）

评估整体数据状况

o评估各个数据源的完整和及时：宜家的会员是在 2-3千万量级，那么统计会员表中 ID的个数应该就在这个范围，否则就应该核查原始表数据是否完整；
o评估汇总数据的准确性和一致性：简单的核对一下如用户年龄的最大最小值，订单金额的最大值最小值和分布等，确保数据不会因 SQL语句产生问题

数据清洗和整理

o数据异常的三种情况：

o数据有明显违背常识的错误，如客户 1002的累积销售收入为负五千；

o数据的离群值，如客户 1006收入为一千万，远高于其他收入在几万到几十万水平的用户；
o特殊数字来标注 “缺失值 ”。
o前两种处理方式：先检查同一客户原表是否是同样的数值，再检查
此数据是如何收集而来，最后才是如何从技术角度评估是否是离群，通过相关统计指标和诸如设定上下限的方法来处理离群值（后面课程具体讲解）。
o第三种处理方式：有完善的数据字典查询这个字段的实际情况，如果没有就去和相关团队沟通证实此类问题。

o数据整理

o对数据进行统一的格式化和命名规则处理：宜家数据中用户城市字段，将“上海”和“上海市 ”两种取值进行统一；
o对某些信息进行重新编码以满足后续分析需求：宜家数据中用户购买的时间和日期，编码成 “工作日，下午，2-4点”，以判断工作日下午和在周末进店的客户差异

Why

为什么顾客购买的平均单价在下降？
通过数据挖掘，可以看到 “和 17年相比，18年的用户花费在高价产品（2000+）的比例少了很多 ”。

确定变量：累计购买总额
最小值，最大值，平均值，方差以及四分位数的取值

数据可视化与探索

o用直方图，横轴表示不同销售收入的分组，纵轴表示对应的用户的数量
o单变量数据分类：将顾客按照销售额从高到低排列，将十万个顾客每 1万个分成 1组
o热力图，横轴和纵轴列出所有想要分析变量，两两交叉看相关关系
o箱线图，将优惠券的使用分成两组，对应的变量是用户注册会员距今的时间，看关系强弱

How

怎么让顾客在宜家里多花钱？
采取“精准营销”模式，识别高价值顾客，实施针对性的营销方案，发放专属优惠券促进顾客购买。
.数据分析与模型

o聚类分析：将小群体合成大群体，确定宜家高价值客户的三类人群

o分类预测模型：对每个顾客有个 0到 1的打分，分数越高，使用优惠券的可能性就越高，所以选择从高到低依次选择顾客发优惠券，推进营销

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)