1. 背景
对于电子商务网站来说,每天都会产生海量的关于用户的行为数据,分析用户的行为对于企业来说至关重要。从海量用户行为数据中可以挖掘出网购用户的个人喜好、行为特征、购买倾向等隐藏信息,从而为电子商务服务商提供有价值的信息。
本文基于SQL从网购平台用户一亿多条行为数据中随机抽取出600w条数据,进行分析研究,挖掘其中的规律,可以为电子商务实现个性化服务、精准营销和开发新型业务模式提供技术支持。
2. 数据导入与清洗
原始数据有超过一亿条数据,字段包括用户id、商品id、类别id、用户行为(点击、收藏、加购物车、购买)和时间。首先,建立用户、商品、时间为主键的表结构且设置各字段非空,利用load data infile命令导入数据。设置my.ini文件能够明显提高导入速度,修改max_allowed_packet等,设置set GLOBAL innodb_flush_log_at_trx_commit = 0,缺点是安全性差,可以分批导入,降低数据丢失的风险,这里将数据借助python拆成两部分后再进一步将每部分分批导入。至此,成功导入无重复无缺失的数据。
注意到我们在导入数据时就通过设置避免了重复行。因为一个用户在同一时间对商品表现了不同的行为的可能性虽小但存在,故这里没有根据用户、商品和时间作为主键去重。
时间字段的原数据为unix时间戳格式,转换并拆分为日期和时间的格式,并检查数据并剔除时间异常的数据。
3. 行为分析
3.1 点击量
我们先对网站点击量进行初步分析,查看下点击量随日期或时段的变化关系,如图所示,可以看出浏览量pv和独立访客数uv大致呈现上升趋势