数据清洗之朝阳医院2018年销售数据分析

2023-10-27

朝阳医院2018年销售数据分析

过程：

在这里插入图片描述

整体代码：



#导入库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.read_excel('朝阳医院2018年销售数据.xlsx')    #导入数据

#了解数据

data.head()    #查看前五行 
data.describe()    #查看总体数据的描述统计分析
data.info()     #看一下数据信息


# 清洗数据


#把购药时间改成销售时间，直接在原数据框进行修改。
data.rename(columns= {'购药时间':'销售时间'},inplace=True)
#看一下修改后的数据
data.head()


#没有时间和社保卡号的消费数据对于本次分析是无效的，
#所以清理一下缺失值
data=data.dropna(subset=['销售时间','社保卡号'],how='any')
data.head()#查看前五行数据


#把销售时间的日期和星期分开。
data['销售时间'], data['销售星期'] = data['销售时间'].str.split(' ', 1).str
#切分好之后，把销售时间变为时间类型
data['销售时间'] = pd.to_datetime(data['销售时间'],format='%Y-%m-%d',errors='coerce')
#先看一下清洗到这个阶段的数据
data.head()




#重置一下索引
#将数据按照销售时间排序
data = data.sort_values('销售时间',ascending=True)
#重置索引
data = data.reset_index(drop=True)
#再看一下数据
data.head()




#选取销售数量和应收金额大于0的列
data = data[(data['销售数量'] > 0) & (data['应收金额'] > 0)]
#看一下目前的数据
data.head()




#数据分析


#首先对数据进行一个去重，使用drop_duplicates函数
data = data.drop_duplicates(subset=['销售时间','社保卡号'])
#去重后看一下一共有多少条数据
total = data.shape[0]
Total

#再计算月份
#用销售时间的最大值减去最小值即可得到天数,再除以（地板除）三十就可以得到月份了
month = (data['销售时间'].max() - data['销售时间'].min()).days // 30

KPI1 = total / month
print('月均消费次数为：',KPI1)



#计算总金额
sum_sale = data['实收金额'].sum()

kpi2=sum_sale/month
print('月均消费金额为：',kpi2)


#客单价 就是总实收金额除以总消费次数
kdj = sum_sale/total
print('客单价:',kdj)


# 消费趋势

#对去重后的数据按照天进行重新采样
#首先要把索引变成时间
data.index = pd.DatetimeIndex(data['销售时间'])
#将索引按天聚合
b = data.resample('D').count()
b.head()




#画图
plt.plot(b.index,b['实收金额'])
plt.xlabel = 'Time'
plt.ylabel = 'Money'
plt.title = '总金额消费趋势图'
plt.show()





#按月采样
datas = data.resample('M').sum()
#画图
plt.plot(datas.index, datas['实收金额'])
plt.show()



del data['Unnamed: 7']  #删除空值的一行
del data['Unnamed: 8']
del data['Unnamed: 9']
data.head()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python数据挖掘

数据分析

大数据

python

机器学习

数据清洗之朝阳医院2018年销售数据分析的相关文章

尽管极其懒惰，但如何在 Python 中模拟 IMAP 服务器？

我很好奇是否有一种简单的方法来模拟 IMAP 服务器例如imaplib模块在Python中 without做很多工作是否有预先存在的解决方案理想情况下我可以连接到现有的 IMAP 服务器进行转储并让模拟服务器在真实的邮箱电子
Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

福利！打造自己的ChatGPT聊天小程序，前后端代码全开源

简介本文分享一个我前几个月实现的一个智能聊天系统小项目包含了java后端微信小程序端 web页面端三个子工程代码已经全部开源地址放在了文末最近一年 chatGPT的火爆程度已经不需要我再多说了但是依旧有很多人想用却用不上原
elementUI的Table分页多选框

目的实现进入页面显示默认的选中项在用户重新选择后将选择的和取消选择的数据提交给后台这里涉及到一个分页的问题表格是可分页的表格所以要存储用户的选项 1 element ui的table表格的多选框默认选中 data return
spring整合redisson配置

配置方式 redis的部署方式有单节点部署哨兵方式部署集群方式部署3种方式各种配置方式可以去看xsd文件 redisson 1 1 xsd
【漏洞发现】xxe

一漏洞描述 XXE漏洞利用的是XML解析器处理XML文件时的一个特性即可以引用外部实体攻击者可以在XML文档中定义一个外部实体并在引用该实体时在外部实体中注入恶意代码或文件路径等敏感信息当XML解析器解析文档时会自动解析外部实
nginx-sticky-module的使用（基于cookie的会话保持）

在多台后台服务器的环境下我们为了确保一个客户只和一台服务器通信我们势必使用长连接使用什么方式来实现这种连接呢常见的有使用nginx自带的ip hash来做我想这绝对不是一个好的办法如果前端是CDN 或者说一个局域网的客户同时访问
IDEA如何导入Eclipse项目-靠谱

小伙伴在用到IDEA的时候将已有的Eclipse项目导入到IDEA中遇到各种问题我总结了一下仅供参考我的工具版本是 IntelliJ IDEA 2017 1 5 1 open的项目目录展示实际文件目录打开的项目目录展示 2 点
Java High Level REST Client 中文API（仅供参考）

1 初始化兼容性 Java High Level REST Client需要Java 1 8 并依赖于Elasticsearch核心项目客户端版本与客户端开发的Elasticsearch版本相同它接受与TransportClient相
PyQt的动作（QAction）

前言 Qt的设计师程序能够识别用户界面中用户做同样事情时所经常使用的不同种方法例如在许多应用中创建一个新文件可以使用File gt New菜单项或者通过点击按钮图标或者使用快捷键等对于用户是如何执行动作的我们并不关心关心他们到底
第一章： Mysql体系结构和存储引擎

文章目录 1 1 定义数据库和实例 1 2 Mysql体系结构 1 3 Mysql存储引擎 1 4 常见问题解答 1 5 存储引擎相关操作语法 1 6 连接Mysql 1 1 定义数据库和实例数据库和实例的区别数据库是物理操作系统或其他
让别人写一个python爬虫程序大概要多少钱？

前言目前对于程序代做来说没有统一标准不像论文那样可以按照字数来定价根据行业经验总结出了一个python代写的参考价格一般来说如果想写本科的python作业一般是500起硕士作业按照项目算的话一般是1500起影响pytho
JS的作用域问题

一块级作用域在 JavaScript 中作用域为可访问变量对象函数的集合 js没有块级作用域你可以自己闭包或其他方法实现只有函数级作用域函数外面的变量函数里面可以找到函数里面的变量外面找不到 var a 10 functi
Nginx 七层和四层负载均衡——筑梦之路

七层负载均衡示例配置 worker processes 2 events worker connections 1024 7层http负载 http include mime types default type application o
Python全栈开发【基础-07】与用户交互

专栏介绍本专栏为Python全栈开发系列文章技术包括Python基础函数文件面向对象网络编程并发编程 MySQL数据库 HTML JavaScript CSS JQuery bootstrap WSGI Django Flas
C++ list, vector, map, set 区别与用法比较

一 list和vector List封装了链表 Vector封装了数组 list和vector得最主要的区别在于vector使用连续内存存储的他支持运算符而list是以链表形式实现的不支持 Vector对于随机访问的速度很快但是对
华为OD机试真题 Java 实现【组合出合法最小数】【2023Q1 200分】，附详细解题思路

一题目描述给一个数组数组里面都是代表非负整数的字符串将数组里所有的数值排列组合拼接起来组成一个数字输出拼接成的最小的数字二输入描述一个数组数组不为空数组里面都是代表非负整数的字符串可以是0开头例如 13 045 09
Tkinter模拟发送邮箱验证码并在指定时间后验证码过期

先上两张图再解释运行原理程序运行后输入要接收验证码的邮箱地址点击发送后控制台打印输出得到的验证码并发送到邮箱里过了15秒以后验证码再次刷新并打印输出这样就实现了动态过期原理就是到某个时间点我再刷新一遍生成验证码函数
Hadoop命令大全

目录基本语法一上传二下载三其他增删改查操作 3 1 增 3 2 删 3 3 改 3 4 查基本语法 hadoop fs 和 hdfs dfs hadoop fs和hdfs dfs命令等效 hdfs dfs 只能操作HDFS文
FISCO-BCOS学习——区块链浏览器搭建

注意本系列文章遇到的问题都可以参考查找官方文档或本系列问题总结 FISCO BCOS 及 WeBase 问题记录 FISCO BCOS 官方文档 WeBase 官方文档 FISCO BCOS区块链浏览器搭建前提条件环境版本 J
STM32的HAL库SPI操作(master 模式)-根据时序图配置SPI

SPI相关基础知识 SPI基本概念请自行百度参考百度百科SPI简介我们讲重点和要注意的地方 master模式下要关注的地方接线一一对应也就是说主控的MISO MOSI SCLK CSn 分别和设备的MISO MOSI SCLK C
数据清洗之朝阳医院2018年销售数据分析

朝阳医院2018年销售数据分析所用到的数据提取地址 gt 戳这里下载或私我过程整体代码导入库 import pandas as pd import numpy as np import matplotlib pyplot as p

数据清洗之朝阳医院2018年销售数据分析

朝阳医院2018年销售数据分析

过程：

整体代码：

数据清洗之朝阳医院2018年销售数据分析 的相关文章

随机推荐

热门标签

数据清洗之朝阳医院2018年销售数据分析的相关文章