pandas异常值检测与处理

2023-11-08

关注公众号FF工作室，回复pandas异常值检测与处理，获取数据
在这里插入图片描述

1、异常值检测
1.1、标准差法
outlier>x¯+nσ或outlier<x¯−nσ

x¯ 为样本均值， σ 为样本标准差当n=2时，满足条件的观测值就为异常值，当n=3时满足条件的观测就是极端异常值

1.2、箱线图法
outlier>\Q3+nIQR或outlier<\Q1−nIQR

\Q3 为上四分位数（75%）， \Q1 为下四分位数（25%）， IQR 为上四分位与下四分位的差当n=1.5时，满足条件的观测值就为异常值，当n=3时满足条件的观测就是极端异常值

2、选择方法
数据近似服从正态分布（数据分布比较对称）优先选择标准差法即1.1 否则选择箱线图法1.2

3、异常值处理
若观测值异常比例不大可以考虑删除也可以考虑替代法，可以使用低于判别上限的最大值进行替换上端异常值，高于判别下限的最小值替换下端异常值或使用均值或中位数等

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']    #定义使其正常显示中文字体黑体
plt.rcParams['axes.unicode_minus'] = False      #用来正常显示表示负号 
data = pd.read_excel(r'D:\jupyter\data\全国疫情数据_来自CDC及卫健委.xlsx')
print(data.head())

    date  新增确诊  新增疑似  新增死亡  累积确诊  现有疑似  累积死亡  新增治愈  累积治愈  现有确诊  现有重症

0 2020-01-16 4 0 1 45 0 2 0 8 0 0
1 2020-01-17 17 0 0 62 0 2 0 12 0 0
2 2020-01-18 59 0 1 121 0 3 0 17 0 0
3 2020-01-19 77 0 1 198 0 4 0 18 0 0
4 2020-01-20 77 27 2 291 54 6 0 25 291 0

df = data["累积确诊"]
print(df.head(),"\n")
print(df.describe())

0 45
1 62
2 121
3 198
4 291
Name: 累积确诊, dtype: int64

count 68.000000
mean 52605.897059
std 33092.962085
min 45.000000
25% 16531.250000
50% 74690.000000
75% 80824.500000
max 81747.000000
Name: 累积确诊, dtype: float64

mean_val = df.mean() #均值
std_val = df.std()   #标准差
up = df > mean_val+2*std_val
down = df < mean_val-2*std_val

print(df.loc[up,])
print(df.loc[down,],"\n")
print("标准差法异常值上限检测：\n",up.head(),"\n")
print("标准差法异常值下限检测：\n",down.head())

Series([], Name: 累积确诊, dtype: int64)
Series([], Name: 累积确诊, dtype: int64)

标准差法异常值上限检测：
0 False
1 False
2 False
3 False
4 False
Name: 累积确诊, dtype: bool

标准差法异常值下限检测：
0 False
1 False
2 False
3 False
4 False
Name: 累积确诊, dtype: bool

Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1

up1 = df > Q3+1.5*IQR
down1 = df < Q1-1.5*IQR

print(df.loc[up1,])
print(df.loc[down1,],"\n")
print("箱线图法异常值上限检测：\n",up1.head(),"\n")
print("箱线图法异常值下限检测：\n",down1.head())
Series([], Name: 累积确诊, dtype: int64)
Series([], Name: 累积确诊, dtype: int64)

箱线图法异常值上限检测：
0 False
1 False
2 False
3 False
4 False
Name: 累积确诊, dtype: bool

箱线图法异常值下限检测：
0 False
1 False
2 False
3 False
4 False
Name: 累积确诊, dtype: bool

plt.style.use("ggplot")
plt.rcParams["font.size"]=10 #设置字体大小
plt.boxplot([df,data["新增确诊"]],labels=['累积确诊',"新增确诊"])
plt.title('箱线图')
plt.savefig('gender.png',dpi=400)

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

pandas异常值检测与处理的相关文章

如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
__del__ 真的是析构函数吗？

我主要用 C 做事情其中析构函数方法实际上是为了销毁所获取的资源最近我开始使用python 这真的很有趣而且很棒我开始了解到它有像java一样的GC 因此没有过分强调对象所有权构造和销毁据我所知 init 方法对我来说在 py
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject

随机推荐

QT：QProgressBar 如何在进度条上显示自定义文字

QT QProgressBar显示文本 Qt如何在进度条上显示自定义文字 QT QProgressBar显示文本 https www thinbug com q 31703978 参考方案1 当您想在进度条上添加文本时您需要将文本默认对齐
hexo主题的github地址（clone）

文章目录主题地址 indigo next yelee clexy clean blog cyanstyle freemind icarus lite 切换主题主题地址主题示例演示主题非常多仅列一些自己比较喜欢也常用的几个地址 in
imx8的源码开发方式非yocto方式（六）——linux内核移植及编译

1 进入NXP官方的github库下载最新的linux内核官方网址为 Release lf 5 15 71 2 2 0 nxp imx linux imx GitHub 流程如下所示图1 github下载最新linux内核压缩包 2
ctfshow 萌新22 （类似级客巅峰web4）

在之前ctfshow平台的萌新22 大家都认为是无解的题目也介绍了还能搞阿呆表示将直播倒立放水但是在级客巅峰结束的那天晚上群里的师傅介绍说如果修改了php ini里面的配置 register argc argv 可以做出来最后
@RunWith和 SpringJUnit4ClassRunner ---->junit4和Spring一起使用

今天在看Spring的Demo的时候看到了如此单元测试的写法如下 RunWIth SpringJunit4ClassRunner class ContextConfiguration locations classpath applic
python程序代码图片_Python用5行代码实现批量抠图的示例代码

前言对于会PhotoShop的人来说抠图是非常简单的操作了有时候几秒钟就能扣好一张图不过一些比较复杂的图有时候还是要画点时间的今天就给大家带了一个非常快速简单的办法用Python来批量抠取人像效果展示开始吧我也不看好什么
【笔记】tf中将图片显示的方式：tf.gfile.FastGFile()；tf.train.string_input_producer()+tf.WholeFileReader().read()...

1 通过tf gfile FastGFile 读取图像文件 tf Gfile模块提供了tf中通用的文件 I O 操作 tf Gfile FastGFile filename mode 函数用于获取文件操作句柄类似于python中的文本操作
3 域名正则_网站更换域名301后排名会有影响吗？301应该怎么用？

在SEO优化过程中很多小伙伴都经常会遇到需要301跳转的情况例如网站调整或者网站改版的时候所以很多人都会担心同样一个问题自己网站想更换域名或者目录发生了变化设置301跳转后对目前SEO优化的效果会不会有影响排名会不会掉得很严重
给程序员老公20年后的一封信

今天是2019年6月22日对于钱多话少死得早的咱们程序员来说 20年后是否还生活在这世上呢我会尽量活的久一点因为你常说除了编程你什么都不会而我的很多技能都是专业水平可以用来谋生你要靠我养老额原来得一人终老是这个意思
AI语音合成软件免费的有哪些？常用的语音合成软件

近年来短视频作为一种新兴的互联网内容传播形式逐渐获得各大平台和粉丝的青睐其时长简短并适合在移动状态和休闲状态下观看的特点将产品受众面拓展到整体网民的88 3 上至老年人下至小孩子都多多少少可以自己创作一些短视频作品以供娱乐那么
Collectors.summingDouble()

Collectors summingDouble Java 8 流的新类 java util stream Collectors 实现了 java util stream Collector 接口同时又提供了大量的方法对流 stream
顺序队列和链队的定义和基本操作（c++实现）

循环队列 include
2022年最新前端面试题（大前端时代来临卷起来吧小伙子们..持续维护走到哪记到哪）

目录 css经典高频面试题前端核心手写面试题看你的核心扎实不扎实 js部分面试题 js的数据类型关于数据类型相关的基本数据类型 ES5的5种 Null undefined Boolean Number String ES6新增 Sym
32天高效突击：框架+性能优化+微服务+分布式，笔记面试全有

导言今年似乎因为疫情影响时间过得特别快对于需要跳槽换工作的人来更觉得有些突然似乎金三银四和金九银四还没开始准备好就匆匆过去加上今年的大环境不佳所以大部分的人在今年的招聘旺季都没有收获到好的结果今天分享的主题则是由一位阿里
sqli-labs通关攻略38-53[Stacked Injections]

Stacked Injections 文章目录 Stacked Injections less 38 less 39 less 40 less 41 less 42 less 43 less 44 less 45 less 46 less
Vue 源码之Vue视图更新原理【一】

写在前面 Vue React 可以说是这几年改变前端格局的大杀器这部分更加高级的框架的出现狠狠地推进了前端工程化的进度也使前端能够更加快速更加规范地完成业务的开发秉承着底层架构者一贯遵循的执念把复杂留给自己无论是Vue 还是
picodet 详解

picodet 详解 backbone ESNet picodet 详解 Neck CSP PAN
C++结构体的使用

一结构体指针定义学生结构体 struct Student 成员列表 string name 年龄 int age 分数 int score 1 创建结构体变量 Student s 张三 18 100 2 通过指针指向结构体变量因为变量
DC/DC：闭环控制的降压(Buck)变换电路原理设计及实验仿真

在各种电力电子装置电源应用中或多或少地存在直流电源变换器为保证直流输出电压值恒定在负载需要地电压范围内一般需要设置自动调整单元以保证在输入电压或者负载发生变换时其输出电压能快速调整到规定的设定值降压 Buck 变换电路原理图如图所
pandas异常值检测与处理

关注公众号FF工作室回复pandas异常值检测与处理获取数据 1 异常值检测 1 1 标准差法 outlier gt x n 或outlier

pandas异常值检测与处理

pandas异常值检测与处理 的相关文章

随机推荐

热门标签

pandas异常值检测与处理的相关文章