数据建模中利用3σ剔除异常值进行数据清洗

2023-10-30

方法原理：

        3σ准则又称为拉依达准则，它是先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除。
        在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴
3σ原则：
        数值分布在（μ-σ,μ+σ)中的概率为0.6827
        数值分布在（μ-2σ,μ+2σ)中的概率为0.9544
        数值分布在（μ-3σ,μ+3σ)中的概率为0.9974
        可以认为，Y 的取值几乎全部集中在（μ-3σ,μ+3σ)区间内，超出这个范围的可能性仅占不到0.3%。

示例数据:

	日期	商品编码	销售数量
0	2020-12-01	A005	1
1	2020-12-01	A014	2
2	2020-12-01	A007	3
3	2020-12-01	A012	4
4	2020-12-01	A009	5
5	2020-12-01	A019	6
6	2020-12-01	A008	7
7	2020-12-01	A019	8
8	2020-12-01	A002	9
9	2020-12-02	A005	10

现在利用3σ剔除异常值的操作。

df_avg = df['销售数量'].mean() # 计算均值
df_std = df['销售数量'].std()  # 计算标准差
df['z_score'] = (df['销售数量'] - df_avg)/ df_std 
print(display(df))
df = df.loc[(df['z_score']>-3)&(df['z_score']<3)]    # 过滤掉销量过高的数据，排除一下异常值干扰
df = df.drop('z_score',axis =1)
print('均值：',df_avg)
print('标准差：',df_std)

均值： 5.5
标准差： 3.0276503540974917

查看处理后的结果：

	日期	商品编码	销售数量
0	2020-12-01	A005	1
1	2020-12-01	A014	2
2	2020-12-01	A007	3
3	2020-12-01	A012	4
4	2020-12-01	A009	5
5	2020-12-01	A019	6
6	2020-12-01	A008	7
7	2020-12-01	A019	8
8	2020-12-01	A002	9
9	2020-12-02	A005	10

可以看到结果没有变，现在人工加入一个异常值，看看能不能被过滤掉。

利用loc函数方法进行添加。

df.loc[10]=['2020-12-02','A007',1000]
df

再运行一下3σ剔除异常值的操作代码,查看结果,异常数据销售数量为1000已经剔除掉

	日期	商品编码	销售数量
0	2020-12-01 00:00:00	A005	1
1	2020-12-01 00:00:00	A014	2
2	2020-12-01 00:00:00	A007	3
3	2020-12-01 00:00:00	A012	4
4	2020-12-01 00:00:00	A009	5
5	2020-12-01 00:00:00	A019	6
6	2020-12-01 00:00:00	A008	7
7	2020-12-01 00:00:00	A019	8
8	2020-12-01 00:00:00	A002	9
9	2020-12-02 00:00:00	A005	10

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据建模中利用3σ剔除异常值进行数据清洗的相关文章

如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject

随机推荐

在 JavaScript 中将字符串转换为数字的 7 种方法

1 使用 parseInt parseInt 解析一个字符串并返回一个整数允许空格仅返回第一个数字这种方法虽然有一个限制如果您解析十进制数它将四舍五入到最接近的整数值并将该值转换为string 可能需要使用parseFloat
antd tree树形控件 onCheck单选并准确获取父子节点

antd 的tree树形控件为什么没有单选属性还是我眼瞎没找到需求一个只能单选的tree树形控件并且点击选中一个节点返回当前节点信息和父节点信息看上去很普通的需求但是实现起来真的麻烦就因为tree的onCheck没有单选的问题
EDA软件_Cadence_OrCAD Capture DRC 警告分析

大多数DRC warning甚至某些error可以忽略不计不影响生成网表但是要想成为一名成熟的电子工程师你可以忽略某些错误但是必须懂得为什么会产生这些错误如何消除掉这些错误这样才能控制这些错误的作用范围不致影响系统整体的设计
django.core.exceptions.ImproperlyConfigured: Requested setting DEFAULT_INDEX_TABLESPACE, but setting

django core exceptions ImproperlyConfigured Requested setting DEFAULT INDEX TABLESPACE but settings are not configured Y
微信小程序富文本编辑器 editor

完整微信小程序 Java后端技术贴目录清单页面必看富文本编辑器可以对图片文字进行编辑编辑器导出内容支持带标签的 html和纯文本的 text 编辑器内部采用 delta 格式进行存储通过setContents接口设置内容时解
React Native Hook浅析——state处理

前言前提知识函数式组件在每次props state变动时都会重新执行整个函数重新渲染页面在使用React的class组件时我们可以使用state this xxx 以及生命周期 componentDidMount compone
常用的免费好用的DNS有哪些？

阿酷TONY 原创文章关键词免费dns 百度dns 阿里dns 114 dns Google DNS 2019 1 24 DNS Domain Name Server 域名服务器是进行域名 domain name 和与之相对应的IP地
通讯协议057——全网独有的OPC HDA知识一之接口（十二）IOPCHDA_DataCallback

本文简单介绍OPC HDA规范的IOPCHDA DataCallback 客户端接口接口方法更多通信资源请登录网信智汇 wangxinzhihui com 1 HRESULT OnDataChange dwTransactionID h
qt应用程序界面控件刷新不及时问题

可尝试以下方法 1 void showEvent QShowEvent event this gt setAttribute Qt WA Mapped QWidget showEvent event 2 界面控件切换前调用 show qAp
隐私信息检索(PIR)

隐私信息检索 Private Information Retrieval PIR 技术是由Chor B等提出解决保护用户查询隐私的方案主要目的是保证查询用户在向服务器上的数据库提交查询请求在用户查询隐私信息不被泄漏的条件下完成查询即
数据仓库ETL技术探究

ETL概述在构建商业智能系统的时候如何正确有效地将分散在各个不同数据源中的信息整合到系统中成为了整个系统成败的关键直接影响到系统的运行效率和最终结果 ETL正是解决这一问题的有力工具 ETL是指把数据从数据源装人数据仓库的过程即数据
three.js 没有投影

按照demo physics oimo instancing html 敲的不知道问题出现在哪儿
FactoryBean和BeanFactory：Spring IOC容器的两个重要角色简介

目录一简介二 BeanFactory 三 FactoryBean 四区别五使用场景总结一简介在Spring框架中 IOC Inversion of Control 容器是一个核心组件它负责管理和配置Java对象及其依赖
自定义数据类型使用QVariant转换的方法

QVariant类型的放入和取出必须是相对应的你放入一个int就必须按int取出不能用toString Qt不会帮你自动转换数据核心无非就是一个 union 和一个标记类型的type 传递的是整数 123 那么它union存储整数12
STM32定时器的编码器接口模式

MCU为STM32L431 通用定时器框图编码器接口模式一共有三种通过TIMx SMCR寄存器的SMS 3 0 位来选择模式1计数器仅在TI1FP1的边沿根据TI2FP2的电平来判断向上下计数模式2计数器仅在TI2FP2的边沿根据
DevTools 无法加载 SourceMap：XXXX.map 的内容:HTTP 错误: 状态代码 404，net::ERR_UNKNOWN_URL_SCHEM

写在前面又想骂人了百度了一圈各种不同的网站对于该问题的解决办法的前几句都是确切来说也不是个问题对我项目本身没有什么实质性的影响但看着就是不爽请教了一下前端的同学这个 sourceMap 是方便调试的东西从打包后的代码映射
好看的悬疑电影,最好是高智商的

穆赫兰道公认史上最难懂的电影据说40 的人从电影一开始就理解错误还有50 的人从头到尾都不知道电影在说什么看懂这部电影请先熟读弗洛伊德梦的解析死亡幻觉此片思维难度很大涉及的知识一般人难以理解第一遍据说没人看得懂理解这部
OSS设置CORS规则以后还是报No ‘Access-Control-Allow-Origin‘解决方法

在OSS控制台设置了CORS规则以后通过JS程序去调用的时候报No Access Control Allow Origin header is present on the requested resource 可以通过下面的思路来进行下
Open3D 计算点云凸包

目录一实现依据二代码实现三结果展示 1 原始点云 2 凸包可视化 3 凸包顶点一实现依据点云的凸包是包含所有点的最小凸集 open3d实现了计算凸包的方法 compute convex hull 这个接口的实现基于Qhul
数据建模中利用3σ剔除异常值进行数据清洗

方法原理 3 准则又称为拉依达准则它是先假设一组检测数据只含有随机误差对其进行计算处理得到标准偏差按一定概率确定一个区间认为凡超过这个区间的误差就不属于随机误差而是粗大误差含有该误差的数据应予以剔除在正态分布中代表标准差代

数据建模中利用3σ剔除异常值进行数据清洗

数据建模中利用3σ剔除异常值进行数据清洗 的相关文章

随机推荐

热门标签

数据建模中利用3σ剔除异常值进行数据清洗的相关文章