数据建模中利用3σ剔除异常值进行数据清洗

2023-10-30

方法原理:

        3σ准则又称为拉依达准则,它是先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。
        在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴
3σ原则:
        数值分布在(μ-σ,μ+σ)中的概率为0.6827
        数值分布在(μ-2σ,μ+2σ)中的概率为0.9544
        数值分布在(μ-3σ,μ+3σ)中的概率为0.9974
        可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。

示例数据:

日期 商品编码 销售数量
0 2020-12-01 A005 1
1 2020-12-01 A014 2
2 2020-12-01 A007 3
3 2020-12-01 A012 4
4 2020-12-01 A009 5
5 2020-12-01 A019 6
6 2020-12-01 A008 7
7 2020-12-01 A019 8
8 2020-12-01 A002 9
9 2020-12-02 A005 10

 现在利用3σ剔除异常值的操作。

df_avg = df['销售数量'].mean() # 计算均值
df_std = df['销售数量'].std()  # 计算标准差
df['z_score'] = (df['销售数量'] - df_avg)/ df_std 
print(display(df))
df = df.loc[(df['z_score']>-3)&(df['z_score']<3)]    # 过滤掉销量过高的数据,排除一下异常值干扰
df = df.drop('z_score',axis =1)
print('均值:',df_avg)
print('标准差:',df_std)
均值: 5.5
标准差: 3.0276503540974917

查看处理后的结果:

日期 商品编码 销售数量
0 2020-12-01 A005 1
1 2020-12-01 A014 2
2 2020-12-01 A007 3
3 2020-12-01 A012 4
4 2020-12-01 A009 5
5 2020-12-01 A019 6
6 2020-12-01 A008 7
7 2020-12-01 A019 8
8 2020-12-01 A002 9
9 2020-12-02 A005 10

        可以看到结果没有变 ,现在人工加入一个异常值,看看能不能被过滤掉。

        利用loc函数方法进行添加。

df.loc[10]=['2020-12-02','A007',1000]
df

         再运行一下3σ剔除异常值的操作代码,查看结果,异常数据销售数量为1000已经剔除掉

日期 商品编码 销售数量
0 2020-12-01 00:00:00 A005 1
1 2020-12-01 00:00:00 A014 2
2 2020-12-01 00:00:00 A007 3
3 2020-12-01 00:00:00 A012 4
4 2020-12-01 00:00:00 A009 5
5 2020-12-01 00:00:00 A019 6
6 2020-12-01 00:00:00 A008 7
7 2020-12-01 00:00:00 A019 8
8 2020-12-01 00:00:00 A002 9
9 2020-12-02 00:00:00 A005 10
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据建模中利用3σ剔除异常值进行数据清洗 的相关文章

随机推荐

  • 在 JavaScript 中将字符串转换为数字的 7 种方法

    1 使用 parseInt parseInt 解析一个字符串并返回一个整数 允许空格 仅返回第一个数字 这种方法虽然有一个限制 如果您解析十进制数 它将四舍五入到最接近的整数值 并将该值转换为string 可能需要使用parseFloat
  • antd tree树形控件 onCheck单选并准确获取父子节点

    antd 的tree树形控件为什么没有单选属性 还是我眼瞎没找到 需求 一个只能单选的tree树形控件 并且点击选中一个节点返回当前节点信息和父节点信息 看上去很普通的需求 但是实现起来真的麻烦 就因为tree的onCheck没有单选的问题
  • EDA软件_Cadence_OrCAD Capture DRC 警告分析

    大多数DRC warning甚至某些error可以忽略不计 不影响生成网表 但是要想成为一名成熟的电子工程师 你可以忽略某些错误 但是必须懂得为什么会产生这些错误 如何消除掉这些错误 这样才能控制这些错误的作用范围 不致影响系统整体的设计
  • django.core.exceptions.ImproperlyConfigured: Requested setting DEFAULT_INDEX_TABLESPACE, but setting

    django core exceptions ImproperlyConfigured Requested setting DEFAULT INDEX TABLESPACE but settings are not configured Y
  • 微信小程序 富文本编辑器 editor

    完整微信小程序 Java后端 技术贴目录清单页面 必看 富文本编辑器 可以对图片 文字进行编辑 编辑器导出内容支持带标签的 html和纯文本的 text 编辑器内部采用 delta 格式进行存储 通过setContents接口设置内容时 解
  • React Native Hook浅析——state处理

    前言 前提知识 函数式组件在每次props state变动时 都会重新执行整个函数 重新渲染页面 在使用React的class组件时 我们可以使用state this xxx 以及生命周期 componentDidMount compone
  • 常用的免费好用的DNS有哪些?

    阿酷TONY 原创文章 关键词 免费dns 百度dns 阿里dns 114 dns Google DNS 2019 1 24 DNS Domain Name Server 域名服务器 是进行域名 domain name 和与之相对应的IP地
  • 通讯协议057——全网独有的OPC HDA知识一之接口(十二)IOPCHDA_DataCallback

    本文简单介绍OPC HDA规范的IOPCHDA DataCallback 客户端接口 接口方法 更多通信资源请登录网信智汇 wangxinzhihui com 1 HRESULT OnDataChange dwTransactionID h
  • qt应用程序界面控件刷新不及时问题

    可尝试以下方法 1 void showEvent QShowEvent event this gt setAttribute Qt WA Mapped QWidget showEvent event 2 界面控件切换前调用 show qAp
  • 隐私信息检索(PIR)

    隐私信息检索 Private Information Retrieval PIR 技术是由Chor B等提出解决保护用户查询隐私的方案 主要目的是 保证查询用户在向服务器上的数据库提交查询请求 在用户查询隐私信息不被泄漏的条件下完成查询 即
  • 数据仓库ETL技术探究

    ETL概述 在构建商业智能系统的时候 如何正确有效地将分散在各个不同数据源中的信息整合到系统中成为了整个系统成败的关键 直接影响到系统的运行效率和最终结果 ETL正是解决这一问题的有力工具 ETL是指把数据从数据源装人数据仓库的过程 即数据
  • three.js 没有投影

    按照demo physics oimo instancing html 敲的 不知道问题出现在哪儿
  • FactoryBean和BeanFactory:Spring IOC容器的两个重要角色简介

    目录 一 简介 二 BeanFactory 三 FactoryBean 四 区别 五 使用场景 总结 一 简介 在Spring框架中 IOC Inversion of Control 容器是一个核心组件 它负责管理和配置Java对象及其依赖
  • 自定义数据类型使用QVariant转换的方法

    QVariant类型的放入和取出必须是相对应的 你放入一个int就必须按int取出 不能用toString Qt不会帮你自动转换 数据核心无非就是一个 union 和一个标记类型的type 传递的是整数 123 那么它union存储整数12
  • STM32定时器的编码器接口模式

    MCU为STM32L431 通用定时器框图 编码器接口模式一共有三种 通过TIMx SMCR寄存器的SMS 3 0 位来选择 模式1计数器仅在TI1FP1的边沿根据TI2FP2的电平来判断向上 下计数 模式2计数器仅在TI2FP2的边沿根据
  • DevTools 无法加载 SourceMap:XXXX.map 的内容:HTTP 错误: 状态代码 404,net::ERR_UNKNOWN_URL_SCHEM

    写在前面 又想骂人了 百度了一圈 各种不同的网站 对于该问题的解决办法的前几句都是 确切来说也不是个问题 对我项目本身没有什么实质性的影响 但看着就是不爽 请教了一下前端的同学 这个 sourceMap 是方便调试的东西 从打包后的代码映射
  • 好看的悬疑电影,最好是高智商的

    穆赫兰道 公认史上最难懂的电影 据说40 的人从电影一开始就理解错误 还有50 的人从头到尾都不知道电影在说什么 看懂这部电影 请先熟读弗洛伊德 梦的解析 死亡幻觉 此片思维难度很大 涉及的知识一般人难以理解 第一遍据说没人看得懂 理解这部
  • OSS设置CORS规则以后还是报No ‘Access-Control-Allow-Origin‘解决方法

    在OSS控制台设置了CORS规则以后 通过JS程序去调用的时候报No Access Control Allow Origin header is present on the requested resource 可以通过下面的思路来进行下
  • Open3D 计算点云凸包

    目录 一 实现依据 二 代码实现 三 结果展示 1 原始点云 2 凸包可视化 3 凸包顶点 一 实现依据 点云的凸包是包含所有点的最小凸集 open3d实现了计算凸包的方法 compute convex hull 这个接口的实现基于Qhul
  • 数据建模中利用3σ剔除异常值进行数据清洗

    方法原理 3 准则又称为拉依达准则 它是先假设一组检测数据只含有随机误差 对其进行计算处理得到标准偏差 按一定概率确定一个区间 认为凡超过这个区间的误差 就不属于随机误差而是粗大误差 含有该误差的数据应予以剔除 在正态分布中 代表标准差 代