数据ETL面临的问题----数据缺失

2023-11-20

数据缺失的类型有:

完全随机缺失(Missing Completely at Random,MCAR):数据的缺失与不完全变量以及完全变量都是无关的;随机缺失(Missing at Random,MAR):数据的缺失不是完全随机的,数据的缺失只依赖于完全变量;              完全非随机缺失(Missing Not At Random,MNAR):数据的缺失依赖于不完全变量自身。

四、数据缺失的处理办法

数据缺失在统计过程中是一个很重要的问题, 全世界都很关注,他的处理方法更是一个新兴的领域,综合各个国家

的研究结果,大致有以下几种方法。

(一)删除法(Deletion)
这种方法非常简单, 当被调查对象出现缺失的变量值, 并且这些缺失的变量值占总体数据的总量很小的情
况下, 这种方法非常有效。解决方法就是将存在缺失的变量值删除, 形成一个完整的调查表。但是这种方法有
它的不足之处,在删除缺失数据的过程中,减少了原始的数据,导致了信息的损耗,而且丢失了很多包含在被删除
数据中的信息。特别是当被研究的数据本身数量很少的时候, 删除少量数据就足以影响整体结果的客观性以及
正确性。所以,当缺失数据占总体数据比例很大时,这种方法将会导致错误结论。
(二)填补法(Imputation)
当有数据缺失的记录在整个数据中只占一个很小比例时,可以直接删除缺失记录,对余下的完全数据进行处
理。但是在实际数据中,往往缺失数据占有相当的比重,这样做不仅会产生偏差,甚至会得出有误导性的结论,同

时丢失大量信息,造成浪费。因此我们使用一种新的方法来进行处理。目前,填补法是处理数据缺失时普遍使用的

一种技术,就是说给各个缺失数据找一个填充值,用这样的方法得到“完整数据”,然后用标准正常的完整数据的
统计方法进行数据分析和推断。
    1. 人工填写法(Filling Manually)。专家根据专业知识对缺失数据进行填补, 这是一种非常精确的方法。但是
他的缺点是费时又费力,当缺失的数值很多时,使用这种方法是基本不可能的。
    2. 平均值填充法(Mean/Mode Imputation)。删除法用以解决少量缺失值, 但是当缺失值大量出现时我们就需
要使用一种新的方法, 即平均值填充法。在处理数据时可以把变量分为数值型和非数值型。如果是非数值型的
缺失数据,运用统计学中众数的原理,用此变量在其他对象中取值频数最多的值来填充缺失值; 如果是数值型的
缺失值, 则取此变量在其他所有对象的取值均值来补齐缺失值。这种方法的优点是简便、快速,缺点是要建立在
完全随机缺失(MCAR)的假设之上。
    3. 热卡填充法(Hot Deck Imputation,或就近补齐)。对于一个包含空值的变量, 本方法是在完整数据中找到
一个与空值最相似的变量, 然后用这个相似的值来进行填充。与均值替换法相比, 本方法简单易懂还可以保持
数据本身的类型,利用本方法填充数据后,其变量值与填充前很接近。但是这种方法也存在不足之处, 就是其主
观因素较多,还比较耗时。
   4. 使用任何可能的值填充(Assigning All Possible values of the Attribute)。这种方法是用缺失值所有可能的
数值来填充, 能够起到一个补齐效果。而这种方法的缺点是,当要研究的数据量很大或者缺失的数值较多时,他
的计算量很大,需要测试的方案很多。针对其缺点有另外的一种方法,用一样的方法来填补缺失数,不同的是从结
果相同的对象中选择所有可能情况的数值, 而不是根据所有情况的对象进行尝试, 这样能够在一定程度上缓解
原方法的不足。
   5. 多重填补法(Multiple Imputation,MI)。多重填补法是由Rubin等人根据贝叶斯估计原理于1978年建立起来
的。多重填补的原理是首先为缺失值产生一系列用来填充的数值,把这个系列中的每一个值都用来填充,产生相
对应的一系列的完整的数据集合。再将这些经过填充过的数据集合使用完整数据的方法进行研究。最后把各个

填充过的数据集合结果进行综合考量得出结论, 这个结论考虑到了数据填补过程中产生的各种不确定性。这种
方法的缺点也是不能不重视的:第一,计算很复杂;第二,是要求数据集满足贝叶斯假设,这个在现实中很难实现;
第三,是多重填补法只适用于统计分析,不适合数据挖掘的需要。
(三)不处理
既然每种方法都有其不足之处, 那么就直接在包含空值的数据上进行数据挖掘。这样既节省了时间又减轻
了负担。但是这种方法也不是完美的,也有其弱点,现实工作中,大家对数据是没有前期知识的,而采用此种方法
要求使用者对部分数据先进行假设, 但是在没有任何前期知识的情况下,很容易假设出错误的结论,而且即使知
道数据中的一些参数, 要估计出正确的数值也需要很长的时间,所以说也不是非常实用的。

综合以上三种方法,可以知道,每种方法都适用于不同的条件, 而每种方法都有其不足之处。在实际的工作
中, 我们要根据实际情况正确选择解决方法。当数据样本很大, 而缺失数据所占比例很小的情况下我们可以使
用“删除法”;当数据缺失值形式是MCAR,并且样本容量并不大的情况下,可采用“填补法”;当以上两种方法都不实用的情况下我们可以考虑使用“不处理”的方法。针对不同的问题我们不能一概而论,关键是要分清实质,寻找
到在当前条件下最适宜的方法, 使不完全样本的已有信息得到最佳利用。





本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据ETL面临的问题----数据缺失 的相关文章

  • 详解用户画像

    01画像简介 用户画像 即用户信息标签化 通过收集用户的社会属性 消费习惯 偏好特征等各个维度的数据 进而对用户或者产品特征属性进行刻画 并对这些特征进行分析 统计 挖掘潜在价值信息 从而抽象出用户的信息全貌 如图1 1所示 用户画像可看作
  • 数据仓库工程师面经(未完)

    HIVE Hive row number dense rank rank三个函数的区别 Hive 窗口函数如何设置窗口大小 Hive order by sort by distribute by cluster by 区别 Hive map
  • hive中判断一个字符串是否包含另一个子串的四种方法,sql中也可用

    hive中判断一个字符串是否包含另一个子串的四种方法 如果你有一个数据需求 需要从一个字段中 判断是否有一个字符串 你该怎么做 一 方法1 like和rlike 最能想到的方法 用like或者rlike select i want to t
  • 帆软 finereport FCRA 考试 题库+答案,共收录561题,大部分有答案

    帆软 finereport FCRA 考试 题库 答案 共收录561题 大部分有答案 入门基础 11 多选题 以下方式中属于FineReport中预览模式的有 分页预览 填报预览 新填报预览 数据分析 移动端预览 16 判断题 FineRe
  • Flink CDC(2.0) 如何加速海量数据的实时集成?

    原文 Flink CDC 如何加速海量数据的实时集成 知乎 导读 Flink CDC如何解决海量数据集成的痛点 如何加速海量数据处理 Flink CDC社区如何运营 如何参与社区贡献 今天的介绍会围绕下面四点展开 Flink CDC 技术
  • Power bi 4.6 聚类图

    关注微信公共号 小程在线 关注CSDN博客 程志伟的博客 数据集链接见微信公共号底端 1 在Power BI中导入可视化效果 点击 选择导入自定义视觉对象 点击导入 2 选择我们需要导入的视觉对象 3 在可视化就会出现新的图形 4 导入 D
  • 为什么公司在对数据库的数据进行删除操作的时候都建议软删?

    我们平时在建表的时候 相信大家有时候会被告知再添加一个额外的字段来判断当前记录是否需要使用 也就是软删 我在公司也是严禁删除数据 只能使用软删 我刚开始也是以为是防止误删或者有一个记录留存 但是其实我们每个操作都会记录操作日志的 所以真实目
  • 第二篇:数据仓库与数据集市建模

    阅读目录 前言 维度建模的基本概念 维度建模的三种模式 实例 零售公司销售主题的维度建模 更多可能的事实属性 经典星座模型 缓慢变化维度问题 数据仓库建模体系之规范化数据仓库 数据仓库建模体系之维度建模数据仓库 数据仓库建模体系之独立数据集
  • 数据可视化平台理论与实践

    前面说完了大数据开发平台的核心组件 作业调度系统 接下来讨论一下大数据开发平台的脸面之一 数据可视化平台 和调度系统一样 这又是一个很多公司可能想要自己造一个轮子的系统 数据可视化平台是什么 不过 慢着 先等一下 什么是数据可视化平台 我们
  • hiveSql 重分组聚合问题

    hiveSql 重分组聚合问题 问题 分析 实现 最后 问题 将下图中A表转变为B和C 即A gt B A gt C 分析 1 首先看A gt B 可见是将name列分组 取最大组内最大id 介绍两种求解方式 1 很容易想到 开窗函数fir
  • hive 高级分组聚合(grouping sets cube和rollup)

    1 grouping sets 1 1 select a b sum c from tbl group by a b grouping sets a b 相当于 select a b sum c from tbl group by a b
  • 数仓体系效率全面提升!同程数科基于 Apache Doris 的数据仓库建设

    应用实践 数仓体系效率全面提升 同程数科基于 Apache Doris 的数据仓库建设 导读 同程数科成立于 2015 年 是同程集团旗下的旅游产业金融服务平台 2020 年 同程数科基于 Apache Doris 丰富的数据接入方式 优异
  • Hive千亿级数据倾斜解决方案

    数据倾斜问题剖析 数据倾斜是分布式系统不可避免的问题 任何分布式系统都有几率发生数据倾斜 但有些小伙伴在平时工作中感知不是很明显 这里要注意本篇文章的标题 千亿级数据 为什么说千亿级 因为如果一个任务的数据量只有几百万 它即使发生了数据倾斜
  • 数据仓库是什么?和数据库有何区别?

    在具体学习数据仓库之前先看一下数据中心的整体构架以及数据流向 DB 是现有的数据来源 可以为mysql SQLserver 文件日志等 为数据仓库提供数据来源的一般存在于现有的业务系统之中 ETL 是 Extract Transform L
  • 数仓知识07:数据增量更新的几种方式

    1 增量更新的几种方式 增量更新的本质 其实是获取源表中数据变化的情况 增 删 改 然后将源表中发生的变化同步至目标表中 不同的方式 获取源表中数据变化的情况不一样 受技术的限制 表结构的限制 某些方式可能无法获取到完整的数据变化情况 因此
  • 互联网“香饽饽”?数据挖掘或成热门行业

    何为 数据挖掘 信息化社会的高速发展下 大数据 云计算 物联网等技术应运而生 海量的数据资源逐渐在人们的生产生活中高速地产生 积累 带动全社会迈入了大数据时代 这些代表信息的数据就好像大海 而要在广阔的大海里面找到想要的某一条信息或知识 也
  • neo4j start error:系统找不到指定的路径。 Unable to create logger at ‘‘

    项目场景 Neo4j 4 3 3 community windows 这是代码文件 启动时需要进入文件夹下的bin目录 输入neo4j start 然后转入http localhost 7474 出现可供使用的图形界面 此时如果在当前目录下
  • DAMA-DMBOK2重点知识整理CDGA/CDGP——第2章 数据处理伦理

    目录 一 分值分布 二 重点知识梳理 1 语境关系图 2 引言 3 业务驱动因素 4 基本概念 一 分值分布 CDGA 2分 2单选 CDGP 0分 不考 二 重点知识梳理 1 引言 预警关系图 数据处理伦理定义 如何以符合道德准则及社会责
  • HiveSQL原理和优化详解

    Hive SQL 编译成MapReduce过程 编译 SQL 的任务是在上节中介绍的 COMPILER 编译器组件 中完成的 Hive将SQL转化为MapReduce任务 整个编译过程分为六个阶段 词法 语法解析 Antlr 定义 SQL
  • 智能数据分析系统:揭秘最强AI助力企业腾飞的秘密武器

    现代企业离不开数据 而数据的分析与应用更是成为企业走向成功的关键之一 然而 随着数据量的不断增长 传统的数据分析方法已经无法满足企业的需求 这时 智能数据分析系统应运而生 成为企业决策的得力助手 那么 智能数据分析系统究竟是如何帮助企业实现

随机推荐

  • 中山大学App校园地图功能分析

    中山大学App校园地图简单功能分析介绍 用户入口 进入中山大学App首页 即可看到校园地图 点击后进入校园地图主界面 校区选取 进入地图主界面后 即可呈现出校园地图 顶上正中间是选取校区的功能按钮 单击后出现全部4个校区可供选择 路线导航
  • 如何在手机上打开xmind文件_如何高效率整理电脑上的文件 ?

    个人电脑 01 没有时间整理 也不想整理 怎么办 1 1 只整理电脑桌面 电脑桌面放着各种文件 已经成为多数人的习惯 一打开电脑 就可以从电脑桌面上看见自己有哪些文件等着处理 当天处理的文件存放在桌面 第二天要用的时候 直接在桌面打开就可以
  • python遍历文件夹中的图片

    import cv2 import os mainFolder Images RectSmall myFolders os listdir mainFolder print myFolders for folder in myFolders
  • jre jdk更改目录后Java无法运行问题解决方案

    问题 在将Java文件 包含jdk jre 由C盘直接剪贴到D盘后 所有Java程序无法运行 且其Java图标不再显示 解决方案 首先更改环境变量 当我们单纯地将Java文件更改位置后 我们计算机的环境变量仍未改变 依旧是当时安装Java时
  • Verilog中if- else if语句和case语句用法:

    一 if语句 1 两种情况 if 条件语句 begin end else begin end 2 多种情况 if 条件语句 begin end else if 条件语句 begin end else if 条件语句 begin end el
  • 编程大师-Netty

    45 张图深度解析 Netty 架构与原理 里奥ii的博客 CSDN博客 netty全过程图解 最详细清晰版 netty流程 PANDA的博客 CSDN博客
  • Kafka学习(三)简单实例(可以简单做测试)

    java客户端连接kafka简单测试 本案例kafka版本是kafka 2 11 0 9 0 1 用java来实现kafka生产者 消费者的示例 在测试的过程中遇到的特别的问题以及解决办法 其他小问题就不一一列举了 1 使用kafka cl
  • libero-soc许可证申请和环境配置

    环境 64位机 在哪台电脑上安装libero soc 就用哪台电脑申请许可证 1 注册 https www microsemi co 在官网注册 之后申请的许可证会发到注册时填写的邮箱 2 申请许可证 https www microsemi
  • 操作系统 段页式存储管理

    一 引入 分页系统是以页面作为内存分配的基本单位 能有效地提高内存利用率 但信息共享等不方便 分段系统是以段作为内存分配的基本单位 它能够更好地满足用户多方面的需要 信息共享 动态链接等 但采用分区方式管理物理内存 仍然存在碎片问题 段页式
  • mysql varchar类型条件查询不加引号

    一张160w数据量的表 select from order promotion where order no 15441913435665186 select from order promotion where order no 1544
  • Gradle –多个启动脚本示例

    很少有build gradle示例向您展示如何创建多个启动脚本或可执行Java应用程序 1 单启动脚本 1 1在Gradle中 您可以使用应用程序插件来创建可执行的Java应用程序 build gradle apply plugin app
  • 蒙特卡洛积分、重要性采样、低差异序列

    渲染公式 渲染的目标在于计算周围环境的光线有多少从表面像素点反射到相机视口中 要计算总的反射光 每个入射方向的贡献 必须将他们在半球上相加 为入射光线 与法线 的夹角 为方便计算可以使用法线向量和入射向量 单位化 的乘积表示 对于基于图像的
  • 全国各省市座机电话区号整理

    excel数据整理下载地址 https download csdn net download MtiredM 87620876 json格式数据整理 const areaCodes 热门城市 010 北京市 024 沈阳市 0371 郑州市
  • Qt对话框

    Qt的对话框分为两种 模态对话框和非模态对话框 模态对话框 模态对话框 不可以对其其他窗口进行操作 比如像下面这种 出现后无法再操作其他窗口 比如像下面这种 创建后就无法在操作写代码的窗口 创建对话框要将 include
  • 【Unity&C#&随机数】随机数

    一个简单的随机数获得 0或1 使用了这样的代码 想要获得0或者1 if Input anyKeyDown float i 1 if i 1 i Random Range 0 Rang i i lt 0 5 0 1 Debug Log Cou
  • C语言经典100例题(18)--题目:求s=a+aa+aaa+aaaa+aa...a的值

    目录 题目 问题分析 代码 测试结果 题目 求s a aa aaa aaaa aa a的值 其中a是一个数字 例如2 22 222 2222 22222 此时共有5个数相加 几个数相加有键盘控制 问题分析 加数之间的规律 a a 0 10
  • Python实现归并排序

    Python实现归并排序 一 归并排序简介 归并排序 Merge Sort 是建立在归并操作上的一种效率很高的排序算法 比较占用内存 该算法是分治法 Divide and Conquer 的一个典型应用 归并排序将两个或两个以上 一般是两个
  • 华为OD机试 Python 【响应报文时间】

    题目 假设你正在接收网络报文 并且需要在一定时间内对它们作出响应 每次当你收到一个报文时 它会有一个 最大响应时间 来告诉你最晚需要在什么时候回应 但是 如果在等待回应期间又收到了新的报文 你可能需要更新你的响应时间 最大响应时间 是这样计
  • 关于uthash 的初步源码阅读

    背景 在偶然的mqtt mosquitto 中的源码中查看的关于topic的处理 知道了哈希表这种的数据结构 最近花了一点时间将这个部分的源码看了一部分 不知道后面还有没有时间继续查看所以就写一篇文档作为笔记吧 uthash 使用 utha
  • 数据ETL面临的问题----数据缺失

    数据缺失的类型有 完全随机缺失 Missing Completely at Random MCAR 数据的缺失与不完全变量以及完全变量都是无关的 随机缺失 Missing at Random MAR 数据的缺失不是完全随机的 数据的缺失只依