数据ETL面临的问题----数据缺失

2023-11-20

数据缺失的类型有：

完全随机缺失（Missing Completely at Random，MCAR）：数据的缺失与不完全变量以及完全变量都是无关的；随机缺失（Missing at Random，MAR）：数据的缺失不是完全随机的，数据的缺失只依赖于完全变量；完全非随机缺失（Missing Not At Random，MNAR）：数据的缺失依赖于不完全变量自身。

四、数据缺失的处理办法

数据缺失在统计过程中是一个很重要的问题，全世界都很关注，他的处理方法更是一个新兴的领域，综合各个国家

的研究结果，大致有以下几种方法。

（一）删除法（Deletion）
这种方法非常简单，当被调查对象出现缺失的变量值，并且这些缺失的变量值占总体数据的总量很小的情
况下，这种方法非常有效。解决方法就是将存在缺失的变量值删除，形成一个完整的调查表。但是这种方法有
它的不足之处，在删除缺失数据的过程中，减少了原始的数据，导致了信息的损耗，而且丢失了很多包含在被删除
数据中的信息。特别是当被研究的数据本身数量很少的时候，删除少量数据就足以影响整体结果的客观性以及
正确性。所以，当缺失数据占总体数据比例很大时，这种方法将会导致错误结论。
（二）填补法（Imputation）
当有数据缺失的记录在整个数据中只占一个很小比例时，可以直接删除缺失记录，对余下的完全数据进行处
理。但是在实际数据中，往往缺失数据占有相当的比重，这样做不仅会产生偏差，甚至会得出有误导性的结论，同

时丢失大量信息，造成浪费。因此我们使用一种新的方法来进行处理。目前，填补法是处理数据缺失时普遍使用的

一种技术，就是说给各个缺失数据找一个填充值，用这样的方法得到“完整数据”，然后用标准正常的完整数据的
统计方法进行数据分析和推断。
1. 人工填写法（Filling Manually）。专家根据专业知识对缺失数据进行填补，这是一种非常精确的方法。但是
他的缺点是费时又费力，当缺失的数值很多时，使用这种方法是基本不可能的。
2. 平均值填充法（Mean/Mode Imputation）。删除法用以解决少量缺失值，但是当缺失值大量出现时我们就需
要使用一种新的方法，即平均值填充法。在处理数据时可以把变量分为数值型和非数值型。如果是非数值型的
缺失数据，运用统计学中众数的原理，用此变量在其他对象中取值频数最多的值来填充缺失值；如果是数值型的
缺失值，则取此变量在其他所有对象的取值均值来补齐缺失值。这种方法的优点是简便、快速，缺点是要建立在
完全随机缺失（MCAR）的假设之上。
3. 热卡填充法（Hot Deck Imputation，或就近补齐）。对于一个包含空值的变量，本方法是在完整数据中找到
一个与空值最相似的变量，然后用这个相似的值来进行填充。与均值替换法相比，本方法简单易懂还可以保持
数据本身的类型，利用本方法填充数据后，其变量值与填充前很接近。但是这种方法也存在不足之处，就是其主
观因素较多，还比较耗时。
4. 使用任何可能的值填充（Assigning All Possible values of the Attribute）。这种方法是用缺失值所有可能的
数值来填充，能够起到一个补齐效果。而这种方法的缺点是，当要研究的数据量很大或者缺失的数值较多时，他
的计算量很大，需要测试的方案很多。针对其缺点有另外的一种方法，用一样的方法来填补缺失数，不同的是从结
果相同的对象中选择所有可能情况的数值，而不是根据所有情况的对象进行尝试，这样能够在一定程度上缓解
原方法的不足。
5. 多重填补法（Multiple Imputation，MI）。多重填补法是由Rubin等人根据贝叶斯估计原理于1978年建立起来
的。多重填补的原理是首先为缺失值产生一系列用来填充的数值，把这个系列中的每一个值都用来填充，产生相
对应的一系列的完整的数据集合。再将这些经过填充过的数据集合使用完整数据的方法进行研究。最后把各个

填充过的数据集合结果进行综合考量得出结论，这个结论考虑到了数据填补过程中产生的各种不确定性。这种
方法的缺点也是不能不重视的：第一，计算很复杂；第二，是要求数据集满足贝叶斯假设，这个在现实中很难实现；
第三，是多重填补法只适用于统计分析，不适合数据挖掘的需要。
（三）不处理
既然每种方法都有其不足之处，那么就直接在包含空值的数据上进行数据挖掘。这样既节省了时间又减轻
了负担。但是这种方法也不是完美的，也有其弱点，现实工作中，大家对数据是没有前期知识的，而采用此种方法
要求使用者对部分数据先进行假设，但是在没有任何前期知识的情况下，很容易假设出错误的结论，而且即使知
道数据中的一些参数，要估计出正确的数值也需要很长的时间，所以说也不是非常实用的。

综合以上三种方法，可以知道，每种方法都适用于不同的条件，而每种方法都有其不足之处。在实际的工作
中，我们要根据实际情况正确选择解决方法。当数据样本很大，而缺失数据所占比例很小的情况下我们可以使
用“删除法”；当数据缺失值形式是MCAR，并且样本容量并不大的情况下，可采用“填补法”；当以上两种方法都不实用的情况下我们可以考虑使用“不处理”的方法。针对不同的问题我们不能一概而论，关键是要分清实质，寻找
到在当前条件下最适宜的方法，使不完全样本的已有信息得到最佳利用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据ETL面临的问题----数据缺失的相关文章

详解用户画像

01画像简介用户画像即用户信息标签化通过收集用户的社会属性消费习惯偏好特征等各个维度的数据进而对用户或者产品特征属性进行刻画并对这些特征进行分析统计挖掘潜在价值信息从而抽象出用户的信息全貌如图1 1所示用户画像可看作
数据仓库工程师面经（未完）

HIVE Hive row number dense rank rank三个函数的区别 Hive 窗口函数如何设置窗口大小 Hive order by sort by distribute by cluster by 区别 Hive map
hive中判断一个字符串是否包含另一个子串的四种方法，sql中也可用

hive中判断一个字符串是否包含另一个子串的四种方法如果你有一个数据需求需要从一个字段中判断是否有一个字符串你该怎么做一方法1 like和rlike 最能想到的方法用like或者rlike select i want to t
帆软 finereport FCRA 考试题库+答案，共收录561题，大部分有答案

帆软 finereport FCRA 考试题库答案共收录561题大部分有答案入门基础 11 多选题以下方式中属于FineReport中预览模式的有分页预览填报预览新填报预览数据分析移动端预览 16 判断题 FineRe
Flink CDC（2.0）如何加速海量数据的实时集成？

原文 Flink CDC 如何加速海量数据的实时集成知乎导读 Flink CDC如何解决海量数据集成的痛点如何加速海量数据处理 Flink CDC社区如何运营如何参与社区贡献今天的介绍会围绕下面四点展开 Flink CDC 技术
Power bi 4.6 聚类图

关注微信公共号小程在线关注CSDN博客程志伟的博客数据集链接见微信公共号底端 1 在Power BI中导入可视化效果点击选择导入自定义视觉对象点击导入 2 选择我们需要导入的视觉对象 3 在可视化就会出现新的图形 4 导入 D
为什么公司在对数据库的数据进行删除操作的时候都建议软删？

我们平时在建表的时候相信大家有时候会被告知再添加一个额外的字段来判断当前记录是否需要使用也就是软删我在公司也是严禁删除数据只能使用软删我刚开始也是以为是防止误删或者有一个记录留存但是其实我们每个操作都会记录操作日志的所以真实目
第二篇：数据仓库与数据集市建模

阅读目录前言维度建模的基本概念维度建模的三种模式实例零售公司销售主题的维度建模更多可能的事实属性经典星座模型缓慢变化维度问题数据仓库建模体系之规范化数据仓库数据仓库建模体系之维度建模数据仓库数据仓库建模体系之独立数据集
数据可视化平台理论与实践

前面说完了大数据开发平台的核心组件作业调度系统接下来讨论一下大数据开发平台的脸面之一数据可视化平台和调度系统一样这又是一个很多公司可能想要自己造一个轮子的系统数据可视化平台是什么不过慢着先等一下什么是数据可视化平台我们
hiveSql 重分组聚合问题

hiveSql 重分组聚合问题问题分析实现最后问题将下图中A表转变为B和C 即A gt B A gt C 分析 1 首先看A gt B 可见是将name列分组取最大组内最大id 介绍两种求解方式 1 很容易想到开窗函数fir
hive 高级分组聚合(grouping sets cube和rollup)

1 grouping sets 1 1 select a b sum c from tbl group by a b grouping sets a b 相当于 select a b sum c from tbl group by a b
数仓体系效率全面提升！同程数科基于 Apache Doris 的数据仓库建设

应用实践数仓体系效率全面提升同程数科基于 Apache Doris 的数据仓库建设导读同程数科成立于 2015 年是同程集团旗下的旅游产业金融服务平台 2020 年同程数科基于 Apache Doris 丰富的数据接入方式优异
Hive千亿级数据倾斜解决方案

数据倾斜问题剖析数据倾斜是分布式系统不可避免的问题任何分布式系统都有几率发生数据倾斜但有些小伙伴在平时工作中感知不是很明显这里要注意本篇文章的标题千亿级数据为什么说千亿级因为如果一个任务的数据量只有几百万它即使发生了数据倾斜
数据仓库是什么？和数据库有何区别？

在具体学习数据仓库之前先看一下数据中心的整体构架以及数据流向 DB 是现有的数据来源可以为mysql SQLserver 文件日志等为数据仓库提供数据来源的一般存在于现有的业务系统之中 ETL 是 Extract Transform L
数仓知识07：数据增量更新的几种方式

1 增量更新的几种方式增量更新的本质其实是获取源表中数据变化的情况增删改然后将源表中发生的变化同步至目标表中不同的方式获取源表中数据变化的情况不一样受技术的限制表结构的限制某些方式可能无法获取到完整的数据变化情况因此
互联网“香饽饽”？数据挖掘或成热门行业

何为数据挖掘信息化社会的高速发展下大数据云计算物联网等技术应运而生海量的数据资源逐渐在人们的生产生活中高速地产生积累带动全社会迈入了大数据时代这些代表信息的数据就好像大海而要在广阔的大海里面找到想要的某一条信息或知识也
neo4j start error：系统找不到指定的路径。 Unable to create logger at ‘‘

项目场景 Neo4j 4 3 3 community windows 这是代码文件启动时需要进入文件夹下的bin目录输入neo4j start 然后转入http localhost 7474 出现可供使用的图形界面此时如果在当前目录下
DAMA-DMBOK2重点知识整理CDGA/CDGP——第2章数据处理伦理

目录一分值分布二重点知识梳理 1 语境关系图 2 引言 3 业务驱动因素 4 基本概念一分值分布 CDGA 2分 2单选 CDGP 0分不考二重点知识梳理 1 引言预警关系图数据处理伦理定义如何以符合道德准则及社会责
HiveSQL原理和优化详解

Hive SQL 编译成MapReduce过程编译 SQL 的任务是在上节中介绍的 COMPILER 编译器组件中完成的 Hive将SQL转化为MapReduce任务整个编译过程分为六个阶段词法语法解析 Antlr 定义 SQL
智能数据分析系统：揭秘最强AI助力企业腾飞的秘密武器

现代企业离不开数据而数据的分析与应用更是成为企业走向成功的关键之一然而随着数据量的不断增长传统的数据分析方法已经无法满足企业的需求这时智能数据分析系统应运而生成为企业决策的得力助手那么智能数据分析系统究竟是如何帮助企业实现

随机推荐

中山大学App校园地图功能分析

中山大学App校园地图简单功能分析介绍用户入口进入中山大学App首页即可看到校园地图点击后进入校园地图主界面校区选取进入地图主界面后即可呈现出校园地图顶上正中间是选取校区的功能按钮单击后出现全部4个校区可供选择路线导航
如何在手机上打开xmind文件_如何高效率整理电脑上的文件？

个人电脑 01 没有时间整理也不想整理怎么办 1 1 只整理电脑桌面电脑桌面放着各种文件已经成为多数人的习惯一打开电脑就可以从电脑桌面上看见自己有哪些文件等着处理当天处理的文件存放在桌面第二天要用的时候直接在桌面打开就可以
python遍历文件夹中的图片

import cv2 import os mainFolder Images RectSmall myFolders os listdir mainFolder print myFolders for folder in myFolders
jre jdk更改目录后Java无法运行问题解决方案

问题在将Java文件包含jdk jre 由C盘直接剪贴到D盘后所有Java程序无法运行且其Java图标不再显示解决方案首先更改环境变量当我们单纯地将Java文件更改位置后我们计算机的环境变量仍未改变依旧是当时安装Java时
Verilog中if- else if语句和case语句用法：

一 if语句 1 两种情况 if 条件语句 begin end else begin end 2 多种情况 if 条件语句 begin end else if 条件语句 begin end else if 条件语句 begin end el
编程大师-Netty

45 张图深度解析 Netty 架构与原理里奥ii的博客 CSDN博客 netty全过程图解最详细清晰版 netty流程 PANDA的博客 CSDN博客
Kafka学习（三）简单实例（可以简单做测试）

java客户端连接kafka简单测试本案例kafka版本是kafka 2 11 0 9 0 1 用java来实现kafka生产者消费者的示例在测试的过程中遇到的特别的问题以及解决办法其他小问题就不一一列举了 1 使用kafka cl
libero-soc许可证申请和环境配置

环境 64位机在哪台电脑上安装libero soc 就用哪台电脑申请许可证 1 注册 https www microsemi co 在官网注册之后申请的许可证会发到注册时填写的邮箱 2 申请许可证 https www microsemi
操作系统段页式存储管理

一引入分页系统是以页面作为内存分配的基本单位能有效地提高内存利用率但信息共享等不方便分段系统是以段作为内存分配的基本单位它能够更好地满足用户多方面的需要信息共享动态链接等但采用分区方式管理物理内存仍然存在碎片问题段页式
mysql varchar类型条件查询不加引号

一张160w数据量的表 select from order promotion where order no 15441913435665186 select from order promotion where order no 1544
Gradle –多个启动脚本示例

很少有build gradle示例向您展示如何创建多个启动脚本或可执行Java应用程序 1 单启动脚本 1 1在Gradle中您可以使用应用程序插件来创建可执行的Java应用程序 build gradle apply plugin app
蒙特卡洛积分、重要性采样、低差异序列

渲染公式渲染的目标在于计算周围环境的光线有多少从表面像素点反射到相机视口中要计算总的反射光每个入射方向的贡献必须将他们在半球上相加为入射光线与法线的夹角为方便计算可以使用法线向量和入射向量单位化的乘积表示对于基于图像的
全国各省市座机电话区号整理

excel数据整理下载地址 https download csdn net download MtiredM 87620876 json格式数据整理 const areaCodes 热门城市 010 北京市 024 沈阳市 0371 郑州市
Qt对话框

Qt的对话框分为两种模态对话框和非模态对话框模态对话框模态对话框不可以对其其他窗口进行操作比如像下面这种出现后无法再操作其他窗口比如像下面这种创建后就无法在操作写代码的窗口创建对话框要将 include
【Unity&C#&随机数】随机数

一个简单的随机数获得 0或1 使用了这样的代码想要获得0或者1 if Input anyKeyDown float i 1 if i 1 i Random Range 0 Rang i i lt 0 5 0 1 Debug Log Cou
C语言经典100例题（18）--题目：求s=a+aa+aaa+aaaa+aa...a的值

目录题目问题分析代码测试结果题目求s a aa aaa aaaa aa a的值其中a是一个数字例如2 22 222 2222 22222 此时共有5个数相加几个数相加有键盘控制问题分析加数之间的规律 a a 0 10
Python实现归并排序

Python实现归并排序一归并排序简介归并排序 Merge Sort 是建立在归并操作上的一种效率很高的排序算法比较占用内存该算法是分治法 Divide and Conquer 的一个典型应用归并排序将两个或两个以上一般是两个
华为OD机试 Python 【响应报文时间】

题目假设你正在接收网络报文并且需要在一定时间内对它们作出响应每次当你收到一个报文时它会有一个最大响应时间来告诉你最晚需要在什么时候回应但是如果在等待回应期间又收到了新的报文你可能需要更新你的响应时间最大响应时间是这样计
关于uthash 的初步源码阅读

背景在偶然的mqtt mosquitto 中的源码中查看的关于topic的处理知道了哈希表这种的数据结构最近花了一点时间将这个部分的源码看了一部分不知道后面还有没有时间继续查看所以就写一篇文档作为笔记吧 uthash 使用 utha
数据ETL面临的问题----数据缺失

数据缺失的类型有完全随机缺失 Missing Completely at Random MCAR 数据的缺失与不完全变量以及完全变量都是无关的随机缺失 Missing at Random MAR 数据的缺失不是完全随机的数据的缺失只依

数据ETL面临的问题----数据缺失

数据ETL面临的问题----数据缺失 的相关文章

随机推荐

热门标签

数据ETL面临的问题----数据缺失的相关文章