首先这是数据清洗步骤的思维导图
数据清洗步骤
步骤一: 选择子集
在办公中,经常会碰到excel表格中存在大量列,但有一些列,可能是近期不在使用,就是暂时不在使用的,为了更好的突出重点列,就可以暂时把这些不用的列隐藏起来,利于更好的观看其他的列,提高办公效率,但是有时候我们又需要看以前的列,需要将其还原,就是需要将列取消隐藏,应形成一个好的习惯,不去删除数据,而是隐藏数据,保证原始数据的完整
1.excel如何隐藏列
隐藏列方法一:首先选中要隐藏的列,如B列,然后右键B列,在弹出的窗口中选择隐藏,即可将B列隐藏。
方法一
隐藏列方法二:也是先选中要隐藏的列,如B列,然后点击excel表格右边的格式,再把鼠标放到隐藏和取消隐藏上,点击隐藏列,即可完成隐藏。
快捷键: Ctrl + 0
方法二
2.excel中怎么取消隐藏列
方法一:要取消隐藏的列,首先需选中隐藏了的列的前后两个列,然后右键,如图中,再选择取消隐藏,即可。
方法一
方法二:点击右上角的格式,再把鼠标放到隐藏和取消隐藏上,点击取消隐藏列,即可取消隐藏。
方法二
步骤二: 列表重命名
1.双击列表进行修改
2.按自己的命名习惯修改列名
步骤三: 删除重复值
1.找到数据集的唯一标识,这个值重复代表数据重复
比如:一份学生信息表里,想删除重复数据怎么做?
数据
大家应该知道学生信息表中唯一的条件就是学号,不会重复,姓名年龄都有可能重复,因此这里要将学号重复的数据删除
2.利用唯一标识,删除重复值
(1)首先选中我们需要删除重复数据的区域
(2)然后选择菜单选项中的数据
步骤一
(3)再选择数据选项工具栏中的删除重复项
(4)在删除重复项设置中我们需要设置以哪列数据为依据来删除重复项(当然也可以以所有列为依据),这里我们以学生列为依据
步骤二
(5)删除后会有提示删除了多少重复数据,数据中的重复数据也删除了
结果
步骤四: 缺失值处理
1.统计出有多少缺失值
点击列号,右下角计数显示数据数量
"地址"列的缺失数据统计 = "学号"列数据总数 - "地址"列数据总数
总数据计数
缺失数据计数
2.处理缺失值的四种办法
(1)通过人工手动补全,适合与缺失值比较少
(2)删除缺失数据
(3)用列表平均值代替缺失值
(4)用统计模型计算出来的值代替缺失值
3.缺失值处理步骤
选中地址列的数据区域
可以采用选择菜单,也可以使用快捷键“ctrl+G”
采用选择菜单:点击“开始”——“查找和选择”——“定位条件”
选择菜单
使用快捷键“ctrl+G”,会弹出“定位”的对话框,选择“定位条件”
快捷键“ctrl+G”
在弹出的“定位条件”对话框,选择“空值”(这里示例的表格中缺失值处是空值,可以根据自己需求对应选择)。点击“确定”
步骤一
回到数据表,会发现所有缺失值处出现了的灰色的底色,则证明所有缺失值都被选中
那么如何填充这些空值呢?
步骤二
一般会选择采用样本的“平均值”来代替缺失值,假设这里的平均值为“上海”
使用键盘敲击“上海”,然后采用“Ctrl+Enter”组合键
这样,刚才所有被选中的缺失值处的单元格里都变成了上海
结果
4.补充问题
不同的空值怎么填充?
数据
和上面步骤一样,到最后输入补充值得时候需要输入等号,然后点击上面的单元格
方法
然后采用“Ctrl+Enter”组合键
这样,就补充了不同的空值
结果
步骤五: 一致化处理
1.一致化是什么
一致化指的是数据是否有统一的标准或者命名
利用Excel分列功能,分列功能可以将某一列按照特定的规则拆分
注意:分列功能会覆盖右列单元格,因此要分列之前,需把要拆分的单元格复制到最后一列
2.一致化步骤
复制要拆分的单元格到最后一列
点击列号,选择该列,进行复制
复制数据
在最后列后面的空白列号,进行粘贴
粘贴数据
将原数据列隐藏
处理数据
选择要进行一致化处理的列,点击数据 ---> 点击分列功能
方法
文本分列向导步骤
步骤一
步骤二
步骤三
一致化处理结果
结果
第六步: 数据排序
1.数据排序是什么
数据排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势, 找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便
注意:在处理Excel中数据的排序时,需要注意些细节,比如不能使排序列的数据和其他数据列的数据分离导致数据被破坏
2.数据排序步骤
选择需要排序的一列数据,点击任意一个单元格
选择菜单 开始->排序和筛选->降序
方法
Excel中的所有行数据都随该行数据重新排序
升序是将数据从小到大排序,如下图
升序
降序是将数据从大到小排序,如下图
降序
如果想恢复最原始排序,可以在将数据排序前,在数据中加一列数据序列,案例数据中的学号可以代表数据的原始排序,因此将学号升序就可恢复排序前的数据顺序
恢复
假如没有学号这样的数据原始排序,有两种方法
方法1:用开始的填充功能
如果序号是一样的,只需输入第一个数值和选择区域点击“确定”即可全部填充一样的数字,如果有递增等规则则选择系列选择步长和终止值等可快速填充
该方法用于较长的系列能大大提高效率
1、将数据排序之前,在数据最前面插入空白列
插入空白列
2、在A2中输入1,选中A列,然后点击开始菜单里面的“填充”,选择“序列”
方法
3、步长值默认是1,可不用改,终止值可以根据需要填写,比如需要填充序号从1-100, 终止值就设置成100
设置
效果如下
结果
方法2:鼠标拖曳法
1、先输入前面一个数字,把鼠标移动到第一个单元格的右下角,等会看到光标变成一个”十“字了,按住键盘上的Ctrl+鼠标左键,然后向单元格下方拖动鼠标,就能见到序号自动填充,这种只能用作步长为1的序列
2、先输入前面两个数字,输入两个数值让系统识别步长和填充规律,然后选择二个单元格把鼠标放于右下角,等光标变实心十字按住左键往下拉即可
该方法一般用于较短的系列
第七步: 异常值处理
异常值就是不属于你要分析的内容,这些数据加入数据分析,会使分析结果不准确
例如:你要分析的岗位是数据分析师等职位,不包含工程师,顾问等
所以异常值处理就是删除不是分析内容的数据
数据
只需输入公式: =IF(COUNT(FIND({"数据运营","数据分析","分析师"},C2)),"是","否")就可判断是否属于数据分析师相关职位
结果
然后进行筛选,将是的筛选出来,复制到新的Excel表格中,就是数据清洗的最终结果了,可以命名为清洗数据结果
属于数据分析师相关职位
命名格式
原始数据: 一开始得到的数据
清洗数据: 将原始数据复制,改名为清洗数据,所以的数据清洗都在这完成
清洗数据结果: 将数据清洗完成后的结果复制到新的Excel表中,数据透视表都在这进行
一点要养成良好的习惯,才不会乱