excel数据清洗_数据清洗步骤

2023-05-16

首先这是数据清洗步骤的思维导图

数据清洗步骤

步骤一: 选择子集

在办公中,经常会碰到excel表格中存在大量列,但有一些列,可能是近期不在使用,就是暂时不在使用的,为了更好的突出重点列,就可以暂时把这些不用的列隐藏起来,利于更好的观看其他的列,提高办公效率,但是有时候我们又需要看以前的列,需要将其还原,就是需要将列取消隐藏,应形成一个好的习惯,不去删除数据,而是隐藏数据,保证原始数据的完整

1.excel如何隐藏列

隐藏列方法一:首先选中要隐藏的列,如B列,然后右键B列,在弹出的窗口中选择隐藏,即可将B列隐藏。

方法一

隐藏列方法二:也是先选中要隐藏的列,如B列,然后点击excel表格右边的格式再把鼠标放到隐藏和取消隐藏上,点击隐藏列,即可完成隐藏。

快捷键: Ctrl + 0

方法二

2.excel中怎么取消隐藏列

方法一:要取消隐藏的列,首先需选中隐藏了的列的前后两个列,然后右键,如图中,再选择取消隐藏,即可。

方法一

方法二:点击右上角的格式,再把鼠标放到隐藏和取消隐藏上,点击取消隐藏列,即可取消隐藏。

方法二

步骤二: 列表重命名

1.双击列表进行修改

2.按自己的命名习惯修改列名

步骤三: 删除重复值

1.找到数据集的唯一标识,这个值重复代表数据重复

比如:一份学生信息表里,想删除重复数据怎么做?

数据

大家应该知道学生信息表中唯一的条件就是学号,不会重复,姓名年龄都有可能重复,因此这里要将学号重复的数据删除

2.利用唯一标识,删除重复值

(1)首先选中我们需要删除重复数据的区域

(2)然后选择菜单选项中的数据

步骤一

(3)再选择数据选项工具栏中的删除重复项

(4)在删除重复项设置中我们需要设置以哪列数据为依据来删除重复项(当然也可以以所有列为依据),这里我们以学生列为依据

步骤二

(5)删除后会有提示删除了多少重复数据,数据中的重复数据也删除了

结果

步骤四: 缺失值处理

1.统计出有多少缺失值

点击列号,右下角计数显示数据数量

"地址"列的缺失数据统计 = "学号"列数据总数 - "地址"列数据总数

总数据计数

缺失数据计数

2.处理缺失值的四种办法

(1)通过人工手动补全,适合与缺失值比较少

(2)删除缺失数据

(3)用列表平均值代替缺失值

(4)用统计模型计算出来的值代替缺失值

3.缺失值处理步骤

选中地址列的数据区域

可以采用选择菜单,也可以使用快捷键“ctrl+G”

采用选择菜单:点击“开始”——“查找和选择”——“定位条件”

选择菜单

使用快捷键“ctrl+G”,会弹出“定位”的对话框,选择“定位条件”

快捷键“ctrl+G”

在弹出的“定位条件”对话框,选择“空值”(这里示例的表格中缺失值处是空值,可以根据自己需求对应选择)。点击“确定”

步骤一

回到数据表,会发现所有缺失值处出现了的灰色的底色,则证明所有缺失值都被选中

那么如何填充这些空值呢?

步骤二

一般会选择采用样本的“平均值”来代替缺失值,假设这里的平均值为“上海”

使用键盘敲击“上海”,然后采用“Ctrl+Enter”组合键

这样,刚才所有被选中的缺失值处的单元格里都变成了上海

结果

4.补充问题

不同的空值怎么填充?

数据

和上面步骤一样,到最后输入补充值得时候需要输入等号,然后点击上面的单元格

方法

然后采用“Ctrl+Enter”组合键

这样,就补充了不同的空值

结果

步骤五: 一致化处理

1.一致化是什么

一致化指的是数据是否有统一的标准或者命名

利用Excel分列功能,分列功能可以将某一列按照特定的规则拆分

注意:分列功能会覆盖右列单元格,因此要分列之前,需把要拆分的单元格复制到最后一列

2.一致化步骤

复制要拆分的单元格到最后一列

点击列号,选择该列,进行复制

复制数据

在最后列后面的空白列号,进行粘贴

粘贴数据

将原数据列隐藏

处理数据

选择要进行一致化处理的列,点击数据 ---> 点击分列功能

方法

文本分列向导步骤

步骤一

步骤二

步骤三

一致化处理结果

结果

第六步: 数据排序

1.数据排序是什么

数据排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势, 找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便

注意:在处理Excel中数据的排序时,需要注意些细节,比如不能使排序列的数据和其他数据列的数据分离导致数据被破坏

2.数据排序步骤

选择需要排序的一列数据,点击任意一个单元格

选择菜单 开始->排序和筛选->降序

方法

Excel中的所有行数据都随该行数据重新排序

升序是将数据从小到大排序,如下图

升序

降序是将数据从大到小排序,如下图

降序

如果想恢复最原始排序,可以在将数据排序前,在数据中加一列数据序列,案例数据中的学号可以代表数据的原始排序,因此将学号升序就可恢复排序前的数据顺序

恢复

假如没有学号这样的数据原始排序,有两种方法

方法1:用开始的填充功能

如果序号是一样的,只需输入第一个数值和选择区域点击“确定”即可全部填充一样的数字,如果有递增等规则则选择系列选择步长和终止值等可快速填充

该方法用于较长的系列能大大提高效率

1、将数据排序之前,在数据最前面插入空白列

插入空白列

2、在A2中输入1,选中A列,然后点击开始菜单里面的“填充”,选择“序列”

方法

3、步长值默认是1,可不用改,终止值可以根据需要填写,比如需要填充序号从1-100, 终止值就设置成100

设置

效果如下

结果

方法2:鼠标拖曳法

1、先输入前面一个数字,把鼠标移动到第一个单元格的右下角,等会看到光标变成一个”十“字了,按住键盘上的Ctrl+鼠标左键,然后向单元格下方拖动鼠标,就能见到序号自动填充,这种只能用作步长为1的序列

2、先输入前面两个数字,输入两个数值让系统识别步长和填充规律,然后选择二个单元格把鼠标放于右下角,等光标变实心十字按住左键往下拉即可

该方法一般用于较短的系列

第七步: 异常值处理

异常值就是不属于你要分析的内容,这些数据加入数据分析,会使分析结果不准确

例如:你要分析的岗位是数据分析师等职位,不包含工程师,顾问等

所以异常值处理就是删除不是分析内容的数据

数据

只需输入公式: =IF(COUNT(FIND({"数据运营","数据分析","分析师"},C2)),"是","否")就可判断是否属于数据分析师相关职位

结果

然后进行筛选,将是的筛选出来,复制到新的Excel表格中,就是数据清洗的最终结果了,可以命名为清洗数据结果

属于数据分析师相关职位

命名格式

原始数据: 一开始得到的数据

清洗数据: 将原始数据复制,改名为清洗数据,所以的数据清洗都在这完成

清洗数据结果: 将数据清洗完成后的结果复制到新的Excel表中,数据透视表都在这进行

一点要养成良好的习惯,才不会乱

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

excel数据清洗_数据清洗步骤 的相关文章

  • 如何从 500 个 .xls Excel 文件中的单元格中获取数据?

    我想问你如何从许多Excel中的几个确定的 并且总是相同的 单元格中获取数据 xls文件 即我有一个清单 xls文件位于一个文件夹中 每个文件内部都有相同的表 但具有不同的值 我想从以下位置获取数据A1 C2 E3从文件夹中的所有文件中提取
  • 延迟宏以允许事件完成

    在尝试从宏内访问外部 API 函数集时 我发现有必要添加延迟 以便外部 API 有时间处理选择 实现这一点会带来一些困难 因为使用 Application Wait 或 Application Sleep 不起作用 在线搜索让我尝试使用 G
  • 将图表导出为图像有时会生成空文件

    I m doing a macro that exports all the charts in the sheet and then opens Outlook and attaches them However I ve noticed
  • 更改列标签?例如:将“A”列更改为“名称”列

    谁能告诉我如何更改列标签 例如 我想将列 A 更改为列 名称 Excel Excel 的版本是什么 一般来说 您无法更改列字母 它们是 Excel 系统的一部分 您可以使用工作表中的一行来输入您正在使用的表格的标题 表标题可以是描述性列名称
  • 从“查找”结果中出现“下标超出范围”错误

    我想在 Excel 工作表中查找一个字符串 Excel 单元格值是使用公式计算的 当我运行这段代码时 Set firstExcel CreateObject Excel application firstExcel Workbooks Op
  • 如何在网页中显示嵌入的 Excel 文件?

    我想允许在网页中查看嵌入的 Excel 报告 有什么办法吗 我不想使用 ActiveX 或 OWC Office Web 组件 我只想从 Internet Explorer 应用程序打开现有文件 我不希望用户下载然后打开它 使用 ifram
  • 将按颜色过滤的行复制到新工作表

    我有一个 Excel 电子表格 如下所示 Job1 Job2 Job3 Job4 Job5 Job1 Job2 Job3 Job4 Job5 每行和列之间的单元格颜色不同 我需要按橙色对每列进行排序 然后将行名称复制到新工作表中 所以最后我
  • 使用 R Shiny 从 XLConnect 下载 Excel 文件

    有没有人尝试过使用 R Shiny 中的下载处理程序通过 XLConnect 下载新创建的 Excel 文件 在 ui R 中有一行不起眼的行 downloadButton downloadData Download 在 server R
  • 如何模拟“焦点”和“打字”事件

    尝试模拟 onfocus 和打字事件 但它不起作用 Sub Login MyLogin MyPass Dim IEapp As InternetExplorer Dim IeDoc As Object Dim ieTable As Obje
  • 如何让VLOOKUP在VBA中选择到最低行?

    希望自动在单元格中插入 VLOOKUP 公式 录制宏时 我指示它使用相同的公式填充下面的列 效果很好 但是 当 VLOOKUP 搜索的表发生变化 更多或更少的行 时 就会出现问题 在记录时 VLOOKUP 下降到表中的最后一行 273 但是
  • 导出到excel时如何显示前导零?

    我正在通过更改内容类型来创建 Excel 报告 Response ContentType application vnd ms excel 我有包含前导零的值 问题是导出到 Excel 时缺少前导零 e g 000123 gt 123 我知
  • Excel FILTER() 对于空白单元格返回 0

    我怀疑以前有人问过这个问题 但我找不到 FILTER 即使指定了返回字符串 通常也会为空白行返回 0 Using filter 我经常收到空单元格的 0 返回值 假设 A 列中有 6 行数据 abc xyz abc xyz abc If I
  • 我可以获取VBA代码中的注释文本吗

    可以说我有以下内容 Public Sub Information TEST End Sub 有没有办法得到 TEST 结果 不知何故通过VBA 例如 在 PHP 中 有一个获取注释的好方法 这里有什么想法吗 编辑 应该有办法 因为像 MZ
  • VBA 中 AND 函数如何工作?

    如果这是一个愚蠢的问题 我很抱歉 但是 Excel VBA AND 函数是否检查其中的每个条件然后继续 或者在第一个 FALSE 条件处停止而不检查其他条件 我想知道出于优化目的 但到目前为止在网上没有找到任何相关信息 提前致谢 示例 如果
  • Excel 数字缩写格式

    这是我想要完成的任务 Value Display 1 1 11 11 111 111 1111 1 11k 11111 11 11k 111111 111 11k 1111111 1 11M 11111111 11 11M 11111111
  • 使用输入作为显示日期的基础

    我需要一种方法来使用用户窗体上的输入来确定将在输出上显示的日期 这是我的代码 If StatusBox Value lt 23 59 And ShiftCode Value AP Then Cells emptyRow 8 Value Da
  • 使用 FindElementbyXpath() 获取 Selenium Basic 中可填充框的行和列名称

    我正在使用 Selenium Basic 将电子表格中的文本填充到网站中 网站的html代码是这样的 div table cellspacing 0 border 1 style width 99 tr th style font weig
  • 有没有更快的方法来使用Powershell解析Excel文档?

    我正在与一个接口MS Excel文件通过Powershell 每个 Excel 文档可能有大约 1000 行数据 目前这个脚本似乎读取了Excel文件并以每 0 6 秒 1 条记录的速率将值写入屏幕 乍一看 这似乎非常慢 这是我第一次阅读E
  • Excel 2003 中的 IFERROR

    我通过阅读几个线程了解到IFERROR在 Excel 2003 中由IF ISERROR 我尝试从 Excel 2007 复制的代码是 IFERROR A1 我知道必须有一个简单的解决方案将其转换为IF ISERROR 但我没有任何效果 意
  • 在 Excel 中生成随机 -1 和 +1 值

    The Rand 函数会生成一个 0 到 1 之间的实数 这Randbetween 1 1 将生成 1 0 或 1 我想要的只是 1或1 那么 1 到 1 之间的实数呢 Easy IF RAND lt 0 5 1 1 要获得实数 请使用 R

随机推荐