第五章 数据清洗

2023-11-19

5.1数据去重
5.1.1完全去重
点击“获取字段”,配置csv文件输入的属性:Name,Gender,City
在这里插入图片描述
配置唯一行属性,选择要去重的属性:Name,Gender,City
在这里插入图片描述
运行结果,完全去重成功
在这里插入图片描述

5.1.2不完全去重
将文本分隔符替换为一个TAB,选择字段:Name,UserLevel,Phone,VisitTime
在这里插入图片描述
配置唯一行,选择要比较去重的字段:Name,UserLevel,Phone
在这里插入图片描述
运行结果:不完全去重成功
在这里插入图片描述

5.2缺失值处理
在这里插入图片描述

5.2.2去除缺失值
配置文本文件输入,获取字段:Name,Sex,Pay,Area
在这里插入图片描述
配置过滤记录组件,添加过滤条件
在这里插入图片描述
查看效果
在这里插入图片描述
运行成功
在这里插入图片描述
5.2.3填充缺失值
配置过滤记录控件
在这里插入图片描述
配置合并记录控件,选择匹配关键字:userid
在这里插入图片描述
将hours_per_week的null值替换为44
在这里插入图片描述
将字段workclass的null值替换为Private
在这里插入图片描述
配置字段选择控件,移除flagfield字段
在这里插入图片描述
查看结果:已经将null值填充完毕
在这里插入图片描述

5.3.3删除包含异常值的记录
读取文件出错
在这里插入图片描述
5.3.4修补异常值
将Height字段的null值替换为170
在这里插入图片描述
合并记录,选择匹配的关键字段:id
在这里插入图片描述
将Height字段的260设置为null
在这里插入图片描述
设置过滤记录条件:Height>=114 and Height<=226
在这里插入图片描述
配置表输入,写入SQL语句:SELECT * FROM interpolation_data
在这里插入图片描述

在这里插入图片描述
运行结果:数据表interpolation_data中的异常值已被替换
在这里插入图片描述

5.4.1数据一致性处理
配置表输入,写入SQL语句:SELECT * FROM personnel_information
在这里插入图片描述
配置值映射,使用GENDER字段,将Male和Female分别映射为0,1
在这里插入图片描述
配置插入/更新控件
在这里插入图片描述
运行结果
在这里插入图片描述
5.4.2数据规范化
配置制自定义常量数据控件,添加元数据:ProductionDate,ProductionName,ProductionNumber,CommoditySales
在这里插入图片描述
配置计算器控件,计算CommoditySales/ProductionNumber的值并命名为Unitprice
在这里插入图片描述
配置数据检验控件,添加date_verify,name_verify,price_verify检验
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
运行结果
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

第五章 数据清洗 的相关文章

  • 使用 Interop 从 Excel 获取最后一个非空列和行索引

    我正在尝试使用互操作库从 Excel 文件中删除所有多余的空白行和列 我关注了这个问题使用 Interop 从 Excel 文件中删除空行和空列的最快方法 https stackoverflow com questions 40574084
  • 如何获取(通过 GET)所有 JIRA 问题?我要转到“搜索”节点吗?

    看起来 api 2 project 可以轻松以 JSON 格式返回 JIRA 实例中的所有项目 我想对问题做同样的事情 但这似乎不存在 api 2 search 是进行此类批量转储的标准方法吗 定期更新数据库的最佳方法是什么 我会做一些类似
  • informatica powercenter 与自定义 Perl ETL 作业?

    我公司的大多数公司都使用 powercenter informatica 在数据库之间进行提取 转换 加载类型的数据移动作业 然而 我参与的项目有一个大型的自定义 Perl 作业 其中添加了一些 Java 以便很好地移动数据并触发一些其他更
  • 如何使用OrientDB ETL仅创建边

    我有两个 CSV 文件 首先包含 500M 记录 格式如下 id name10000023432 汤姆用户13943423235 胡说八道 第二个包含 1 5B 好友关系 格式如下 从 ID 到 ID10000023432 13943423
  • SSIS 中的 OData 源组件未连接

    这是上一个问题的后续问题 SSIS 中的 OData 源组件挂起 https stackoverflow com questions 48026984 odata source component in ssis hanging Setup
  • 在 SSIS 中使用正确的函数拆分列中的值

    我需要你们的紧急帮助 我有一列代表用户的全名 现在我想将其分为名字和姓氏 全名的格式为 World hello 现在这里的名字是 hello 姓氏是 world 我正在使用派生列 SSIS 并对名字使用右函数 对姓氏使用子字符串函数 但这些
  • 从高级编辑器更改数据类型与数据转换

    我正在使用 SSIS 创建一些包 我对周围感到困惑数据转换变换组件并从高级编辑器更改列数据类型 如果我可以进入高级编辑器并更改输出的数据类型 为什么我需要输入数据转换 这只是取决于偏好还是使用两种方法之间有区别吗 在展示两种方法之间的差异之
  • 使用 AWS Glue 时如何查找更新的行?

    我正在尝试使用 Glue 对从 RDS 迁移到 Redshift 的数据进行 ETL 据我所知 Glue 书签仅使用指定的主键查找新行 而不跟踪更新的行 然而 我正在处理的数据往往会频繁更新行 我正在寻找可能的解决方案 我对 pyspark
  • JOLT 移位转换以过滤数组中的值

    我想使用 JOLT 转换来做两件事 过滤名为 myarray 的数组中的元素 以便仅保留具有 v 518 属性的元素 过滤掉除 v 518 和 lfdn 之外的其余元素的所有属性 Input isError false isValid tr
  • SSIS - 动态地将文件移动到具有匹配子字符串名称的文件夹

    我正在使用 foreach 循环和文件系统任务将文件移动到特定文件夹中 或至少尝试这样做 i e 文件名可以是100000 需要到文件夹1000 文件102000需要转到文件夹1020 文件103000需要转到文件夹1030 ETC ETC
  • SSIS 顺序处理

    我在同一数据流任务中有 5 个独立的数据流 每个数据流都有源和目的地 我怎样才能让它们按顺序运行 它们似乎并行运行 我可能会在不同的数据流任务中执行此操作 但我怎样才能在单个数据流任务中做到这一点 同一任务中不要有独立的数据流 我知道导入
  • OLE DB 目标:转换规范的字符值无效

    我的表来源 num facture TYPE actif date 1 1 1 2010 01 31 00 00 00 000 2 2 1 2011 01 31 00 00 00 000 3 3 2 2012 01 31 00 00 00
  • Luigi:如何将不同的参数传递给叶任务?

    这是我第二次尝试了解如何在 Luigi 中将参数传递给依赖项 第一个是here https stackoverflow com questions 64837259 luigi how to pass arguments to depend
  • 每小时行数

    我正在探索自行车共享数据 我合并了两个表 一个包含自行车共享数据 另一个包含天气数据 开始日期 列位于自行车共享数据中 日期 列是天气数据 我想对每小时的 ID 计数进行分组 这样我就可以看到天气对自行车使用的影响 ID Start End
  • 重命名文件源

    我一直在从平面文件源开发 SSIS 包 该文件每天都会出现 文件名具有日期时间指示 如下所示 文件名 20190509042908 txt 我想知道如何才能度过约会部分 我希望包动态读取文件 但它应该在没有最后 6 位数字的情况下通过 我只
  • 如何使用脚本任务声明工作表?

    我试图声明一个工作表来处理 xlsx 文件的单元格 但当我声明工作表对象时 我的 C 脚本失败 Microsoft Office Interop Excel Application xlApp new Microsoft Office In
  • ETL 工具...它们到底做什么?请通俗地说[关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我最近接触了一些 ETL 工具 例如 Talend 和 Apatar 我想知道这些工具通俗地说的用途 主要目标到底是什么 谁主要使用它
  • 将多个平面文件导入到多个 SQL 表

    这是我的文件夹设置 这是文件设置 这个想法是遍历文件夹并将文件内容放入数据库上的表 File dbo 还有 FileB FileC 等 所有文件夹的文件名结构都相同 我有这个 ssis 包 我在其中使用 foreachloop gt 数据流
  • 如何使用 Azure 数据工厂将数据从追加变量活动复制到 csv 文件

    如何使用 Azure 数据工厂将数据从附加变量活动复制到 csv 文件 我有文件名数组存储在附加变量活动中 我想将所有这些文件名存储在数据湖位置的 CSV 文件中 欲了解更多信息 请参阅此如何使用 ADF 比较文件夹 Datalake 内的
  • SSIS:“错误:表达式“@[User::FileName].....无法写入属性”的结果

    过去 10 个小时我一直在尝试解决以下问题 我有一个 ForEach 循环容器 它在我的控制流中枚举 Excel 文件名 在 ForEach 循环容器中 我有一个将数据导入 Sql Server 的 Excel 源 这使用 User Fil

随机推荐

  • msvcp140.dll丢失的4种解决方法,快速修复msvcp140.dll文件

    msvcp140 dll丢失在所有的dll文件丢失里面 也算是经常丢失的老油条了 我们应该对它都不陌生吧 不过直到今天都还有人不知道怎么修复msvcp140 dll文件 小编觉得非常有必要来给大家详细的说说吧 聊一下msvcp140 dll
  • android获取缓存大小并清理缓存

    本文主要注重介绍实战操作 理论知识可能介绍的不多 勿喷 简单说两句缓存的好处 采用缓存 可以进一步大大缓解数据交互的压力 又能提供一定的离线浏览 下边我简略列举一下缓存管理的适用环境 1 提供网络服务的应用 2 数据更新不需要实时更新 哪怕
  • 数学建模的LINGO基础

    LINGO是Linear Interactive and General Optimizer的缩写 即 交互式的线性和通用优化求解器 由美国LINDO系统公司 Lindo System Inc 推出的 可以用于求解非线性规划 也可以用于一些
  • Operator ‘

    如何解决Operator cannot be applied to java lang String java lang String 或者Operator cannot be applied to java lang String jav
  • springboot集成eureka

    分为3个项目来讲解 注册中心 provider consumer 注册中心 注册中心pom xml添加
  • 什么是模式、什么是模式识别、模式识别的方法、过程

    什么是模式 pattern 模式是存在于时间和空间中可观察的物体 如果可以区分相同或者相似的物体类别 可区分的物体称之为模式 模式不是指具体的物体 而是抽象的类别 例如 人这个类别是一种模式 自行车这个类别是一种模式 什么是模式识别 1 模
  • 用Python爬取英雄联盟(lol)全部皮肤

    小三 怎么了小二 一副无精打采的样子 小二 唉 别提了 还不是最近又接触了一个叫英雄联盟的游戏 游戏中很多皮肤都需要花钱买 但是我钱不够呀 小三 咋得 钱攒够了你还要买呀 还吃不吃饭了 要我说 你干脆将英雄的炫彩皮肤都爬下来欣赏一下得了 饭
  • 预警:传统的QA岗位将被DevOps淘汰

    导读 在大多数机构或公司里 软件开发过程主要遵循一个或多个开发模型 例如瀑布模型或敏捷模型 在瀑布模型中 测试活动一般都在后期进行 软件开发完成后 缺陷被QA团队找出 然后再被修复 后两个活动不断循环和重复 指导管理者认为软件可以被公开发布
  • 在wsl中判断wsl的版本是wsl1还是wsl2

    判断wsl的版本 代码逻辑 通过判断 cat proc version 是否包含wsl等字符来判断wsl的版本 代码 bin bash Get the content of proc version proc version cat pro
  • chatgpt赋能python:如何用Python进行SEO优化

    如何用Python进行SEO优化 介绍 Search Engine Optimization SEO 即搜索引擎优化 是提高网站排名和流量的关键 Python作为一种强大的编程语言 可以帮助我们优化网站的SEO 在本文中 我们将探讨如何用P
  • 如何批量Ping 1000个IP地址,一个小技巧节约N小时?

    一 批量ping网段 对于一个网段ip地址众多 如果单个检测实在麻烦 那么我们可以直接批量ping网段检测 那个ip地址出了问题 一目了然 先看代码 直接在命令行窗口输入 for L D in 1 1 255 do ping 10 168
  • 定义类数组

    编写学生类 包含姓名 学号 成绩三个属性 题目要求 1 为学生类添加构造函数给每个成员属性赋值 使用this关键字 2 为学生添加toString 方法显示所有属性 3 在测试类中定义学生数组 长度为4 分别给数组每个元素赋值 然后循环调用
  • Vue自定义插件的编写

    如何实现一个vue的自定义插件 div div
  • windows 如何查询主板sn(主板ID)

    wmic bios get serialnumber
  • dell服务器维护软件,Dell服务器硬件,RAID等查询和维护软件OMSA_推荐

    Dell服务器硬件 RAID等查询和维护软件OMSA 推荐 原创 chenshengang2014 01 17 19 07 03 著作权 阅读数 441 著作权归作者所有 来自51CTO博客作者chenshengang的原创作品 如需转载
  • Java 读取resources下的资源文件

    Web项目中应该经常有这样的需求 在maven项目的resources目录下放一些文件 比如一些配置文件 资源文件等 文件的读取方式有好几种方式 本文会对常用的读取方式做一个总结 并说明一下应该注意的地方 准备工作 新建一个spring t
  • 无向图染色问题-dfs剪枝

    无向图染色问题 问题描述 给定一个无向图 要求用最少的颜色将节点染色 限制是不能让相邻节点染上相同的颜色 算法 使用dfs 为节点分配不同的颜色进行尝试 计算每种分配所需的颜色数 最终进行回溯 取得最小的颜色数 代码 C include
  • OpenAI最新发布通用人工智能路线图!AGI比想象中来得更快!

    点击下方卡片 关注 CVer 公众号 AI CV重磅干货 第一时间送达 点击进入 gt 计算机视觉 微信技术交流群 转载自 机器之心 编辑 泽南 小舟 通用人工智能的出现可能只是技术发展历程中的一个小节点 因为 AGI 或许可以加速自身的进
  • 点云/网格模型的体积计算

    点云体积计算 有时用激光扫描设备扫描零件或者用无人机进行测量后会想知道它们的体积 比如下面的土堆 如果扫描得到的数据是一系列三维点云 那么体积就比较难求 因为如何定义物体的边界比较困难 一种方法是提取三维点云的凸壳 包络体 然后再进行计算
  • 第五章 数据清洗

    5 1数据去重 5 1 1完全去重 点击 获取字段 配置csv文件输入的属性 Name Gender City 配置唯一行属性 选择要去重的属性 Name Gender City 运行结果 完全去重成功 5 1 2不完全去重 将文本分隔符替