5.1数据去重
5.1.1完全去重
点击“获取字段”,配置csv文件输入的属性:Name,Gender,City
![在这里插入图片描述](https://img-blog.csdnimg.cn/b609692d240a4ec7809ebc2c37ee03bb.png)
配置唯一行属性,选择要去重的属性:Name,Gender,City
![在这里插入图片描述](https://img-blog.csdnimg.cn/c90f9123bc5448bf9a07813f94d367bf.png)
运行结果,完全去重成功
![在这里插入图片描述](https://img-blog.csdnimg.cn/ca6795269b4e443abddc616239379880.png)
5.1.2不完全去重
将文本分隔符替换为一个TAB,选择字段:Name,UserLevel,Phone,VisitTime
![在这里插入图片描述](https://img-blog.csdnimg.cn/cd7827a5c3c14116a572ccde97103134.png)
配置唯一行,选择要比较去重的字段:Name,UserLevel,Phone
![在这里插入图片描述](https://img-blog.csdnimg.cn/9a291d97a6ff4606b1b8345ef9b8a313.png)
运行结果:不完全去重成功
![在这里插入图片描述](https://img-blog.csdnimg.cn/bac9303e558248b19d67761556918361.png)
5.2缺失值处理
![在这里插入图片描述](https://img-blog.csdnimg.cn/2c82ee1608a940dbae43bb8c9fe2861b.png)
5.2.2去除缺失值
配置文本文件输入,获取字段:Name,Sex,Pay,Area
![在这里插入图片描述](https://img-blog.csdnimg.cn/8507f366d505461f8e824e0fac1e08c8.png)
配置过滤记录组件,添加过滤条件
![在这里插入图片描述](https://img-blog.csdnimg.cn/4a429f0931094677a46b000ccb48beaa.png)
查看效果
![在这里插入图片描述](https://img-blog.csdnimg.cn/147555e5e9c14195b4f397e06dcfab19.png)
运行成功
![在这里插入图片描述](https://img-blog.csdnimg.cn/6c721cacc3ee4eb3b0e0b2a208284b22.png)
5.2.3填充缺失值
配置过滤记录控件
![在这里插入图片描述](https://img-blog.csdnimg.cn/2ad17f84e94a44ff9a42573cb3173f2e.png)
配置合并记录控件,选择匹配关键字:userid
![在这里插入图片描述](https://img-blog.csdnimg.cn/2a956277c4614d7ba4282661526e64c0.png)
将hours_per_week的null值替换为44
![在这里插入图片描述](https://img-blog.csdnimg.cn/9eb6f163ba1c4466baa1cc8c7cae9b2a.png)
将字段workclass的null值替换为Private
![在这里插入图片描述](https://img-blog.csdnimg.cn/c533f1f9970142e6af05c8f592adea27.png)
配置字段选择控件,移除flagfield字段
![在这里插入图片描述](https://img-blog.csdnimg.cn/c892a3d40d34466785229a20318be7f8.png)
查看结果:已经将null值填充完毕
![在这里插入图片描述](https://img-blog.csdnimg.cn/b58d75ff418a4b93a4183abb56503cc8.png)
5.3.3删除包含异常值的记录
读取文件出错
![在这里插入图片描述](https://img-blog.csdnimg.cn/5702559bda0340a59575bcdc9b32a35d.png)
5.3.4修补异常值
将Height字段的null值替换为170
![在这里插入图片描述](https://img-blog.csdnimg.cn/848cd0158b8f49b5873c2daada6d915d.png)
合并记录,选择匹配的关键字段:id
![在这里插入图片描述](https://img-blog.csdnimg.cn/1fd040a272144fc6ae964cbbc7247119.png)
将Height字段的260设置为null
![在这里插入图片描述](https://img-blog.csdnimg.cn/d2a2a5ba39fe4622bdfcfd7b83f30f50.png)
设置过滤记录条件:Height>=114 and Height<=226
![在这里插入图片描述](https://img-blog.csdnimg.cn/ecad39fb6a65414a9e71850d0fda75d4.png)
配置表输入,写入SQL语句:SELECT * FROM interpolation_data
![在这里插入图片描述](https://img-blog.csdnimg.cn/8c18ff4e4ec84ac8a57c87227d0b23fd.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/5d77d83b54b94c6d9d1557e3f76687e9.png)
运行结果:数据表interpolation_data中的异常值已被替换
![在这里插入图片描述](https://img-blog.csdnimg.cn/b3aa7ad2d3bb481cb95559373f92e417.png)
5.4.1数据一致性处理
配置表输入,写入SQL语句:SELECT * FROM personnel_information
![在这里插入图片描述](https://img-blog.csdnimg.cn/8adb69f089ad45189d71b954e8e4b3e6.png)
配置值映射,使用GENDER字段,将Male和Female分别映射为0,1
![在这里插入图片描述](https://img-blog.csdnimg.cn/b521df43dbc24163894b790de50e0e25.png)
配置插入/更新控件
![在这里插入图片描述](https://img-blog.csdnimg.cn/fffbe8d357b2421db74b477321bc4545.png)
运行结果
![在这里插入图片描述](https://img-blog.csdnimg.cn/9bf2c23f70bc425390fd7aac86d2e769.png)
5.4.2数据规范化
配置制自定义常量数据控件,添加元数据:ProductionDate,ProductionName,ProductionNumber,CommoditySales
![在这里插入图片描述](https://img-blog.csdnimg.cn/82e5ab356fb34b36a7e0982591094883.png)
配置计算器控件,计算CommoditySales/ProductionNumber的值并命名为Unitprice
![在这里插入图片描述](https://img-blog.csdnimg.cn/91334440437b4d418e77a0500f871440.png)
配置数据检验控件,添加date_verify,name_verify,price_verify检验
![在这里插入图片描述](https://img-blog.csdnimg.cn/c2fd0f007f2f4a19a41330d55872e9de.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/aafe2bc33e2141d4993a3c372a84ce55.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/17a40b40b6bd4e90ae2cb4bdc9c2fe68.png)
运行结果
![在这里插入图片描述](https://img-blog.csdnimg.cn/7bd0c0fca60d4924b8bee1ea9a2e6def.png)