数据分析-数据清洗与整理

2023-11-07

1.数据清洗

第一步:对异常值进行处理
首先,查看原数据库是否一样;
然后,查询是否信息录入时出现错误;
最后,看看是不是顾客随意填写的信息
第二步:对离群值进行处理
首先,查询是否与原数据库一致;
然后,查询是否信息录入错误;
最后,判断是否符合顾客实际情况
#如果经过以上两步处理,确定数据不存在问题,就要进行下面的操作
第三步:对异常的数据用平均值、中位值进行替代;对离群值进行具体的判断,根据他对最终决策产生的影响考虑是否对他进行删除处理。

2.数据整理

#使用SQL中的inner join……on语句进行表的拼接
select s.ID,p.sex,p.age
from sales s inner join person p on sales_ID=person_ID;
#得到的是两个表中都有的信息进行连接,如下图所示

在这里插入图片描述

#使用SQL中的left/right join……on语句进行表的拼接
select s.ID,p.sex,p.age
from sales s left/right join person p on sales_ID=person_ID;
#得到的是某个表中都有的信息进行连接,如下图所示

在这里插入图片描述
在这里插入图片描述

#使用SQL中的outer join……on语句进行表的拼接
select s.ID,p.sex,p.age
from sales s outer join person p on sales_ID=person_ID;
#得到的是两个表中所有的信息进行连接,如下图所示

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析-数据清洗与整理 的相关文章

  • 当所有维度值都具有 100% 重要性时处理多对多维度

    我至少会尽力保持简洁 假设我们正在跟踪一段时间内的账户余额 所以我们的事实表将包含诸如 账户余额情况表 FK 账户ID FK 日期ID Balance 显然你有一个账户维度表 and a 日期维度表 所以现在我们可以轻松地过滤帐户或日期 或
  • 对多个数据库执行 SQL 查询

    我知道我的帖子与该论坛中的其他帖子的标题非常相似 但我真的找不到我需要的答案 这是我的问题 我的 Windows Server 上运行着 SQL Server 在我的 SQL Server 中 我有大约 30 个数据库 它们都具有相同的表和
  • 跨多个表进行搜索,并在结果行中显示表名称

    如何构建 SQL 语句以跨多个平面不相关的表运行 并使用选择结果和结果来自的表的名称显示结果 这种情况是这样的 我有几个表 每个表都有相同的列名 这是我从外部各方收到的数据 并将其存储在不同的表中 相同的表看起来像 Table 1 pid
  • 为什么 SqlClient 在传递 SqlXml 时使用不必要的 XML 转换?

    我有一个关于从 C 代码将 xml 数据类型传递给查询的问题 首先 这是 SQL Server 上的一个表 CREATE TABLE dbo XmlTable id int IDENTITY 1 1 NOT NULL dat xml NOT
  • 单独的逗号分隔值并存储在sql server的表中

    我有一个存储过程 它将逗号分隔的值作为输入 我需要将其分开并需要将其作为单独的行存储在表中 令 SP 的输入为 Rule ID ListType ID Values 1 2 319 400 521 8465 2013 我需要将它存储在一个名
  • 初级SQL部分:避免重复表达式

    我对 SQL 完全陌生 但我们可以说StackExchange 数据浏览器 https data stackexchange com 我只想按信誉列出前 15 位用户 我写了这样的内容 SELECT TOP 15 DisplayName I
  • MySQL 查询到 CSV [重复]

    这个问题在这里已经有答案了 有没有一种简单的方法来运行MySQL查询来自linux命令行并以csv格式输出结果 这就是我现在正在做的事情 mysql u uid ppwd D dbname lt lt EOQ sed e s g tee l
  • 内连接不重复,可以吗?

    鉴于这两个表 表 A1 有两行具有相同的值 a A1 a a 表 A2 有两行主键值为 A B 它们与 a 关联 A2 PK col2 A a B a 我想要的是 A1 和 A2 的连接并得到这个结果 a A a B 显然内连接在这里不起作
  • 自加入表

    我有一张像这样的桌子 Employee name salary a 10000 b 20000 c 5000 d 40000 我想获取所有工资高于A工资的员工 我不想使用任何嵌套或子查询 在采访中被问及并暗示是使用自连接 我真的不知道如何实
  • Java JDBC:更改表

    我希望对此表进行以下修改 添加 状态列 varchar 20 日期列 时间戳 我不确定该怎么做 String createTable Create table aircraft aircraftNumber int airLineCompa
  • 在 postgres 查询中使用列表

    我有一个动态列表 list a b c d 所以长度可能会改变 我想在查询中比较这些列表值 select from student where name in all the list values 我想将列表值传递到此查询中 我怎样才能做
  • 如何使用 LAMBDA 表达式在 LINQ 中执行 IN 或 CONTAINS?

    我有以下 Transact Sql 我正在尝试将其转换为 LINQ 并且很挣扎 SELECT FROM Project WHERE Project ProjectId IN SELECT ProjectId FROM ProjectMemb
  • 如何在NiFi中映射流文件中的列数据?

    我有 csv 文件 其结构如下 Alfreds Centro Ernst Island Bacchus Germany Mexico Austria UK Canada 01 02 03 04 05 现在我必须将这些数据移入数据库 如下所示
  • 索引数量越少意味着插入、更新和删除速度更快? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 优化 SQL Server 上的删除

    Deletesql server 上的有时很慢 我经常需要优化它们以减少所需的时间 我一直在谷歌上搜索一些关于如何做到这一点的提示 并且我发现了各种各样的建议 我想知道你最喜欢和最有效的驯服删除野兽的技术 以及它们如何以及为什么起作用 到目
  • 删除连接到另一表 SQL 的一个表中的记录

    我有两个表 一个包含 212 000 条记录 已弃用的记录 另一个包含 10 500 000 条记录 我想在 id 和 version number 字段上连接两个表 因为两个表都有这些字段 我希望从连接表中删除匹配的记录 来自连接表 即从
  • 给定“java.sql.SQLIntegrityConstraintViolationException”是否可以确定错误的列

    鉴于我有一个类型为 java sql SQLIntegrityConstraintViolationException 的异常 是否可以以编程方式确定错误的列 或多列 我问这个问题是因为我想将错误映射回客户端的数据模型以指示错误的字段 例如
  • date_sub 对于 mysql 可以,对于 postgresql 可以

    此查询适用于 mySQL 不适用于 Postgresql select from where id and h gt date sub now INTERVAL 30 MINUTE 错误是 Query failed ERREUR erreu
  • 如何通过子 POJO 的属性过滤复合 ManyToMany POJO?

    我有两个像这样的房间实体 Entity public class Teacher implements Serializable PrimaryKey autoGenerate true public int id ColumnInfo n
  • JDBC插入实数数组

    我试图将一个真实的数组插入到 postgresql 数组中 该表的定义是 String sqlTable CREATE TABLE IF NOT EXISTS ccmBlock sampleId INTEGER block REAL 插入内

随机推荐

  • 强连通分量

    点击打开链接
  • imp-00003:oracle error 959 encountered

    imp 00003 oracle error 959 encountered 背景描述 今天imp 导入dmp dmp中有6张表 且均为同一用户的表 其中四张导入成功 还有两张表导入失败 提示 imp 00003 oracle error
  • 集成学习介绍——Random Forest

    随机森林是一个非常直观 理解起来也比较容易的Bagging算法 前面我们介绍过决策树 其最大的一个缺点就是容易过拟合 随机森林则是由若干决策树组成的模型 其思想就是 三个臭皮匠顶个诸葛亮 比如下图 就是由9个决策树组成的一个随机森林 其中6
  • React Native入门(四)——入门小结

    1 js跳转Activity后 按home键再切回应用白屏 解决方案 修改MainActivity或目标Activity启动方式 总之不能全部为SingleTask 2 代码报错修改后无法链接nodejs服务了 解决方案 尝试在nodejs
  • Pytorch 深度学习入门与实践 第二章 pytorch快速入门 (1)

    python常用库及模块 1 文件管理的相关库 os 该模块为操作系统接口模块 提供了一些方便使用操作系统的相关功能函数 在读写文件时比较方便 2 时间和日期 time 该模块为时间的访问和转换模块 提供了各种时间相关的函数 方便时间的获取
  • Git使用手册/Git教程:git push 推送提交本地仓库代码文件到远程仓库

    相关文章 关于验证是否存在ssh配置以及生成SSH Key的方法可以参照文章 Git使用手册 生成SSH Key 关于SSH Key的使用和公钥在gitHub gitLab的配置等 请参考文章 Git使用手册 使用SSH Key及配置SSH
  • 关于知道后序序列和中序序列确定前序序列

    以下是大神的解释 摘自洛谷题解 比较清晰 DEBAFCG EDBFGCA 首先这棵树的根是A 后序排列的最后一个 输出A 然后在中序排列中找到A的位置 发现它左右各有三个点 分别是它的左右子树 把中序排列左边三个点和后序排列的前三个点作为左
  • python 定时器使用教程 apscheduler模块,检查文件夹

    1 简介 apscheduler是python中的任务定时模块 它包含四个组件 触发器 trigger 作业存储 job store 执行器 executor 调度器 scheduler 2 安装 pip install apschedul
  • Spring 入门(控制反转IOC、依赖注入DI、Bean的作用范围、Bean的生命周期)

    1 什么是框架 框架 Framework 是整个或部分系统的可重用设计 表现为一组抽象构件及构件实例间交互的方法 另一种定义认为 框架是可被应用开发者定制的应用骨架 前者是从应用方面而后者是从目的方面给出的定义 2 Java中的框架 Str
  • 电脑阅卷系统

    本软件利用电脑外接摄像头 和用普通纸张打印 或复印 的答题卡进行选择题的阅卷 能实时播报成绩产生作答分析 软件名称是 精易摄像头阅卷软件 功能特色 1 精易软件的设计精度和速度已达到实际使用需要 填涂到位的情况下读卡速度是每张答题卡用时1
  • 决策树应用实例③——银行借贷模型

    决策树系列目录 文末有惊喜彩蛋 决策树 信息熵 信息增益 基尼系数 决策树 决策树算法原理 ID3 C4 5 CART 决策树 决策树参数介绍 分类和回归 决策树 决策树Sklearn调参 GridSearchCV调参及过程做图 决策树 P
  • NoSQL数据库简介

    NoSQL代表 不仅是SQL 指的是一种数据库管理系统 旨在处理大量非结构化和半结构化数据 与使用具有预定义架构的表格格式的传统SQL数据库不同 NoSQL数据库是无模式的 并且允许灵活和动态的数据结构 NoSQL数据库是必需的 因为它们可
  • 解决:Not creating XLA devices, tf_xla_enable_xla_devices not set

    解决 Not creating XLA devices tf xla enable xla devices not set 实验环境 提示如下 分析原因 解决方法 实验环境 Windows 10 NVIDIA GeForce GTX 105
  • 易经中的一些见解

    曾仕强教授 易经不只是用来趋吉避凶 低端讲法 高端讲法 持正向善 云端讲法 心安理得 求得好死 好死指的是死得其时 死得其所 死得心安理得 趋吉避凶是手段 不是目的 顺自然 重人伦 自作自受 缺角 修治 完人 慎始 反省提升 善终 人生的乐
  • InvokeHelper调用引发异常

    代码原来的实现是 try InvokeHelper catch GetLastError 好吧 引发了异常 但是GetLastError 永远为零 状况了 网上又找不到相关资料 知道自己一步一步地从InvokeHelper跟踪进去 发现里面
  • Spring Cloud OpenFeign 超时设置与开启重试

    超时设置 数据中台HRestful API请求 feign okhttp enabled true client config default 日志打印级别 loggerLevel basic 跨服务接口请求超时 readTimeout 2
  • Windows操作系统截屏快捷键

    1 Print Screen截屏 不只是win10系统独有的 只要在键盘上按下 Print Screen 键 就会截取当前屏幕并储存在剪切板中 进入文档编辑器 文本文档除外 图片处理工具 QQ等聊天窗口进行粘贴 Ctrl V 操作 就可以获
  • os.path函数简要分析

    os模块简介 os模块实现了在路径上的一些有用的功能 os path abspath path 返回一个绝对路径名 import os path abspath os path abspath User home Work print ab
  • 静态代码扫描环境搭建(mac)

    一 安装要求 1 1 软件要求 在进行sonarqube环境安装和搭建前务必确定当前机器和平台配置满足如下要求 机器上需要安装java Oracle JRE 11 或 OpenJDK 11 SonarQube服务器需要的java版本为11
  • 数据分析-数据清洗与整理

    1 数据清洗 第一步 对异常值进行处理 首先 查看原数据库是否一样 然后 查询是否信息录入时出现错误 最后 看看是不是顾客随意填写的信息 第二步 对离群值进行处理 首先 查询是否与原数据库一致 然后 查询是否信息录入错误 最后 判断是否符合