如何去除数据库中重复的数据

2023-11-13

准备工作

原始表users:

CREATE TABLE users (
    id INT PRIMARY KEY AUTO_INCREMENT,
    first_name VARCHAR(50) NOT NULL,
    last_name VARCHAR(50) NOT NULL,
    email VARCHAR(255) NOT NULL
);

INSERT INTO users (first_name,last_name,email) 
VALUES ('Chuan ','Jiang','HiJiangChuan@gmail.com'),
       ('Chuan ','Jiang','HiJiangChuan@gmail.com'),
       ('Ch. ','Jiang','HiJiangChuan@gmail.com'),
       ('Ke','Xie','xieke@sina.com'),
       ('Ke','Xie','xieke@qq.com'),
       ('Amei','Song','amei@163.com');
       

默认id为自增主键;

在这里插入图片描述

方法一:用distinct 联合去重

第一步:distinct后面加多个字段,即多个字段联合起来去重,就能只筛选出一条数据!

select distinct first_name,last_name,email from users;

在这里插入图片描述

第二步:新建一个表tmp,将以上数据导入即可;

CREATE TABLE tmp (
    id INT PRIMARY KEY AUTO_INCREMENT,
    first_name VARCHAR(50) NOT NULL,
    last_name VARCHAR(50) NOT NULL,
    email VARCHAR(255) NOT NULL
);

INSERT INTO users_copy (first_name,last_name,email) 
SELECT DISTINCT first_name,last_name,email FROM users;

注意:此处使用insert into …select导入,但是指定了后三个字段,并不包括自增的主键;

方法二:使用窗口函数限制row_number()=1

思路
重复即first_name, last_name,email 三个字段都相等,则对这个三个字段开窗,也就是重复的数据会在一个窗口,
使用row_number对重复的数据排序,最后用子查询限制row_number只为1,即对重复的数据之筛选出来一条;

第一步:对重复数据开窗,使用row_number()函数

select first_name,last_name,email, 
row_number()over(partition by first_name,last_name,email) r from users;

在这里插入图片描述

第二步:限制row_number为1即可;

SELECT first_name,last_name,email from
      (SELECT first_name,last_name,email, 
        row_number()over(partition by first_name,last_name,email) r from users)as q 
       where r=1;

在这里插入图片描述

方法三:使用窗口函数删除row_number()>1

直接在原表上删除数据,条件是对字段联合开窗后,row_number>1 即重复的数据;

DELETE FROM users
WHERE id IN (
    SELECT id
    FROM (
        SELECT 
            id, ROW_NUMBER () Over (PARTITION BY first_name,last_name,email ORDER BY id) as r 
        from users
    ) q
    WHERE r > 1
);

结果:
在这里插入图片描述

方法四:group by去重

即对重复的字段联合分组即可,自然就只过滤出一条数据了!
然后将结果导入临时表;

INSERT INTO tmp (first_name,last_name,email)  
SELECT first_name,last_name,email from users group by first_name,last_name,email;
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何去除数据库中重复的数据 的相关文章

  • 如何在TOAD的DataGrid中显示sys_refcursor数据

    请我需要帮助 我搜索了很多并且变得更加困惑 我使用 Toad 9 7 25 并且我做了这个程序 在一个包中 PROCEDURE ReportaCC pfcorte IN DATE lcursor IN OUT SYS REFCURSOR I
  • 是什么阻止“Select top 1 * from TableName with (nolock)”返回结果?

    我目前正在运行以下语句 select into adhoc san savedi from dps san savedi record 这花了很长时间 我想看看它走了多远 所以我运行了这个 select count from adhoc s
  • Sql Server:如何在 WHERE 子句中使用 MAX 等聚合函数

    我想获得该记录的最大值 请帮我 SELECT rest field1 FROM mastertable AS m INNER JOIN SELECT t1 field1 field1 t2 field2 FROM table1 AS T1
  • 表名搜索

    我使用以下命令在特定数据库的存储过程中搜索字符串 USE DBname SELECT Name FROM sys procedures WHERE OBJECT DEFINITION OBJECT ID LIKE xxx 修改上面的内容是否
  • 使用 WHILE 创建虚拟数据

    我尝试使用 a 在表中插入一些虚拟数据WHILE 但它运行得非常非常慢 我在想也许我写的代码不正确 你能看一下并确认一下吗 Insert dummy data DECLARE i int Content int SET i 5001 WHI
  • MySQL+子串怎么做? + 替换?

    我不太擅长 SQL 希望能够变得更好 我在尝试执行某些表操作时遇到一些麻烦 我希望能够从下面的 ProgUID 列中选择子字符串 就像是 SUBSTRING table ProgUID 3 12 这将为我提供 ProgUID P CAMVE
  • MySQL 全文搜索不适用于某些单词,例如“house”

    我已经在 3 个字段中的一小部分记录上设置了全文索引 也尝试了 3 个字段的组合 并得到了相同的结果 有些单词返回结果很好 但某些单词如 house 和 澳大利亚 不这样做 有趣的是 澳大利亚 和 家乡 这样做 这似乎是奇怪的行为 如果我添
  • 单行的总和值?

    我有一个 MySQL 查询 它返回由一系列 1 和 0 组成的单行 它用于进度条指示器 我现在在代码中对它进行求和 但我尝试对查询中的值求和 并意识到我无法使用 SUM 因为它们有很多列 但只有一行 有没有办法可以在查询中自动求和 就像这样
  • 如何以最少的查询次数获取帖子列表和关联标签

    我的表格结构如下 标签 更多的是一个类别 id 标签名称 描述 slug POSTS ID 标题 网址 邮戳 id idPost idTag USERS ID 用户名 userSlug VOTES id idPost idUser 每个帖子
  • MySQL 存储过程将值分配给 select 语句中的多个变量

    这是我的存储过程 我在为声明的变量赋值时遇到问题 当我执行它时 插入和更新命令工作正常 但声明变量的值保持为 0 但我在数据库中有一些价值 我怎样才能正确地做到这一点 BEGIN DECLARE PaidFee INT DEFAULT 0
  • ActiveRecord3死锁重试

    Rails 3 或 ActiveRecord 3 是否有任何插件可以复制旧版本死锁重试 http agilewebdevelopment com plugins deadlock retry插入 或者 该插件仍然适用于 Rails 3 吗
  • Oracle 中的 SQL 调优 [关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 是否有任何文章 链接可以让我找到 SQL 调优 Oracle 的示例 如果能用例子来解释那就太好了 我需
  • sql查询将两列与一列连接起来

    我在 MS Access 2010 中有 2 个表 如下所示 USERS u id u name LOAN l id l from ref users u id l to ref users u id l amount Users u id
  • 对于数据库来说,选择正确的数据类型会影响性能吗?

    如果是这样 为什么 我的意思是 tinyint 的搜索速度比 int 快吗 如果是这样 性能上的实际差异是什么 是的 根据数据类型 它确实有所不同 int vs tinyint不会在速度上产生明显的差异 但会在数据大小上产生差异 假设tin
  • 使用 MS Access 获取行的第一个实例

    EDITED 我有这个查询 我想SELECT表中记录的第一个实例petTable SELECT id pet ID FIRST petName First Description FROM petTable GROUP BY pet ID
  • 使用Powershell访问远程Oracle数据库

    我需要能够连接到我的网络上基于 Windows 7 的 Oracle 服务器 32 位 Oracle XE 我需要连接的机器运行 Windows 7 64 位 两台机器上都安装了 Powershell 我已在 64 位计算机上安装了 Ora
  • Python:如何使用生成器来避免 sql 内存问题

    我有以下方法来访问 mysql 数据库 并且查询在服务器中执行 我无权更改有关增加内存的任何内容 我对生成器很陌生 并开始阅读更多有关它的内容 并认为我可以将其转换为使用生成器 def getUNames self globalUserQu
  • SQL参数化查询不显示结果

    我的 DataAcess 类中有以下函数 但它没有显示任何结果 我的代码如下 public List
  • 根据表sql中的行替换字符串中的字符

    我需要用一些映射的字符替换字符串中的字符列表 我有一个表 dbo CharacterMappings 有 2 列 CharacterToFilter 和 ReplacementCharacter 假设这个表中有3条记录 Filter Rep
  • 如何使用 MySQL 的 LOAD DATA LOCAL INFILE 在导入 CSV 时将字符串日期更改为 MySQL 日期格式

    我正在使用 MySQL 的 LOAD DATA LOCAL INFILE SQL 语句将数据从 CSV 文件加载到现有数据库表中 下面是一个 SQL 语句示例 LOAD DATA LOCAL INFILE file csv INTO TAB

随机推荐

  • 解决mysql一段时间后不能启动

    问题 同样的问题其实已经发生过好几次 就是本地计算机上的mysql服务器突然无法启动 在控制面板中尝试启动服务的时候报错 本地计算上的mysql服务启动后停止 某些服务在未由其他服务或程序启动时将自动停止 以前曾经 解决 过这个问题 加引号
  • webcore简易教程(一)

    简介 tms 公司出品 2018年推出 现在最新的1 3版本 原理 pas转换成html js pas2js 特点 可以直接在各种浏览器上运行 优点 1 生成js 跨平台 2 可以使用fnc组件 功能扩展较好 3 chrome浏览器上可以调
  • Python复习的知识点

    python语言程序设计基础的复习笔记 第一章内容 1 在python语言中解释和编译的区别 编译 编译是将源代码转换成目标代码的过程 源代码是计算机高级语言的代码 而目标代码则是机器语言的代码 执行编译的计算机程序称为编译器 Compil
  • T1 载波速率 为什么是1.544Mbps?

    这是大二时上的一节网络通信技术基础上学的内容 期末时却没能写出来 一直觉得有些遗憾 所以写在博客的第一篇 希望自己可以激励自己 知错则改 不断进步 分割线 人的话音信道在4Mhz之内 根据奈奎斯特采样定理按照2倍8MHz采样 并128级量化
  • 大工17春计算机组成原理,大工17春《计算机组成原理》在线作业3

    谋学网http doc wendoc com 一 单选题 共 10 道试题 共 50 分 V 1 是构成控制信号序列的最小单位 A 微程序 B 微操作命令 C 微指令 D 控制存储器 2 寻址方式中的寄存器间接寻址 其操作数处在 A 通用寄
  • win10打印机终结点映射器_解决win8打印机提示“终结点映射器中没有更多的终结点可用”的方法...

    打印机是我们办公是必备的一个设备 因此想必大家在办公室都给电脑安装了打印机吧 最近有位Win8用户在给电脑安装打印机的时候遇到了一个错误提示 虽然成功的安装了打印机 但是系统却提示 终结点映射器中没有更多的终结点可用 遇到这样的错误提示之后
  • 杂记——11.eclipse中更改Tomcat的配置

    这篇文章讲一下在eclipse中如何更改Tomcat的相关配置 第一步 打开eclipse 第二步 点击下方视窗的Servers 第三步 双击Tomcat 然后如下图所示 第四步 设置Tomcat的启动时间 第五步 启动Tomcat
  • gitee同一台电脑使用多个账号的问题

    官方文档 https gitee com help articles 4238 article header0 目录 一 通过 https ssh 协议推拉代码 二 通过 https 推拉代码但是存在多个账号的问题 三 通过 ssh 推拉代
  • python3 判断列表是一个空列表

    python3 判断空列表 python3 有个判断列表是否为空的需求 试了好多方式 比如 a if a is not None COMMAND a if a 0 is None COMMAND 各种乱七八糟的逻辑 老是无法满足 其实很简单
  • Unity3D笔记第三天——GUI

    GUI GUI是Graphical User Interface的缩写 Unity的图形界面系统能容易和快速创建出各种交互界面 与传统的方法 创建GUI对象 标出位置 再写对应的事件函数不同 只需要用很少的代码 就可以把这些工作搞定 原理是
  • 2023企业级数仓建设概要

    一 前言 1 1 背景 无忧搬家数据以前很多都是数仓同学从业务库负责接入数据至ods层 然后就由各个下游分析师取ods贴源层数据然后进行取数计算分析 数仓这边缺乏沉淀公共层数据 从而有以下问题 直接从ods贴源层取数据 业务研发侧一改造则下
  • FastMM内存管理器在使用多线程情况下需要注意的问题。

    FastMM内存管理器在使用多线程情况下需要注意的问题 问题1 注 如果你在Delphi中 只是用TThread类创建线程 不会用到API函数CreateThread创建线程 哪么下面这篇文章你可以完全忽视 当然 如果你耐心的看完了下面这篇
  • 如何编写一份完整的软件测试报告?(进阶版)

    目录 背景 一 什么是测试报告 二 测试报告是给谁看的 三 测试报告应该怎么写 1 测试报告的内容 1 1 工作内容 1 2 软件结果 1 3 展开说说 1 4 你的价值 2 测试报告的结构 2 1 首先呈现出你的结论 2 2 当前遗留问题
  • 伪需求 or 新机遇——2018年DApp分析

    DApp的全称为Decentralized Application 是指去中心化应用或者分布式应用 DApp的出现是区块链应用落地的有益尝试 DApp也被认为是开启了区块链3 0时代的产品 因此 DApp被众多区块链业内人士寄予厚望 尽管2
  • 51单片机使用定时器0定时1ms的配置操作

    51单片机使用定时器0定时1ms的配置操作 51单片机的定时器0结构 配置的定时器0的方式 配置的程序代码内容 51单片机的定时器0结构 51单片机是一种广泛应用于嵌入式系统中的芯片 具有强大的计时和计数功能 其中的定时器0可以用来实现精确
  • 嘴说手画Spark的Bykey操作-groupByKey、reduceByKey、aggregateByKey 和 sortByKey

    之前写过一篇文章分析Spark Shuffle的原理 知道了Shuffle是性能杀手的原因 但在实际业务中 Shuffle操作通常不可避免 毕竟Spark基础的用途就是对大数据进行统计分析 由于数据分布的分散性 导致相同Key的数据汇集到一
  • 只能看到部分局域网计算机,为什么局域网中只能看到部分电脑

    局域网中只能看到部分电脑的原因 那是因为其他电脑没有开启共享模式 也就是来宾账号关闭了 需要在用户组中打开才行 局域网共享设置步骤如下 1 更改不同的计算机名 设置相同的工作组 2 我的电脑右键 管理 计算机管理 本地用户和组 用户 更改管
  • 计算机基础 英语名称,计算机英语词汇:计算机基础知识

    computer n 电脑 电子计算机 arithmetic logic unit 算术逻辑部件 manipulate vt 操纵 操作 keyboard n 键盘 information n 消息 知识 printer n 打印机 han
  • Log.d 日志调试查看(所有平台)

    https www cnblogs com onechen p 6436748 html http docwiki embarcadero com Libraries Berlin en FMX Types Log d 转载于 https
  • 如何去除数据库中重复的数据

    去除数据库中重复的数据 准备工作 方法一 用distinct 联合去重 方法二 使用窗口函数限制row number 1 方法三 使用窗口函数删除row number gt 1 方法四 group by去重 准备工作 原始表users CR