SQL查找具有多个字段的重复项（无唯一ID）解决方法

2023-12-09

我正在尝试使用以下几个字段从数据库中查找重复的供应商vendor表和供应商地址桌子。问题是，我进行的内部联接越多，查询丢失潜在结果的次数就越少。虽然我的供应商 ID 中没有重复项，但我希望找到类似的潜在供应商 ID。

这是我到目前为止的查询：

SELECT 
     o.vendor_id
    ,o.vndr_name_shrt_user
    ,O.COUNTRY 
    ,O.VENDOR_NAME_SHORT 
    ,B.POSTAL
    ,B.ADDRESS1
    ,SAME_ADDRESS_NB
    ,SAME_POSTAL_NB
    ,OC.SAME_SHORT_NAME
    ,oc.SAME_USER_NUM
FROM VENDOR o

JOIN vendor_addr B ON o.VENDOR_ID = B.VENDOR_ID

INNER JOIN (
    SELECT vndr_name_shrt_user, COUNT(*) AS SAME_USER_NUM
    FROM VENDOR 
    WHERE COUNTRY = 'CANADA'
    AND VENDOR_STATUS = 'A'
    GROUP BY vndr_name_shrt_user
    HAVING COUNT(*) > 1
) oc on o.vndr_name_shrt_user = oc.vndr_name_shrt_user

INNER JOIN ( SELECT VENDOR_NAME_SHORT, COUNT(*) AS SAME_SHORT_NAME
    FROM VENDOR 
    WHERE COUNTRY = 'CANADA'
    AND VENDOR_STATUS = 'A'
    GROUP BY VENDOR_NAME_SHORT
    HAVING COUNT(*) > 1
) oc on o.VENDOR_NAME_SHORT = oc.VENDOR_NAME_SHORT

INNER JOIN (SELECT POSTAL, COUNT(*) AS SAME_POSTAL_NB
    FROM vendor_addr 
    WHERE COUNTRY = 'CANADA'
    AND COUNTRY ='CANADA'
    AND POSTAL != ' '
    GROUP BY POSTAL
    HAVING COUNT(*) > 1
) oc on b.POSTAL = oc.POSTAL

INNER JOIN (SELECT ADDRESS1, COUNT(*) AS SAME_ADDRESS_NB
    FROM ps_vendor_addr 
    WHERE COUNTRY = 'CANADA'
    AND COUNTRY ='CANADA'
    AND ADDRESS1 != ' '
    GROUP BY ADDRESS1
    HAVING COUNT(*) > 1
) oc on b.ADDRESS1 = oc.ADDRESS1   
WHERE O.COUNTRY ='CANADA' 
    AND B.COUNTY = 'CANADA';

让我们获得一些有趣的数据，这些数据在不同的属性上具有链接的重复项：

CREATE TABLE data ( ID, A, B, C ) AS
  SELECT 1, 1, 1, 1 FROM DUAL UNION ALL -- Related to #2 on column A
  SELECT 2, 1, 2, 2 FROM DUAL UNION ALL -- Related to #1 on column A, #3 on B & C, #5 on C
  SELECT 3, 2, 2, 2 FROM DUAL UNION ALL -- Related to #2 on columns B & C, #5 on C
  SELECT 4, 3, 3, 3 FROM DUAL UNION ALL -- Related to #5 on column A
  SELECT 5, 3, 4, 2 FROM DUAL UNION ALL -- Related to #2 and #3 on column C, #4 on A
  SELECT 6, 5, 5, 5 FROM DUAL;          -- Unrelated

现在，我们可以使用分析函数获得一些关系（没有任何连接）：

SELECT d.*,
       LEAST(
         FIRST_VALUE( id ) OVER ( PARTITION BY a ORDER BY id ),
         FIRST_VALUE( id ) OVER ( PARTITION BY b ORDER BY id ),
         FIRST_VALUE( id ) OVER ( PARTITION BY c ORDER BY id )
       ) AS duplicate_of
FROM   data d;

这使：

ID A B C DUPLICATE_OF
-- - - - ------------
 1 1 1 1            1
 2 1 2 2            1
 3 2 2 2            2
 4 3 3 3            4
 5 3 4 2            2
 6 5 5 5            6

但这并没有说明#4与#5相关，#5与#2相关，然后与#1相关......

这可以通过分层查询找到：

SELECT id, a, b, c,
       CONNECT_BY_ROOT( id ) AS duplicate_of
FROM   data
CONNECT BY NOCYCLE ( PRIOR a = a OR PRIOR b = b OR PRIOR c = c );

但这会产生很多很多重复的行（因为它不知道从哪里开始层次结构，所以会依次选择每一行作为根） - 相反，您可以使用第一个查询为层次结构查询提供一个起点，当ID and DUPLICATE_OF值是相同的：

SELECT id, a, b, c,
       CONNECT_BY_ROOT( id ) AS duplicate_of
FROM   (
  SELECT d.*,
         LEAST(
           FIRST_VALUE( id ) OVER ( PARTITION BY a ORDER BY id ),
           FIRST_VALUE( id ) OVER ( PARTITION BY b ORDER BY id ),
           FIRST_VALUE( id ) OVER ( PARTITION BY c ORDER BY id )
         ) AS duplicate_of
  FROM   data d
)
START WITH id = duplicate_of
CONNECT BY NOCYCLE ( PRIOR a = a OR PRIOR b = b OR PRIOR c = c );

这使：

ID A B C DUPLICATE_OF
-- - - - ------------
 1 1 1 1            1
 2 1 2 2            1
 3 2 2 2            1
 4 3 3 3            1
 5 3 4 2            1
 1 1 1 1            4
 2 1 2 2            4
 3 2 2 2            4
 4 3 3 3            4
 5 3 4 2            4
 6 5 5 5            6

由于搜索中出现 #4 的局部最小值，仍然有一些行是重复的...可以通过简单的方法将其删除GROUP BY:

SELECT id, a, b, c,
       MIN( duplicate_of ) AS duplicate_of
FROM   (
  SELECT id, a, b, c,
         CONNECT_BY_ROOT( id ) AS duplicate_of
  FROM   (
    SELECT d.*,
           LEAST(
             FIRST_VALUE( id ) OVER ( PARTITION BY a ORDER BY id ),
             FIRST_VALUE( id ) OVER ( PARTITION BY b ORDER BY id ),
             FIRST_VALUE( id ) OVER ( PARTITION BY c ORDER BY id )
           ) AS duplicate_of
    FROM   data d
  )
  START WITH id = duplicate_of
  CONNECT BY NOCYCLE ( PRIOR a = a OR PRIOR b = b OR PRIOR c = c )
)
GROUP BY id, a, b, c;

给出输出：

ID A B C DUPLICATE_OF
-- - - - ------------
 1 1 1 1            1
 2 1 2 2            1
 3 2 2 2            1
 4 3 3 3            1
 5 3 4 2            1
 6 5 5 5            6

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

SQL查找具有多个字段的重复项（无唯一ID）解决方法的相关文章

在 SELECT IN 中使用 Oracle 参数时出现问题

我在将一串数字插入sql查询时遇到问题 SELECT FROM tablename a WHERE a flokkurid IN 3857 3858 3863 3285 ORDER BY sjodategund rodun or SELEC
错误 38824：CREATE 或 REPLACE 命令可能无法更改现有对象的 EDITIONABLE 属性

我们正在实现数据库生产对象如包过程触发器等的单元测试系统为此我们有一个容器来创建数据库https github com oracle docker images tree master OracleDatabase https
如何找到多个列中的最小值

我在我的 DB 3 col 中有一个值我想在所有这些值中找到一个值如下所述表名 MyTable id col1 col2 col3 1 200 300 400 2 100 150 300 3 800 102 20 4 80 80 0
MySQL - 从临时表插入

这看起来非常简单但我坚持使用简单的插入语句见下文 begin work CREATE TEMPORARY TABLE IF NOT EXISTS insert table AS select r resource id fr file
SQL 错误：“没有这样的表”

我试图解决为什么我的代码为所有查询返回 null 的原因最后发现 sql 查询什么也没有返回我使用简约代码创建了一个新的 AIR 文档 s WindowedApplication
如何查找当前数据库类型

我们有一个 SQL 脚本可以在多种类型的数据库上执行是否可以获取正在执行 SQL 脚本的当前数据库的类型注意我们不能使用非标准 SQL 即 TSQL 等不 ANSI SQL 中没有任何关于确定数据库供应商的内容
如何停止在 mongodb 集合中插入重复文档

让我们有一个MongoDB包含三个文档的集合 db collection find id user A title Physics Bank Bank A id user A title Chemistry Bank Bank B id u
WordPress：wpdb->插入与wpdb->准备（wpdb->查询（“INSERT

我想知道 WordPress 的插入功能是否也向数据添加斜杠如果没有准备查询方法似乎可以更好地防止 SQL 注入我尝试在 codex api 中查找问题然而它似乎没有记录谢谢这个问题有点老了自从提出这个问题以来法典可能已经
Linq To SQL - 拥有和分组依据

我下面这个查询工作正常不过我想使用 Linq 来实现它 select u ID u NAME from Task t join BuildingUser bu ON bu ID BUILDING t ID BUILDING join Us
@GenerateValue(strategy = GenerationType.SEQUENCE) 和 startVaule

当在 Hibernate 中使用 GeneeratedValue Annotation 并向数据库添加新实体时它的 id 为 1 n 是否可以设置第一个值以便获得 id 例如10000 n 序列样式生成器应该做到这一点 Generate
PostgreSQL 中“-”处或附近的语法错误

我正在尝试运行查询来更新用户密码 alter user dell sys with password Pass 133 但因为它给了我这样的错误 ERROR syntax error at or near LINE 1 alter use
通过 osql.exe 运行脚本时出现问题

我尝试以这种格式运行我的软件的更新脚本 osql exe i path to script U 用户 P 密码 S sqlserver 位置 d 数据库名称 n b 大多数脚本的格式相同并且都以 GO 结尾其中很多都运行得很好但随机脚
数据库表设计

我在选择数据库表的变量类型时遇到问题有人可以给我一些关于如何选择类型的一般准则吗以下是我的一些问题用户 ID 应该是什么 INT 看起来很小因为设计时应该考虑到大量用户那么如果不是 INT 还有什么呢大整数 VARCHAR 难道
加密数据库字段的好方法？

我被要求加密数据库中的各种数据库字段问题是这些字段在读取后需要解密我在用着Django and SQL Server 2005 有什么好主意吗 See 在 SQL Server 2005 数据库中使用对称加密 https web arc
Sequelize.js 中的自定义或覆盖连接

我需要使用创建自定义连接条件Sequelize js http sequelizejs com使用 MSSQL 具体来说我需要加入TableB基于一个COALESCE中的列的值TableA and TableB并最终得到这样的连接条件 L
在 Hibernate 中创建 UPDATE RETURNING 查询

在 Oracle 中我们可以创建一个更新查询该查询将使用 RETURNING 子句返回更新的记录 Hibernate中有类似的功能吗除了数据库生成的值之外 Hibernate 显然不需要返回更新的实例因为对象传递给Session s
Reporting Services 在哪里存储其日志文件

最相关的谷歌结果似乎表明为了访问日志我们必须将您自己的日志表部署到数据库并制作报告服务写入它 http technet microsoft com en us library ms157403 aspx 简而言之 Reporting S
实现软删除的最佳方法是什么？

目前在做一个项目我们要对大部分用户用户角色实现软删除我们决定添加一个is deleted 0 数据库中每个表的字段并将其设置为 1 如果特定用户角色点击特定记录上的删除按钮现在为了将来的维护每个SELECT查询需要确保它们不包含
在 SQL Server 上执行分页的最佳方式是什么？

我有一个数据库超过200万记录我需要执行分页以在我的 Web 应用程序上显示该应用程序每页必须有 10 条记录DataGrid 我已经尝试使用ROW NUMBER 但是这种方式会选择所有 200 万条记录然后只得到 10 条记录我也
如何在MYSQL中将整个字符串小写并保持第一个大写[重复]

这个问题在这里已经有答案了我的表栏目我预期的输出会在列中发生变化 Smith Allen Doyle Dennis Baker Waker 这是我尝试过的但不起作用 UPDATE TABLE employee SET last nam

随机推荐

IOException 无法解析为类型错误

在我的 Java 期末考试中我们有一个关于 try catch 和 finally 调用的测试异常部分当我尝试将示例代码放入 Eclipse 中时我在 catch 和 throw 新区域中遇到错误所有错误都显示无法解析为类型
通过主题自定义 Woocommerce 中的产品类别面包屑链接

我正在尝试修改class wc breadcrumb php自定义我的产品页面面包屑中的产品类别链接该文件位于 wp content plugins woocommerce includes 我尝试将子主题中的此文件复制并编辑为 wp c
如何在ruby中仅在内存中创建zip文件？

我想创建给定目录中所有 HTML 文件的 zip 文件该 zip 文件将作为附件与目录中的其余文件一起通过电子邮件发送到目前为止如果我从 pony 发送任何附件是 HTML 文件我尝试过的所有电子邮件客户端都无法阅读电子邮件所以我
python中的//=有什么作用？ [复制]

这个问题在这里已经有答案了我正在阅读http learnpythonthehardway org book ex37 html但我不明白是什么符号确实如此我感觉合理 a 9 a 3 a 3 gt True But a 9 a 3 a
使用 igraph 中的 graph.tree 函数绘制树

在 igraph 包的文档中有一个示例 igraph options plot layout layout reingold tilford plot graph tree 20 2 输出应将数据表示为树但我得到的是您显然需要指定根 l
如何避免回调与 Promise 的嵌套结构？ [完成的]

我使用承诺来避免回调创建的嵌套结构然而在这段代码中我仍然有一些嵌套我做错了什么还是在这种情况下这是不可避免的在这种情况下我想检查并查看配置文件是否存在如果不存在我想创建它 DB getProfile id google then
文章类别：加载顺序重要吗？

我一直在网上搜索试图找到我的问题的答案但似乎找不到直接的答案我在工作中经常使用文章类但从来没有真正需要知道它们是否按顺序加载即页面上首先出现的内容 Example div class example1 example2 examp
有没有办法在 VSTS 发布管理中执行嵌套变量

我在变量组中创建了一些具有以下名称的变量 CodeNetworkShare Dev CodeNetworkShare Test CodeNetworkShare Prod 我在发布定义中导入了这个变量组然后我尝试了以下方法在发布定义中使用
将 coxph 摘要从 R 导出到 csv

如何将 cox proportional 危险模型的摘要从 R 导出到 csv 我通过函数 coxph 进行了测试通过生存包现在我想将其摘要导出到 csv 该怎么做 c lt coxph Surv x y summary c 我认为你需
如何在 blazor 页面上使用 usermanager？

你好社区我有一个问题如何使用usermanager in a blazor页面网络组装通过注入 inject UserManager
将未知编码的TXT文件转换为字符串

如果编码类型未知如何将纯文本 txt 文件转换为字符串我正在开发一项功能允许用户将 txt 文件导入到我的应用程序中这意味着该文件可以在任意数量的应用程序中创建使用对纯文本文件有效的各种编码中的任何一种我的理解是这可能包括 AS
stopPropagation 阻止显示引导程序的对话框

我在 div 内有一个按钮 div div
预期的标识符、字符串或数字

我有一个像这样的对象 var defaults id ActionSlider element closeBtnWidth 55 panelWidth 320 class css create function 当我以 IE8 标准运行页面
替换长 URL 的一部分并重定向

有没有办法重定向 URL 如下所示 URL是基于过滤系统生成的所以它是这样的 https example com product category no slash generated part is autoadded here 由于产
给定一个视图，我如何获取它的viewController？

我有一个指向UIView 我如何访问它UIViewController self superview 是另一个UIView 但不是UIViewController right 来自UIResponder的文档nextResponder UI
以编程方式触发时 UIRefreshControl 不刷新

我试图在视图加载时显示刷新控件以表明我正在从 Parse 获取数据刷新控件在应用程序运行时正常工作但我无法让它从应用程序中的任何位置以编程方式触发这是似乎没有运行的代码 override func viewDidAppear ani
在 PHP 代码中以密件抄送方式添加电子邮件地址

我正在尝试弄清楚如何在密件抄送中添加电子邮件地址由于我添加了更多 headers 来添加盲电子邮件地址因此整个代码不再起作用
Google App Engine 数据存储中的地理空间查询

我读了下面的帖子使用 Objectify 查询 Geopt 这正是我的应用程序所需要的在帖子的最后我读到地理空间搜索正在阿尔法体育场但该帖子已经一年了我在 Google App Engine 上找不到有关地理空间查询状态的任何信息
如何通过 RPC 连接到 Hedera 测试网？

我无法通过 HTTP 连接到 Hedera Testnet RPC 端点可靠地我间歇性地收到以下未知错误 Request ID fe7b9928 a23f 0d72 61a1 b7cd23658c01 Unknown error in
SQL查找具有多个字段的重复项（无唯一ID）解决方法

我正在尝试使用以下几个字段从数据库中查找重复的供应商vendor表和供应商地址桌子问题是我进行的内部联接越多查询丢失潜在结果的次数就越少虽然我的供应商 ID 中没有重复项但我希望找到类似的潜在供应商 ID 这是我到目前为止的查询

SQL查找具有多个字段的重复项（无唯一ID）解决方法

SQL查找具有多个字段的重复项（无唯一ID）解决方法 的相关文章

随机推荐

热门标签

SQL查找具有多个字段的重复项（无唯一ID）解决方法的相关文章