SQL查询语句之重复记录查询的几种方法

3次阅读

在对数据库数据进行处理的时候，因程序设计需要对数据库中重复的记录进行查询，相信这个问题很多人都有遇到过，在这里微思考整理了一下关于这方面的内容，供大家参考

说到SQL查询重复记录，我们先来认识一下SQL HAVING 子句，在 SQL 中增加 HAVING 子句原因是，WHERE 关键字无法与合计函数一起使用。

having是分组（group by）后的筛选条件，分组后的数据组内再筛选，where则是在分组前筛选

SQL HAVING 语法

SELECT column_name, aggregate_function(column_name)
FROM table_name
WHERE column_name operator value
GROUP BY column_name
HAVING aggregate_function(column_name) operator value

SQL HAVING 实例

我们拥有下面这个 “Orders” 表：

O_Id	OrderDate	OrderPrice	Customer
1	2008/12/29	1000	Bush
2	2008/11/23	1600	Carter
3	2008/10/05	700	Bush
4	2008/09/28	300	Bush
5	2008/08/06	2000	Adams
6	2008/07/21	100	Carter

现在，我们希望查找订单总金额少于 2000 的客户。

我们使用如下 SQL 语句：

SELECT Customer,SUM(OrderPrice) FROM Orders
GROUP BY Customer
HAVING SUM(OrderPrice)<2000

结果集类似：

Customer	SUM(OrderPrice)
Carter	1700

现在我们希望查找客户 “Bush” 或 “Adams” 拥有超过 1500 的订单总金额。

我们在 SQL 语句中增加了一个普通的 WHERE 子句：

SELECT Customer,SUM(OrderPrice) FROM Orders
WHERE Customer='Bush' OR Customer='Adams'
GROUP BY Customer
HAVING SUM(OrderPrice)>1500

结果集：

Customer	SUM(OrderPrice)
Bush	2000
Adams	2000

介绍完having，进入正题—SQL重复记录查询的几种方法

查找表中多余的重复记录，重复记录是根据单个字段（peopleId）来判断

select * from people
where peopleId in (select peopleId from people group by peopleId having count
(peopleId) > 1)

删除表中多余的重复记录，重复记录是根据单个字段（peopleId）来判断，只留有rowid最小的记录

delete from people
where peopleId in (select peopleId from people group by peopleId having count
(peopleId) > 1)
and rowid not in (select min(rowid) from people group by peopleId having count(peopleId
)>1)

查找表中多余的重复记录（多个字段）

select * from vitae a
where (a.peopleId,a.seq) in (select peopleId,seq from vitae group by peopleId,seq having
count(*) > 1)

删除表中多余的重复记录（多个字段），只留有rowid最小的记录

delete from vitae a
where (a.peopleId,a.seq) in (select peopleId,seq from vitae group by peopleId,seq having
count(*) > 1)
and rowid not in (select min(rowid) from vitae group by peopleId,seq having count(*)>1)

查找表中多余的重复记录（多个字段），不包含rowid最小的记录

select * from vitae a
where (a.peopleId,a.seq) in (select peopleId,seq from vitae group by peopleId,seq having
count(*) > 1)
and rowid not in (select min(rowid) from vitae group by peopleId,seq having count(*)>1)

示例

显示每个地区的总人口数和总面积．仅显示那些面积超过1000000的地区。

SELECT region, SUM(population), SUM(area)7
FROM bbc
GROUP BY region
HAVING SUM(area)>1000000

在这里，我们不能用where来筛选超过1000000的地区，因为表中不存在这样一条记录。
相反，HAVING子句可以让我们筛选成组后的各组数据

SQL SELECT DISTINCT 语句

在表中，可能会包含重复值。这并不成问题，不过，有时您也许希望仅仅列出不同（distinct）的值。

关键词 DISTINCT 用于返回唯一不同的值。

语法：

SELECT DISTINCT 列名称 FROM 表名称

使用 DISTINCT 关键词

如果要从 “Company” 列中选取所有的值，我们需要使用 SELECT 语句：

SELECT Company FROM Orders

“Orders”表：

Company	OrderNumber
IBM	3532
W3School	2356
Apple	4698
W3School	6953

结果：

Company
IBM
W3School
Apple
W3School

请注意，在结果集中，W3School 被列出了两次。

如需从 Company” 列中仅选取唯一不同的值，我们需要使用 SELECT DISTINCT 语句：

SELECT DISTINCT Company FROM Orders

结果：

Company
IBM
W3School
Apple

现在，在结果集中，”W3School” 仅被列出了一次。

有两个意义上的重复记录，一是完全重复的记录，也即所有字段均重复的记录，二是部分关键字段重复的记录，比如Name字段重复，而其他字段不一定重复或都重复可以忽略

对于第一种重复，比较容易解决，使用

select distinct * from tableName

就可以得到无重复记录的结果集

如果该表需要删除重复的记录（重复记录保留1条），可以按以下方法删除

select distinct * into #Tmp from tableName
drop table tableName
select * into tableName from #Tmp
drop table #Tmp

第二类重复问题通常要求保留重复记录中的第一条记录，操作方法如下(假设有重复的字段为Name,Address，要求得到这两个字段唯一的结果集)

select identity(int,1,1) as autoID, * into #Tmp from tableName
select min(autoID) as autoID into #Tmp2 from #Tmp group by Name,autoID
select * from #Tmp where autoID in(select autoID from #tmp2)

最后一个select即得到了Name，Address不重复的结果集（但多了一个autoID字段，实际写时可以写

在select子句中省去此列）

发表于：编程开发

2021-10-05

# sql # 查询 # 重复记录

复制链接

赏

SQL如何将查询结果插入到数据表中

ASP.NET上传文件的两种方法示例(含源代码)

我的 Serverless 实战—钉钉应用Serverless云开发实训营5天学习心得

SQLServer 报错:用户、组或角色在当前数据库中已存在

java程序设计之分解质因数