SQL DISTINCT用法总结——天翼云数据库实践指南-天翼云开发者社区

一、基础语法与核心特性

1. 单列去重：快速获取唯一值

sql

SELECT DISTINCT department FROM employees;

此语句返回employees表中所有不重复的部门名称。DISTINCT直接作用于SELECT后的第一个字段，对结果集进行全局去重。例如，若表中存在"技术部"重复记录，查询结果仅保留一条。

2. 多列组合去重：精准控制唯一性

sql

SELECT DISTINCT first_name, last_name FROM employees;

当需要基于多列组合判断重复时，DISTINCT会检查所有指定列的值是否完全相同。例如，若存在两条记录('张','三')和('张','三')，则会被视为重复；而('张','三')与('张','四')则会被保留。

3. 聚合函数中的去重计数

sql

SELECT COUNT(DISTINCT department) FROM employees;

结合COUNT使用时，DISTINCT会先对department列去重，再统计唯一值的数量。此场景常见于计算独立用户数、唯一产品SKU等业务指标。

二、进阶用法与组合技巧

1. 与ORDER BY的协同使用

sql

SELECT DISTINCT product_name, price 
FROM products 
ORDER BY price DESC;

通过ORDER BY可对去重后的结果集排序。需注意：DISTINCT可能改变原始数据顺序，若需保持特定排序，必须显式指定ORDER BY子句。

2. 表达式去重：灵活处理计算字段

sql

SELECT DISTINCT CONCAT(first_name, ' ', last_name) AS full_name 
FROM employees;

DISTINCT不仅适用于列名，还可作用于表达式。此示例通过字符串拼接生成全名，并去除重复组合。类似场景包括：

计算年龄区间分布：DISTINCT FLOOR(age/10)*10 AS age_group
标准化地址处理：DISTINCT REGEXP_REPLACE(address, '\\s+', ' ')

3. 条件过滤下的去重

sql

SELECT DISTINCT department 
FROM employees 
WHERE salary > 10000;

结合WHERE子句可先筛选符合条件的记录，再对结果去重。此模式在分析高价值客户、筛选有效订单等场景中效率更高。

三、性能优化与注意事项

1. 性能影响分析

DISTINCT操作需对结果集进行排序和比较，可能引发性能瓶颈，尤其在以下场景：

大数据量表：对百万级记录去重时，建议添加索引优化
多列组合：列数越多，比较开销呈指数级增长
复杂表达式：函数计算会增加CPU负载

优化建议：

对单列去重优先使用索引列
多列去重时评估是否可用GROUP BY替代
避免在嵌套查询中过度使用DISTINCT

2. NULL值处理

DISTINCT默认将所有NULL视为相同值，仅保留一条。若需保留所有NULL记录，需改用UNION ALL：

sql

SELECT column_name FROM table_name WHERE column_name IS NULL
UNION ALL
SELECT DISTINCT column_name FROM table_name WHERE column_name IS NOT NULL;

3. 与GROUP BY的差异

特性	DISTINCT	GROUP BY
返回值	所有非重复行	分组后的聚合结果
排序行为	可能改变原始顺序	默认按分组列排序
性能	适合简单去重	适合复杂聚合计算

选择建议：

仅需去重时优先使用DISTINCT
需同时计算分组统计时使用GROUP BY

四、天翼云数据库实践案例

案例1：用户行为分析

某电商系统需统计独立访问用户数，但日志表中存在重复记录：

sql

-- 原始数据示例
INSERT INTO user_logs VALUES 
(1, 'user1', '2025-12-25 10:00:00'),
(2, 'user1', '2025-12-25 10:01:00'),
(3, 'user2', '2025-12-25 10:02:00');

-- 正确统计方式
SELECT COUNT(DISTINCT user_id) AS unique_users FROM user_logs;
-- 结果：2

案例2：产品库存管理

需生成不重复的产品规格清单：

sql

SELECT DISTINCT product_id, color, size 
FROM inventory 
WHERE stock_quantity > 0;

通过DISTINCT确保每种有效规格仅显示一次，避免库存计算错误。

五、总结与延伸思考

DISTINCT是SQL中实现数据去重的核心工具，其灵活性和易用性使其成为数据分析的标配。在实际开发中，需注意：

评估去重必要性，避免过度使用
结合业务场景选择单列/多列去重
对大数据量表提前规划索引策略

未来随着分布式数据库的普及，DISTINCT的实现机制可能进一步优化。例如，天翼云数据库的列存储引擎可通过列式扫描提升去重效率，而内存计算技术则可减少磁盘I/O开销。开发者需持续关注底层技术演进，以编写更高效的SQL语句。

一、基础语法与核心特性

1. 单列去重：快速获取唯一值

sql

SELECT DISTINCT department FROM employees;

2. 多列组合去重：精准控制唯一性

sql

SELECT DISTINCT first_name, last_name FROM employees;

3. 聚合函数中的去重计数

sql

SELECT COUNT(DISTINCT department) FROM employees;

结合COUNT使用时，DISTINCT会先对department列去重，再统计唯一值的数量。此场景常见于计算独立用户数、唯一产品SKU等业务指标。

二、进阶用法与组合技巧

1. 与ORDER BY的协同使用

sql

SELECT DISTINCT product_name, price 
FROM products 
ORDER BY price DESC;

通过ORDER BY可对去重后的结果集排序。需注意：DISTINCT可能改变原始数据顺序，若需保持特定排序，必须显式指定ORDER BY子句。

2. 表达式去重：灵活处理计算字段

sql

SELECT DISTINCT CONCAT(first_name, ' ', last_name) AS full_name 
FROM employees;

DISTINCT不仅适用于列名，还可作用于表达式。此示例通过字符串拼接生成全名，并去除重复组合。类似场景包括：

计算年龄区间分布：DISTINCT FLOOR(age/10)*10 AS age_group
标准化地址处理：DISTINCT REGEXP_REPLACE(address, '\\s+', ' ')

3. 条件过滤下的去重

sql

SELECT DISTINCT department 
FROM employees 
WHERE salary > 10000;

结合WHERE子句可先筛选符合条件的记录，再对结果去重。此模式在分析高价值客户、筛选有效订单等场景中效率更高。

三、性能优化与注意事项

1. 性能影响分析

DISTINCT操作需对结果集进行排序和比较，可能引发性能瓶颈，尤其在以下场景：

大数据量表：对百万级记录去重时，建议添加索引优化
多列组合：列数越多，比较开销呈指数级增长
复杂表达式：函数计算会增加CPU负载

优化建议：

对单列去重优先使用索引列
多列去重时评估是否可用GROUP BY替代
避免在嵌套查询中过度使用DISTINCT

2. NULL值处理

DISTINCT默认将所有NULL视为相同值，仅保留一条。若需保留所有NULL记录，需改用UNION ALL：

sql

SELECT column_name FROM table_name WHERE column_name IS NULL
UNION ALL
SELECT DISTINCT column_name FROM table_name WHERE column_name IS NOT NULL;

3. 与GROUP BY的差异

特性	DISTINCT	GROUP BY
返回值	所有非重复行	分组后的聚合结果
排序行为	可能改变原始顺序	默认按分组列排序
性能	适合简单去重	适合复杂聚合计算

选择建议：

仅需去重时优先使用DISTINCT
需同时计算分组统计时使用GROUP BY

四、天翼云数据库实践案例

案例1：用户行为分析

某电商系统需统计独立访问用户数，但日志表中存在重复记录：

sql

-- 原始数据示例
INSERT INTO user_logs VALUES 
(1, 'user1', '2025-12-25 10:00:00'),
(2, 'user1', '2025-12-25 10:01:00'),
(3, 'user2', '2025-12-25 10:02:00');

-- 正确统计方式
SELECT COUNT(DISTINCT user_id) AS unique_users FROM user_logs;
-- 结果：2

案例2：产品库存管理

需生成不重复的产品规格清单：

sql

SELECT DISTINCT product_id, color, size 
FROM inventory 
WHERE stock_quantity > 0;

通过DISTINCT确保每种有效规格仅显示一次，避免库存计算错误。

五、总结与延伸思考

DISTINCT是SQL中实现数据去重的核心工具，其灵活性和易用性使其成为数据分析的标配。在实际开发中，需注意：

评估去重必要性，避免过度使用
结合业务场景选择单列/多列去重
对大数据量表提前规划索引策略

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

SQL DISTINCT用法总结——天翼云数据库实践指南

一、基础语法与核心特性

1. 单列去重：快速获取唯一值

2. 多列组合去重：精准控制唯一性

3. 聚合函数中的去重计数

二、进阶用法与组合技巧

1. 与ORDER BY的协同使用

2. 表达式去重：灵活处理计算字段

3. 条件过滤下的去重

三、性能优化与注意事项

1. 性能影响分析

2. NULL值处理

3. 与GROUP BY的差异

四、天翼云数据库实践案例

案例1：用户行为分析

案例2：产品库存管理

五、总结与延伸思考

SQL DISTINCT用法总结——天翼云数据库实践指南

一、基础语法与核心特性

1. 单列去重：快速获取唯一值

2. 多列组合去重：精准控制唯一性

3. 聚合函数中的去重计数

二、进阶用法与组合技巧

1. 与ORDER BY的协同使用

2. 表达式去重：灵活处理计算字段

3. 条件过滤下的去重

三、性能优化与注意事项

1. 性能影响分析

2. NULL值处理

3. 与GROUP BY的差异

四、天翼云数据库实践案例

案例1：用户行为分析

案例2：产品库存管理

五、总结与延伸思考