sql优化谓词下推在join场景中的应用-天翼云开发者社区

列裁剪（分区裁剪）：将为查询的字段以及分区过滤，从而减少加载的数据量。

Map端聚合配置：在map端惊醒聚合，减少shuffle过程；

谓词下推：限制条件进行提前过滤，减少下游处理的数据量；

空值过滤：提前惊醒空值过滤，避免空值引起倾斜；

目前，hive中谓词下推、map端聚合参数是默认开启的。本文中简单的介绍sql优化方式中的谓词下推的方式及适用的场景。

谓词下推的原理是将sql 中的限制条件的逻辑尽可能的提前在sql 中执行，从而减少加载的数据量，提升下游数据处理的效率以及减少内存消耗。该种方式在hive，MySQL，Doris的语法中均适用。在hive中，对应的逻辑优化器是PredicatePushDown，打开谓词下推可以通过命令 hive (default)> set hive.optimize.ppd = true;在hive中，默认是true。Doris中，从CBO优化器 tree ReWrite中也可以实现该优化。

sql中常用的谓词及即sql查询条件中返回值为true的函数或是隐式转换为boolean的函数。如”where”、”on”、”limit”、”and”、”like”、”is null”等常用函数。其出现在多表关联的场景中，关联又left join，right join ,inner join以及full join。

下推场景总结

	where		on
	左表	右表	左表	右表
left join	下推	否	下推	下推
join	下推	下推	下推	下推
right join	否	下推	下推	下推
full join	否	否	否	否

列裁剪（分区裁剪）：将为查询的字段以及分区过滤，从而减少加载的数据量。

Map端聚合配置：在map端惊醒聚合，减少shuffle过程；

谓词下推：限制条件进行提前过滤，减少下游处理的数据量；

空值过滤：提前惊醒空值过滤，避免空值引起倾斜；

目前，hive中谓词下推、map端聚合参数是默认开启的。本文中简单的介绍sql优化方式中的谓词下推的方式及适用的场景。

下推场景总结

	where		on
	左表	右表	左表	右表
left join	下推	否	下推	下推
join	下推	下推	下推	下推
right join	否	下推	下推	下推
full join	否	否	否	否

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

sql优化谓词下推在join场景中的应用

sql优化谓词下推在join场景中的应用

活动

息壤智算

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

sql优化谓词下推在join场景中的应用

sql优化谓词下推在join场景中的应用