MySQL的GROUP BY优化

二、GROUP BY的实现与优化
由于GROUP BY实际上也同样需要进行排序操作,而且与ORDER BY相比,GROUP BY主要只是多了排序之后的分组操作。当然,如果在分组的时候还使用了其他的一些聚合函数,那么还需要一些聚合函数的计算。所以,在GROUP BY的实现过程中,与ORDER BY一样也可以利用到索引。

在MySQL中,GROUP BY的实现同样有多种(三种)方式

1、使用松散(Loose)索引扫描实现GROUP BY
何谓松散索引扫描实现GROUP BY呢?实际上就是当MySQL完全利用索引扫描来实现GROUP BY的时候,并不需要扫描所有满足条件的索引键即可完成操作得出结果。

在执行计划的Extra信息中有信息显示“Using index for group-by”,实际上这就是告诉我们,MySQL Query Optimizer通过使用松散索引扫描来实现了我们所需要的GROUP BY操作。

要利用到松散索引扫描实现 GROUP BY,需要至少满足以下几个条件:
◆ GROUP BY条件字段必须在同一个索引中最前面的连续位置;
◆ 在使用GROUP BY的同时,只能使用MAX和MIN这两个聚合函数;
◆ 如果引用到了该索引中GROUP BY条件之外的字段条件的时候,必须以常量形式存在;

为什么松散索引扫描的效率会很高?
因为在没有WHERE子句,也就是必须经过全索引扫描的时候, 松散索引扫描需要读取的键值数量与分组的组数量一样多,也就是说比实际存在的键值数目要少很多。而在WHERE子句包含范围判断式或者等值表达式的时候, 松散索引扫描查找满足范围条件的每个组的第1个关键字,并且再次读取尽可能最少数量的关键字。

因为是group by后,查找max和min,所以通过索引找到分组后(索引是排过序的),直接定位到max和min的行就可以了。

2、使用紧凑(Tight)索引扫描实现GROUP BY
紧凑索引扫描实现GROUP BY和松散索引扫描的区别主要在于他需要在扫描索引的时候,读取所有满足条件的索引键,然后再根据读取的数据来完成GROUP BY操作得到相应结果。

这时候的执行计划的Extra信息中已经没有“Using index for group-by”了,但并不是说MySQL的GROUP BY操作并不是通过索引完成的,只不过是需要访问WHERE条件所限定的所有索引键信息之后才能得出结果。这就是通过紧凑索引扫描来实现GROUP BY的执行计划输出信息。

当GROUP BY条件字段并不连续或者不是索引前缀部分的时候,MySQL Query Optimizer无法使用松散索引扫描,设置无法直接通过索引完成GROUP BY操作,因为缺失的索引键信息无法得到。但是,如果Query语句中存在一个常量值来引用缺失的索引键,则可以使用紧凑索引扫描完成GROUP BY操作,因为常量填充了搜索关键字中的“差距”,可以形成完整的索引前缀。

这些索引前缀可以用于索引查找。而如果需要排序GROUP BY结果,并且能够形成索引前缀的搜索关键字,MySQL还可以避免额外的排序操作,因为使用有顺序的索引的前缀进行搜索已经按顺序检索到了所有关键字。

3、使用临时表实现GROUP BY
前面两种GROUP BY的实现方式都是在有可以利用的索引的时候使用的,当MySQL Query Optimizer无法找到合适的索引可以利用的时候,就不得不先读取需要的数据,然后通过临时表来完成GROUP BY操作。

Extra: Using where; Using index; Using temporary; Using filesort
这次的执行计划非常明显的告诉我们MySQL通过索引找到了我们需要的数据,然后创建了临时表,又进行了排序操作,才得到我们需要的GROUP BY结果。

当MySQL Query Optimizer发现仅仅通过索引扫描并不能直接得到GROUP BY的结果之后,他就不得不选择通过使用临时表然后再排序的方式来实现GROUP BY了。

4、优化思路
对于上面三种MySQL处理GROUP BY的方式,我们可以针对性的得出如下两种优化思路。

1)尽可能让MySQL可以利用索引来完成GROUP BY操作,当然最好是松散索引扫描的方式最佳。在系统允许的情况下,我们可以通过调整索引或者调整Query这两种方式来达到目的;

2)当无法使用索引完成GROUP BY的时候,由于要使用到临时表且需要filesort,所以我们必须要有足够的sort_buffer_size来供MySQL排序的时候使用,而且尽量不要进行大结果集的GROUP BY操作,因为如果超出系统设置的临时表大小的时候会出现将临时表数据copy到磁盘上面再进行操作,这时候的排序分组操作性能将是成数量级的下降;

5、在优化GROUP BY的时候还有一个小技巧可以让我们在有些无法利用到索引的情况下避免filesort操作,也就是在整个语句最后添加一个以null排序(ORDER BY null)的子句,大家可以尝试一下试试看会有什么效果。
MySQL 5.7 group by默认是自动排序的,到MySQL 8.0 group by去除了隐含排序功能,如果返回结果集对顺序不敏感,可以加上order by null

参考资料:
https://blog.csdn.net/kaoya156/article/details/120361212