收获,不止sql优化 抓住sql本质pdf下载的本质有电子书吗

sql指的是数据库的语言 而用此语言的基本含所有的关系数据库


收获,不止SQL优化--(抓住SQL的本质) .pdf

跟着乐于分享的数据库大师梁敬彬抓住表象背后的SQL本质 有人就有江湖,有江湖就有IT系统,有IT系统就有数据库,有数据库就有SQL,SQL应用可一字概括:“广”。加之其简单易学,SQL实现也可一字概括:“乐”。, 然而,SQL虽然实现简单可乐,却极易引发性能问题,那时广大SQL使用人员可要“愁”就一个字,心碎无数次了。, 缘何有性能问题?原因也一字概括:“量”。当系统数据量、并发访问量上去后,不良SQL就会拖跨整个系统,我们甚至找不出哪些SQL影响了系统。即便找到也不知如何动手优化。此时的心情也可以一字概括:“懵”。, 现在《收获,不止SQL优化——抓住SQL的本质》开始带你抛除烦恼,走进优化的可乐世界!, 首先教你SQL整体优化、快速优化实施、如何读懂执行计划、如何左右执行计划这四大必杀招。整这些干嘛呢?答案是,传授一个先整体后局部的宏观解决思路,走进“道”的世界。, 接下来带领大家飞翔在“术”的天空。教你体系结构、逻辑结构、表设计、索引设计、表连接这五大要领。这么多套路,这又是要干嘛?别急,这是教你如何解决问题,准确地说,是如何不改写即完成SQL优化。, 随后《收获,不止SQL优化——抓住SQL的本质》指引大家学会等价改写、过程包

解决方式很多了,也就是要走NESTED LOOPS+index, 既然8168很大,那么我们就让优化器知道TABLE函数返回的行少点,才百行左右。

以下些都可以,当然也可以使用hint:use_nl等

因为SQL的SELECT部分只访问B,全部来自于TABLE函数,所以改写为子查询就可以了,使用子查询,自然distinct也就没有必要了,因为是semi join(半连接)。




一个占72%的应用,我们提升几十倍后,那对系统性能明显是极好的。最终,在执行次数增加50%的情况下,w4sd08pa主机CPU使用率由原来的高峰期平均47%的使用率降低为23%。

这个问题能够解决有两个方面:

1、猜测并测试优化器的限制(table函数固定返回行8168);2、实际返回的行200-300。两者缺一不可。如果实际返回的行就是几千上万,那么,单纯通过优化SQL,也是无法取得良好效果的。

扫描文末二维码,关注DBA+社群微信公众号(dbaplus),可下载DBA+社群技术沙龙、OOW大会、2015GOPS、DCon2015等技术盛典PPT。

执行计划就是SQL调优的核心,上面的SQL也是通过看到执行计划走HASH JOIN可能有问题出发的。


那么首先要搞定2个问题:

1、如何获取我要的执行计划(准确的计划);

2、怎么看懂并找出执行计划里的问题。

4.1 如何获取准确的执行计划

获取SQL执行计划的方式:

真实计划,需要用TKPROF工具解析

研究执行计划产生的原因

大家一般怎么获取执行计划?我一般用的较多的是dbms_xplan.display_cursor,优点很明显:1、获取的是真实执行的计划;2、多种参数。还可以获取绑定变量的值方便验证。

10053是检查优化器行为的,实在搞不懂为什么走那个计划可以看看,用得较少。

10046可以检查一些等待事件的内容,也可以获取绑定变量,一般用得也比较少。

set autotrace traceonly或者explain,他们的执行计划是同一来源,记住,都来自plan_table,是估算的,可能不是真实执行的计划,可能是不准的。

所以,你看得不对劲了,就得质疑它的准确性,autotrace traceonly的好处是可以看到一致性读,物理读,返回行等,这是真实的。因为可以用一致性读,物理读来验证优化效果

其他的,比如awrsqrpt等都可以获取执行计划,不过我很少用,特别是plsq developer这种工具,F5看计划,我几乎是不用的,他也是plan table里的估算计划。如果很长,那无法分析。

好处很明显,能够看到执行计划每步的E-ROWS(估算的行),A-ROWS(真实的行),STARTS,BUFFER GETS,A-TIME(真实的执行时间)等信息。。。我们通过对比估算的与真实的差距,可以判断哪些表统计信息可能有问题,执行计划是不是走错了,省的我们自己根据谓词去计算这步导致返回多少行。

注意一点,如果一SQL执行很长时间,通过上面的方式来看计划,我们是可以终止的,比如执行2小时执行不玩的SQL,一般我没有耐心,最多5分钟,我就终止。终止完,通过display_cursor也是可以看出执行信息的。

比如某个步骤执行100万次,我这条SQL才能执行完,要3小时才可以,我5分钟执行了100次,我终止了SQL我要看的就是一个比例情况,可以通过这个比例来判断,哪个步骤耗的时间最长,哪里大概有问题,然后解决。

优化器很多限制的,比如刚才的TABLE函数固定返回8168,或者算法限制.....很多不准的,如果算法算出来的与真实差别很大,那可能就会导致问题。统计信息有时候也无法收集准确的,比如直方图,就有很多问题,所以12c的直方图多了几种....之前只有等高和等频直方图。

刚才的set statistics_level直接写会输出结果,我们可以让他不输出结果:

1、sql内容放到文件中,前面加上set termout off (这样可以对输出结果不输出)


用这种东西看执行计划,有时候很方便找出问题,否则我们自己得手动根据每个步骤对应的谓词,自己写SQL去计算真实返回的行,然后再来比较,用这个,ORACLE全帮我们干好了。

4.2 看懂执行计划执行顺序

一般怎么看执行计划呢?



用光标大法,找到入口,最先执行的,光标定位ID=0的,然后一直缩进向下,如果被挡住了,那么这部分就是入口了。

比如ID=10的继续索引,就被ID=11的挡住了,所以第10步就是入口。


找到入口后,反向光标来,利用平行级别的最上最先执行,最右最先执行原则,来看父操作与子操作的关系,移动光标即可。

比如这里的第13步,我只需要定位光标在PARTITION这个P前面,然后向上移动,立马就知道,它的驱动表是ID=5的VIEW,因为他们是对齐的。


然后看看之间的JOIN关系是不是有问题,返回的行估算等。

执行计划最右最上最先执行规则,有个例外,大家知道不??就是通过以上规则,是不正确的。

比如这个ID=2的在前面,但是它事实上是被ID=3的驱动的,也就是被emp_a驱动的,这违背了一般的执行计划顺序规则,平时注意点就行了,标量子查询谓词里会出现绑定变量,比如这里的:B1,因为每次带一个值去驱动子查询。


搞清楚执行计划怎么干,那么看执行计划看啥?

2、看表的访问方式,走全表,走索引

3、看有没有一些经常影响性能的操作,比如FILTER

不要太过于关注COST,COST是估算的,大不一定就慢,小不一定就快……当然比如COST很小,rows返回的都是很小的,很慢。那么,我们可能得考虑统计信息是不是过旧问题。

统计信息很重要,就说一个例子:


走了索引,COST很小,一切都很完美,但是AWR现实占80%的资源。一般啥情况?单纯从SQL上看,也就是这执行计划估计不对,自己测一下,很慢。也就是COST很小,ROWS很小,走索引,很完美的计划是错误的,那么很显然,基本就是统计信息导致的了。

实际第4步走sendtime索引,应该返回1689393行,但是执行计划估算返回1行,统计信息不准确,再次检查统计信息收集日期是5月前的。

返回168万行,但是现有统计信息却让cbo认为是1行,这差别也太大了。

repeat的好处是啥,比如列有直方图,会给你保留,列没有统计信息会按照for all columns size 1收集。。。其他原来怎么收就怎么收。

高效访问结构让SQL更快,这个不说了,主要是建索引。如何建索引也是一个很复杂的问题,说一点,一般复合索引,等值查询条件频率高的,作为前导列较好。因为直接访问可能效率比>,<...等高,后者访问了还需要过滤。

下面看下影响优化器的参数导致的性能问题。

这是10g执行计划,一个视图是UNION ALL做的,全部走索引:



很显然,我要检查,统计信息没有问题,然后怎么干??看在11g里做优化器降级如何。

在11.2.0.4中使用optimizer_features_enable分别测试10.2.0.4和11.2.0.3均可谓词推入到视图中走索引。那么问题就出现在11.2.0.4了,因为11.2.0.3都是可以的。说明11.2.0.4对视图谓词推入算法有了改变。很多优化器的东西,oracle都有参数控制的,除了参数,还有各补对应的fix control。那么先检查补丁相关的

查到了,各种开启关闭,没有用。最后看10053,分析10053,详细参看是否是BUG导致,还是优化器改进问题,参数设置问题:


10053看到默认参数被关了,检查下,大概和查询转换的两个参数:

都被关了,当然10.2.0.4和11.2.0.3被关了也是可以的。


还看到基于CBO的查询转换失败,因为参数被关了,OJPPD(10g那种方式)失效了……那当然走不了,JPPD是11g的,也失效了。

基本知道执行计划如何看,关注哪些就很有用了,不要太关注啥COST前面讲了11.2.0.3都可以,到11.2.0.4不行了,那可能有2种原因:1、算法改了;2、BUG。

当然基于正常的理解,视图谓词推荐,ORACLE是必须支持的,也是不存在问题的,所以肯定有正规的解决方式。先看第2个 BUG,按理说,这种常见的东西,特别是这SQL不算复杂,ORACLE应该不会触发BUG,当然,查询转换是存在各种BUG的,11.2.0,4少了很多MOS中搜一下,比如这个JPPD,就有很多BUG,但是没有看到11.2.0.4对应的。


通过这个判断,10.2.0.4那种OJPPD,基于规则的查询转换不行了,也就是算法改变,因为cost_base_query_transformation参数关了,应该走OJPPD的。现在JPPD也走不了,因为参数被关了,这个是基于成本的查询转换才可以。

所以,这是由于算法更新导致的问题,要求必须按照ORACLE官方建议,恢复对应查询转换参数默认值:在基于COST的查询转换部分,只能走JPPD(和OJPPD类似),ORACLE建议设置CBQT参数,基于COST查询转换更准确。

这个问题,但是发了SR,老外也不知道,然后我发现这2个参数恢复默认值可以,当然首先cbqt参数我认为肯定有关系,后面的squ_bottomup是测试出来的。。。后来告诉老外,老外也认可算法改变导致的问题。所以核心参数的默认值改变,是很危险的,可能影响全局,如果这两个参数不恢复,涉及数百条核心SQL就无法正常执行,也就是系统不具有可用性了。

最后说一下,经常碰到的一个优化器缺陷:

当OR与semi join放在一起的时候,会触发无法进行subquery unnest的问题,也就是可能会产生FILTER,导致SQL非常缓慢,有的甚至几天,几十天也别想运行结束了。


第5、6步执行92万多次,那肯定慢了……问题就是有个FILTER……

FILTER类似循环,在无法unnest子查询中存在,类似标量子查询那种走法,谓词里也有绑定变量的东西。

他们唯一的好处就是内部构建HASH 表,如果匹配的重复值特别多,那么探测次数少,效率好,但是大部分时候,重复值不多,那么就是灾难了

对于这种优化器限制的,一般就是得改写了,因为SQL结构决定无法走高效的执行计划。。。因为我这里虽然走了所以,但是执行次数太多,如果执行次数少,到也无所谓。

两个分支都走HASH JOIN,starts全部为1,虽然全部是全表扫描,但是执行效率提升很明显,执行时间从12s到7s,gets从222w到4.5w之后,是否还有优化空间?


特别逻辑读少了很多。后续优化:

2)这么多全表扫描,是否能够让一些可以走索引?当然,这些是可以做到的,但是不是主要工作了。这个案例告诉我们,优化器是有很多限制的,不是万能的。


除了统计信息正确,良好的SQL结构,能够让SQL正确进行查询转换,正确的访问结构,如索引等……都是让SQL高效执行的前提条件。复杂!=低效,简单!=高效。让优化器理解,并且有合适的访问结构支持,才是王道!

简单的SQL不是快的保证,复杂的也不一定见得慢,高效的执行计划才是最重要的,索引优化SQL,最重要的就是让不好的执行计划变得好。

也就是从多个方面入手,最终达到我们的优化目标。


我要回帖

更多关于 抓住sql本质pdf下载 的文章

 

随机推荐