mysql,是我们经常用到的数据库,而我们平时所用到的操作,大多是输入一条sql,然后获取返回结果。例如:
select * from t where id = 1;
基本上不会关注mysql内部的执行流程。
基础架构:
下面我们就简单的说一下mysql的基本架构,从而简单的窥探一番sql的基本流程。
下面是mysql的基本架构图:
mysql大体上可以分为Server层和存储引擎。
server层包含连接器、查询缓存、解析器、优化器、执行器等,涵盖了mysql的基本核心功能和所有内置函数(日期、时间、数学和加密函数等),所有跨存储引擎的功能都在这一层实现,比如存储过程、触发器、视图等。
存储引擎负责数据的存储和提取,架构是插件式的,支持InnoDB、MyISAM、Memory等。目前最常用的是InnoDB,从mysql5.5开始成为了默认引擎。创建表时,可以通过指定引擎类型来选择引擎,比如
CREATE TABLE t
(
id VARCHAR(40)
) ENGINE=INNODB DEFAULT CHARSET=utf8 ;#指定引擎和存储字符类型
下面简单介绍一下server层各个组件的作用。
连接器
连接器是你连接到数据库的第一个接待者。连接器负责跟客户端建立连接、获取权限、维持和管理连接。连接命令如下:
mysql -h$ip -P$port -u$user -p;
密码可以写在-p后面的命令行中,为安全起见,强烈建议不要这么做。
mysql客户端和服务端建立连接,完成经典的TCP握手协议后,连接器就开始验证身份,这时候就需要输入密码。
- 如果用户名密码不匹配,返回"Access denied for user"的错误。
- 如果密码验证通过,连接器会去权限表查询你所拥有的权限。之后这个连接里的权限判断逻辑,都会依赖于此时读到的逻辑。这意味着,如果更改了这个用户的权限,是不会影响到已经建立的连接。新的连接才会读取到新的权限
连接完成后,如果你没有后续的动作,这个连接就处于空闲状态可以使用show processlist
命令查看。其中Command显示Sleep的这一行表示的有多少个空闲的连接。
如果客户端太长时间没有动作,连接器会自动断开连接,这个时间默认是8小时,可以进行配置。
建立连接的过程是有一定开销的,会因此建议在使用中尽量使用长连接。
但全部使用长连接后,有时候会发现mysql的内存占用涨的特别快。
这是因为mysql在执行过程中的临时内存是管理在连接对象里面的,这些资源在连接断开的时候才会释放(不太理解,待后续查证)
查询缓存
建立连接之后,就可以执行select语句了,执行逻辑第二步:查询缓存。
但是这个缓存使用往往弊大于利。因为缓存的失效非常频繁,只要有对一个表的更新,这个表上所有的缓存都会被清空。mysql8.0之后已经彻底删除这块功能了。不再赘述。
解析器
执行语句,首先要知道语句要做什么,因此需要对语句做解析。如果你的语句语法不正确,会受到You have an error in your SQL syntax
的错误提醒。
优化器
在开始执行sql之前,mysql还会对语句进行优化处理。
- 优化器在表里有多个索引的时候,决定使用哪个索引
- 多表关联的时候,决定表的连接顺序
例如join语句:
select * from t1 join t2 using(id) where t1.c = 10 and t2.d = 20;
既可以先从t1中取出c=10的记录,在根据id关联t2,然后再判断t2.d是否等于20;也可以先从t2中取出d=20的记录关联t1,再判读t1.c是否满足。
优化器决定使用哪一种方案。
执行器
开始执行的时候,优先要判断是否对这个表有权限,如果没有们就会返回错误。
查询流程中,如果id没有索引,那么顺序是这样的:
1. 调用InnoDB引擎接口获取表的第一行,然后判断id是否是1,如果不是则跳过,如果是则将结果存在结果集中;
2. 调用引擎接口获取“下一行”,重复判断逻辑,直至最后一行。
3. 执行器将遍历结果组成的记录集返回给客户端。
对于有索引的表,执行逻辑类似,第一次调用“取满足条件的第一行”,之后循环取“满足条件的下一行”这个接口。
在慢查询语句中有个rows_examined
的字段,这个值是执行器调用引擎获取数据行的时候累加的。有些场景下,执行器调用一次,引擎内部会扫描多行,因此引擎扫描行数跟rows_examined
并不是完全相同的。
(注:部分内容来源于网路和一些学习资料,并非本人原著)