缓存
mysql Innodb引擎在处理客户端请求时,当访问某个页的数据的时候,即使我们请求的是某个页中的一条数据记录,也会把整个页从磁盘加载到内存中, 然后在内存中就可以对数据进行读写了, 数据读写之后并不着急把数据对应的内存释放掉,而是将其缓存起来,等再次有数据请求的时候,省去了访问磁盘的IO操作了。
缓冲池 Buffer Pool
Innodb设计缓冲池,在mysql启动时申请一大块内存,内存的名字就叫做Buffer Pool,其大小是可以通过参数 innodb_buffer_pool_size进行配置的 。
Buffer Pool内部组成
Buffer Pool 缓存页的大小和磁盘上缓存页的大小是一致的,都是16kb,为了更好地管理这些缓存页,需要为每一个缓存页创建一个控制信息块,内容包括缓存页相关的一些信息:页所属的表空间编号,页号,页在缓冲池中的地址等一些数据;每个控制信息块所占有的内存是固定的,控制信息块和缓存页是一一对应的,在缓存中,控制块在Buffer Pool前部分,缓存页在Buffer Pool后部分。
mysql服务器系统启动后,首先申请Buffer Pool内存,然后将内存划分为若干个控制信息块和内存块,此时每个块尚未进行缓存数据,此时需要进行管理这些块,把所有的空闲的块通过链表关联到一起,这个链表称为 free链表(和STL中 内存池申请内存后使用链表管理方式类似),每一个缓存页对应的控制信息块都加入了这个链表中。
链表进行管理这些空闲块,那么关于链表的信息也需要进行存储,Innodb中,特意定义了一个称为 基节点 ,包含链表的头和尾以及节点个数信息。基节点所占有的内存不属于Buffer Pool中的,而是单独申请的一块内存,占用40字节的内存。
有了free链表之后,当磁盘中读取数据后,从free链表中获取一个空闲的块缓存数据,并将此块从free链表中移除,表示缓存已经被使用(读STL内存分配也是如此操作)。
缓存页的hash处理(查找)
请求数据时,如果数据在缓存池中,那么直接从缓存池中获取,怎么在缓存池中进行查找呢? 一个个遍历效率闲的太慢了,根据key进行查找快速的方式我们很容易想到hash,解决方案是 采用表空间号+页号作为key,缓存页作为value创建一个hash表;访问某个缓存页数据时,先查找表空间号+页号,如果有则获取缓存页,如果没有则从磁盘读取后获取一个空闲块进行缓存。
flush链表的管理(更新)
如果修改了某个缓存页的数据,那么就会和磁盘上数据保持不一致,此时这个缓存页被称为脏页(dirty page), 最简单的方式是如果出现脏页,那么立即同步到磁盘,频繁往写数据会严重影响程序的性能,so每次出现脏页,并不着急立即同步到磁盘,在后面某个节点进行同步(后详细叙述);对于在缓存中出现的N多个脏页也需要我们进行管理,不然后面进行同步的时候找不到该同步哪些页,每次出现数据更新,成为脏页后这个页会被添加到一个flush链表中,flush链表构造和free链表差不多,也有个基节点保存链表信息:头节点,尾节点,个数等。
缓存用完了怎么办?
Buffer Pool缓存池的大小是有限的,如果只是一味的添加数据,无论多大的内存都会用完,所有当从free 链表中获取缓存页发现没有的时候就应该考虑删除一些缓存页数据腾出新的缓存页
LRU链表:这种方式是添加一个额外的链表(又是链表)管理每个缓存页使用的频率,每次访问缓存页或者从磁盘获取数据添加到新的缓存页时,将此缓存页头插法放入LRU链表中,需要删除时,只需从此链表尾部删除即可。
LRU存在的问题:Innodb提供了一个贴心的服务称为预读,就是处理服务后可能会读取某些页面,将其加载到缓存页。预读的作用是为了提高语句的执行效率,但如果预读的数据用不到而又占据了LRU的头,那么缓存命中率会降低;其二,如果查询不走索引,那么会进行全表扫描,缓存数据会被全部替换,其他查询也是如此的话Buffer Pool中所有数据又会被重新换一次,大大降低了缓存的命中率。
解决方案:Innodb设计LRU链表的时候 ,把此链表分成了两段,分别是:一部分存储使用频率非常高的数据,这一部分链表称为热数据(young);另一部分存储使用频率不是很高的数据,称为冷数据(old),二者的长度不是固定不变的,按照某个比例设置;参数innodb_old_block_pct确定冷数据所占的比例;这种设计对以上问题解决方式是:对于预读,数据放在冷数据部分,不占用热数据部分,这样内存不足时删除数据不影响热数据的处理,对于全表扫描,首次把数据放在old区域后,可能马上被再次访问,放入到了young区,这样仍然会把young区域的数据顶下去,防止这种情况出现,需要一个时间判断下加入old区这个数据时间和再次访问时间间隔,如果很短,那么不把数据放入young区,避免了去顶除young数据,这个时间间隔设置的名称就是innodb_old_blocks_time;可以进行修改。
将LRU链表分成young和old段,再加上innodb_old_blocks_time的设置,可以降低预读和全表表扫描造成的缓存命中率低的问题。
进一步优化
如果每次访问的数据都会被移动到LRU链表的头部,那么开销也是有点大的,比如两个页被交替访问,也就是交替放到LRU头部,这种频繁在young区内部的移动有点浪费,Innodb规定访问的young中的数据位于young区的后1/4时才会进行移动到链表头的操作,降低了链表频繁调整的频率,提高了性能。
刷新脏页到磁盘
后台有一个线程负责过一段时间把脏页刷新到磁盘,这样不影响用户线程处理线上的请求,主要有两种刷新路径:
从LRU链表冷数据中刷新一部分到磁盘:后台线程从LRU尾部开始扫描,遇到脏页进行刷新到磁盘,具体扫描的页数量通过innodb_lru_scan_depth变量进行控制。
从flush链表刷新一部分到磁盘:后台线程会从flush链表中刷新一部分到磁盘中。
多个BufferPool实例:
多线程下访问一个BufferPool内存是需要加锁处理的,在多线程环境下采用每个线程访问一个BufferPool实例避免多个线程操作一块内存导致锁竞争。 通过innodb_buffer_pool_instanc设置个数。