PostgreSQL中的预取算法

关于Buffer

全部缓冲区构成一个缓冲池

缓冲池:

  • 缓冲区管理跟踪BmTrace区
  • 记录缓冲区被使用的状况
  • BMT_LIMIT项
  • 缓冲区描述符BufferDestriptors区
  • 每个缓冲区都要一个描述符
  • NBUFFER+1个(0~NBUFFER)
  • 多出的一个(第NBUFFER个)作为空闲缓冲区的链头,把所有空闲缓冲区链到一个双链表中
  • 缓冲区
  • 实际存储数据的地方
  • NBUFFER个
  • 缓冲区索引哈希表
  • 通过表的文件节点(RelFileNode)和磁盘块(文件页),快速搜索到缓冲指定文件页的缓冲区,避免全池搜索

预取算法原理

前面已经分析过:
数据库存储结构:元组-文件页-物理段-表
元组即一条记录,文件页(磁盘块)是存储和维护的最小单位

数据库访问对象的过程可以分为:从磁盘找找到这个对象所在的数据库(文件页)-把数据块(文件页)从磁盘读到内存-从内存访问数据。

在这个过程中,磁盘和内存的IO之间的操作是最耗时的,也是影响响应时间的主要因素。

对于单次请求,这个过程是顺序执行的。
但是对于多次并发请求,仍然顺序执行,结果就是:在对内存中的数据进行处理时,磁盘IO处于空闲;需要读取新的数据时,磁盘IO又称为影响响应时间的主要因素。

如果能在处理内存中的数据时,就预测要从磁盘请求数据块的顺序,并提前将其读入内存,就能够减少等待IO完成所花费的时间。

预读算法实现

  • 定义1:BUF_READ_AHEAD_AREA
    表示预读区域大小,以块为单位
  • 定义2:BUF_READ_AHEAD_THRESHOLD
    表示预读的阈值

实现过程:
当系统调用ReadBuffer存取数据库中的一个数据页时:

  1. 如果数据页不是已在缓冲池中,则从文件读这个数据页到缓冲区
  2. 在读入之后,返回给CPU之前:
    统计以当前页为边界的某个区域(BUF_READ_AHEAD_AREA )内顺序读取的情况
  • 如果这个区域内最近被存取的数据页是按块号顺序(升序或降序),并发生的次数达到一个阈值(BUF_READ_AHEAD_THRESHOLD
  • 则按照这个顺序预取当前页前/后的一些连续页
  • 否则不预取

通过预取算法,使得系统存取这些页是,它们已在缓冲区中;
同时通过分析算法实现过程,可以发现该算法尽量保证了预取的命中率;否则频频无法命中的预取只会浪费系统系能,造成负面影响。

预取算法对性能的影响

在一些测试资料中可以看到,PostgreSQL通过实现这种算法,比较大的降低了响应时间,但是吞吐量并不会收到明显影响。

这是符合预期的:预取算法其实是通过减少系统空闲来提高性能,并不是在硬件性能上有突破性的优化。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容