The Page Cache and Page Writeback

page cache是kernel实现的disk cache, 这是为了减少磁盘I/O。page writeback是把page cache写回磁盘的处理过程。

  • 磁盘访问速度比内存慢几个数量级
  • 磁盘访问有时间局部性

所以对磁盘做内存cache会有很大的性能提升。

Approaches to Caching

  • page cache大小是动态的,可以花掉全部空闲内存也可以释放降低内存压力
  • backing store : 被cached的设备

一个read()调用

  • cache hit
    命中cache不需要磁盘I/O
  • cache miss
    需要调度block I/O操作读取数据

Write Caching

对于写cache系统一般有三种策略

  • no write
    对这里来说就是直接写磁盘,invalid cache
  • write through
    同时写cache更磁盘
  • write-back (Linux采用的)
    写直接操作page cache, 由page cache写会磁盘
    这样可以合并和批量操作, 但会变得复杂。

Cache Eviction

Linux只会选一个clean的page evict, 如果clean的page不够就需要writeback空出更多clean page.
难点是evict哪个page, 如果能知道未来的访问就能实现最优的策略clairvoyant algorithm,但这是不可能的。

Least Recently Used

太知名了, 不说了。
注意kernel不知道文件会被访问多少次,但是它可以知道过去的访问情况。

The Two-List Strategy

修改版本的LRU: two-list strategy(LRU/2), 维护两个list

  • active list
    表示访问频繁的,不拿来evict的,当一个page被访问并且在inactive list里了才会移到active list
  • inactive list
    page只在inactive list 里evict

在两个列表里控制平衡,active的太多就在active的evict到inactive.
这解决了LRU use-only-once的问题, 比如扫描操作会把cache全部刷掉。

The Linux Page Cache

The address_space Object

  • 一个page可能由多个不连续的disk block组成,索引是一个问题。
  • Linux page cache要cache 任何page-based object, 包括何种文件跟memory mappings.
  • 引入 address_space 结构用来管理cache跟page I/O操作

address_space Operations

Radix Tree

用来索引page, 每个address_space 有一个radix tree

The Old Page Hash Table

2.6前使用全局hash来索引会有这些问题

  • 一个全局锁,冲突很高影响性能。
  • The hash was larger than necessary because it contained all the pages in the page cache, whereas only pages pertaining to the current file were relevant. (不是很理解)
  • 查找失败时性能问题,特别时需要遍历整个链表的时候
  • 花费比较多内存

The Buffer Cache

disk blocks也会跟通过block I/O buffers 跟page cache绑定。buffer是disk block的内存表示。这个cache叫buffer cache, 做为page cache的一部分实现。(搞不清具体怎么协作

The Flusher Threads

写操作在page cache里是延后的,这些dirty pages最纵需要写回到磁盘,有这三种情况:

  • 可用内存少于一个阀值,write back了dirty pages才可能释放这些cache
  • 脏数据老于一个阀值, 避免脏数据一直在内存
  • sync() & fsync() 等系统调用。

Linux2.6 flusher threads 执行这些操作

  • 第一种情况
root@july-VirtualBox:/data1/july# sysctl -a | grep 
vm.dirty_background_ratio = 10

当达到配置(dirty pages占总内存多少百分比时需要刷到磁盘)值会触发

  • 第二种
root@july-VirtualBox:/data1/july# sysctl -a | grep "vm.dirty_writeback_"
vm.dirty_writeback_centisecs = 500

单位1/100,这里是5s

Laptop Mode

特殊的策略为了减少磁盘活动省点。

History: bdflush, kupdated, and pdflush

bdflush跟kupdated是2.6之前的,现在只有pdflush, pdflush的线程数是动态的,默认2~8个, pdflush线程不跟任何磁盘关联(global to all disks in the system)。容易拥塞与某个硬盘,2.6.32 flusher threads替换了pdflush. 它是 per-spindle flushing。

Avoiding Congestion with Multiple Threads

flusher threads 每个线程都会跟一个device关联,每个thread分别获取对应设备的dirty pages处理,这样工作效果很好又简单,避免以前bdflush pdflush等可能的拥塞问题,bdflush线程只有一个, pdflush threads会尽量避免拥塞的queues(没跟设备关联依然可能处理同一个设备)。

Conclusion

  • page cahce可以显著的提升性能跟减少磁盘I/O。
  • write-back 保持脏数据在内存延迟写到磁盘
  • flusher threads 处理最终的page writeback

reference

LKD ch16
http://sylab-srv.cs.fiu.edu/lib/exe/fetch.php?media=paperclub:lkd3ch16.pdf
https://www3.cs.stonybrook.edu/~porter/courses/cse506/f12/slides/page-cache.pdf

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,258评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,335评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,225评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,126评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,140评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,098评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,018评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,857评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,298评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,518评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,400评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,993评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,638评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,661评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi阅读 7,322评论 0 10
  • 最新数据监控项: Aborted Clients 因客户端没有正确地关闭而被丢弃的连接的个数,数字增大意味着有客户...
    Catke阅读 2,377评论 0 11
  • afinalAfinal是一个android的ioc,orm框架 https://github.com/yangf...
    passiontim阅读 15,428评论 2 45
  • 不温不火, 日子, 细水长流。 多一些陪伴, 是对双亲的宽慰。 让时光, 再慢些, 再慢些……
    痞子杜甫阅读 353评论 0 0
  • “我还是送你回去吧。”林萧几乎是机械式的说完了这句话。 “好吧。”任静表情失望的低下了头。 看到任静失望的样子,林...
    左潇龙阅读 508评论 2 2