第14章 块I/O层

系统中能够随机(无需按顺序)访问固定大小数据片的硬件设备称作块设备(如硬盘、闪存等),这些固定大小的数据片就是块。字符设备按照字符流的方式被有序访问,如键盘。

本章学习内核如何对块设备和块设备的请求进行管理,这部分在内核中称为块I/O层。

一、剖析一个块设备

块设备中最小的可寻址单元是扇区(也称硬扇区或设备快)。扇区大小一般是2的整数倍,常见为512字节,这是设备的物理属性,是所有块设备的基本单元。

虽然物理磁盘寻址是按照扇区级进行的,但是内核执行的所有磁盘操作都是按照块进行的。块是文件系统的最小寻址单元,也称文件块或I/O块。块大小必须是扇区大小的2的整数倍,并且小于页面大小,通常块大小是512字节、1KB或4KB。

二、缓冲区和缓冲区头

当一个块被调入内存时,会存储在一个缓冲区中。每个缓冲区对一个块,相当于磁盘块在内存中的表示。


image.png

每个缓冲区有一个对应的描述符,buffer_head表示描述符,称为缓冲区头,包含了内核操作缓冲区所需的全部信息。

struct buffer_head {
    unsigned long b_state;      /* buffer state bitmap (see above) */
    struct buffer_head *b_this_page;/* circular list of page's buffers */
    struct page *b_page;        /* the page this bh is mapped to */

    sector_t b_blocknr;     /* start block number */
    size_t b_size;          /* size of mapping */
    char *b_data;           /* pointer to data within the page */

    struct block_device *b_bdev;
    bh_end_io_t *b_end_io;      /* I/O completion */
    void *b_private;        /* reserved for b_end_io */
    struct list_head b_assoc_buffers; /* associated with another mapping */
    struct address_space *b_assoc_map;  /* mapping this buffer is
                           associated with */
    atomic_t b_count;       /* users using this buffer_head */
    spinlock_t b_uptodate_lock; /* Used by the first bh in a page, to serialise IO completion of other buffers in the page */
};

缓冲区头说明缓冲区到块的映射关系,但有两个弊端:

  • 缓冲区头数据结构体太大且不易控制,对数据的操作不方便也不清晰;
  • 仅能描述单个缓冲区。

三、bio结构体

目前内核块I/O操作的基本容器由bio结构体表示,代表正在现场的以片段(segment)链表形式组织的块I/O操作。一个片段是一小块连续的内存缓冲区,这样就无需保证单个缓冲区一定要连续。


image.png

bio结构体的bi_io_vec域是一个bio_vec结构体数组,该数组表示了一个完整的缓冲区,bio_vec结构体则表示组成该缓冲区的片段。

每个块I/O请求都通过一个bio结构体表示,每个请求包含一个或多个块,这些块存储在bio_vec结构体数组中。

四、请求队列

块设备将其挂起的块I/O请求保存在请求队列中。请求队列只要不空,队列对应的块设备驱动程序就会从队列头获取请求,将其放入对应的块设备中。请求可能要操作多个连续的磁盘块,所以每个请求可以由多个bio结构体组成。

五、I/O调度程序

磁盘寻址是整个计算机中最慢的操作之一,所以尽量缩短寻址时间是提高系统性能的关键。为了优化寻址操作,内核会在执行请求前对请求进行合并与排序的预操作,在内核中负责提交I/O请求的子系统称为I/O调度程序。

I/O调度程序管理快设备的请求队列,决定队列中的请求排列顺序以及在什么时候派发请求到块设备,I/O调度程序可能为了提高系统整体性能而对某些请求不公。

I/O调度程序减少磁盘寻址时间的方法有:

  • 合并:将两个或多个请求结合成一个请求
  • 排序:整个请求队列按扇区增长方向有序排序,缩短所有请求的磁盘寻址时间

5.1 Linus电梯

Linux电梯是一种I/O调度程序:

  • 若队列中已存在一个队相邻磁盘扇区操作的请求,那么将新请求和该请求合并成一个请求;
  • 若队列中存在一个驻留时间过长的请求,那么新请求插到队尾,防止旧请求饥饿;
  • 若队列中以扇区方向为序存在合适的插入位置,那么新的请求将被插入到该位置,保证队列中的请求是以被访问磁盘物理位置为序进行排列;
  • 若队列不存在合适的请求插入位置,那么将请求插入队尾。

5.2 最终期限I/O调度程序

Linus电梯对较远位置的其他请求不公平,而且户造成读操作的饥饿,直接影响系统性能。

最后期限I/O调度程序中,每个请求都有操作时间。除了Linus的排序队列,还为读请求和写请求分别维护一个FIFO队列,若FIFO队列头的请求超时,则从FIFO队列中提取请求进行服务:


image.png

5.3 预测I/O调度程序

最终期限I/O调度程序降低了读写操作响应时间,但也降低了系统吞吐量。

预测I/O调度程序的改进是增加预测启发能力,也就是请求提交后并不直接返回处理其他请求,而是有意空闲片刻,若有对相邻磁盘位置操作的请求都会得到立刻处理。

5.4 完全公正的排队I/O调度程序(CFQ)

CFQ(Complete Fair Queueing)是为专有工作复负荷设计的,但在实际中,为多种工作负荷提供了良好的性能。CFQ你是请求放入对应进程组织的排队中,每个进程队列进行合并和排序。CFQ以时间片轮转调度队列,从每个队列中选取请求数(默认为4)进行调度。

5.5 空操作的I/O调度程序

空操作的I/O调度程序只是维护一个近似FIFO的请求队列,对新请求提交到队列时,把它和任一相邻的请求合并。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349

推荐阅读更多精彩内容

  • 计算机的两个主要工作是I/O和处理,在很多情况下,主要工作是I/O,而处理只是附带的。例如:当浏览器网页和编辑文本...
    小pb阅读 1,169评论 0 1
  • 概述 在块设备上的操作,涉及内核中的多个组成部分,如图1所示。假设一个进程使用系统调用read()读取磁盘上的文件...
    zh_harry阅读 1,841评论 0 1
  • 1. I/O系统的基本功能及模型 1)主要功能: 隐藏物理设备细节,方便用户 用户使用抽象的I/O命令即可 实现设...
    Whocare_2f87阅读 2,157评论 0 0
  • 小部分I/O系统软件放在了用户应用层上。 库函数(与应用程序链接) 假脱机技术(虚拟设备) 1)系统调用与库函数 ...
    麻皮阿洪阅读 905评论 0 0
  • 第一章.计算机系统概述1.基本构成2.指令的执行3.中断3.1 目的3.2 类型3.3 中断控制流3.4 中断处理...
    某WAP阅读 854评论 0 0