进一步理解Linux操作系统的块设备

在前文《理解Linux操作系统的块设备》中我们从比较高层面(Hight Level)介绍了块设备的原理和块设备的特性。但是关于Linux操作系统块设备的实现原理可能还一知半解。本文将进一步深入的分析Linux的块设备,期望能让大家更加深入的理解块设备的实现细节
其实在Linux操作系统中可以非常方便的实现一个块设备,或者说是块设备驱动。在Linux中我们熟知的RAID、多路径和Ceph的RBD等都是这样一种块设备。其特征就是在操作系统的/dev目录下面会创建一个文件。如图1显示的不同类型的块设备,包含普通的SCSI块设备和LVM逻辑卷块设备,本质上都是块设备,差异在于在不同的业务逻辑和名称。

图1 不同类型的块设备

块设备的实现原理

在Linux操作系统中,块设备的实现其实十分简单,但也十分复杂。简单的是我们可以只用2个函数就可以创建一个块设备驱动程序;复杂的地方是块设备的总线和底层设备驱动的关系错综复杂,且块设备驱动种类繁多。
我们先看一下如何创建一个块设备,创建的方法很简单,主要是调用Linux内核的2个函数,分别是alloc_disk和add_disk。alloc_disk用于分配一个gendisk结构体的实例,而后者则是将该结构体实例注册到系统中。经过上述2步的操作,我们就可以在/dev目录下看到一个块设备。另外一个比较重要的地方是初始化gendisk结构体的请求队列,这样应用层有请求的时候会调用该队列的例程进行处理
关于创建块设备的详细实现代码本文并不打算进行深入介绍,需要了解的同学可以阅读《Linux设备驱动程序》这本书,目前最新的是第三版。这本书的第16章详细的介绍了一个基于内存的块设备驱动的实现细节,并且有配套源代码。所谓基于内存的块设备是指这个块设备的数据存储在内存中,而不是真正的诸如磁盘或者光盘的物理设备中。如下是本文从该书中截取的代码片段,核心是上文提到的2个函数。

static void setup_device(struct sbull_dev* dev, int which)
{
    memset(dev, 0, sizeof(struct sbull_dev));
    dev->size = nsectors * hardsect_size;
    dev->data = vmalloc(dev->size);
    if (dev->data == NULL)
    {
        printk(KERN_NOTICE "vmalloc failed. \n");
        return; 
    }

    spin_lock_init(&dev->lock);

    /*初始化一个队列函数,用于处理IO请求*/
    dev->queue = blk_init_queue(sbull_full_request, &dev->lock);
    dev->queue->queuedata = dev;
    blk_queue_logical_block_size(dev->queue, hardsect_size);

    /*创建gendisk结构体,并初始化*/
    dev->gd = alloc_disk(SBULL_MINORS);
    dev->gd->major = sbull_major;
    dev->gd->first_minor = which*SBULL_MINORS;
    dev->gd->fops = &sbull_ops;
    dev->gd->queue = dev->queue;
    dev->gd->private_data = dev;

    /*拼凑块设备的名称,为sbulla*/
    snprintf( dev->gd->disk_name, 32, "sbull%c", ('a' + which));
    set_capacity( dev->gd, nsectors*(hardsect_size/KERNEL_SECTOR_SIZE) );
    add_disk(dev->gd);  /*将块设备添加到系统内核*/

    return;
}

上述块设备程序可以编译成为一个内核模块。通过insmod命令将内核模块加载后,就可以在/dev目录下看到一个名为sbulla的块设备。

brw-rw---- 1 root disk 251, 0 Jun 16 09:13 /dev/sbulla

块设备的复杂性在于其总线种类繁多,并且底层驱动类型也非常多。整个系统复杂的地方在于块设备的初始化工作。一个设备上电后,如何关联到Linux内核,并呈现给用户就变得非常复杂。如图2是本号之前介绍过的关于Linux总线相关内容的截图。块设备可能位于图中总线的任意位置。

图2 Linux内核的总线架构

由于这部分内容本身非常复杂,因此本文暂时不对设备初始化工作相关的内容细节进行介绍。后续本号单独介绍相关的内容。今天本文主要通过几个实例,以比较直观的方式介绍一下块设备与底层驱动层面的相关内容。
以SCSI块设备为例,虽然都是在/dev下面呈现一个名称为sdX的块设备,但底层驱动差异却非常巨大。我们知道SCSI设备可以通过多种方式连接到主机端:

  • SAS或者SATA接口的磁盘
  • IP-SAN,通过以太网方式连接存储设备,在主机端呈现为普通磁盘
  • FC-SAN, 通过光纤方式连接到存储设备,在主机端呈现为普通磁盘
    可以看出,虽然都基于SCSI的块设备,但底层的驱动差异却是非常之大,因此初始化的流程自然也有很大的差异。这还都是SCSI块设备,如果再将基于网络的块设备(nbd或者rbd)和软盘、光盘等块设备考虑进来,那就更加复杂了。

Linux中形形色色的块设备

块设备的种类非常多,我们今天就介绍几种比较典型的块设备。
SCSI磁盘
最为典型的当然是SCSI磁盘了,SCSI磁盘通过SAS、SATA接口或者HBA卡连接到服务器的主板,在操作系统内部呈现为一个磁盘设备。熟悉Linux操作系统的同学大概都清楚,对于SCSI磁盘在Linux系统内部是以sd为开头的名称。在本文图1中,下半部分的块设备就是SCSI磁盘。
SCSI磁盘的具体实现在文件sd.c(driver/scsi/sd.c)中,在该文件中的sd_probe函数中通过调用alloc_disk和add_disk创建了SCSI磁盘块设备(代码太长,本文就不贴了)。这里面另外一个比较重要的地方是初始化了通用块数据结构的请求队列。完成上述初始化后,用户层面就可以访问该磁盘,并且请求会转发到这里注册的队列中进行处理。
网络块设备
另外一个比较典型的块设备是网络块设备(Network Block Device),这种块设备通过网络将一个远程的文件或者块设备映射为本地的一个块设备。另外,Ceph中的块存储内核客户端(RBD)也属于此类设备,只是Ceph的后端实现是基于一个分布式存储集群,更加复杂而已。

图3 NBD原理示意

网络块设备最大的特点是建立了一个从服务端到客户端的设备映射,相对于SCSI来说这种映射又非常简单。我们以NBD为例了解一下基本原理。NBD本身是一个CS(Client-Server)架构的程序,在服务端可以将一个文件/或者磁盘映射为出来(命令为: nbd-server 12345 itworld123.txt,其中12345为端口号)。这一点其实非常类似NFS对目录的映射,差异在于NBD在客户端映射为一个磁盘,而NFS在客户端映射为一个目录树。
块设备的初始化依然是通过上述2个函数完成的,但这里的核心是初始化的请求队列例程do_nbd_request。该函数是NBD块设备的核心,其将一个块请求转换为一个网络请求,并发送给NBD服务端进行处理。网络请求的协议非常简单,通过如图4所示的一个结构体进行标识。

图4 NBD请求头

DRBD
关于DRBD本号在前面的文章中有过介绍,全称为Distributed Relicated Block Device(也就是,分布式复制块设备)。DRBD可以理解为一个基于网络的RAID1,也就是其块设备在2台服务器上同时存在,并且有配对关系。当请求写入其中一个块设备的时候,DRBD会通过内部的逻辑将数据复制到另外一个服务器上的块设备。通过这种方式增加了块设备的可用性,当其中一台服务器宕机时,另外一台服务器仍然可以对我提供服务。
图5 DRBD架构图

同NBD类似,DRBD的与其它块设备差异的地方在于其队列处理例程,在DRBD中该例程为drbd_make_request,各位可以自行分析一下该例程的具体实现。
除了上面介绍的块设备类型外,还有LVM和多路径等等很多类型的块设备。由于篇幅有限,本文暂时不做介绍,后续专门进行介绍。

块设备的请求处理

前文我们介绍中提到了块设备的伪文件系统,并且知道伪文件系统最终会调用通用块层的generic_perform_write函数。本文将接着分析一下该函数的具体实现,这样大家就对上文中提到的请求队里的例程有了更加深入的了解。下面是该函数的具体代码,本文删除了一些非关键部分的代码,保留了核心代码。

void generic_make_request(struct bio *bio)
{
    struct bio_list bio_list_on_stack;
    bio_list_init(&bio_list_on_stack);
    current->bio_list = &bio_list_on_stack;
    do {
        /*获取请求队列 */
        struct request_queue *q = bdev_get_queue(bio->bi_bdev);
        /*通过请求队列的例程进行处理 */
        q->make_request_fn(q, bio);
        bio = bio_list_pop(current->bio_list);
    } while (bio);
    current->bio_list = NULL; /* deactivate */
}

可以看到请求到通用块层后会调用请求队列的make_request_fn函数指针,而该函数最终调用我们在创建块设备时注册的例程。两者并非同一个函数,这里需要注意一点,关于这部分内容我们后续详细介绍。因为这里比较复杂,关于通用块层IO调度的内容都在这里。
通过上面的描述我们对IO请求的处理更加深入了一层,也就是从用户层面到伪文件系统层面,现在到通用块层的请求队列中了。当然,最后是到我们注册的例程中进行处理。各种不同类型块设备的差异就在这里,不同的类型块设备的处理逻辑有所不同。对于SCSI设备就是通过SCSI协议发送到Target端进行处理,而对于NBD设备则是通过网络发送到服务端进行处理。
好了,今天先到这,后续我们在介绍块设备中最为核心的特性---磁盘IO调度。

关注微信公众号,即使了解新内容: itworld123

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351

推荐阅读更多精彩内容