linux驱动之阻塞和轮询IO

一、前言

我们都在知道linux对于文件与设备的操作有阻塞及非阻塞两种类型,我们可以在打开设备或者文件的时候对其进行设置,以满足我们在写入及读取的时候可以进行等待或者非等待的需求,在非阻塞的时候,系统调用会返回 -EAGAIN 给应用程序,以让应用程序继续工作。今天本文就简单地来说明一下linux驱动内部有哪些机制能实现阻塞型IO。

二、阻塞型IO

阻塞与非阻塞的区别在于,阻塞型IO会主动让出 CPU,以使得其他进程能够继续运行。直到阻塞型IO完成并被唤醒后返回

2.1 进程状态

在了解阻塞型IO的实现寄之前,我们先简单的了解了解linux操作系统中进程有哪些状态

  • 僵尸态:TASK_DEAD(state字段) | EXIT_ZOMBIE(exit_state字段),如果子进程退出的时候没有被父进程回收那么将进入该状态
  • 死亡态:TASK_DEAD(state字段) | EXIT_DEAD(exit_state字段),如果父进程本身不关注子进程的退出事件,那么子进程将自动消失。与僵尸态的区别是,死亡态的task_struct结构会被释放,而僵尸态不会
  • 就绪态:TASK_RUNNING, 进程在运行队列中等待调度
  • 运行态:TASK_RUNNING, 进程正在CPU上运行
  • 轻睡眠:TASK_INTERRUPTIBLE 可被信号打断
  • 中睡眠:TASK_KILLABLE 只响应致命信号
  • 深睡眠:TASK_UNINTERRUPTIBLE 不可被打断
  • 停止态:TASK_STOPPED,接收到 SIGSTOP 和 SIGTSTP 等信号时,进程将进入这种状态。该状态下进程无法运行,当接收到 SIGCONT 信号之后,进程将再次变得可运行。

以上那么多状态,但我们一般在使用的时候大多数是使用到下面的 3 种状态

  • 轻睡眠TASK_INTERRUPTIBLE 可被信号打断
  • 深睡眠TASK_UNINTERRUPTIBLE 不可被打断
  • 运行态TASK_RUNNING 进程正在CPU上运行

2.2 等待队列

2.2.1 简述等待队列

在linux内核中,我们一般使用 等待队列 这个机制来完成阻塞行IO。我们可以想象一下,假设我们将的进程描述符(task_struct)挂进某一个队列,然后在让当前线程沉睡以进行调度。在某一个时机,另外一个进程对这个队列上的线程进行唤醒,那么我们就可以得到我们想要的阻塞行IO,这个队列就是等待队列

2.2.2 等待队列的使用方法

等待队列的接口在头文件 wati.h 中可以查看,这里我们主要说明一下常用接口。
我们一般有 2 种方式来使用等待队列,分别是

  • 等待条件休眠
  • 手工休眠

2.2.2.1、初始化队列及队列元素

在说明等待方式之前,我们先了解一下如何初始化等待队列及其元素,我们一般有以下流程:

  1. 声明队列头部
    1.1. 先声明队列头部 wait_queue_head_t wait_queue
    1.2. 再初始化队列头部 init_waitqueue_haned()
    1.3. 可以直接使用宏定义来声明并初始化头部 DECLARE_WAIT_QUEUE_HEAD()
  2. 初始化等待队列元素
    2.1. 使用宏 DECLARE_WAITQUEUE(name, tsk) 定义元素,其中name是变量名其结构体为struct wait_queue_entry,而tsk 就是进程描述符

2.2.2.2、等待条件休眠

这种方式一般是让进程一直等待,知道某一个条件成立成立的时候再退出沉睡,其接口命名一般为 wait_event_xxx,下面我们主要写 2 个比较常用的,其中 condition 就是判断条件,如果条件不成立那么将进行休眠让出CPU,直到下次被唤醒后再次判断条件。一般流程为

  1. 初始化队列及队列元素
  2. 调用 wait_event_xx(queue,condition) 系列函数

我们常用的有:

  • wait_event(queue,condition)
  • wait_event_interruptible(queue,condition)

2.2.2.3、手工休眠

当然,我们可以可以手动地选择某一个时机进行休眠,一共有 2 种方法,一般流程分别为
1.1. 初始化队列及队列元素
1.2. 调用 void prepare_to_wait(struct wait_queue_head *, struct wait_queue_entry *, int state);
1.3. 调用schedule(),告诉内核调度别的进程运行
1.4. schedule() 返回后调用 finish_wait() 完成后续清理工作,在finish_wait中会将指定等待进程移出指定的等待队列

2.1. 初始化队列及队列元素
2.2. 调用 add_wait_queue(struct wait_queue_head * , struct wait_queue_entry * ) 将等待队列项添加到等待队列头中
2.3. 调用__set_current_status()设置进程状态,一般设置为 TASK_INTERRUPTIBLE
2.4. 调用schedule(),告诉内核调度别的进程运行
2.5. 调用 remove_wait_queue() 将等待队列项从等待队列中移除

第一种方式在笔者的样例代码中并不工作,笔者目前没有找出相应原因,等待后续填坑

2.3 惊群效应

2.3.1 惊群效应简介

我们再简单地说明一下 惊群效应,它是指当多个进程被添加到同一个等待队列的时候,此时有一条进程对该队列的进程进行唤醒。如果在这个等待队列上的某些进程因为某种资源限制之列的原因,只有一个进程能够被唤醒,也就是此类进程是互斥运行的。但此时该等待队列上的所有进程却因为无差别唤醒全都运行了,从而使得CPU处理大量进程而降低效率,因为此时需要大量的上下文切换,但最终只有一个进程会被满足条件唤醒,浪费了很多无用的CPU带宽。

2.3.2 惊群效应解决方法

我们可以使用下面的 2 个接口来防止这种现象,exclusive表示独占的意思

  • add_wait_queue_exclusive
  • prepare_to_wait_exclusive

以上的接口会在等待队列的 元素 中设置一个 WQ_FLAG_EXCLUSIVE标志 ,带有这个标志的队列元素就会添加到等待队列的尾部没有设置的添加到头部
wake_up_xx() 在遇到 第一个 具有 WQ_FLAG_EXCLUSIVE 这个标志的进程就停止唤醒其他进程。最后的结果是进行互斥等待的进程被一次唤醒一个,但内核仍然每次唤醒所有的非互斥等待者。所以 WQ_FLAG_EXCLUSIVE 仅对需要互斥的进行有效。

三、轮询IO

在非阻塞型IO中,我们一般会使用 selectepollpoll等轮询机制来轮询等待设备或文件,直到可以写入或者读取。这样一来我们的程序就可以针对需要处理的事情灵活应对,直到所有的设备或者文件都不被允许操作时才进行休眠。那么我们这样的轮询方式需要在设备的文件方法中实现 poll 方法以使得该操作得以实现

3.1 poll实现

设备的文件方法中,poll方法的原型为

unsigned int (*poll) (struct file *, struct poll_table_struct *);

poll 方法的主要工作有 2 个:

  1. 调用 void poll_wait(struct file * filp, wait_queue_head_t * wait_address, poll_table *p) 函数,该函数会吧进程挂到等待队列中去
  2. 判断设备是否有内容可读可写,如果可读或者可写就返回相应的 poll状态,否则返回 0

poll_wait 函数我们一般只需要关注第二个参数 wait_address,该参数指向的队列将会添加当前进程作为队列元素。其余的 2 个参数可以直接从方法的参数中获取。

下面给一个例程代码

static unsigned int test_poll(struct file *filp, struct poll_table_struct *ptb)
{
    int mask = 0;
    struct test_device* test_device = (struct gpio_device*)filp->private_data;
    poll_wait(filp, &test_device ->test_wq, ptb);

    if(可读或者可写)
        mask = POLLOUT | POLLWRNORM;//可写
    else
        mask = 0;
    return mask;
}

下面是常见的 poll状态

#define POLLIN      0x0001 //有数据可读
#define POLLRDNORM  0x0040 //有普通数据可读    
#define POLLRDBAND  0x0080 //有优先数据可读
#define POLLPRI     0x0002 //有紧迫数据可读
#define POLLOUT     0x0004 //写数据不会导致阻塞
#define POLLWRNORM  0x0100 //写普通数据不会导致阻塞
#define POLLWRBAND  0x0200 //写优先数据不会导致阻塞
//其他返回状态
#define POLLERR     0x0008 //指定的文件描述符发生错误
#define POLLHUP     0x0010 //指定的文件描述符挂起事件
#define POLLNVAL    0x0020 //指定的文件描述符非法

3.2 poll原理简述

下面是系统调用 poll 时的函数调用关系,以缩进作为调用与被调用的关系,读者们结合源码应该能够直接理解

do_sys_poll
    ->poll_initwait(&table);
        ->init_poll_funcptr(&pwq->pt, __pollwait);//table就是pwq
    ->do_poll(head, &table, end_time);
        ->do_pollfd->poll()
        ->poll_schedule_timeout()
            ->schedule_hrtimeout_range()
                ->schedule_hrtimeout_range_clock
                    ->schedule()

下面按顺序看一下源码

static int do_sys_poll(struct pollfd __user *ufds, unsigned int nfds,
        struct timespec64 *end_time)
{
    struct poll_wqueues table;
    ...
    poll_initwait(&table);
    fdcount = do_poll(head, &table, end_time);
}

可见 do_sys_poll 调用了 poll_initwait 初始化了 struct poll_wqueues table 结构体

struct poll_wqueues {
    poll_table pt;
    ....
};
typedef struct poll_table_struct {
    poll_queue_proc _qproc;
    unsigned long _key;
} poll_table;
void poll_initwait(struct poll_wqueues *pwq)
{
    init_poll_funcptr(&pwq->pt, __pollwait);
    pwq->polling_task = current;
    pwq->triggered = 0;
    pwq->error = 0;
    pwq->table = NULL;
    pwq->inline_index = 0;
}
static inline void init_poll_funcptr(poll_table *pt, poll_queue_proc qproc)
{
    pt->_qproc = qproc;//qproc就是 __pollwait 函数
    pt->_key   = ~0UL; /* all events enabled */
}

poll_initwait 比较简单明了,参数 pwq 就是do_sys_poll 中的 table 结构体,该结构体有一个重要的成员 poll_table pt,它就是传给 设备poll 文件方法的第三个参数,那么 pt中就主要的就是_qproc,它是一个函数指针,一般指向 **__pollwait ** 函数。我们后面再讲讲这个参数,我们先跳到下一个阶段 do_poll

static int do_poll(struct poll_list *list, struct poll_wqueues *wait,
           struct timespec64 *end_time)
{
    poll_table* pt = &wait->pt;
    for (;;) 
    {
        for (walk = list; walk != NULL; walk = walk->next)
        {
            ...
            for (; pfd != pfd_end; pfd++) 
            {
                ...
                if (do_pollfd(..., pt)) 
                    ....
            }
        }
        ...
        if (!poll_schedule_timeout())
            ...
    }
    return count;
}
static inline unsigned int do_pollfd(struct pollfd *pollfd, poll_table *pwait,
                     bool *can_busy_poll,
                     unsigned int busy_flag)
{
    unsigned int mask;
    ....
    if (fd >= 0) 
    {
        ....
        if () 
        {
            mask = DEFAULT_POLLMASK;
            if (f.file->f_op->poll) 
            {
                mask = f.file->f_op->poll(f.file, pwait);
                if (mask & busy_flag)
                    *can_busy_poll = true;
            }
            /* Mask out unneeded events. */
            mask &= pollfd->events | POLLERR | POLLHUP;
        }
    }
    pollfd->revents = mask;
    return mask;
}
static inline void poll_wait(struct file * filp, wait_queue_head_t * wait_address, poll_table *p)
{
    if (p && p->_qproc && wait_address)
        p->_qproc(filp, wait_address, p);
}
static void __pollwait(struct file *filp, wait_queue_head_t *wait_address,
                poll_table *p)
{
    struct poll_wqueues *pwq = container_of(p, struct poll_wqueues, pt);
    struct poll_table_entry *entry = poll_get_entry(pwq);
    if (!entry)
        return;
    entry->filp = get_file(filp);
    entry->wait_address = wait_address;
    entry->key = p->_key;
    init_waitqueue_func_entry(&entry->wait, pollwake);
    entry->wait.private = pwq;
    add_wait_queue(wait_address, &entry->wait);
}

笔者省去了一些代码以助于理解,我们可以直接看到,do_poll 会调用 do_pollfd,在 do_pollfd 中有一条语句

mask = f.file->f_op->poll(f.file, pwait);

这一句调用就是我们设备方法里面的 poll方法,回顾上面的test_poll,我们调用了 poll_wait,那么就会调用到 __pollwait函数,可以明显地看到这里也是一个将等待队列元素添加到等待队列的操作,但这里与我们前面所讲的常规加入等待队列不同,因我们这里的等待队列元素 entry->waitprivate 成员指向了在 do_sys_poll 定义的struct poll_wqueues 结构体。而我们之前将的等待队列元素的private 成员一般指向了当前的进程描述符 current。关于这它们的区别有兴趣的读者可以自行前去理解,笔者的理解是:这种区别应该与唤醒操作有关,如果机会笔者再找时间把这个坑给填上。

那么现在我们返回do_poll(后面的操作笔者省略了一些过程,只讲关键部分)往下执行,根据 poll方法 的返回值进行判断,如果返回为0则会进入 poll_schedule_timeout,该函数会调用 schedule() 让出CPU。如果返回的是 POLL状态位,那么将进行其他操作并返回应用层

四、参考链接

Linux内核中等待队列的几种用法https://www.cnblogs.com/wanghuaijun/p/7107358.html
Linux设备驱动中的阻塞和非阻塞I/Ohttps://www.cnblogs.com/chen-farsight/p/6155476.html
poll_wait无法阻塞是什么原因造成的:https://bbs.csdn.net/topics/80272457

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容