tornado多线程共享CPU的踩坑经历

需求分析

需求是写一个简单的tornado服务器端程序,内部调用了人脸检测模块的代码。对外提供一个接口,接口的输入是base64的一张或者多张图片即可。当输入多张图片时,要求输出的顺序和输入的图片顺序一致。输出是一个list,其中的每一项是dict,里面保存了人脸的位置信息以及人脸关键点的二维坐标信息。这个基本的服务最终会被封装到docker中,这样就可以开启多个服务,被外界调用。

性能分析

我需要完成的是将被封装在docker镜像中的tornado服务。docker的容器本身是且仅仅是一个进程,因此tornado启动时不需要开启多进程了,没有意义。但是在handler函数内部可以使用异步的方式来实现多线程,减少阻塞,实现并发。

开始踩坑

第一坑:list不是线程安全的

python的list不是线程安全的,因此给定的一个list[image],如果想要内部实现多线程并发,那么无法保证按照输入的顺序输出。因此需要先创建一个image_id的字典,并且将id的顺序保存下来。这样在多线程并发执行完成之后,按照id的顺序重新排序输出。这里还需要注意的是,如果传入的图片是同一图片传入多次,那么在保存image_id的时候,相同key的value会被覆盖,因此设置键值的时候不能直接以图片指针为键,而需要仔细的设定。

第二坑:tornado自带的multi函数

我们希望多线程去完成人脸识别的功能,主线程等待多线程完成之后,统一进行整理工作。因此如何在python中让主线程等待子线程完成之后再返回是一个问题。阅读tornado的官网,发现可以使用multi方法,这个方法可以保证内部多线程的执行,同时保证输出的顺序和输入的顺序一致。

multi是协程模式中的一个函数。后面跟是dict或者list的Future返回对象。然后并行等待输出,且如果后面跟的是list,那么返回的list顺序和原始list一致。

if isinstance(images,list):
            task_res=await multi([image_processing(image) for image in images])

我以为问题就这么圆满的解决了,但是,请注意!!!!
问题并没有解决!!!
实际测试的时候,使用multi运行100张图片的时间是6.9s,而如果改用for循环同步运行的方式耗时6.6s。这意味着使用异步的方式反而比使用同步的方式要慢!

分析:查看了multi函数的源码,内部将所有的list中Future传给了一个multi_future的方法。

if _contains_yieldpoint(children):
    return MultiYieldPoint(children, quiet_exceptions=quiet_exceptions)
else:
    return multi_future(children, quiet_exceptions=quiet_exceptions)

查看mulit_future方法,维护着多个子future,每次有一个子future完成后,就会调用callback,将其从unfinished_children中移除,当所有子Future的callback都执行完后,会真正调用set_result方法。

也就是说,multi确实是实现了异步的。那么为什么在这里没有实现异步的效果?再次在网上搜索原因,可能的原因如下:

  1. 首先我们要知道Tornado是个单线程的服务器,他作为服务端是没法使用多线程处理并发。tornado 本身就是利用ioloop的异步回调解决io阻塞的问题。也就是说,如果多个任务中,每个任务既有IO耗时操作又有CPU计算操作,那么使用ioloop的事件注册循环机制,就可以实现在一个任务IO时,另一个任务去执行CPU。而如果我们的任务都是高CPU的,而没有IO阻塞操作,那么使用异步反而导致更多的事件花在任务切换上。所以时间反而变长了。
  2. 如果希望tornado开启多个进程,那么可以在main函数中使用如下形式:
def main():
    app = make_app()
    server = tornado.httpserver.HTTPServer(app)
    server.bind(8888)
    server.start(0)  # forks one process per cpu
    IOLoop.current().start()

但是遗憾的是,如果是window环境下,不能使用这样的方式,因为server.start会调用底层的os.fork函数,而windows没有这个函数。

第三弹-使用线程池concurrent.futures.ThreadPoolExecutor

使用线程池可以实现多线程功能是之前就明白的。如何实现主线程在多线程执行完毕之后在进行之后的操作时这个解决方式的需要考虑的。通过阅读官网说明可以看到,官网提供了一个wait函数

concurrent.futures.wait(fs, timeout=None, return_when=ALL_COMPLETED)

函数等待fs这些future实例完成,并且返回两个命名元组集合( a named 2-tuple of sets),第一个命名元组done是在timeout时间内返回的已经完成或者取消的future集合。第二个命名原则not_done是在timeout时间内没有完成的future集合。
timeout用于控制等待时间,默认None表示没有限定等待时间。
return_when用于指定什么时候这个函数返回,其中ALL_COMPLETE表示会等到所有的Future实例都完成或者取消之后才返回。

因此我们可以先定义一个Future的list,然后使用这个wait方法等待所有的任务都完成,最后整理done这个集合中的返回结果。

            with ThreadPoolExecutor(args.executor) as executor:
                future_result = [executor.submit(image_processing, image=image[0], num=id) for image, id in image_id.items()]

                #主线程等待全部执行完毕
                done, undone = concurrent.futures.wait(future_result, return_when=ALL_COMPLETED)
                for future in done:
                    res = future.result()
                    id_res[res[0]] = res[1]

在设置线程池的线程数量为36时,100张图片的处理时间为3.6s。顺序处理的时间为6.6s.

第四弹:实现参数的动态输入

我们希望在开启这个服务的时候,可以通过参数的方式设置例如监听端口、线程池数量等参数。可以使用argparse包。

parser = argparse.ArgumentParser(description='Start the face dection web server')
parser.add_argument('--port', type=int, default=3000, help='The web port to listen.')
parser.add_argument('--executor', type=int, default=36, help='The num of thread in ThreadPoolExecutor')
args = parser.parse_args()

这样,就可以使用args.port, args.executor来代替下面代码出现的对应变量值。然后在开启服务时,可以通过python XXX.py --port 8080 --executor 4来改变

完成任务!!!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353

推荐阅读更多精彩内容