1.看教程里经常出现的那个魔法般的from task import add实际上只是同目录下对于模块的引用。因为 @app.task 修改后的对象和原函数对象一样,都可以直接调用,也都是调用本地方法。不同的是添加了 Celery 自己的方法,比如 delay,调用这些方法就是走 Celery 的流程了。
2.配置可以在 celeryconfig.py 中设置,用 app.config_from_object('celeryconfig');
也可以用 app.conf.update(k=v) 设置。
3.常用的类 from kombu import Exchange, Queue。
4.Celery task 中不允许调用别的 task 后阻塞式的 get 等待结果。版本 3.2 后会对此行为抛出异常。根据官方文档,应该使用类似管道形式的调用来解决。但是我想根据第一个 task 的结果指定 route_key、exchange,怎么办呢?
5.文档挺详细的:subtask 之于 s,就像 apply_async 之于 delay。可是以这种形式还是没办法解决问题。问题描述为:如何动态设置下一个 subtask 的 options?目前只能先取得返回值再根据结果发送一次请求。
6.Celery 默认的并发方式是 prefork,是用多进程实现的。很多时候我们都需要在程序中共享变量。用 gevent 解决是一个好办法。使用也很简单,在启动时加上参数 -P gevent。
7.Celery 非常适合用于那种你把任务抛出去就不用管了的场景,比如爬虫爬到数据后的处理。我用它处理了 pipelines,这样不仅能节省开发成本,还解决了 scrapy 中不能动态指定 pipelines 的问题。完美!对了,记得用 -P gevent。
踩了这么多坑之后决定放弃 Celery;
因为当数据量很大的时候出现了 socket pipeline 错误,没有找到靠谱的解决方案,也没时间精力深入研究,所以决定放弃生产环境使用 Celery。
慎重处理网络操作啊!