前段时间写了一个程序,用于实时存储某文化众筹网站的订单数据。当时采用了while True死循环的写法,这么做虽然能满足业务需求,但运行一段时间后却暴露了一些问题。
优化前的主程序代码
if __name__ == '__main__':
secondsDelay = 10
while True:
newOrder(secondsDelay)
time.sleep(secondsDelay)
从效率上讲:
while True
死循环会造成Python进程吃满CPU一个内核的运算,虽然设定了每执行一次函数后休眠一段时间,但time.sleep
只是一个阻塞线程的操作,此时CPU一个核还是满占用的。从逻辑上讲:线程中通过时间间隔控制轮询时间,判断是否有新数据产生完全依赖于时间戳。但是,代码中函数执行本身需要一个时间(一般为毫秒级),这也就意味着函数在
while True
中每循环最多1000次,就会出现1秒的误差,运行时间越长误差越大,所以会有一定概率出现新数据产生却没有被检测到情况。
所以,需要一个任务调度机制来解决这个问题
不配图显得不专业
什么是apscheduler?
apscheduler是基于Quartz的一个Python定时任务框架,提供了基于日期、固定时间间隔以及crontab类型的任务,并且可以持久化作业
apscheduler的组成部分
- 触发器(trigger):包含调度逻辑,每一个作业有它自己的触发器,用于决定接下来哪一个作业会运行。除了他们自己初始配置意外,触发器完全是无状态的。
- 作业存储(job store):存储被调度的作业,默认的作业存储是简单地把作业保存在内存中,其他的作业存储是将作业保存在数据库中。一个作业的数据讲在保存在持久化作业存储时被序列化,并在加载时被反序列化。调度器不能分享同一个作业存储。
- 执行器(executor):处理作业的运行,他们通常通过在作业中提交制定的可调用对象到一个线程或者进城池来进行。当作业完成时,执行器将会通知调度器。
- 调度器(scheduler):通常在应用只有一个调度器,开发者通常不会直接处理作业存储、调度器和触发器,相反,调度器提供了处理这些的合适的接口。配置作业存储和执行器可以在调度器中完成,例如添加、修改和移除作业。
简单应用
接下来通过一段简单的代码来初识apscheduler的使用方法
import time
from apscheduler.schedulers.blocking import BlockingScheduler
def print_time():
print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())))
sched = BlockingScheduler()
sched.add_job(print_time, 'interval', seconds=5) #add_job()用于添加作业
sched.start()
此时,print_time()
函数将会每5秒执行一次
基于这个方法,优化一下我的程序代码
优化后的主程序代码
if __name__ == '__main__':
secondsDelay = 10
sched = BlockingScheduler()
sched.add_job(newOrder, 'interval', seconds=secondsDelay)
sched.start()
这样,便大功告成了。