前言
《使用PSSH批量管理Linux》一文中,已经学习了使用pssh批量管理linux的技巧。而很多时候,我们需要定时执行一些任务,或者需要定时执行一些批量任务。因此,本文就来研究一下linux设置定时任务的方法。
主要参考Linux Crontab 定时任务、Linux定时任务Crontab命令详解 和 Linux 定时任务详解 。
理论篇
crond简介
cron(crond)是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程。linux系统上面原本就有非常多的计划性工作,因此这个系统服务是默认启动的。crond进程每分钟会定期检查是否有要执行的任务,如果有要执行的任务,则自动执行该任务。另外,由于使用者自己也可以设置计划任务,所以,linux系统也提供了使用者控制计划任务的命令:crontab命令。
crontab命令是cron table的简写,它是cron的配置文件,也可以叫它作业列表,我们可以在以下文件夹内找到相关配置文件。
-
/var/spool/cron/crontabs/
目录下存放的是每个用户包括root的crontab任务,每个任务以创建者的名字命名。 -
/etc/crontab
这个文件负责调度各种管理和维护任务。 -
/etc/cron.d/
这个目录用来存放任何要执行的crontab文件或脚本。 - 我们还可以把脚本放在
/etc/cron.hourly
、/etc/cron.daily
、/etc/cron.weekly
、/etc/cron.monthly
目录中,让它每小时/天/星期/月执行一次。
linux下的任务调度分为两类,系统任务调度和用户任务调度。
系统任务调度:系统周期性所要执行的工作,比如写缓存数据到硬盘、日志清理等。/etc/crontab
文件就是系统任务调度的配置文件。
用户任务调度:用户定期要执行的工作,比如用户数据备份、定时邮件提醒等。用户可以使用 crontab 工具来定制自己的计划任务。所有用户定义的crontab文件都被保存在 /var/spool/cron/crontabs/
目录中,其文件名与用户名一致。
crontab文件
假设我们使用的是Ubuntu14.04.5 Server版,查看/etc/crontab
,内容为:
# /etc/crontab: system-wide crontab
# Unlike any other crontab you don't have to run the `crontab'
# command to install the new version when you edit this file
# and files in /etc/cron.d. These files also have username fields,
# that none of the other crontabs do.
SHELL=/bin/sh
PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin
# m h dom mon dow user command
17 * * * * root cd / && run-parts --report /etc/cron.hourly
25 6 * * * root test -x /usr/sbin/anacron || ( cd / && run-parts --report /etc/cron.daily )
47 6 * * 7 root test -x /usr/sbin/anacron || ( cd / && run-parts --report /etc/cron.weekly )
52 6 1 * * root test -x /usr/sbin/anacron || ( cd / && run-parts --report /etc/cron.monthly )
第一行SHELL变量指定了系统要使用哪个shell;第二行PATH变量指定了系统执行 命令的路径。
接下来的命令格式为:
m h dom mon dow user command
英文全拼为:
minute hour day month week user commond
- minute:表示分钟,可以是从0到59之间的任何整数。
- hour:表示小时,可以是从0到23之间的任何整数。
- day:表示日期,可以是从1到31之间的任何整数。
- month:表示月份,可以是从1到12之间的任何整数。
- week:表示星期几,可以是从0到7之间的任何整数,这里的0或7代表星期日。
- user:表示用户。
- command:要执行的命令,可以是系统命令,也可以是自己编写的脚本文件。
注意,/var/spool/cron
目录中的用户调度任务,没有user一项,因为文件名已经代表了user。
在以上各个字段中,还可以使用以下特殊字符:
- 星号(*):代表所有可能的值,例如month字段如果是星号,则表示在满足其它字段的制约条件后每月都执行该命令操作。
- 逗号(,):可以用逗号隔开的值指定一个列表范围,例如,“1,2,5,7,8,9”
- 中杠(-):可以用整数之间的中杠表示一个整数范围,例如“2-6”表示“2,3,4,5,6”
- 正斜线(/):可以用正斜线指定时间的间隔频率,例如“0-23/2”表示每两小时执行一次。
- 同时正斜线可以和星号一起使用,例如*/10,如果用在minute字段,表示每十分钟执行一次。
crontab命令
crontab命令格式为:
crontab [-u username] [file] [ -e | -l | -r ]
-
-u username
,指定设置某个用户的crontab,省略则表示操作当前用户的crontab。 -
file
,将file做为crontab的任务列表文件并载入crontab。如果没有指定这个文件,crontab命令将接受标准输入(键盘)上键入的命令,并将它们载入crontab。 -
-e
,编辑某个用户的crontab文件内容。如果不指定用户,则表示编辑当前用户的crontab文件。 -
-l
,显示某个用户的crontab文件内容,如果不指定用户,则表示显示当前用户的crontab文件内容。 -
-r
,删除某个用户的crontab文件,如果不指定用户,则默认删除当前用户的crontab文件。
实践篇
设置系统时间
设置定时任务和时间紧密相关,如果服务器的时区时间设置和本地不同,就不能保证计划任务的正确执行。所以使用crontab的第一步,是调节好服务器的时间。
下面参考Ubuntu 16.04将系统时间写入到硬件时间BIOS,对服务器时间进行调节。
时间是有时区的,无论硬件时间还是操作系统时间。hwclock的时区在/etc/default/rcS文件中设置,里面有一个参数UTC,默认值为yes,表示使用UTC时区,如果设置为no,那表示使用osclock的时区。建议hwclock与osclock设置相同的时区,也就是no。
1、查看服务器硬件时间
sudo hwclock -r
,看到的时间格式为:Wed 23 May 2018 11:02:17 AM HKT -0.031663 seconds
2、查看服务器系统时间
date
,看到的时间格式为:Wed May 23 11:02:41 HKT 2018
3、设置hwclock和osclock时区相同
sudo vim /etc/default/rcS
,找到:
UTC=yes
修改为:
UTC=no
4、将系统时间写入硬件时间
sudo hwclock -w
5、修改系统时区
osclock的时区配置文件为/etc/timezone,不建议直接修改配置文件。
如果你想修改为CST时间,那么执行sudo tzselect
命令时,选择Asia->China->Beijing Time即可,这时会提示使用Asia/Shanghai时区。(ubuntu和centos通用)
6、设置即刻生效
执行date
,发现时区没有变化,依然是HKT。
sudo cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
sudo ntpdate time.windows.com
如果执行ntpdate报错:ntpdate[18409]: no server suitable for synchronization found ,那么就换一个时间同步工具。
sudo apt-get install rdate
sudo rdate -s time-b.nist.gov
再次执行date
,发现时区已经变成了CST。
7、硬件时间同步
sudo hwclock -r
,发现硬件时间落后。
sudo hwclock -w
,再次把系统时间写入硬件时间,同步完成。
实例
实例1:每分钟、每小时、每天、每周、每月、每年执行
* * * * * myCommand
0 * * * * myCommand
0 0 * * * myCommand
0 0 * * 0 myCommand
0 0 1 * * myCommand
0 0 1 1 * myCommand
实例2:每小时的第3和第15分钟执行
3,15 * * * * myCommand
实例3:在上午8点到11点的第3和第15分钟执行
3,15 8-11 * * * myCommand
实例4:每隔两天的上午8点到11点的第3和第15分钟执行
3,15 8-11 */2 * * myCommand
实例5:每周一上午8点到11点的第3和第15分钟执行
3,15 8-11 * * 1 myCommand
实例6:每晚的21:30重启smb
30 21 * * * /etc/init.d/smb restart
实例7:每月1、10、22日的4 : 45重启smb
45 4 1,10,22 * * /etc/init.d/smb restart
实例8:每周六、周日的1 : 10重启smb
10 1 * * 6,0 /etc/init.d/smb restart
实例9:每天18 : 00至23 : 00之间每隔30分钟重启smb
0,30 18-23 * * * /etc/init.d/smb restart
实例10:每星期六的晚上11 : 00 pm重启smb
0 23 * * 6 /etc/init.d/smb restart
实例11:每一小时重启smb
0 * * * * /etc/init.d/smb restart
实例12:晚上11点到早上7点之间,每隔一小时重启smb
0 23-7/1 * * * /etc/init.d/smb restart
实例13:每月的4号与每周一到周三的11点重启smb
0 11 4 * mon-wed /etc/init.d/smb restart
实例14:一月一号的4点重启smb
0 4 1 jan * /etc/init.d/smb restart
实例15:每小时执行/etc/cron.hourly目录内的脚本
01 * * * * root run-parts /etc/cron.hourly
run-parts这个参数了,如果去掉这个参数的话,后面就可以写要运行的某个脚本名,而不是目录名了。
查看ganglia的状态
目标:每分钟查看一下ganglia的状态,并保存到/tmp/log/ganglia目录。
1、创建/tmp/log/ganglia目录
sudo mkdir -p /tmp/log/ganglia
sudo chmod a+w /tmp/log/ganglia
2、编辑crontab
crontab -e
,选择编辑器为vim
3、在crontab文件中添加一行
* * * * * pssh -h /home/test/hosts.txt -t 30 -i 'ps aux | grep gmond' > /tmp/log/ganglia/ganglia-`date +%Y%m%d-%H%M%S`.log
4、查看crontab任务
crontab -l
,看到任务已经添加成功。
5、等待了五分钟,发现/tmp/log/ganglia目录下啥也没有。
sudo service cron status
,状态正常。
sudo /etc/init.d/cron restart
,重启cron试试。
又等待了五分钟,发现/tmp/log/ganglia目录下依然空空。
莫非是因为pssh没有使用绝对路径?whereis pssh
,找到pssh路径为/usr/lib/pssh
,修改crontab为:
* * * * * /usr/lib/pssh -h /home/test/hosts.txt -t 30 -i 'ps aux | grep gmond' > /tmp/log/ganglia/ganglia-`date +%Y%m%d-%H%M%S`.log
然而,并没有用。
还是查看下crontab日志吧!
开启crontab日志
以下主要参考Ubuntu下用crontab 部署定时任务。
1、编辑50-default.conf
sudo vim /etc/rsyslog.d/50-default.conf
2、把cron前的井号去掉,也就是修改为:
cron.* /var/log/cron.log
3、重启rsyslog服务
sudo service rsyslog restart
4、重启crontab服务
sudo service cron restart
5、查看crontab日志
less /var/log/cron.log
果然发现了问题:
(test) CMD (/usr/lib/pssh -h /home/test/hosts.txt -t 30 -i 'ps aux | grep gmond' > /tmp/log/ganglia/ganglia-`date +)
也就是说,命令确实按时执行了,只不过没有执行完,被百分号截断了,导致log文件没有正常生成!
修改crontab为:
* * * * * /usr/lib/pssh -h /home/test/hosts.txt -t 30 -i 'ps aux | grep gmond' > /tmp/log/ganglia/ganglia-`date +\%Y\%m\%d-\%H\%M\%S`.log
终于,log文件成功生成,nice!但是,文件内容是空的!因为,/usr/lib/pssh
是一个目录,不是pssh命令!真正的pssh命令是parallel-ssh,找到它的位置为/usr/bin/parallel-ssh
,修改crontab:
* * * * * /usr/bin/parallel-ssh -h /home/test/hosts.txt -t 30 -i 'ps aux | grep gmond' > /tmp/log/ganglia/ganglia-`date +\%Y\%m\%d-\%H\%M\%S`.log
至此,问题圆满解决。
实际使用的时候,一天获取一次ganglia的状态就够了,所以crontab改成:
0 0 * * * /usr/bin/parallel-ssh -h /home/test/hosts.txt -t 30 -i 'ps aux | grep gmond' > /tmp/log/ganglia/ganglia-`date +\%Y\%m\%d`.log
定时执行脚本
以上,每天执行一次定时任务,抓取ganglia的运行状态保存到日志文件中。紧接着,我们的目标是使用脚本检查当天的日志文件,如果发现ganglia运行异常,则产生一个错误日志。
1、假设日志文件ganglia-20180524.log的内容为:
[1] 00:00:01 [SUCCESS] test@192.168.56.102
ganglia 24810 0.0 0.0 57536 3396 ? Ssl May23 0:20 /usr/sbin/gmond --pid-file /var/run/gmond.pid
test 27619 0.0 0.0 11376 2800 ? Ss 09:05 0:00 bash -c ps aux | grep gmond
test 27621 0.0 0.0 10720 2276 ? S 09:05 0:00 grep gmond
[2] 00:00:01 [SUCCESS] test@192.168.56.103
ganglia 25710 0.0 0.0 57536 3396 ? Ssl May23 0:20 /usr/sbin/gmond --pid-file /var/run/gmond.pid
test 27622 0.0 0.0 11376 2800 ? Ss 09:05 0:00 bash -c ps aux | grep gmond
test 27645 0.0 0.0 10720 2276 ? S 09:05 0:00 grep gmond
2、参考grep命令最经常使用的功能总结,编写脚本checkganglia.sh
#!/bin/bash
DATE=`date +%Y%m%d`
filename="ganglia-${DATE}.log"
hosts=`grep test@ /tmp/log/ganglia/${filename} | wc -l`
pids=`grep gmond.pid /tmp/log/ganglia/${filename} | wc -l`
if [ ${hosts} == ${pids} ]
then
echo "All services are runing!"
else
echo "Error occurred!" > /tmp/log/ganglia/error-${DATE}.log
fi
3、执行
chmod a+x checkganglia.sh
./checkganglia.sh
如果所有客户机的ganglia运行正常,就会输出All services are runing!。如果有的客户机ganglia进程不存在,则会在/tmp/log/ganglia/目录下生成当天的错误日志。
4、设置定时运行
因为日志的检查工作要在日志生成之后,所以时间上延后十分钟。
10 0 * * * /bin/bash /home/test/checkganglia.sh
脚本进阶
上面的脚本,还有很多要改进的地方。比如有的客户机宕机了,上面的脚本检查不出来。比如有的客户机ganglia服务没有启动,那么具体是哪几台?针对这两个问题,下面进行改进。假设已经知道客户机的数量为10。
参考csplit命令,checkganglia.sh脚本修改为:
#!/bin/bash
DATE=`date +%Y%m%d`
filename="ganglia-${DATE}.log"
prefix="ganglia-${DATE}"
hosts=`grep test@ /tmp/log/ganglia/${filename} | wc -l`
pids=`grep gmond.pid /tmp/log/ganglia/${filename} | wc -l`
if [ ${hosts} != 10 ]
then
echo "Some hosts are offline!" >> /tmp/log/ganglia/error-${DATE}.log
fi
if [ ${hosts} != ${pids} ]
then
echo "Some ganglia services have stopped!" >> /tmp/log/ganglia/error-${DATE}.log
cd /tmp/log/ganglia/
csplit /tmp/log/ganglia/${filename} /test@/ -n2 -s {*} -f ${prefix} -b ".log.%02d"
rm ${prefix}.log.00
for file in /tmp/log/ganglia/${prefix}.log.*
do
if [ -f "${file}" ]
then
#echo "${file} is file"
if [ `grep gmond.pid ${file} | wc -l` == 0 ]
then
echo `grep test@ ${file}` >> /tmp/log/ganglia/error-${DATE}.log
fi
fi
done
fi
以上脚本,实现了当客户机数量不为10的时候,进行报错;当客户机ganglia服务没有启动时,进行报错,并且筛选出所有没有启动ganglia的客户机。
后记
本文中,我们先学习了crontab的基础知识和基本用法。然后通过监控ganglia这一个应用场景来具体学习crontab的详细使用方法,包括查看cron日志的方法,crontab中命令转义的方法,定时执行脚本的方法,以及审阅日志脚本的编写和进阶。
至此,还不够完美,因为我们需要每天登录管理机查看有没有错误日志。下一篇Linux设置邮件提醒中,我们将会研究linux设置邮件提醒的方法。审阅完日志后,如果脚本能够给我们发送一封邮件,告知我们审阅的结果,那么我们就不必再每天查看错误日志。