20170822 进程和计划任务

进程相关概念

系统进程管理工具

任务计划

一、进程相关概念

定义：进程(Process)是运行中的程序的一个副本，是被载入内存的一个指令集合
进程ID(PID, Process ID)：标记每个进程的编号
task struct: Linux内核存储进程信息的数据结构格式
task list: 多个任务的的task struct组成的链表
进程创建：
- 第一个进程：init(CentOS 6), systemd(CentOS 7)
- 子进程由父进程创建：CoW，子进程只在发生变化时才拥有独立内存空间
进程优先级：
- 系统优先级：0-139，数字越小优先级越高
- 实时优先级：99-0，数字越大优先级越高，对应系统优先级0-99
- nice优先级：-20-19，数字越小优先级越高，对应系统优先级100-139
- 实时优先级属于静态优先级，高优先级进程释放CPU后低优先级进程运行
- nice优先级属于动态优先级，系统内核会根据进程对CPU的占用情况动态调整各进程的优先级，使每个进程都能够均匀使用CPU资源
Big O：时间复杂度，用时和规模的关系
O(1)，O(logn)， O(n)线性， O(n^2)抛物线，O(2^n)，复杂度逐渐升高
进程内存：
- Page Frame：内存存储单位为页面(page)，默认大小4KB
- LRU：Least Recently Used 近期最少使用算法,释放内存使用
- 物理地址空间和线性地址空间
  MMU (Memory Management Unit)：负责转换线性和物理地址
  TLB (Translation Lookaside Buffer)：翻译后备缓冲器,用于保存虚拟地址和物理地址映射关系的缓存
IPC (Inter Process Communication) 进程间通讯
- 同一主机
  shm(shared memory)：共享内存空间
  semaphore：信号量，一种计数器，保证一个进程使用资源时其他进程不能对资源进行修改
- 不同主机
  rpc (remote procedure call)：远程过程调用
  socket：通过IP和端口号通信
Linux内核：抢占式多任务，将CPU的工作时间分片，不同进程轮流使用CPU资源
进程类型
- 守护进程(daemon)：在系统引导过程中启动的进程，和终端无关
- 前台进程：通过终端启动的进程，和终端相关
- 守护进程与前台进程可以相互转化
进程状态
- 运行态(running)
- 就绪态(ready)
- 睡眠态(sleeping)：分为可中断(interruptable)和不可中断(uninterruptable)
- 停止态(stopped)：暂停于内存，但不会被调度，除非手动启动
- 僵死态(zombie)：结束进程，父进程结束前，子进程不关闭
进程分为：
CPU密集型 (CPU bonding)：进程涉及大量CPU运算
IO密集型 (IO bonding)：进程涉及大量读写操作

二、系统进程管理工具

Linux系统状态的查看及管理工具：pstree, ps, pidof, pgrep, top, htop, glance, pmap, vmstat, dstat, kill, pkill, job, bg, fg, nohup

（一）pstree：打印进程树

选项：
-p 显示PID
-n 以PID数字大小排序，默认字母排序
内容中由大括号括起的为线程
进程包含多个线程，线程间共享内存
线程系统开销小但稳定性差，一个线程出错容易导致相邻线程出错
进程系统开销大但稳定性好，进程间的内存空间独立，不会受到其他进程干扰

（二）ps(process state)：显示当前进程状态

进程信息保存在/proc下以进程ID命名的目录中
语法：ps [OPTION]...
支持三种风格的选项：
- UNIX选项：有一个“-”充当前缀，如-A -e
- BSD选项：没有前缀，如a
- GNU选项：有两个“-”充当前缀，如--help
- 相同字母不同风格的选项代表的意义不同，即a和-a是两个不同意义的选项
选项：
a选项：包括所有终端中的进程（默认只显示当前终端中的进程）
x选项：包括不链接终端的进程
u选项：显示进程所有者的信息
f选项：显示进程的父进程
k|--sort：依照属性排序
o选项：显示定制的信息
pid, comm(command name), %cpu, %mem, state, tty, euser(effective user), ruser(real user)
-C COMMAND 以命令搜索进程
输出信息代号：
VSZ(Virtual memory SiZe)：虚拟内存集，线性内存，即系统声明可以提供进程使用的内存
RSS(ReSident Size)：常驻内存集，即进程实际使用的内存
STAT：进程状态
R: running
S: interruptable sleeping
D: uninterruptable sleeping
T: stopped
Z: zombie
+: 前台进程
l: 多线程进程
L：内存分页并带锁
N：低优先级进程
<: 高优先级进程
s: session leader，会话（子进程）发起者
常用选项组合：
- 常用组合1：-ef
  -e: 显示所有进程
  -f: 显示完整格式程序信息
- 常用组合2：-eFH
  -F: 显示更完整格式的进程信息
  -H: 以进程层级格式显示进程相关信息
- 常用组合：-o选项自定义输出属性
  ps -eo pid,tid,class,rtprio,ni,pri,psr,pcpu,stat,comm
  ps axo stat,euid,ruid,tty,tpgid,sess,pgrp,ppid,pid,pcpu,comm
  ni：nice值，pri：priority优先级，psr：processor CPU编号，rtprio：实时优先级

（三）nice & renice：调整进程优先级

系统启动时默认nice优先级为0
只有root用户可以降低nice值，提高进程优先级
nice命令：以指定nice值建立进程
nice [OPTION] [COMMAND [ARG]...]
renice命令：调整进程优先级
renice [-n] priority pid...
查看进程nice值：
ps axo pid,comm,ni
实验：修改sshd进程nice值

（四）pgrep：搜索进程

语法：pgrep [options] pattern
选项：

-u uid: effective user，生效者
-U uid: real user，真正发起运行命令者
-t terminal: 与指定终端相关的进程
-l: 显示进程名
-a: 显示完整格式的进程名
-P pid: 显示指定进程的子进程

以指定终端/dev/pts/1搜索相关进程，以指定PIN2874搜索其子进程

在hellopeiyang账户下执行passwd命令。passwd命令发起者为hellopeiyang，但生效者为root用户，此时-U选项下有passwd进程，而-u选项下没有passwd进程。

按确切的程序名称搜索PID：pidof bash

（五）uptime

功能：显示当前时间，系统已启动的时间、当前上线人数，系统平均负载（1、5、10分钟的平均负载，一般不会超过1）
系统平均负载:
指在特定时间间隔内运行队列中的平均进程数
通常每个CPU内核的当前活动进程数不大于3，那么系统的性能良好。如果每个CPU内核的任务数大于5，那么此主机的性能有严重问题
如果linux主机是1个双核CPU，当Load Average 为6的时候说明机器已经被充分使用

当前系统运行正常

（六）top：linux进程实时监控

内置命令：
- 排序：
  P：按占据的CPU百分比,%CPU
  M：按占据内存百分比,%MEM
  T：按累积占据CPU时长,TIME+
- 首部信息显示：
  uptime信息显示/隐藏切换：l命令
  tasks及cpu信息格式：t命令
  cpu是否分别显示：1 (数字)
  memory信息格式：m命令
- 其他
  退出命令：q
  修改刷新时间间隔：s
  终止指定进程：k
  保存文件：W
栏位信息简介
us：用户空间
sy：内核空间
ni：调整nice时间
id：空闲
wa：等待IO时间
hi：硬中断
si：软中断（模式切换）
st：虚拟机偷走的时间
选项：
-d #：指定刷新时间间隔，默认为3秒
-b：全部显示所有进程
-n #：刷新多少次后退出

htop命令：EPEL源
- 选项：
  -d #：指定延迟时间；
  -u UserName：仅显示指定用户的进程
  -s COLUME：以指定字段进行排序
- 子命令：
  s：跟踪选定进程的系统调用
  l：显示选定进程打开的文件列表
  a：将选定的进程绑定至某指定CPU核心
  t：显示进程树

（七）内存监控工具

（1）vmstat命令：虚拟内存信息

语法：vmstat [options] [delay [count]]
选项：
-s: 显示内存的统计数据

vmstat 2 5 间隔2秒扫描一次，一共进行5次

procs
r：可运行（正运行或等待运行）进程的个数，和核心数有关
b：处于不可中断睡眠态的进程个数(被阻塞的队列的长度)
memory
swpd：交换内存的使用总量
free：空闲物理内存总量
buffer：用于buffer的内存总量
cache：用于cache的内存总量
swap（以内存进出为参照）
si：从磁盘交换进内存的数据速率(kb/s)
so：从内存交换至磁盘的数据速率(kb/s)
io（以内存进出为参照）
bi：从块设备读入数据到系统的速率(kb/s)
bo：保存数据至块设备的速率
system
in：interrupts 中断速率，包括时钟
cs：context switch 进程切换速率
cpu
us：运行非内核模式代码消耗时间
sy：运行内核模式代码消耗时间
id：空闲时间
wa：等待时间
st：虚拟机偷走的时间

（2）iostat：统计CPU和设备IO信息
iostat 2 5 间隔1秒扫描一次，一共进行3次

（3）pmap命令：进程对应的内存映射

语法：pmap [options] pid[...]
-x：显示详细格式的信息
pmap 1 显示PID为1的进程对应的内存映射

另外一种实现：
cat /proc/PID/maps
ll /proc/PID/fd | wc -l 监控进程的文件描述符数量，如果一直上升，则可能出现内存泄漏

（八）系统监控工具

（1）glances：系统监控，可跨主机监控

EPEL源
内建命令：

a     //默认进程排序
c     //按照CPU占用对进程排序 
m     //按照内存占用对进程排序
p     //按照名称对进程排序
i     //按照I/O使用对进程排序 
d     //显示/隐藏I/O统计
f     //显示/隐藏文件系统统计
n     //显示/隐藏网络统计
s     //显示/隐藏传感器统计 
y     //显示/隐藏硬盘缓存统计
l     //显示/隐藏日志
b     //以Byte或bit为单位显示网络I/O
w     //删除报警日志
x     //删除报警和危险日志
1     //显示全局CPU或CPU每个核心统计
h     //显示/隐藏帮助
t     //查询网络I/O总体统计
u     // 查询网络I/O累计统计
q     //退出，也可以使用Esc或Ctrl+C

常用选项

-b                       //以Byte为单位显示网卡数据速率
-d                       //关闭磁盘I/O模块
-f /path/to/somefile     //设定输入文件位置
-o {HTML|CSV}            //输出格式
-m                       //禁用mount模块
-n                       //禁用网络模块
-t #                     //延迟时间间隔
-1                       //每个CPU的相关数据单独显示

C/S模式下运行glances命令
- 服务器模式：
  glances -s -B IPADDR
  IPADDR: 指明监听的本机哪个地址
- 客户端模式：
  glances -c IPADDR
  IPADDR：要连入的服务器端地址

（2）dstat：系统资源统计，代替vmstat, iostat

语法：dstat [-afv] [options..] [delay [count]]
选项：

-c：显示cpu相关信息
-d：显示disk相关信息
-g：显示page相关统计数据
-m：显示memory相关统计数据
-n：显示network相关统计数据
-p：显示process相关统计数据
-r：显示io请求相关的统计数据
-s：显示swap相关的统计数据
--top-cpu：显示最占用CPU的进程
--top-io: 显示最占用io的进程
--top-mem: 显示最占用内存的进程
--top-latency: 显示延迟最大的进程

（九）kill, killall, pkill：进程管理工具

（1）kill：向进程发送信号，按PID标识进程

语法：
kill -n SIGNAL pid
kill -s SIGNAL pid
kill -SIGNAL pid
信号：通过信号对进程进行管理，信号名称（不分大小写）以SIG开头（可省略），并且对应一个数字
查询系统可用信号：
kill -l 或 trap -l
常用信号（全部信号信息，查询man 7 signal）：

SIGHUP：无须关闭进程而让其重读配置文件
SIGINT：中止正在运行的进程；相当于Ctrl+c
SIGQUIT：相当于ctrl+\
SIGKILL：强制杀死正在运行的进程
SIGTERM：终止正在运行的进程
SIGCONT：继续运行
SIGSTOP：后台休眠

指定信号的描述方法：
- 信号数字表示：如1
- 信号全程：如SIGHUP
- 信号简称：如HUP

（2）killall：向进程发送信号，按名称标识进程

语法：killall [-SIGNAL] comm…
检查进程是否正常工作

killall -0 httpd  //信号0的作用为检查进程是否正常运行，之后可以echo $?判断
killall -0 httpd || service httpd restart //若httpd进程没有正常运行，则重启httpd服务

如图所示：
红框1：表示信号1（SIGHUP）没有关闭进程，父PID没有变化，但由于重新读取了配置文件，子PID发生了变化
红框2和红框3：表示信号0的作用只是确认进程是否正常工作，当进程正常工作时，发送信号0所有进程的PID都没有发生变化
红框4：当进程结束后，发送信号0时返回结果为假，根据图中的命令重启了httpd进程，显然所有PID都与原进程的PID不同

（3）pkill：向进程发送信号，按模式标识进程

语法：pkill [options] pattern
选项
-SIGNAL：信号
-u：effective user，生效者
-U：real user，真正发起运行命令者
-t：与指定终端相关的进程
-P：显示指定进程的子进程

（十）作业管理

前台作业：通过终端启动，始终占据终端
后台作业：不一定从终端启动，不占据终端而转至后台运行
作业控制：
- 使作业运行于后台：
  （1）尚未运行：COMMAND &
  （2）前台作业切换至后台：Ctrl+Z
- 查看当前终端的所有作业：jobs
- 使送往后台的作业继续运行：bg JobNums 或 kill 18 pid
- 将后台作业送至前台：fg JobNums
- 终止指定作业：kill %JobNums
如图显示前台、后台之间的切换关系
实验：前后台作业切换

使用Ctrl+Z将前台作业切换至后台睡眠模式，使用bg命令使后台作业继续运行，可以看到这个过程中icmp_seq是连续的，证明后台作业只是曾经睡眠，没有终止

后台作业运行后，显示运行过程，但仍可以向终端中输入命令，如图中红框表示：计划输入命令fg 1，执行fg 1后作业转至前台，终端被占用而无法输入命令，最终Ctrl+C结束本作业

后台作业仍旧依赖于终端，退出终端，后台作业自动结束。为使后台作业与终端分离，可以使用以下命令：

nohup COMMAND &> /dev/null &

screen
COMMAND 
断开终端
screen -ls 
screen -r

在screen下开启ping进程后，查看进程树发现ping进程在screen进程下

screen2.png

断开终端后，重新恢复终端连接，查看进程树发现screen进程没有消失，而是自行变成了初始进程的子进程，而且PID没有变化，证明原ping进程没有消失

此时通过screen命令重新进入ping进程，通过icmp_seq的数字也说明进程在终端断开期间没有被关闭

并行运行：同时运行多个进程，提高效率，有三种实现方式
- 方法1：适用于脚本中
  f1.sh&
  f2.sh&
  f3.sh&
- 方法2
  (f1.sh&);(f2.sh&);(f3.sh&)
- 方法3
  { f1.sh& f2.sh& f3.sh& }

三、任务计划

（一）at：未来规定时间点执行一次任务

依赖于atd服务，需要启动才能实现at任务：
service atd start (CentOS 6) 或 systemctl start atd (CentOS 7)
语法：at [option] TIME
选项：

-V：显示版本信息
-l：列出指定队列中等待运行的作业
-d：删除指定的作业
-c：查看具体作业任务
-f：/path/from/somefile：从指定的文件中读取任务
-m：当任务被完成之后，将给用户发送邮件，即使没有标准输出

TIME：定义运行任务的时间
- HH:MM [YYYY-mm-dd]：指定准确时间（当仅指定HH:MM时，若今日时间已过，自动在明天指定时刻运行任务）
- noon, midnight, teatime(4pm), tomorrow：约定俗成的时间命名
- now+#{minutes,hours,days, OR weeks}：以某个时间点为参照确定时间
执行方式：
(1) 交互式
依次输入命令，以Ctrl+d或Ctrl+\结尾
at命令的输出结果以邮件形式发送到邮箱，如

红框中邮件内容，显示at定义于当天16:10进行的ntpdate同步时间任务成功完成

(2) 输入重定向，例如
echo "echo haha" | at TIME
at TIME << eof

(3) 从文件导入，at -f FILE TIME

at队列存放在/var/spool/at目录中

/etc/at.{allow,deny}控制用户是否能执行at任务
- 白名单：/etc/at.allow默认不存在，只有该文件中的用户才能执行at命令
- 黑名单：/etc/at.deny默认存在，拒绝该文件中用户执行at命令，不在at.deny文件中的使用者可执行
- 如果两个名单中都有同一个用户，白名单的优先级高于黑名单，即只看白名单设置
- 如果两个文件都不存在，只有root可以执行at命令

（二）cron：周期性执行任务

相关的程序包：
cronie：主程序包，提供crond守护进程及相关辅助工具
cronie-anacron：cronie的补充程序，用于监控cronie任务执行状况，如cronie中的任务在过去应该运行的时间点未能正常运行，则anacron会随后启动一次此任务
crontabs：包含CentOS提供系统维护任务
查看crond守护进程运行状态
service crond status (CentOS 6)
systemctl status crond (CentOS 7)
cron任务分为系统任务与用户任务
- 系统cron任务通常为系统维护作业，通过编辑/etc/crontab文件设置，文件保存后设置即时生效
- 用户cron任务使用命令crontab设置，即时生效
日志文件路径：/var/log/cron
系统cron任务
- /etc/crontab文件设置格式：每个任务为一行信息，由7位关键词组成（中间以空格分隔），前5位描述时间信息，第6位描述用户名，第7位描述任务命令
- 前5位时间信息格式，注意：第1-4位所描述的时间与第5位所描述的时间取并集

第1位: minute         取值：0-59
第2位: hour           取值：0-23
第3位: day of month   取值：1-31
第4位: month          取值：1-12 (or names)
第5位: day of week    取值：0-7 (0 or 7 is Sun, or use names)

时间表示方式：
- 特定值：给定时间点有效取值范围内的值
- *：给定时间点上有效取值范围内的所有值，即“每分/小时/天/月/周几”的含义
- #,#,#：离散取值
- #-#：连续取值
- /#：在指定时间范围上，定义步长
特殊的时间表示方式：
- @reboot 重启后运行
- @yearly 相当于0 0 1 1 *
- @annually 相当于0 0 1 1 *
- @monthly 相当于0 0 1 * *
- @weekly 相当于0 0 * * 0
- @daily 相当于0 0 * * *
- @hourly 相当于0 * * * *
系统的计划任务：
- /etc/crontab
- /etc/cron.d/ 配置文件
- /etc/cron.hourly/ 每小时运行脚本
- /etc/cron.daily/ 每日运行脚本
- /etc/cron.weekly/ 每周运行脚本
- /etc/cron.monthly/ 每月运行脚本
实验：每月的15日、30日以及每周五执行计划任务：同步网络主机172.18.0.1时间

编辑/etc/crontab文件如上图

从日志文件可以看到，/etc/crontab文件保存后服务进行了reload重载操作，此时计划任务生效

ancron：运行系统关机时未能运行的任务，CentOS 6后直接归crond服务管理
管理临时文件：
- CentOS6使用/etc/cron.daily/tmpwatch定时清除临时文件
- CentOS7使用systemd-tmpfiles-setup服务实现
用户cron任务
由crontab命令定义，每个用户均在/var/spool/cron路径有以其用户名命名的专用任务文件
crontab命令：
- 语法：crontab [-u user] [-l | -r | -e] [-i]
- 选项：
  -l：列出所有任务
  -e：编辑任务
  -r：移除所有任务
  -i：同-r一同使用，以交互式模式移除指定任务
  -u user：仅root可运行，管理指定用户cron任务

设置系统默认编辑器为vim：export EDITOR=vim
编辑任务：crontab -e，任务描述格式与/etc/crontab文件格式类似，取消了用户名

/var/spool/cron目录下有以用户名命名的任务文件

控制用户执行计划任务：/etc/cron.{allow,deny}
控制方式参考at命令用户控制配置文件/etc/at.{allow,deny}

当在/etc/cron.deny文件中添加hellopeiyang用户后，hellopeiyang用户无法再使用crontab命令，但过去的计划任务文件仍旧在/var/spool/cron目录下，且可以继续按计划执行

注意：

at和crontab运行结果中的标准输出和错误会以邮件通知给相关用户，使用重定向技术阻止邮件发送至用户： COMMAND &> /dev/null
对于cron任务来讲，%有特殊用途；如果在命令中要使用%，则需要转义，将%放置于单引号中，则可不用转义