云原生应用架构下,原有单体系统变成了众多微服务的协作,一个微服务的中断会造成整个系统的中断或使系统处于故障状态。因此,对这些微服务进行监控就成了必要的工作。这也是DevOps文化的元素之一。
云原生应用架构下的监控分成两部分,其中一个分支是EFK(或者ELK),而另外一个分支是GPE。本文主要使用GPE(Grafana+Prometheus+Exporter)来讲述如何监控Drupal系统的可用状态。
Drupal 准备
Drupal本身有一个模块health_check
,它可以提供一个/health
,返回10位数字的时间戳,以此来证明Drupal系统正常。
cd $DRUPAL_ROOT
drush -y en health_check
其中 $DRUPAL_ROOT 为站点根目录
准备镜像
docker pull prom/prometheus
docker pull grafana/grafana
docker pull prom/blackbox-exporter
准备stack文件
准备目录
mkdir grafana
# 复制prometheus.yml 到本地
docker run --entrypoint='' -it prom/prometheus:latest /bin/cat /etc/prometheus/prometheus.yml > prometheus.yml
# 复制grafana.ini 到本地
docker run --entrypoint='' -it grafana/grafana:latest /bin/cat /etc/grafana/grafana.ini > ./grafana/grafana.ini
配置 blackbox-exporter
创建 blackbox.yml 文件
modules:
http_2xx:
prober: http
timeout: 5s
http:
valid_http_versions: ["HTTP/1.1", "HTTP/2"]
valid_status_codes: [] # Defaults to 2xx
method: GET
no_follow_redirects: false
fail_if_ssl: false
fail_if_not_ssl: false
fail_if_body_matches_regexp:
- "Failed to connect"
fail_if_body_not_matches_regexp:
- '\d{10}' # 对应/health的10位数字时间戳
tls_config:
insecure_skip_verify: false
preferred_ip_protocol: "ip4" # defaults to "ip6"
修改prometheus.yml 文件
在prometheus.yml 文件末尾追加以下内容:
- job_name: 'blackbox'
metrics_path: /probe
params:
module: [http_2xx]
static_configs:
- targets:
- http://ilse.shmtu.edu.cn/health
relabel_configs:
- source_labels: [__address__]
target_label: __param_target
- source_labels: [__param_target]
target_label: instance
- target_label: __address__
replacement: blackbox:9115
撰写 stack.yml 文件
version: "3"
networks:
prometheus-network:
driver: bridge
services:
prometheus:
image: prom/prometheus:latest
ports:
- 9090:9090
volumes:
- $PWD/prometheus.yml:/etc/prometheus/prometheus.yml
blackbox:
image: prom/blackbox-exporter:latest
privileged: true
volumes:
- $PWD/blackbox.yml:/etc/blackbox_exporter/config.yml
ports:
- '9115:9115'
grafana:
image: grafana/grafana:latest
environment:
- GF_SECURITY_ADMIN_PASSWORD=smu.P@ssw0rd
- GF_PATHS_CONFIG=/var/lib/grafana/grafana.ini
# - GF_SERVER_ROOT_URL=http://monitor.shmtu.edu.cn
depends_on:
- prometheus
ports:
- 3000:3000
volumes:
- $PWD/grafana:/var/lib/grafana
部署GPE
docker stack up prometheus -c stack.yml
等待一会,访问http://localhost:3000即可进入Grafana进行设置了
设置Grafana
配置数据源
选择Prometheus数据源,按照图示进行设置。
0:http://prometheus:9090
1: GET
0: 导入Dashboard
0:输入Query: probe_success{instance='http://ilse.shmtu.edu.cn/health'}
配置报警
本例中设置了每15秒钟检查一次,持续1分钟,如果最后出现不正常的情况下,即发送邮件通知我。
0:名称 ilse alert
1: last() 最后一次
2:query(A,15s, now)
3: 1
4: If no data or all values are null SET STATE TO No Data
5: Send to wyp
6: Message: Error occured
邮件列表需要在通知的channel中预先定义,这儿就不详细展开了。
最终我们可以得到界面:
Grafana很漂亮,很炫,具体这儿就不赘述了。
经过这样设置后,只要ilse.shmtu.edu.cn出现故障,wyp就可以立刻收到邮件通知了。当然,Grafana也支持钉钉,可惜目前官方还不支持微信,但已经有第三方实现,也可以撰写webhook来实现。
您知道EFK是什么吗?这个就又跟前面提过的sidecar模式有关了,这个也是后续再讲吧。
(写了很多篇了,大体框架出了一半多了,给自己加油💪💪💪)