背景
consul使用来做服务发现,提供了开箱即用的功能,这里记录下遇到的问题和使用总结
介绍
常用API
agent
/v1/agent/checks : 返回本地agent注册的所有检查(包括配置文件和HTTP接口)
/v1/agent/services : 返回本地agent注册的所有 服务
/v1/agent/members : 返回agent在集群的gossip pool中看到的成员
/v1/agent/self : 返回本地agent的配置和成员信息
/v1/agent/join/<address> : 触发本地agent加入node
/v1/agent/force-leave/<node>>: 强制删除node
/v1/agent/check/register : 在本地agent增加一个检查项,使用PUT方法传输一个json格式的数据
/v1/agent/check/deregister/<checkID> : 注销一个本地agent的检查项
/v1/agent/check/pass/<checkID> : 设置一个本地检查项的状态为passing
/v1/agent/check/warn/<checkID> : 设置一个本地检查项的状态为warning
/v1/agent/check/fail/<checkID> : 设置一个本地检查项的状态为critical
/v1/agent/service/register : 在本地agent增加一个新的服务项,使用PUT方法传输一个json格式的数据
/v1/agent/service/deregister/<serviceID> : 注销一个本地agent的服务项
catalog
/v1/catalog/register : Registers a new node, service, or check
/v1/catalog/deregister : Deregisters a node, service, or check
/v1/catalog/datacenters : Lists known datacenters
/v1/catalog/nodes : Lists nodes in a given DC
/v1/catalog/services : Lists services in a given DC
/v1/catalog/service/<service> : Lists the nodes in a given service
/v1/catalog/node/<node> : Lists the services provided by a node
health
/v1/health/node/<node>: 返回node所定义的检查,可用参数?dc=
/v1/health/checks/<service>: 返回和服务相关联的检查,可用参数?dc=
/v1/health/service/<service>: 返回给定datacenter中给定node中service
/v1/health/state/<state>: 返回给定datacenter中指定状态的服务,state可以是"any", "unknown", "passing", "warning", or "critical",可用参数?dc=
注册外部服务
https://www.consul.io/docs/guides/external.html
curl -X PUT -d '{"Datacenter": "dc1", "Node": "google",
"Address": "www.google.com",
"Service": {"Service": "search", "Port": 80}}'
http://127.0.0.1:8500/v1/catalog/register
删除外部服务:
curl -X PUT -d '{"Datacenter": "dc1", "Node": "google"}' http://127.0.0.1:8500/v1/catalog/deregister
curl -X PUT -d '{"id": "3d-virtual-number-ykt-com","name": "3d-virtual-number-ykt-com","address": "api.1ketong.com","port":80}' http://localhost:8500/v1/agent/service/register
curl -X PUT http://localhost:8500/v1/agent/service/deregister/settlerconsumer-service@10.9.153.21
启动命令
nohup ./consul agent -retry-join=10.10.210.128 -config-file /usr/local/consul/config.json > /data/logs/consul.log &
扩容
consul 依据需要扩容缩容的时候即使服务器为双数,系统也能正常运行
扩容: consul join consul_server_ip
扩容后需要等待数据从leader到新fllow的同步
缩容:consul leave
使用 consul operator raft list-peers查看server信息,确认操作是否成功
坑
删除服务必须使用连接到服务注册的那个节点上的consul agent上执行dregister
-
leader节点负载过高(cpu, io)
consul 默认使用default模式,所有查询请求,写请求都会被跳转到leader服务器处理,导致以下问题:- leader服务器cpu很高
- leader服务器io很高,尤其是网络输出流量,达到上百M, 千兆网卡被打满后,服务变动不能及时的通知给consul client引起一些服务发现的问题
解决办法:
1,增加硬件consul server使用比较好的机器比如8核甚至16核机器
2,使用stale模式,使得读走follow, 写继续走leader, 减少leader io压力 服务变动后,通知延迟
生产中发现服务下线后,有些节点延迟30秒收到变动通知,目前怀疑和leader的负载过高有关,无充足证据
原理
gossip 协议分析
如何实现阻塞查询
rpc协议