ConsulAgent是Consul的核心进程，Agent的工作是维护成员关系信息、注册服务、健康检查、响应查询等等。Consul集群的每一个节点都必须运行agent进程。

Agent有两种模式：client或server。

Server要参与consensusquorum，当遇到故障情况时，这些节点通过Raft提供强一致性和强有效性，在Server节点上的较高负载意味着它们应该运行在专属的实例——它们比客户端节点更为资源密集型。在整个集群中，绝大部分都为Client节点。

client把所有的RPCs转发到server端，是相对无状态的。唯一在后台运行的时client端执行了LAN gossip pool，只消耗极少的资源和网络带宽。

1.1.1 Agent运行

Agent通过执行“consul agent”启动。这个命令是阻塞的，除非主动终止。Agent命令需要很多配置参数，但大多数都有默认值。

$ consul agent -data-dir=/tmp/consul
==> Starting Consul agent...
==> Starting Consul agent RPC...
==> Consul agent running!
       Node name: 'Armons-MacBook-Air'
      Datacenter: 'dc1'
          Server: false (bootstrap: false)
     Client Addr: 127.0.0.1 (HTTP: 8500, DNS: 8600, RPC: 8400)
    Cluster Addr: 192.168.1.43 (LAN: 8301, WAN: 8302)
           Atlas: (Infrastructure: 'hashicorp/test' Join: true)
 
==> Log data will now stream in as it occurs:
 
    [INFO] serf: EventMemberJoin: Armons-MacBook-Air.local 192.168.1.43
...

这段日志中包含比较多的重要信息：

Node name:

表示节点在集群中的名字，在集群中是唯一的。通常设置为hostname。可以通过参数-node设置。

Datacenter

数据中心的名字

Server:

Agent运行模式，True为Server模式，False为client模式

Client Addr

Agent的用户接口（包括http，DNS，RPC）。

Cluster Addr:

用于cluster各agent间通信，并不是所有consul都使用相同的端口，但是这个addr必须与其他节点可通信的。

Altas：

后续详聊。

其他参数参见：http://blog.csdn.net/younger_china/article/details/52243738

1.1.2 停止Agent

Agent有两种停止方式:gracefully或forcefully。

若要gracefully停止agent，发送中断信号到agent进程（通常为Ctrl+C或执行命令kill -INT consul_pid）。当gracefully退出时，agent会首先通知集群要离开集群。这种方式的退出使得集群中其他节点通知集群该节点“left”。

或者，也可以通过发送一个KILL信号来强制杀死Agent。当强制kill时，agent会立即结束。集群的其余节点最终（通常在几秒钟内）会检测到节点已经死亡并通知cluster该节点failed。

Server节点以gracefully方式离开时尤为重要，使得对集群的影响减小到很低。

对于client Agent，节点failed或者leave产生的差异可能没有那么重要。比如，在 Web服务器和负载平衡场景下，都导致了同样的结果：网络节点回被从负载平衡器集中删除。

1.1.3 生命周期

Cousul集群中每个agent都会经历一个生命周期。了解它的生命周期，对于建立agent交互智能模型和如何处理节点是非常有用的。

当agent第一次启动时，它是不知道Cluster中的其他节点的。要发现其他节点，必须加入集群。可通过join命令或通过提供正确的配置来自动加入。一旦节点加入，加入信息会通过gossip传达到整个cluster的所有节点，也就是，所有的节点都会意识到新节点的存在。如果是Server Agent，已经存在的server会将成员信息复制到新节点。

在网络故障情况下，一些节点可能无法访问其他节点。在这种情况下，不可达节点标记为失败。区分网络故障和Agent崩溃几乎是不可能的，所以这两种情况下都是相同的。一旦一个节点被标记为失败，此信息将在servicecatalog中更新。注：这里有一些差别，因为如果Servers可以形成一个Cluster，仍然会恢复到正常状态。一旦网络恢复或Agent重新启动，Cluster将自我修复并取消失败标记。而catalog中的健康检查也将被更新以反映新的状态。

当一个节点离开时，cluster设置ft标识表示节点已经离开。与failed场景不同，该节点所有的注册服务会立即被注销。如果Agent是server模式，复制会马上终止。

为了防止死节点的积累（故障或离开状态的节点），Agent将自动删除catalog中的死节点。这个过程被称为收割（reaping）。目前默认配置的时间间隔为72小时（不建议更改reaping间隔，可能导致集群中断）。reaping类似与离开，使所有相关的服务将会被注销。

1.1.4 参考文献

https://www.consul.io/docs/agent/basics.html

【Consul】Consul实践指导-Agent

1.1.1 Agent运行

1.1.2 停止Agent

1.1.3 生命周期

1.1.4 参考文献

相关文章