keepalived故障一例

一组lvs，以keepalived主从方式运行。今天早上突然收到VIP报警，所有的VIP都ping不通了。

上lvs运行ipvsadm -ln一看，计数表全是0！怀疑是slave霸占了MAC，于是keepalived restart了一次，故障依旧。然后再restart了一次master，顿时恢复正常。

然后分析messages中的详细信息，推理本次故障的过程如下：

故障前——masterA，slaveB

0:00    A “kernel:eth1:link DOWN”，疑似网卡物理中断，自动降级成slave；
0:01    B检测A宕机，升级为master，send arp到交换机，add所有VIP；
0:40    A “kernel:eth1:link UP”，但配置应该是不自动抢占；
0:43    A检测B宕机，升级为master；
0:48    A发送arp刷新请求到交换机，add所有VIP，但因为是物理中断，目前A实际仍处于断网状态，有期间RIP检查的timeout为证；
1:10    A检测RIP的http status正常，即此时A的网络才正式恢复正常；
1:10    B检测发觉A的状态为master，降级为slave，remove所有VIP；

在0:43的时候，masterA的ARP刷新请求没能发送到交换机，而交换机记录的对应地址就还是B的——但在1:10时，B自认为slave而移除了所有ip。导致ping失败！

故障解决过程解析：
1、重启B——因为B已经是slave，所以restart不会发送ARP刷新，无效；
2、重启A——因为A自认是master，重启A导致keepalived切换，会触发B发送ARP刷新，恢复正常。

最终解决办法：

在keepalived.conf中添加garp_master_delay 30参数，让slave在升级成master后延时30s再发送一次arp刷新请求，以应对网卡硬件中断引起的这个问题。