故障现象
如图1所示,某地ZXR10 9904X MC-LAG场景下单臂BFD无法UP。组网说明如下:
- 两台9904X设备MC-LAG组网,分别与下行云平台的VEG1和VEG2互联。9904X与VEG1、VEG2互联地址分别为192.200.2.254,192.200.2.11、192.200.2.12,对接接口为interface vlan902。在MC-LAG场景下,以设备的loopback地址作为源IP地址做BFD,VEG上配置静态路由打通loopback连通性(注:直连地址在MC-LAG场景只有一边互通)。
版本:9900X V1.00.20.02P16
图1 MC-LAG单臂BFD场景组网示意图
故障分析
单臂BFD单跳会话默认检查接口的一致性,如果MC-LAG场景报文路径不一致会导致BFD无法UP,需要关闭会话端口一致性检查。
故障处理
1、检查单臂BFD配置,配置如下,未发现问题。
2、使用show bfd neighbors all brief命令检查BFD状态,如图2所示,BFD状态为DOWN(以源IP:12.1.1.1、目的IP:192.200.2.12为例)。
图2 BFD状态为DOWN示例
3、单臂BFD场景下,默认是检查接口一致性的。一般情况下ECMP场景需要关闭接口一致性检查,分析是否存在ECMP路由。
VEG1上检查9904X-1设备上的环回口地址路由,分析发现并无ECMP路由。
分析发现VEG1访问12.1.1.1的下一跳为9904X上的anycast的虚IP地址192.200.2.254。简化下拓扑,如图3所示,分析VEG1到达192.200.2.254又是两条路径。可能存在单臂BFD 路径不一致情况。
图3 VEG1与9904X组网示意图
4、根据分析关闭BFD会话端口一致性检查配置。
5、使用show bfd neighbors all brief命令检查,发现BFD很快UP,如图4所示。证明分析是正确的,MC-LAG场景下确实需要关闭会话端口一致性检查。
图4 BFD状态为UP示例
在BFD状态为UP时,伴有告警清除的通知:
故障总结
1. MC-LAG场景下启用单臂BFD必须使用设备环回口,因为报文收发路径可能不一致导致MC-LAG主、备设备上ping下行设备只有一边可达。
2. MC-LAG场景下单臂BFD需关闭会话端口一致性检查功能,否则单臂BFD可能无法UP。
3. 单臂BFD关闭端口会话一致性检查,常见的场景有ECMP场景、MC-LAG场景。