某地科技网汇聚层的一个节点位置处安装了一台宽带接入服务器,平时该网络接入用户的数量非常大,为了保证接入连接的稳定性,该网络特意使用双线路将宽带接入服务器上连到两台核心交换机设备上,双连接线路采用的是千兆光纤链路,该网络路由采用的是静态路由寻址方式。在组网建设时,考虑到在正常状态下用户接入连接的流量比较大,为了有效分摊流量,该网络特意选用两条千兆光纤链路来实现负载均衡的目的:当其中一条千兆光纤链路出现意外不能正常工作或其上链的交换机设备遇到故障的时候,所有宽带接入流量应该能够自动切换到另外一条千兆光纤链路上,从而实现冗余路由保护的目的,这样就能确保宽带上网用户始终可以正常地上网。组网建设任务完成后,调试效果符合既定的建设要求。
初遇无法自动切换
最近一段时间,通过宽带接入服务器访问科技网的不少上网用户反映,现在的上网速度明显不如以前那样正常,打开一个不包含图象、多媒体信息的普通页面,也需要很长时间才能完成;使用ping命令测试目标网站的地址时,结果发现数据丢包率非常严重,有的时候达到了50%,很明显该宽带接入网络存在明显的故障现象。为了快速弄清楚故障原因,网络管理员立即使用telnet命令远程登录到核心交换机设备的后台管理界面进行详细检查,结果发现该宽带接入服务器到核心路由器设备的某一条上连千兆光纤链路已经被down掉,不过这个时候网络路由并没有自动从故障光纤链路切换到正常工作的那条光纤链路上,难怪宽带接入存在50%的数据丢包现象。
无法自动切换之谜
为了确保宽带接入用户能够快速正常上网访问科技网,网络管理员只好先调整一下核心设备中的路由参数,适当降低了与故障通信链路有关的静态路由访问优先级,确保网络路由都能正常通过另外一条工作状态正常的光纤链路,完成参数修改任务后,宽带接入用户果然能够正常上网访问了。
后来,网络管理员特意模拟科技网的实际工作环境,架设了一台交换机设备,并通过备用的光纤链路实现了双线路上连交换机的目的,在两台核心交换机设备上分别设置一条静态路由连到该新架设的交换机上,同时将与故障光纤链路所连的交换机互连端口工作状态设置成“shutdown”,这个时候再检查新架设交换机上的对应路由状态时,网络管理员发现它也已经处于down状态了;而故障光纤链路所连的核心交换机,虽然对应交换连接端口下面的虚拟工作子网已经被down掉,不过连向新架设交换机的静态路由记录仍然存在。
详细对核心交换机设备中的配置参数进行检查之后,网络管理员发现本地科技网中使用的核心交换设备与其他地方的科技网有明显不同的地方,经过省科技网与省电信之间的网络调整,本地科技网的核心交换机设备直接与本地电信网络的高端路由器保持连接,核心交换机设备上连运行BGP协议的路由器,通过网络直接将本地路由表中的记录内容引入近来。不过,在尝试通过网络引入本地路由记录时,一定要事先在路由表中存在才行,不然的话是不能正常引入的;但事实上,路由表中只存在一些具体的路由记录,而没有聚合路由记录,为此网络管理员特意设置了一条连向null0交换接口的路由来欺骗边界网关协议,从而借助网络配置,使得边界网关路由器成功把聚合路由记录引入其中。
这个时候,故障就完全显现出来了,当科技网汇聚层的某条光纤链路突然中断断开之后,运行BGP协议的路由器中存在的一条连向null0的静态路由记录始终处于up激活状态,而静态路由在访问优先级方面又比其他路由高,为此在与故障光纤链路所连的核心交换机设备上就会始终存在一条连向null0的静态路由记录。而前期进行的宽带接入改造工程测试,恰好是在省科技网与省电信之间的网络调整之前,当时根本没有连向null0的静态路由记录,所以当时测试结果一切显示正常。
由于静态路由的访问优先级在所有路由当中是最高的,考虑到这一点,网络管理员立即修改了核心交换机设备中的路由参数,将连向null0的静态路由访问优先级别稍微降低了一下。如此一来,当科技网汇聚层的某条光纤链路突然中断断开之后,对应该链路的核心交换机设备就能自动借助OSPF路由协议从另外一台核心交换机设备上学到。完成了连向null0的静态路由访问优先级调整任务后,网络管理员重新进行了一次测试,结果发现冗余路由成功进行了自动切换,这说明到了这里,上述故障现象已经被顺利地解决了。
最后的小结
在进行类似科技系统之间的纵向网路由配置过程中,很容易发生网络配置相互影响的现象,而这些现象在某一时段内对网络的运行影响暂时看不出来,这也提醒了各位网络管理员,一旦网络中出现了某些调整之后,我们应该及时对一些重点的网络接入项目进行测试,确保可以在最大程度上将网络中存在的隐性问题暴露出来,从而有针对性地加以研究解决。