问题症状:
1、网络内突然出现时断时续,丢包比较严重,无法操作业务
2、PING 网段虚地址比如62及两个实际地址60、61,时断时续
3、核心交换机S1上到其他网络影响不大,问题主要集中在区XX局及营业大厅。
4、夜间仍然有丢包问题出现
5、H3C 7503 CPU过高
Slot 1CPU usage:
98% in last 5 seconds
55% in last 1 minute
56% in last 5 minutes
6、R1联通线路不通(排查过程中发现)
原网络拓扑图:
网络结构相对简单,办公网内主要有vlan 3 vlan4vlan5 vlan6,营业厅主要vlan 3,过去整改XX单位的办公内网全部通过H3C 7503连接,核心S1和75之间通过trunk口进行互联配置;在核心交换机设置了vlan地址,考虑网络高可用性,使用了virtual-ip,S1的vlan3地址为60,s2的vlan3地址为61,他们的虚拟地址为62,因此vlan3下面的机器的网关都设置为62,其他的vlan也是同样;
interface Vlan-interface3
ip address x.x.x.60255.255.255.192
vrrp vrid 3 virtual-ip x.x.x.62
vrrp vrid 3 priority 120
vrrp vrid 3 track 1 reduced 30
S1 trunk接口配置如下:
interface GigabitEthernet1/0/48
port link-mode bridge
port link-type trunk
undo port trunk permit vlan 1
port trunk permit vlan 2 to 4094
其他接入交换机都是通过75上的access方式进行连接,配置如下:
interface GigabitEthernet2/0/41
port access vlan 4
interface GigabitEthernet2/0/43
port access vlan 5
interface GigabitEthernet2/0/46
port access vlan 6
初步怀疑可能的原因:
1、网络环路?
2、病毒攻击?
3、配置问题?
4、设备问题?
5、网线问题?
6、其他?
为解决问题调整下网络并加入主动威胁设备测试:
为了排除故障,首先做了分析,判断网络环路和病毒ARP可能性较高,在核心交换机上部署了主动威胁发现设备,并将做了端口镜像,就是将75和接入交换机的数据复制一份到S1的g1/0/30,g1/0/30接主动威胁发现设备数据口。
Mirroring-group 1 local(设置镜像组)
Mirroring-group 1 monitor-port Gigabitethernet 1/0/30(设置镜像的目的端口)
Mirroring-group 1 mirroring-port Gigabitethernet 1/0/48 both (设置镜像的源端口 both为双向)
抓包进行主动威胁分析,发现威胁比较少截止晚上就几条病毒攻击,还有部分ARP风暴,但是量不大。
排错过程意外发现:
刚开始我认为有时候ping 60通61不通,60不通,61通….是配置有问题,不断出现vrrp切换,我决定将核心交换S1和核心交换机S2之间的线路断掉,只保留一条主线路;但是断掉之后发现,到网关通,但是到上联上级单位不通,怀疑R1联通线路有问题,一看果然R1联通线路断掉了,这个发现是意外,后来联通公司协商上级单位处理解决问题,问题原因是端口协商。
因此怀疑为网络环路或者设备有问题可行性大,由于核心交换机S1上其他vlan接的电脑没有问题(除75上接的之外保护电脑A),所以初步怀疑问题集中在75上。为了便于排错我们将网络进行了改造,将其他vlan接入交换机分别接到核心交换S1上,不在连接75,而和75并行。
做如下实验1:
1、将所有接入交换机和75全部在核心交换机s1上拔掉网线
2、依次接入,并将测试电脑B接在测试的交换机下面
3、开始ping vlan 3网关
4、Vlan 4 5 6接入交换机问题很小,电脑B丢包不严重(有丢包是因为该笔记本没有装准入模块,导致准入设备会发ARP欺骗包,这是后期发现这个问题的管理员同志没有告诉我)
5、接入75交换机,然后将电脑B接入75上,发现症状比较严重,初步判断可能是75上的问题
更换设备实验2如下
为了排除是设备故障,拿一个24口交换机进行测试,将线全部网线接上,有问题,特别是接大体的线路时,非常明显,判断问题集中在环路或者线路。
解决环路实验3如下
首先在75上启用STP
1、Stp enable
2、dis stpbrief 查看生成树
3、发现会有一些变化,但是不明显,有个接口down但是,问题还在,可能环路不知一处。
%Feb 2117:01:10:856 2014 xx-S1 MSTP/6/MSTP_NOTIFIED_TC: Instance 0's GigabitEthernet x/x/x was notified a topology change.
4、将75上线路全部拔掉,只留下电脑B,发现ping正常。
5、判定问题在大厅机器有环路,决定去找环,发现大厅网线混乱,有分线的,乱接的,不好排查。
6、关闭大厅的小交换机及HUB
7、放弃找环,决定先应急重新布线,通过巡线仪找到一条到大厅的线路,接在刚才拿的24口交换机上,然后从24口交换机依次在接到大厅机器电脑上,发现ping都是正常的。
8、将大厅40多台机器全部梳理完毕,确保没有环路,线路正常。
9、梳理机房线路,将75上不用线路全部清理。
期待成功的到来,虽然是次不太复杂的排查过程,也没有找到具体的环路位置,也没有复杂的配置和惊心的场面,但是往往是些简单的问题,给网络带来致命的危险。希望这个过程给大家有帮助!
在发布文章之前是好的,由于周六周日不知道周一用户的网络会有何变化,期待一切正常。