华为网络故障处理概述

更新时间:2023-06-02 14:32:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

网络设备故障排除

内容提要网络故障处理技术概述 一般网络故障的解决步骤 Quidway中低端路由器产品介绍 路由器常用诊断工具介绍 故障处理常用方法 故障处理对网络维护和管理人员的要求

华为技术有限公司

版权所有,侵权必究

网络故障处理技术概述当今的网络互连环境是复杂的,而且其复杂性的还在日益增 长,主要原因如下: 现代的因特网络要求支持更广泛的应用,包括数据、语音、 视频及它们的集成传输; 新业务发展使网络带宽的需求不断增长,这就要求新技术 的不断出现。例如:十兆以太网向百兆、千兆以太网的演 进;MPLS技术的出现;提供QoS能力等。 新技术的应用同时还要兼顾传统的技术。例如,传统的 SNA体系结构仍在某些场合使用,DLSw作为通过TCP/IP承 载SNA的一种技术而被应用。

华为技术有限公司

版权所有,侵权必究

网络故障处理技术概述能够正确地维护网络尽量不出现故障,并确保出 现故障之后能够迅速、准确地定位问题并排除故 障,对网络维护和管理人员来说是个挑战。 这不但要求对网络协议和技术有着深入的理解, 更重要的是要建立一个系统化的故障处理思想并 合理应用于实际中,以将一个复杂的问题隔离、 分解或缩减排错范围,从而及时修复网络故障。

华为技术有限公司

版权所有,侵权必究

网络故障的一般分类连通性问题

性能问题

硬件、媒介、电源故障 配置错误 不正确的相互作用

网络拥塞 到目的地不是最佳路由 供电不足 路由环路 网络错误

华为技术有限公司

版权所有,侵权必究

一般网络故障的解决步骤

故障处理系统化是合理地一步一步找出故障原因 并解决的总体原则。它的基本思想是系统地将由 故障可能的原因所构成的一个大集合缩减(或隔 离)成几个小的子集,从而使问题的复杂度迅速 下降。

华为技术有限公司

版权所有,侵权必究

网络故障解决的处理流程故障现象观察 故障相关信息收集循环2

经验判断和理论分析

各种可能原因列表

对每一原因实施排错方案

循环1

故障排除?Y

N

恢复实施方案前的网络状态

故障排除过程文档化华为技术有限公司 版权所有,侵权必究 7

网络故障解决的处理流程该处理流程是网络维护人员所能够采用的排错模 型中的一种,如果你根据自己的经验和实践总结 了另外的排错模型并证明是行之有效的,请继续 使用它——网络故障解决的处理流程是可以变化 的,但故障处理有序化的思维模式是不可变化的。 下面我们以一个故障处理的实例来学习如何

应用 这些步骤。

华为技术有限公司

版权所有,侵权必究

故障处理的实例用户网段广播包过多造成该网段的服务器FTP业务传输速度慢

ETHERNET C:10.11.56.120/24 D:129.9.35.53/16 网云 ETHERNET B:10.15.254.253/16 A:10.11.56.118/24 ETHERNET

该案例组网如上:某校园网的三个局域网,其中10.11.56.0为一个用户网段, 10.11.56.118为一个日志服务器;10.15.0.0是一个集中了很多应用服务器的网 段。版权所有,侵权必究 9

华为技术有限公司

1.故障现象描述

要想对网络故障做出准确的分析,首先应该了解故障表现 出来的各种现象 用户反映“日志服务器与备份服务器间备份发生问题。” 这就是一个不完整不清晰的故障现象描述。因为这个描述 没有讲述清楚下列问题:

这个问题是连续出现,还是间断出现的? 是完全不能备份,还是备份的速度慢(即性能下降)? 哪个或哪些局域网服务器受到影响,地址是什么? 在网络的高峰期,日志服务器10.11.56.11到集中备份服务器 10.15.254.253之间进行备份时,FTP传输速度很慢,大约是 0.6Mbps。

正确的故障现象描述是:

华为技术有限公司

版权所有,侵权必究

2. 相关信息收集

搜集有助于查找故障原因的详细信息:

向受影响的用户、网络人员或其他关键人员提出问题; 根据故障描述性质,使用各种工具搜集情况,如网络管理系统、协议 分析仪、相关display和debug命令等; 测试性能与网络正常情况下的记录进行比较。网络结构或配置是否最近修改过,即问题出现是否与网络变化有关? 是否有用户访问受影响的服务器时没有问题? 在非高峰期日志服务器和备份服务器间FTP传输速度是多少?

如上述案例,可以向用户提问或自行收集下列相关信息:

通过该步骤,我们收集到了下面一些相关信息:

最近10.11.56.0网段的客户机不断在增加; 129.9.0.0网段的机器与备份服务器间进行FTP传输时速度正常为7Mbps, 与日志服务器间进行FTP传输时速度慢,只有0.6Mbps; 在非高峰期日志服务器和备份服务器间FTP传输速度正常,大约为 6Mbps;版权所有,侵权必究 11

华为技术有限公司

3. 经验判断和理论分析

利用前两个步骤收集到的数据,并根据自己以往的故障处 理经验和所掌握的的知识,确定一个排错范围。通过范围 的划分,就只需注意某一故障或与故障情况相关的那一部 分产品、介质和主机。 如上述案例,我们现在能够确定是一个网络性能下降问题。 那么,是网段10.11.56.0的性能问题?是中间网络的性能 问题?还是10.15.0.0网段的性能问题呢? 根据129.9.0.0网

段的机器与备份服务器间进行FTP传输时 速度正常为7Mbps这一事实,我们可以排除掉10.15.0.0网 段的性能问题。

华为技术有限公司

版权所有,侵权必究

4. 各种可能原因列表该步骤列出根据经验判断和理论分析后总结的各 种可能原因。 如上述案例,可能原因如下:

网段10.11.56.0的性能问题,其原因可能为 : 日志服务器A的性能问题 10.11.56.0网络的网关性能问题 10.11.56.0网络本身的性能问题 中间网络性能问题,主要是到网络10.15.0.0的路由不 是最佳路由版权所有,侵权必究 13

华为技术有限公司

5. 对每一原因实施排错方案

根据所列出的可能原因制定故障排查计划,分析 最有可能的原因,确定一次只对一个变量进行操 作,这种方法使你能够重现某一故障的解决办法。 如果有多个变量同时被改变,而问题得以解决, 那么如何判断哪个变量导致了故障发生呢?

华为技术有限公司

版权所有,侵权必究

6. 观察故障排查结果

当我们对某一原因执行了排错方案后,需要对结 果进行分析,判断问题是否解决,是否引入了新 的问题。如果问题解决,那么就可以直接进入文 档化过程;如果没有解决问题,那么就需要再次 循环进行到故障排查过程。

华为技术有限公司

版权所有,侵权必究

7. 循环进行故障排查过程在进行下一循环之前必须做的事情就是将网络恢 复到实施上一方案前的状态。如果保留上一方案 对网络的改动,很可能导致新的问题。 循环排错可以有两个切入点:

当针对某一可能原因的排错方案没有达到预期目的, 循环进入下一可能原因制定排错方案并实施; 当所有可能原因列表的排错方案均没有达到排错目的, 重现进行故障相关信息收集以分析新的可能原因。

如上述案例,我们在列出了可能原因列表后,开 始制定方案进行故障处理:

华为技术有限公司

版权所有,侵权必究

7. 循环进行故障排查过程可能原因1:网络10.11.56.0到网络10.15.0.0的 路由不是最佳路由。 制定的方案:在10.11.56.0网段的网关上使用 “tracert 10.15.245.253”命令,发现探测报文 返回时长仅为10ms,表明该可能原因并不是造成 故障的原因。我们进入循环排错过程。

华为技术有限公司

版权所有,侵权必究

7. 循环进行故障排查过程 可能原因2:日志服务器A的性能问题。 制定的方案:测试同一网段的主机C和日志

服务器间的FTP传输速度,是6Mbps,正常。 可见问题与服务器A无关。

华为技术有限公司

版权所有,侵权必究

7. 循环进行故障排查过程 可能原因3:10.11.56.0网络的网关性

能问

题。 制定的方案:测试主机C和备份服务器B间 FTP传输速度是7Mbps,正常。排除了网关 因素,因为B、C在不同网段上而速度正常。

华为技术有限公司

版权所有,侵权必究

7. 循环进行故障排查过程

可能原因4:10.11.56.0网络本身的性能问题。 制定的方案:在网段10.11.56.0的以太网交换机 上使用命令“show mac”,输出如下: Port Rcv-Unicast Rcv-Multicast Rcv-Broadcast -------- -------------------- -------------------- ---------------6/32 10317812 0 8665 Port Xmit-Unicast Xmit-Multicast Xmit-Broadcast -------- -------------------- -------------------- ---------------6/32 6667987 286652 2474038

(输出的广播:输出的单播比例为1:3,太大了。)

Port Rcv-Octet Xmit-Octet -------- -------------------- ----------------------------------6/32 14094829358 1516443041

在网段10.15.0.0上的以太网交换机上使用命令 “show mac”输出如下:Port Rcv-Unicast Rcv-Multicast Rcv-Broadcast -------- -------------------- -------------------- ------------6/36 55780287 0 285 Port Xmit-Unicast Xmit-Multicast Xmit-Broadcast -------- -------------------- -------------------- -------------6/36 27879749 190257 119430

由此得知,网段10.11.56.0上广播包和 单播包比例为1:3,确实太大了。 再次询问用户该网段主要运行的业务是 什么,而得出了故障最终原因如下: 10.11.56.0是普通用户网段,由于业务 原因每个用户需要发送大量广播包和多 播包,随着近期越来越多的用户接入该 网络,在这个网段上的服务器需要花费 更多的资源来处理越来越多的广播和多 播包,因此其服务的传输速度自然减慢。 这是一个网络布局不恰当的问题,需要 重新安排服务器的位置,将服务器移动 10.15.0.0网段后,故障解决。

(广播:单播比例=1:270,属于正常。)Port Rcv-Octet Xmit-Octet -------- -------------------- ----------------------------------6/36 67172587081 4998816809

华为技术有限公司

版权所有,侵权必究

8. 故障处理过程文档化

当最终排除了网络故障后,流程的 最后一步就是对所做的工作进行文 字记录。 文档化过程决不是一个可有可无的 工作,原因如下:

文档记录主要包括以下几个方面:

文档是排错宝贵经验的总结,是 “经验判断和理论分析”这一过程 中最重要的参考资料; 文档记录了这次排错中网络参数所 做的修改,这也是下一次网络故障 应收集的相关信息。

故障现象描述及收集的相关信息 网络拓扑图绘制 网络中使用的设备清单和介质清 单 网络中使用的协议清单和应用清 单 故障发生的可能原因 对每一可能原因制定的方案和实 施结果 本次排错的心得体会 其他:如排

错中使用的参考资料 列表等

华为技术有限公司

版权所有,侵权必究

本文来源:https://www.bwwdw.com/article/s001.html

Top