华为MSTP以太网故障处理指导书

更新时间:2023-11-30 03:13:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

华为MSTP以太网故障处理指导书

华 为 技 术 有 限 公 司

目 录

1 2

说明 ....................................................................................................................................... 3 故障处理总流程 ..................................................................................................................... 3

2.1 2.2

流程图 .............................................................................................................................. 3 流程说明 .......................................................................................................................... 5 MSTP故障处理思路与方法 ............................................................................................. 5 MSTP故障类似及原因 ..................................................................................................... 6 MSTP故障处理方法 ........................................................................................................ 7 3.3.1 3.3.2

对于以太链路完全中断的问题定位 ....................................................................... 7 对于以太链路持续存在丢包的问题定位 ................................................................ 9

3 MSTP故障处理思路及方法 ................................................................................................... 5

3.1 3.2 3.3

4 附件 ..................................................................................................................................... 10

4.1 4.2 4.3

各种业务开通时需要注意的事项 .................................................................................... 10 以太网性能门限的设置建议 ........................................................................................... 11 告警列表 ........................................................................................................................ 12

华为MSTP以太网故障处理指导书

1 说明

?

目的

本指导书是针对华为MSTP系统出现故障时的处理措施,其目的是指导维护人员尽快恢复设备的正常运行。

?

使用对象

OptiX系列SDH光传输设备MSTP系统维护人员。

?

适用场合

设备出现故障时,指导设备维护人员快速进行故障定位与排除。

2 故障处理总流程

因掉电、断纤等外部原因,或操作不当以及设备软、硬件故障引起的SDH系统业务中断,维护人员可参照此流程快速定位故障,或及时寻求帮助,直到业务恢复。

注意事项:

按照此流程处理业务中断或其它紧急问题时,需要注意以下几点: 1)以尽快恢复业务为原则。

2)应先分析故障现象,定位原因后再进行处理。在原因不明的情况下应避免盲目操作, 导致问题扩大化。

3)处理过程中遇到困难,及时联系华为公司以获取技术支持,并配合华为公司处理故障,最大程度减少业务中断时间。

4)处理过程中一定要作好故障记录,保存好故障的原始数据。

2.1 流程图

3

华为MSTP以太网故障处理指导书

开始 记录故障现象 外部原因? 否 是 SDH故障? 否 分析故障原因进行故障定位 是 故障排除? 否 向华为公司反馈问题 共同制定解决方案 尝试解决 否 业务恢复? 是 MSTP故障处理思路与方法 SDH故障处理流程处理问题 是 其他处理流程 运行观察 否 故障排除? 是 填写问题处理报告 结束

图1. 故障处理总流程

4

华为MSTP以太网故障处理指导书

2.2 流程说明

(1) 进行故障记录时,力求做到对故障发生的全过程进行真实、详细的记

录。对于像故障发生的时间,在故障出现前后曾经做过哪些操作等重要信息都要进行详实地记录,同时对于网管中的告警信息,性能事件等重要数据也要进行保存。

(2) 外部原因造成的故障,如电源问题、光缆问题、机房环境(温度

等)、终端设备(交换机等)等,应及时进入其它相应处理流程。 (3) 通过查询相关的告警和性能判断是否是SDH层面造成的故障,如果是

SDH层面产生的故障,转SDH故障处理指导书进行处理。华为EFGS系列单板还提供测试帧功能,能够非常方便的确认SDH侧VCTRUNK的LINK状态是否正常,操作简单实用。

(4) 如果是由于以太网层面故障,参照《MSTP处理思路及方法》进行处

理。在解决问题时,对设备的操作应该严格按照操作规范进行,如必须佩戴防静电手带等。

(5) 遇到困难无法排除故障时,拨打华为公司24小时问题受理电话:800-830-2118,以获取技术支持,并配合华为公司工程师处理故障。 (6) 在业务恢复后,对运行情况进行观察,确认故障已经排除。 (7) 在故障处理完后,应及时填写相关的处理报告。

3 MSTP故障处理思路及方法

对OptiX 系列SDH光传输设备MSTP系统来说,除了遵照故障处理流程外,还应尽可能采取其它的应急措施(如提供备用电路),减少业务中断时长。

3.1 MSTP故障处理思路与方法

与SDH故障定位思路一样,以太网故障定位也遵循“先外部、再内部;先软件、再硬件;先单板、再系统”的原则,充分利用性能事件、环回、测试帧等技术手段,结合工具软件、测试仪表进行有计划有步骤的定位。

首先需要对于事故做一下初步的定位,首先排除SDH层面的问题:通过查询相关的告警和性能,EFGS系列单板提供GFP测试帧验证VCTRUNK端口之间互通性;确认SDH层面没问题后,转入以太网层面的定位。 环回当然是我们的法宝。与数据维护人员配合也是很重要的,一般多用PING和测试帧+环回手段来定位故障点。比如通过MSTP设备数据单板网

5

华为MSTP以太网故障处理指导书

口PING对端路由器或者交换机的IP地址,能够PING通基本证明我们这边正常,建议采用如下的格式PING包: ping xxx.xxx.xxx.xxx –l 1000 –t

–l 1000代表是1000字节的包长,-t代表是持续ping包。可以变换多种包长,同时多开几个ping窗口试试。当然ping包正常也不能完全排除metro设备的问题,因为在端口工作模式不正确的时候,小流量的ping也是可以ping通的。它更多意义上是证明我们以太网链路的配置没问题,SDH层面也是没有问题的。我们的首先需要检查、确认SDH层的配置和通道没有问题,才能集中精力来排查以太网数据层面的问题。

如业务配置是基于VLAN报文的业务或基于MPLS报文的业务,最好的手段就是通过数据分析仪来辅助定位问题,在不具备测试仪表的情况下,可通过“模拟发包”类的软件,利用计算机网卡仿真设备发送业务报文,协助定位问题。

3.2 MSTP故障类似及原因

一般来说以太网板(这里以EFGS为例)的故障都分成两种类型: 1)链路完全中断 2)链路上持续存在丢包

从目前来看可能造成故障的原因如下:

6

华为MSTP以太网故障处理指导书

故障可能原因 发(8) 生故障现象 1 以太链路完全中断 链路上持续存在丢包 业务中端口TAG属性(TAG/UNTAG)设置不断当 业务量大,配置带宽不够 2 故作模式不正确,或者端口某些参数异障常,或接口板故障,物理层寄存器被时随意改写等。 物理层出现故障,表现为实际端口工带宽足够,但是业务突发比较大 3 4 ,网线或者光纤出现故障 首先检以太网业务配置数据丢失 业务量过大的时候,对端设备不响应流控 单板设置的最大传输包长MTU小于实际设备的传输包长 查情况下,ET1的一些通道上报BIP-5 在某些情况下,出现网元指针调整的端口模式和对端设备不匹配,造成工作在异常状态 是OVER和TU-LOP,业务中断。更换否移,但是不能完全解决问题。 单板或者复位只能引起故障通道的转6 7 8 9 10 11 有以下备告警单板硬件故障 封装协议不匹配 网线或者光纤出现故障 单板硬件故障 二层交换业务存在环路,且未启动生成树协议。 LCAS一些VC颗粒丢失,剩余VC颗粒绑定的带宽不足。 网络存在异常,如存在超量的广播报文 设GFP失步告警 GFP封装FCS校验出错告警 VLAN ID设置与数据设备未进行同步,更改 这因为大量丢包造成的业务中断。这种 些情况转第二种故障类型处理 3.3 MSTP故障处理方法

3.3.1 对于以太链路完全中断的问题定位

对于第一种链路完全中断故障类型,一般表现为对接的路由器和交换机接收不到任何报文,业务完全中断,完全无法PING通对端设备等等,主要检查以下几个部位:

(1) 端口TAG属性(TAG/UNTAG)设置不当

7

华为MSTP以太网故障处理指导书

该种故障出现概率较大,多发生在初开通业务时,MSTP设备的TAG属性设置和与其连接的数据设备设置不能相互配合,或MSTP设备未能与数据设备进行端口属性同步更改,导致业务中断。 (2) 端口工作模式引起的故障

物理层出现故障,表现为实际端口工作模式不正确,或者端口某些参数异常,或接口板故障,物理层寄存器被随意改写等。

该问题出现的概率也比较多,主要通过查询物理层的相关寄存器来定位问题所在的部位。

重点在网管上查询以太网口使能与工作模式。 (3) 网线或者光纤出现故障

这样的问题比较好判别,首先是确认一下ET1单板插网线的以太网接口是否有LINK灯亮(绿色),没有亮说明网线可能坏了,或者是交叉和公网线弄混了。(注意光接口板的指示灯在接口板内部);同时看看接口上另外一个指示灯(黄色)是否在亮,有亮说明有数据收发,没有则说明无数据收发。另外通过查询以太网实时性能,如果存在较多的CRC错误等异常错包,在首先排除端口工作模式问题的前提下,也可能是网线光纤存在问题。 (4) 需重点查询VC通道捆绑情况

在非LCAS状态下捆绑错或不一致也可致使业务中断。 (5) 端口的默认vlan id设置也不要放过

如果ip端口设置了untag属性但是配置了vlan路由的业务类型,那么该ip端口的默认vlan id一定要和vlan路由中的vlan id 一致,不然的话,这个小疏忽却能使业务中断的。

对于EFGS单板的Hybrid端口的PVID设置也要注意两端设备的一致问题。

(6) 以太网配置的静态路由错误或者丢失 (7) 单板硬件故障

一般都会有上报TU-AIS,TU-LOP等SDH层告警,现象比较好判断。 (8) 封装协议不匹配

对于EFGS系列单板,N1单板支持LAPS和GFP,N2只支持GFP,不同的封装协议是无法对接成功的。

(9) GFP帧失步或GFP封装FCS_ERROR

8

华为MSTP以太网故障处理指导书

可能GFP封装的参数设置不一致造成的问题,如N1的EFGS单板默认的GFP封装是“小字节序”而N2的单板默认值是“大字节序”

(10)

因为大量丢包造成的业务中断

这种情况转第二种故障类型处理。

3.3.2 对于以太链路持续存在丢包的问题定位

(1) 业务量大,配置带宽不够

这种情况可以通过对对端的数据设备性能统计数据进行判别,一般对端设备可以接收到比较多而且持续的PAUSE帧。而且一般路由器都可以监控到实际流量(当然是IP层的,比ET1的二层流量要小),如果实际流量接近我们配置的带宽,也证明我们的带宽资源不足了。可以尝试多绑定几个2m来验证问题。

(2) 带宽足够,但是业务突发比较大

这种情况也是很常见的,但是比较难于判别。同样要通过分析一下对端设备的性能统计(我们自身的性能统计也可以查询作为参考)来得出结论,首先是流量,很可能平均流量远小于我们配置的带宽,但对端设备还是在时不时收到我们设备发出的PAUSE帧,证明对端过来的业务突发比较大,超过了我们能够容忍的限度。此时一是增加带宽,但是更主要的是要求对端的设备做一下流量整形,这样效果会好很多。

可以通过查看性能数据来看出发生了什么问题:设置以太网性能监视,查询当前以太网性能数据。

(3) 业务量过大的时候,对端设备不响应流控造成丢包

由于华为MSTP设备使能流控,对端设备不响应流控,造成华为MSTP设备过快的发送无用的PAUSE帧,引起大量丢包。建议对于业务量较大的站点,要不和对端设备同时使能流控,要不同时都不使能,不要出现一方使能另一方不使能的情况。

(4) 单板设置的最大传输包长MTU小于实际设备的传输包长

这种情况不太常见,但是发生了也很难确认。首先我们ET1单板默认的传输包长是1522字节,可以设置到的最大包长是1980字节。这个问题一般需要和局方确认,并且通过性能事件查证是否有收到大于1522字节的数据包。

(5) 端口模式和对端设备不匹配,造成工作在异常状态

9

华为MSTP以太网故障处理指导书

这种情况出现的非常普遍,多为两端对接,一端设置成100MFULL或者10MFULL(100M全双工或者10M全双工),一端设置成AUTO(自协商)。这种情况多半会导致AUTO一端被错误协商成100M HALF,引起工作模式不匹配。这种情况下小业务流量还是可以传输,但是数据量一大就会导致大量的碰撞和冲突包被检测到(可以通过性能统计查询到)。建议的设置原则是:对端是自协商我们就是自协商,对端是100MFULL我们就是100MFULL。

(6) 网线或者光纤出现故障。

这样的问题比较好判别,首先是确认一下ET1单板插网线的以太网接口是否有LINK灯亮(绿色),没有亮说明网线可能坏了,或者是交叉和公网线弄混了。(注意光接口板的指示灯在接口板内部);同时看看接口上另外一个指示灯(黄色)是否在亮,有亮说明有数据收发,没有则说明无数据收发。另外通过查询以太网实时性能,如果存在较多的CRC错误等异常错包,在首先排除端口工作模式问题的前提下,也可能是网线光纤存在问题。 (7) 单板硬件故障。

一般都会有上报TU-AIS,TU-LOP或BBE等SDH层告警或性能,现象比较好判断。

(8) 二层交换业务存在回路,而未启动生成树。

一般在MSTP设备形态上是可以通过配置确保业务无环路存在的,单在某些特殊情况可能存在环路,例如人为的原因在以太接口上插环回电缆等。如该情况未启用生成树就会存在广播风暴消耗网络带宽资源。 (9) 网络存在异常,

如存在超量的广播报文,占用大部分转发带宽,后果与广播风暴类似。

4 附件

4.1 各种业务开通时需要注意的事项

a)确保网络物理链接,确认配置业务后无SDH部分相关告警,如存在告警一定进行排除;

b)明确MSTP设备以太网单板对接的数据设备(包括计算机)的端口的工作模式:MSTP设备以太单板端口的工作模式设置需与数据设备端口属性相

10

华为MSTP以太网故障处理指导书

同,如都是自协商,都是100MFULL等。如果一端是自协商另一端是非自协商也存在非常大的隐患,两个FE电口一个配置为自协商另一端配置为100MFULL则协商的结果为100MHALF,原因是支持自协商的端口向对端发送协商信息,而对端无相应,自协商侧只能获知速率而无法确认双工状态,该自协商端口按最低配置进行工作表现形式为半双工状态。如果是FE或GE的光接口因物理信号编码形式的限制是不支持半双工模式,所以当一端自协商而另一端为100M FULL/1000M FULL时两个伙伴无法LINK UP。

C)如果所采用以太网单板为光接口方式,要注意光口为多膜还是单膜接口,其接口方式与数据设备接口方式要对应,另外还应注意光接受灵敏度,过载光功率等的配合关系;

d)正确设置MSTP设备以太网单板端口的TAG属性:一般情况数据设备的TRUNK端口与MSTP设备以太网TAG AWARE端口相连接,数据设备的ACCESS与MSTP设备的ACCESS端口相连接,数据设备的端口属性的定义与我司MSTP数据特性单板的端口属性略有不同,具体情况请参照产品说明书;

e)如配置MSTP设备的基于PORT+VLAN的EPL/EVPL业务或EPLan/EVPLan业务,要注意VLAN ID的合理配置,数据设备与MSTP设备对接VLAN的划分都是通过静态手工配置的方式进行的,所以VLAN和业务的对应关系必须清晰准确,否则就会出现业务不通等问题。

f)正确进行MTU设置,MSTP数据特性单板端口的MTU值设置,不小于与其对接的数据设备MTU,否则可能出现帧丢失或业务不通等问题;

g)要确认一个网络基准,即如不考虑SDH部分与MSTP设备对接的两数据设备正常工作时所需的带宽时延等要求,这样才能合理配置VCTRUNK之间的绑定关系等

4.2 以太网性能门限的设置建议

华为MSTP设备以太网性能的RMON统计都是基于RFC2819实现的,可设置其性能门限值,性能门限值的设定主要取决于“网络基准”即网络正常工作情况下可接受的丢包率等信息。根据不同的网络状态存在不同的设置策略,华为MSTP设备该功能默认为非使能状态。

11

华为MSTP以太网故障处理指导书

4.3 告警列表

告警名称 NO_BD_SOFT 默认级别 危急 告警含义 单板无软件 产生原因 (1)单板上没有加载软件 (1)环境温度过高; (2)制冷设备故障; (3)单板故障 处理方法 1 重新加载单板软件 2 重启单板 1,确认环境温度是否合适。 2,检查设备风扇系统工作是否正常。 3,复位告警单板。 TEMP_OVER 主要 工作温度过限 LP_RFI 次要 低阶通道远端失效指示 (1)对端站低阶通道接收失效 这是一个相关性告警对端支路板存在HP_REI告警,排除对端设备告警后,本站告警消失。 1 检查激光器是否安装,是否插紧,接触良好,可进行插拔操作加以确认; 2,检测环境温度是否过高,如过高请冷却环境温度; 3,复位告警单板; LSR_NO_FITED 危急 激光器未安装 (1)激光器未安装 W_R_FAIL 主要 写读单板芯片寄存器失败 (1)单板故障; (2)时钟板故障 1,复位告警单板,确认告警是否消失 2,复位系统交叉板。 BD_STATUS 主要 单板不在位告警 (1)单板未插; (2)单板插座已松动; (3)邮箱故障 1,检查对应槽位是否正确插接单板; 2,单板和背板接触是否良好; 3,复位单板 4,检查背板是否存在倒针现象 HARD_BAD 危急 单板硬件损坏 单板硬件损坏 1,复位单板 2,更换单板 BIP_SD 次要 BIP信号劣化 (1)BIP2误码过大 1,确认SDH线路是否存在误码 2,如线路不存在误码,则重启告警单板,观测告警是否消失 3,更换告警单板 BIP_OVER 次要 BIP误码过量 (1)BIP2误码过大 1,确认SDH线路是否存在误12

华为MSTP以太网故障处理指导书

告警名称 默认级别 告警含义 产生原因 处理方法 码 2,如线路不存在误码,则重启告警单板,观测告警是否消失 3,更换告警单板 FPGA_ABN COMMUN_FAIL 主要 主要 FPGA状态异常 通信失效告警 FPGA状态异常 通信失效告警 1, 2, 复位单板 更换单板 1,如只有一个单板上报告警,首先复位该单板,观测告警是否消失 2,如同时几块业务板上报告警,逐个拔出告警单板直到告警消失,以确认故障单板,对故障单板进行复位/替换, 3,如单板替换后仍存在告警,尝试将告警单板更换物理槽位。 ETH_LOS 危急 网口连接丢失告警 网口连接丢失 1,检查纤缆连接 2,替换单板 LOOP_ALM 主要 环回告警 设定了线路侧的内环回或外环回 1,取消环回后,告警自动消失 FCS_ERR 危急 FCS校验出错告警 1, 首先确认TRUNK LINK两封装协议一致但是协议参数如是否扰码、是否端封装协议及参数设置是否一致,如不一致请更改 取反等内容不一致 2, 重新下发单板接口参数配置 3, 确认交叉板状态是否异常 VC3通道的误码超过设定的越限门限。 1,观察网管上否有:如R_LOS, R_LOF, B1_EXC or B2_OVER等严重告警,首先排除这些严重告警,确认该告警是否也排除; 2,检测环境问题是否越限,如越限请调整; 3,更换线路板 4,更换交叉板 5,更换对端站点线路板 6,更换对端站点交叉板 B3_EXC_VC3 主要 VC3的B3误码越限 B3_SD_VC3 次要 VC3的B3误码劣化 VC3通道的误码超过设定的劣化门限。 1,观察网管上否有:如R_LOS, R_LOF, B1_EXC or B2_OVER等严重告警,首先排除这些严重告警,确认该告警是否也排除; 13

华为MSTP以太网故障处理指导书

告警名称 默认级别 告警含义 产生原因 处理方法 2,检测环境问题是否越限,如越限请调整; 3,更换线路板 4,更换交叉板 5,更换对端站点线路板 6,更换对端站点交叉板 ILL_MFI_VC12 主要 VC12级别的虚级连中成员的复帧指示失配 VC3级别的虚级连中成员的复帧指示失配 VC12级别的虚级连中成员的序列号指示失配 VC3级别的虚级连中成员的序列号指示失配 VC12级别低阶通道远端接收失效指示 虚级连延时过大,链路错误,会产生此告警 1,更换光纤 2,更换单板 虚级连延时过大,链路错误,会产生此告警 虚级连SQ号和预期不一致,链路错误,会产生此告警 虚级连SQ号和预期不一致,链路错误,会产生此告警 检测到上一站接收信号失效,会产生此告警 1,更换光纤 2,更换单板 ILL_SQ_VC12 主要 1,重新下发告警单板的业务配置; 2,复位告警单板 ILL_SQ_VC3 主要 1,重新下发告警单板的业务配置; 2,复位告警单板 LP_RDI_VC12 次要 相关性告警,是对端存在TU_AIS 或 TU_LOP告警,排除对端告警后该告警消失 相关性告警,是对端存在TU_AIS 或 TU_LOP告警,排除对端告警后该告警消失 相关性告警,对端检测到错误而回送的告警,排除对端告警后该告警消失 相关性告警,对端检测到错误而回送的告警,排除对端告警后该告警消失 1,将业务两端站点的V5字节设定应收与实收一致 2,修正信号标记字节后,确认业务配置是否正确 3 ,如告警未消失,复位本站告警单板 4,复位对端站点单板 LP_SLM_VC3 次要 VC3级别低阶通道信号标记失配 当本站应收信号标记与对端应发信号标记不一致,会产生此告警 1,将业务两端站点的C2字节设定应收与实收一致 2,修正信号标记字节后,确14

ILL_MFI_VC3 主要 LP_RDI_VC3 次要 VC3级别低阶通道远端接收失效指示 检测到上一站接收信号失效,会产生此告警 LP_REI_VC12 次要 VC12级别低阶通道远端误码指示 当对端站对应通道收到误码,会产生此告警 LP_REI_VC3 次要 VC3级别低阶通道远端误码指示 当对端站对应通道收到误码,会产生此告警 LP_SLM_VC12 次要 VC12级别低阶通道信号标记失配 当本站应收信号标记与对端应发信号标记不一致,会产生此告警 华为MSTP以太网故障处理指导书

告警名称 默认级别 告警含义 产生原因 处理方法 认业务配置是否正确 3 ,如告警未消失,复位本站告警单板 4,复位对端站点单板 LP_TIM_VC12 次要 VC12级别低阶通道追踪识别符失配 当本站应收通道追踪字节与对端应发通道追踪字节不一致,会产生此告警 1,将业务两端站点的通道追踪字节设定应收与实收一致 修正通道追踪字节字节后,确认业务配置是否正确 3 ,如告警未消失,复位本站告警单板 4,复位对端站点单板 LP_TIM_VC3 次要 VC3级别低阶通道追踪识别符失配 当本站应收通道追踪字节与对端应发通道追踪字节不一致,会产生此告警 1,将业务两端站点的通道追踪字节设定应收与实收一致 修正通道追踪字节字节后,确认业务配置是否正确 3 ,如告警未消失,复位本站告警单板 4,复位对端站点单板 LP_UNEQ_VC12 次要 VC12级别低阶通道信号未装载 当低阶通道信号标记字节为0,会产生此告警 1,检查业务配置是否正确,如不正确请修正 2,检测低阶通道信号标记实收值是否为0,如为0请根据业务类型对对端的信号标记进行设置。 LP_UNEQ_VC3 次要 VC3级别低阶通道信号未装载 当低阶通道信号标记字节为0,会产生此告警 1,检查业务配置是否正确,如不正确请修正 2,检测低阶通道信号标记实收值是否为0,如为0请根据业务类型对对端的信号标记进行设置。 TU_AIS_VC12 主要 VC12级别的TU告警指示 当业务配置错误,对端站对应通道失效,交叉板故障等,会产生此告警 1,检查网管是否有高级别告警上报,如R_LOS, R_LOF 或 HP_SLM,首先消除高级别告警,确认该告警是否消失; 2,检查网元侧的保护倒换状态是否正确,保护倒换状态正常后,确认告警是否消失 3,检查业务配置是否正确,如不正确请修正,确认告警是否消失。 4,复位单板 15

本文来源:https://www.bwwdw.com/article/qyht.html

Top