PTN故障案例

更新时间:2024-03-22 07:38:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

1.1 不能正常上网问题

【故障现象】

配置了从文慧(6100)-中心局-星河-中环-乐城KTV-政协-东都百货的EVPTREE业务,文慧是根节点,星河、中环、政协和东都百货是4个叶节点,其中从我们的星河的FE口下面接交换机和其他的宽带设备(WLAN业务)

现场问题是:从宽带设备能够ping通我们的根节点,当用户上网时,正常的是打开ie后打开任一网页就能自动跳转到中国移动的主页面,但是当打开任一网页后却一直无法自动跳转 【故障分析】

业务其实是可通的,但是部分帧长的报文无法通过,可以参考1.2节设备的jumbo帧设置问题。 【故障处理】

早期设备的mtu(最大传输单元)值较小的问题,目前设备除61设备需要启用jumbo帧功能,其他机型都不存在该问题

6200设备无法进行调测

【故障现象】

在对大涌镇政府进行调测时,发现无法用笔记本登录到调测命令输入界面。 【故障分析】

初步分析启动不正常,可能是主控有硬件或者芯片损坏。 【故障处理】

对设备进行断电重启,问题未解决;

而且光口板的有个光口TX指示灯常灭,RX指示灯常亮。替换光模块,问题未解决;

对主、备主控板进行交换拨插,仍然无法解决问题; 设备换了主控以后,可以进行初始化操作。 【问题总结】

无主控板问题导致设备无法进行调测,更换即可。

PTN承载大量TD基站出现瞬断/丢包等问题

【故障现象】

PTN承载TD基站运行,目前存在每天大量TD基站瞬断、丢包的问题。 【故障分析】

PTN承载的TD业务出现大量的基站瞬断,引起该类问题的原因较多,如物理链路侧问题,设备自身问题等,需要对每一条出现问题的业务进行排查处理,确认问题原因。 【故障处理】

发现PTN设备侧部分UNI端口有丢包,有可能和JUMBO启动功能有关,打开现场出现问题的JUMBO后情况好很多。

同时发现部分节点NNI侧也存在问题,收光较弱,处理线路侧问题。 同时TD设备也在进行查询问题原因,TD升级后情况解决了不少。 经过排查后基本解决了所有问题。 【问题总结】

PTN设备和TD设备都属于比较“年轻”的设备,在出现问题时,可以多方面查找问题原因,针对设备内部和外部的所有可能原因进行排查定位,解决问题,恢复业务。

GE端口协商问题

【故障现象】

63设备同微波设备使用1000M电口对接。 ZXCTN6300:

gei_5/2 设置为强制1000M,微波设置为强制1000M。协商结果是down。 gei_5/2 设置为强制100M,微波设置为强制1000M。协商结果是100M全双工。

gei_5/2 设置为强制1000M,微波设置为强制1000M。当时协商结果是down。经过1天之后,端口是1000M。后续有许多短暂的中断。 【故障分析】

芯品资料上,只写了10/100M的强制,没有说1000M的强制,1000M电口是不支持千兆强制的。另外,两端必须都强制或者都自协商,否则会出现状态不对的情况。· 【故障处理】

现场修改为自适应,可以进行对接。 【问题总结】

现场在使用GE电口进行对接时,由于GE电口的协商模式无标准协议支持,故尽量不要使用强制为1000M电口的配置方式,防止出现协商不起来,进而影响业务的现象发生。

PW限速问题导致2M业务不通

【故障现象】 1.

现有通过如下业务配置路径的业务6200+PTN9008(市区01)+ S385 ,2M业务正常; 2. 3.

通过 6200+OTN+PTN9008(市县01)+S385 ,2M业务不正常; 再添加2M业务 路径为 6200+OTN+PTN9008(市县01)+PTN9008(市区01)+S385, 2M业务不正常; 4.

使用了业务正常的PTN9008+S385,基本排除了9008通道化单板故障的情况;使用了多台6200进行测试 【故障分析与处理】

现场PW承载在E1上,然后再PW上进行了限速导致的。也就说对E1进行了限速。取消后业务就通了。 【问题总结】

伪线限速不支持区分是否是PE节点,伪线限速不支持判断是否是PE节点,由此会导致P节点上的伪线限速功能对路经该节点的其他伪线也产生影响。 主要是由于设备硬件芯片限制,问题和版本无关,6263所有硬件类型均存在该问题。

尽量不要使用伪线限速功能,或者分配伪线标签时做到全网唯一。

由于目前伪线标签为网管自动分配,暂时无法做到全网唯一,所以工程应用中,请不要配制

伪线限速。

低速线卡插入高速槽位导致设备异常

【故障现象】

某PTN项目汇聚环5其中三个站点的6300设备进行配置基础数据时提示出错,无法进行操作,网元自动断链脱管,2分钟后自动上网管监控。

对汇聚环5_潘龙、云路和炮台营业厅站点进行基础数据配置——进行VLAN接口配置时,三个站点会自动断链脱管,一两分钟后会自动上网管监控,但数据配置不进去,具体情况如下:

只要对番龙、云路或炮台营业厅等站点设备配置基础数据时点击应用时出现的错误:(6300设备为B08版本,其它站点设备可以正常配置基础数据) 提示错误:“下发设备失败,设备错误信息:由于聚合端口或者不符合的端口模式等原因,操作失败”。 尝试解决方法有: 1.

下站排障检查:对三个站点的6300设备的数据和IP规划进行检查,未发现问题,同时也对各站点的设备进行重新写入数据(目前没有业务),在写入数据时出现以下情况:

(1) 当网管人员对站点进行业务VLAN接口配置时,设备的主控板会自

动重启,备用主控开始工作,但是当原来的主用板启动完成,又会发生主备倒换.

(2) 删除原来的数据对设备重新写脚本时,当写到接口管理VLAN配置

的时候,出现设备重启现象。

(3) 对云路站点重新写数据时,出现如下情况:设备的

startrun.old,startrun.dat文件已经删除,且设备已经重启,但是vlan,IP等配置显示没有删除,依然存在数据配置。

2.

断开网元配置数据(目的排除各个站点存在相互影响导致该故障的产生):配置炮台站点基础数据时,将接入网元揭阳综合楼1的11槽光口和炮台营业厅的12槽光口断纤,剩下揭阳综合楼1、揭阳综合楼2和炮台三个站点网元组成一条链路,其中揭阳综合楼1和揭阳综合楼2的6300设备配置基础数据是正常的,目前对炮台进行配置基础数据时,故障依然存在,基础数据配置无法继续操作。同理,对潘龙配置数据时,将其一端和接入网元另一端断开,配置数据时也同样出现错误。 3.

主控板升级:将潘龙、云路和炮台三台设备的主控板进行升级,原版本为B08升为B13版本。升级成功后对设备进行配置时,故障依然存在,基础数据照样是无法配置。 【故障分析】

6300设备的9/10/11/12都是高速总线,是不允许插入低速线卡的。工程上这是有明令禁止的。

其它环也有插入低速板,但没有出现R5三个站点不能配置基础数据的问题。该网络共11个环,骨干环4个,汇聚环7个,汇聚环的配置都是一样的,每个站点都有高速槽插低速板的情况。 【故障处理】

在6300的高速槽位上不再配置低速线卡。 【问题总结】

需要现场注意避免该类问题发生,不要在工程上使用非法的进行配置组网。 研发解决问题,后续在高速槽位上插入低速线卡后,设备进程不会挂起,不会出现一些异常现象 。

PTN网元丢包处理案例

【故障现象】

图 错误!文档中没有指定样式的文字。-1 拓扑

一个新调通的6200单链(武警支队),接入到6300组成的骨干环上之后,这几个6200的监控通道有严重的丢包。 【故障分析】

输入show ip ospf database发现129.16.30.5(武警支队)该路由器发布了4条lsa

129.16.30.5 129.16.30.5 14 0x80008471 0xdec8 16.30.1.6 129.16.30.5 16 0x80001e76 0x1943 16.30.1.18 129.16.30.5 3604 0x80001d15 0x901f 16.30.1.21 129.16.30.5 3604 0x80001a22 0x7bae

但武警支队仅发布了三条路由宣告:

network 16.30.1.16 0.0.0.3 area 0.0.0.0

network 16.30.1.20 0.0.0.3 area 0.0.0.0

network 129.16.30.5 0.0.0.0 area 0.0.0.0

因此这个一个异常。

接着输入show ip ospf retransmission-list,发现有如下的LSA重传:

129.16.30.5 129.16.30.5 14 0x80008471 0xdec8 16.30.1.6 129.16.30.5 16 0x80001e76 0x1943 16.30.1.18 129.16.30.5 3604 0x80001d15 0x901f 16.30.1.21 129.16.30.5 3604 0x80001a22 0x7bae

至此,我们发现了问题的原因:对应这个丢包问题,由于一直有LSA的重传,所以database中的LSA条目也一直在震荡。所以在运行SPF算法的时候,得到的路由表也是在震荡的。 【故障处理】

在武警支队重启了ospf进程:wujingzhidui#clear ip ospf proceed 1 重启之后发现,丢包现象消失,问题解决。

EPL业务开通故障案例

【故障现象】

图 错误!文档中没有指定样式的文字。-2 网络拓扑

在海螺水泥厂 A的FE_1/1口与洪泽综合楼 B的gei_8/2之间做好一个EPL业务,在海螺水泥厂FE1口与洪泽综合楼gei_8/2各挂一台笔记本电脑做互ping测试,由于两台笔记本电脑安装了防毒软件,做了ping禁止检测,互ping不通,但是在洪泽综合楼的笔记本电脑上arp –a,可以查看到海螺水泥厂笔记本电脑的IP地址与MAC地址,最后一项type为dynamic,在海螺水泥厂的笔记本电脑上arp –a,只到查到洪泽综合楼笔记本电脑的IP,但是MAC地址显示为00-00-00-00,最后一项type为invalid,这就表明了数据包可以由海螺水泥厂6100传至洪泽综合楼6300,但是数据包不能从洪泽综合楼6300传至海螺水泥厂6100,隧道是单通的! 【故障分析】

打开CLI认真核查黄集6300设备与海螺水泥厂6100的配置脚本,发现黄集6300脚本上与海螺水泥厂对接的gei_5/1口配置如下:

interface gei_5/1 out_index 11 negotiation auto jumbo-frame enable switchport mode trunk

switchport trunk native vlan 2778 switchport trunk vlan 3938 switchport qinq normal

Switchport trunk vlan 里面少了一项vlan 2778内容!

在黄集gei_5/1端口上配置switchport trunk vlan 2778时,当黄集gei_5/1口发送VLAN 2778报文时,会将TAG头剥掉,而海螺水泥厂6100的gei_1/9口收到一个这样的untag报文时,会误以为不是T-MPLS报文,不会处理。而6200/6300端口收到untag头时,会检测报文,当发现TPID为8847时,会将此报文作为T-MPLS报文处理。 【故障处理】

当黄集trunk gei_5/1端口的数据同时配了trunk vlan 2778与native vlan 2778,trunk vlan 2778的优先级更高,此时从此VLAN 2778报文trunk口出去时TAG头不会被剥掉。所以海螺水泥厂gei_1/9端口能够正常够处理VLAN 2778的报文。 【问题总结】

之所以native vlan是2778(业务封装vlan)的根本原因就是在网管配置时没有将gei_5/1设为干线模式,在接入模式下就进行了vlan绑定操作。现场出现类似问题时可以注意查询该项配置。

PTN设备广播风暴导致基站业务中断

【故障现象】 设备型号和版本 ZXCTN 6300 V1.10 B6 问题描述

某网络采用ZXCTN 9000和ZXCTN 6000设备组网,ZXCTN 9004位于核心机房.

图 错误!文档中没有指定样式的文字。-3 拓扑结构如图

网络中所有设备都配置的GE电接口板,在ZXCTN 9004与ZXCTN 6300之间创建EVPL接入基站业务,在运行一段时间后突然发现某ZXCTN 6300设备下挂的所有基站业务中断。 【故障分析】

查询网管相关网元的告警,一切正常;

查询网管相关网元的性能值,发现故障网元的部分端口收发数据异常,远远超过正常的业务流量。

telnet到该网元,使用show run interface查看数据异常的端口配置,发现这些端口都是默认配置,属于默认vlan 1,而且很多端口都接到一台微波设备上,微波设备运行在交换机模式下。于是在这些端口形成广播风暴,故障由此而发生。 【故障处理】

因该6300设备下挂的所有基站业务已中断,故把所有属于vlan 1且up的端口手动关闭,消除广播风暴。然后把各基站端口划分到不同的vlan下,再逐一打开这些端口,故障排除。 【问题总结】

此故障主要是由于设备端口默认都属于vlan 1并且配置业务后并未修改,因此容易在这些端口中形成广播风暴,建议以后把各端口尽量划分到不同的vlan,以尽量避免此类故障的发生。

2010年底设备开始陆续提供默认关闭vlan1的二层交换功能,开局时也可查看设备运行是否有L2 switch disable脚本。

设备自动重启

【故障现象】

该工程61设备共7端,重启数就已4端。 【故障分析】

经现场先后更换电源线与新设备后仍发生重启,怀疑由外部环境导致,遂对现场进行了排查:

(1)设备使用直流-48V供电,电源单体是中兴的15A单体,电压在浮充状态,-53至-54V;

(2)工作地和保护地间电压差值为几个MV; (3)灵武近一个多月没打过雷,下过雨; (4)附近没有电力高压线;

(5)近期最低气温-6摄氏度左右,最高气温15摄氏度;

(6)机柜内还安装有中兴ZXMP-S330或S320设备,几次61设备重启,传输设备及机房其它设备询问过用户未听说有异常; (7)询问过用户重启时直流供电正常;

通过前期研发现场测试电压情况,定位故障为:现场存在输入电压瞬间跳变达到65V,6100的电源保护机制会从A路供电切换到B路,但现场B路电源没有接线,无输入,6100设备复位重启。 判断理由如下:

(1)采集重启设备复位信息后分析,排除软件Bug导致复位的可能; (2)硬件复位的原因分析可能有电源导致的复位,主板复位器件干扰导致的复位和电源线缆导致的复位三种,但是经过分析:

1) 主板复位器件不太可能导致复位,因为实验室EMC试验中从未出现过,而且不会导致这么高概率的复位事件;

2) 电源线缆导致复位的问题由于更换硬件设备排除,尤其将以前从未复位过的老设备放到容易复位的新环境中仍出现了复位现象;

3) 目前怀疑环境问题导致电源因素引起了设备复位,毕竟这么高概率的复位问题目前只在宁武发现过,而且固定为其中4台设备容易出现复位; 【故障处理】

经过现场电源测量,发现现场电压有跳变,电源输入不稳定,引起现场的设备重启。 【问题总结】

6100设备后续进行电源设计的修改,提高设备直流电源输入容限只-37V~-72V。

61-63之间业务隧道频繁倒换

【故障现象】

61-63之间开通隧道,LSP隧道保护发生频繁倒换。 【故障分析】

怀疑可能是光功率问题引起,再次确认传输距离问题,发现现场光缆长度超过40KM,但是使用的是40KM XGE模块。 【故障处理】

和用户沟通购买80KM XGE光模块用以解决问题。 【问题总结】

现场发生类似的异常保护倒换事件,目前认为可能性较大的原因有:

光路或者光模块问题,目前也发现其他局有类似案例,光模块或者线路问题(如本案例的)40KM光模块传输距离超过40KM的问题,该种原因引起的倒换异常需要重点关注。针对光路等硬件问题,可以重点排查光口收发性能。

本文来源:https://www.bwwdw.com/article/k8a8.html

Top