诺基亚LTE KPI 及性能相关告警

更新时间:2024-06-30 18:23:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

KPI 及性能相关告警

KPI的定义:

KPI的counter:

考虑与KPI及性能相关的告警,如果只关注平时正常运维的情况,不外乎两类:

1. 硬件类告警,导致基站或小区退服 2. 传输类告警,导致S1或X2连接中断

下面讨论一些比较常见的告警类型。

1. RP3告警

对于eNB 而言,只要cell不是OnAir 的状态,那么该小区均无法处理呼叫,而所有导致小区退服的告警都属于这一类,由于基站或小区退服了,所以该类告警会影响所有KPI及性能指标,区别只在市整个基站的指标还是某小区的指标。 一般而言,该类告警有两种 7650 BASE STATION FAULTY 和

7653 CELL FAULTY

这两类告警通常是硬件告警,如BBU, RRU, Antenna,以及他们之间的链路出现硬件故障,最典型的当数RP3告警,Failure in optical RP3 interface,相比较RP3告警,模块的硬件故障从比例上来说要相对少很多所谓RP3即BBU与RRU的接口。这种告警也是最常见的告警,告警内容多为光路告警。

目前这类告警常见的fault有0010、4064和2004。其中0010和4064严重时会导致小区退服、基站退服。但是2004一般只是小区性能下降,不会引起小区退服。 1.1 Fault 0010:No connection to unit 伴随告警号 问题描述 处理方法 7650、7651、7652、7653、7654(其中7650会引起基站退服;7653会引起小区退服) 识别不到RRU 1、 可以先尝试重启基站观察 2、 检查光口速率是否匹配(强制8x速率) ? BBU侧强制8x速率设置: 先检查SWCONFIG中0X19000C字段, 对于软件版本RL25,0x19000C=1,及代表8x光速率,0代表4x光速率;对于软件版本RL35,0x19000C=0,代表自适应,1代表4x,2代表8x,注意不同软件版本的区别。 ? RRU侧强制8x速率设置: telnet到RRU上,端口号是2323,使用命令rad –r 0查看RRU的所有 参数配置。找到0xED这个参数,看一下它当前的值是0还是1。0表示 自适应,1表示强制8x。 命令: rad –pw 0xED 1 -----表示设置0xED=1 命令: rad –pw 0xED 0 -----表示设置0xED=0 改完之后再次使用rad –r 0查看是否修改成功即可。 ? 重启基站。 3、 确认光口速率没问题之后,就要排查是否是光纤、光模块及RRU的问题: ? 检查光纤是否插好,尝试拔插光纤 ? 在BBU侧与正常小区对调,对调之后若光纤所连小区仍未识别,可判定BBU侧光模块没问题,而RRU侧光纤、RRU侧光模块或RRU可能有问题 ? 检查RRU是否上电 ? 通过更换光模块,排除光模块问题 ? 通过BTSLOG过滤OptIF查看光纤同步状态,确定光纤问题。如需要,考虑更换光纤(光纤质量问题占比较大) ? 以上都不解决问题时,考虑更换RRU 另外注意,对于F频段和E频段的RL35 IR P7/P8版本,通常需要先下载配置文件才能找到RRU 1.2 Fault 4064:Missing RP3-01 link 伴随告警号 问题描述 处理方法 7653、7654(其中7653会引起小区退服) RRU可以识别到,但小区不能on air。此告警一般为硬件告警 1、 Telnet到有问题的RRU。3个RRU的地址依次为:192.168.253.196;192.168.253.212;192.168.253.220(RRU的地址可能会随着软件版本的不同而变化)。命令为telnet 192.168.253.xxx 2323 2、 进入RRU之后输入命令:routersh –stat查看此RRU的两条光路状态。9代表主光路,10代表辅光路。如果两条光路的TX state和RX state均为Frame,并且PI值为14左右,则表明光路正常。如下图: 3、 出现4064告警,多数情况是辅光路state为idle或者off,说明辅光路没有同步。尝试拔插光纤,更换光模块或者更换光纤。 4、 对于RL35 P8版本,如果是第三小区有4064告警,很有可能是光口速率匹配问题,可以尝试强制8x速率。但也有可能是硬件问题,如FBBA BUS线连接松动,导致FBBA连接光口不正常(可以通过上述步骤和在BBU侧将正常小区和第3小区对调的方法来排查) ? BBU侧强制8x速率设置: 先检查SWCONFIG中0X19000C字段,对于软件版本RL25,0x19000C=1,及代表8x光速率,0代表4x光速率;对于软件版本RL35,0x19000C=0,代表自适应,1代表4x,2代表8x(注意不同软件版本的区别)。 ? RRU侧强制8x速率设置: telnet到RRU上,端口号是2323,使用命令rad –r 0查看RRU的所有 参数配置。找到0xED这个参数,看一下它当前的值是0还是1。0表示 自适应,1表示强制8x。 命令: rad –pw 0xED 1 -----表示设置0xED=1 命令: rad –pw 0xED 0 -----表示设置0xED=0 改完之后再次使用rad –r 0查看是否修改成功即可。 ? 重启基站 5、 在RL35 P7、P8版本中还发现根据上述步骤2如果两条光路的Rate值为4x,也会触发4064。 更换RRU侧光模块,不需要重启基站。一般更换之后就会变成8x。小区随之恢复正常,若仍未恢复,则手动强制更改光口速率。

1.3 Fault 2004:10b8b coding error in Optical Interface device 伴随告警号 问题描述 处理方法 7654 第三小区告警 ,一般不影响业务 1、 如果是第三小区的2004告警,首先要确认FBBA是否为A103,必须要两块FBBA板都是A103的板子才可以消除,如果第一块FBBA板是102,那么还是会出2004告警。 2、 如果已经是A103的的板子,可以收集一段时间的BTSLOG,搜索关键字10b80b,查看到底是哪根光纤的问题。

查看RP3-01 X,后面这个X,0-5分别对应1-6光口。比如下面这个4就代表光口5,需要更换该光口以及对应的RRU侧的光模块。 000210 14.02 13:29:42.88 [100.92.206.26] 3e FCT-1011-HWRSumS <14.02 10:23:02.083974> 23C WRN/HWA/SUM, 10b8b byte error counter has hit the threshold count (link: RP3-01 4, LCV: 0, LCV total: 3058650310)

2. FAILURE IN OPTICAL INTERFACE

这类告警也是常见的告警,多为光模块或光纤问题。

目前这类告警常见的fault有1944和1967。其中0010和4064严重时会导致小区退服、基站退

Fault 1944: CPRI optical port failure 伴随告警号 问题描述 处理方法 7653(会引起小区退服) 小区退服 1、检查TD-S到RRU的光纤是否连接 2、检查RRU是否加电 3、 重启和TD-S BBU连接的RRU模块 4、 更换TD-S BBU连接的RRU模块 5、 更换TD-S BBU Fault 1967:Severe SFP reception power aggravation 伴随告警号 问题描述 7650、7653、7654(其中7653会引起小区退服) 严重时小区退服 处理方法 1、检查TD-S侧告警,发现TD-S侧对应小区光口出现光口异常告警 2、根据TD-S侧告警,更换光模块或者光纤 3、多数更换的是TD-S BBU连RRU的光模块或光纤 6、 如果不解决问题,才考虑更换TD-S BBU连TD-L BBU的光模块 3. SYSTEM MODULE FAILURE (3000) 伴随告警号 问题描述 处理方法 7650、7651(其中7650会引起小区退服) 基站检测到一个系统模块内部功能的反常操作或者故障 1.重启系统模块 2.替换系统模块 相关告警: 10 No connection to unit 16 Unit synchronization failed 69 POST test failed

1817 Oven oscillator heating failure 1819 Oven oscillator clock missing 1820 Oven oscillator Missing Pulse 1806 Communication failure 1875/1876 SRAM operation failure 4025 Internal MTU configuration failure

4. CONFIGURATION ERROR: NOT ENOUGH HW FOR LCR (1868) 伴随告警号 问题描述 处理方法 7653(会引起小区退服) 射频模块无法为所配置的小区提供服务,或在基站启动期间发现配置的小区没有足够的FSP资源,或为配置的小区服务的FBBx被移除 射频模块: 将单/双功放更换成三功放射频模块。或者可以给基站减少配置的小区 FSP: 1. 闭锁/解锁系统模块或FBBx 2. 如果没效果,更换系统模块或FBBx FBBx: 1.将FBBx的电源断连和重新连接. 2.如果不起作用, 更换FBBx. 当基站在启动过程中失败请确认基站的配置所需要的DSP能满足需求。或者可以减少基站配置的小区数目

5. VSWR驻波告警

Fault 1838:VSWR minor alarm Fault 1837:VSWR major alarm

当出现本类告警是,小区有可能退服,会影响该小区的所有KPI指标 伴随告警号 问题描述 7652、7653、7654、7655(其中7653会引起小区退服) 基站出现此告警,对应的小区橘黄色。告警明确会指示哪个小区的哪个通道有问题(F频段新建需要特别的方法来查看是哪个通道有问题); 出现伴随告警4057:Radio resources switched off和4003:TX failure in MIMO 1、跳线接触不良(多是RRU侧,和产品设计很有关系,但可以通过严格的施工工艺来尽量避免):拔插出现告警的跳线 2、跳线对调: ? 在RRU侧把出现告警的跳线与正常的跳线对调,观察告警是否跟随跳线走(注意对调最好间隔一个天线口,比如4口出现告警时,与6口或者2口对调)。 ? 如果告警跟随跳线走,则更换跳线。 ? 如果告警还在之前的天线口上,尝试用负载或者蘑菇头天线堵上该告警的天线口,看看告警是否能消除。如果告警能消除,说明问题在跳线或者天线侧,如果告警不消除,说明问题在RRU侧。 3、跳线或馈线损坏: 检查跳线是否进水或者跳线做工有问题,如果是,更换跳线。 处理方法 4、天线连接序列不对 5、天线权值问题 6、更换RRU 7、更换天线 8、告警出在1、2通道的多是软件问题(研发在进一步确认) 另:如果使用的是京信内置合路器天线和集束电缆,会发现告警经常出现在7、8通道。更换跳线,RRU及天线都无法解决问题,并且更换不同的厂家天线后,会由于各个天线权值的变化,告警的通道也发生变化。这种问题是RRU软件问题。

6. 射频模块故障告警:RF MODULE FAILURE 这类告警多为射频模块故障。

目前这类告警常见的fault有1911和6259。对于Fault 1911,一般不会引起小区退服。 对于RL35 IR 分支,常见的fault为6259

对于RL35 main branch 分支,常见的fault为1911 Fault 6259:Antenna Carrier configuration failure Fault 1911:RX out of order 伴随告警号 问题描述 7652、7653、7654(其中7653会引起小区退服) TD-L侧看到RRU在线,但小区不能on air,TD-S侧用“制式间光口资源冲突”告警,定位信息是问题小区的光口。 或者 TD-L侧看到三个RRU在线并均有此告警,3个小区均不能on air,TD-S侧查询所有硬件状态正常,无告警。 或者 TD-S正常起站后,TD-L侧起站完成某个小区 on air之后马上退服,并出现此告警。TD-S侧查询所有硬件状态正常,无告警。 1、对RRU重启,然后对TD-L的BBU重启 2、如果不解决问题,在RNC上检查是否TD-S侧小区载频配置过多。 如果是,对该小区进行减容。 或者 1、对RRU重启,然后对TD-L的BBU重启 2、在RNC上检查三个小区功率是否均超过470。如果是,降小区功率 到470。(目前版本LTE软件对RRU3158e-fa的功率要求同 RRU3158-fa一样,需降功率到470,预计下一个版本解决) 处理方法 或者 1、在TD-S侧闭掉有问题的小区,重启TD-L侧 BBU。如果能正常起站, 则说明TD-S侧配置未符合要求,检查TD-S侧数据配置。主要检查 以下几项: ? TD-L侧功率设置为5W。 TD-S侧小区功率设置:对于FZFA,小区功率设置不得高于 470;FZFD,小区功率设置不得高于490 ? TD-S侧载波配置:对于166_90版本(大载波配置版本),FZFA:每小区最多9载波;FZFD & FZFF:每小区最多12载波。对于其它版本,每小区载波数必须小于等于6。 ? TD-S侧载波频点配置:为了不与TD-L侧频带冲突,TD-S要使用1900-1920频点,即TD-S侧载波频点必须大于9504. 2、TD-S修正配置数据后,在TD-L侧重启基站。 3、如果TD-S侧数据配置无误,并且TD-S小区闭锁后,现象依旧,检查光模块、光纤、RRU,需要时更换。 7. 基带总线告警:BASEBAND BUS FAILURE 此类告警常见fault是1906。

Fault 1906:RF BB bus connection transmission error 伴随告警号 问题描述 处理方法 7654 小区出现此告警,或者伴随小区退服 1、一般故障点在基带总线或者光口总线。 2、如果告警出现在2、3小区,首先需要检查FBBA的bus线连接是否 松动。如果bus线已经绑扎过,需要解开检查并重新连接。如果必要 可考虑更换bus线。 3、如果更换bus线仍不能解决问题,或者告警出现在第一小区,需要检 查光接口,通常来说需要更换光模块。 4、对于F新建/升级站点,在TD-S侧检查对应小区的光模块的收发光。 一般会发现某个光模块收发光异常,需要更换光模块。如果不能解决, 则更换光纤。此告警一般为光路问题导致。

8. 传输相关告警: S1告警,X2告警

a) Fault 6308:S1 intercafe setup failure

伴随告警号 问题描述 处理方法 7656、7657 新开站出现此告警,基站状态为commissioned,S1口建立失败 1、检查MME IP和PLMN是否正确。 告警信息里有目的IP地址(即MME IP地址)。如果IP地址或 PLMN配置错误,需要修正。 2、检查eNB IP(Control plane& User plane)是否正确。 尝试PING 网关、MME IP和NTP server。 eNB IP不正确很有可能PING 网关和NTP都OK,但是PING MME IP不通。 7、 3、如果PING MME IP OK(说明传输没问题),检查BTS ID是否冲突(可通过Wireshark抓包来确认)。 如果S1AP中基站向MME发起了S1 setup request,但是MME返回的是建立失败消息,原因是message not compatible with receiver state(也就是MME收到的内容跟它之前存储的内容有冲突),很有可能是基站的BTS ID规划错误,跟现网的站冲突了,修改BTS ID。

b) Fault 6202:Transport layer connection failure in S1 interface

当出现本类告警的时候,基站处于退服状态,会影响所有的KPI指标,不仅只是所有指标在该时间段内会为0,在该告警出现前的一段时间(长短基于基站发现传输的问题并导致退服的时间)还有可能会出现HO,终端接入方面指标的下降。 问题描述 处理方法 7656、7657 基站状态为confiugred 1、检查MME IP和PLMN是否配置正确 2、检查路由配置,是否业务路由和管理路由都配置正确,如果配置错误, 有可能会导致到MME不通 3、检查TRS中,第十页控制面,用户面,管理面和同步面的IP是否配 置正确,原则上管理面的IP为管理IP,其余三个面的IP为业务面IP,这两个IP要与前面所配的VLAN的IP保持一致。如果不一致会出现IP都能正常PING通,但是出现S1告警。 4、BTS ID冲突。同一个核心网下面已经有了一个相同BTS ID,会出现此告警,而且这个告警会闪现,一会消失,一会出现。需更改BTS ID。

c) Fault 6203:Transport layer connection failure in X2 interface d) Fault 6304:X2 interface setup failure

X2告警一般来说会影响到的是HO的指标,因为在X2接口恢复前的这段时间内,从KPI上看得话就是该小区的所有切入/切出,全部是S1切换,X2切换指标为0。 X2告警分为两种:X2传输层失败和X2建立失败,都代表X2接口不可用。 伴随告警号 问题描述 处理过程 7657 1、网管侧发现大量X2链路不可用告警 2、网优测试反应部分基站X2链路无法使用 1、在出告警的基站上PING X2接口的对端IP地址,确认X2传输是否正 常。通常来说,PING不通就会报传输层失败告警。如果PING不通, 就需要检查两边的传输相关配置,如路由、掩码,检查相邻基站是否 已开通。 2、检查基站邻区数据配置是否正确 主要是以下两种情况: ? IP地址与eNB ID不对应 ? 两端邻区下发模式不一致 3、检查基站IP相关配置(如掩码不对) 可以通过PING相邻基站IP来初步判断。

9. 时钟相关告警

9.1 Fault 0026:BTS time not corrected 伴随告警号 问题描述 7652 1、基站有此告警。检查基站时间,发现年月日都不对,但小区正常on 处理方法 air。 2、对于TDD eNB,一般出现此告警时小区无法on air,而且会伴随61613 NTP server is not accessible告警出现。 基站时间由NTP服务器来校准,如果很多基站同时上报此告警,一般是NTP服务器故障或者到NTP的某个路由故障。 但是对于单个基站上报此告警的问题,一般都是NTP配置问题,检查方法如下: 1、在TRS配置页面下,检查NTP server的IP地址是否正确,点击右边的system time查看当前的基站时间是否正确。 如果修改了NTP server的IP地址,需要等待几分钟告警才会cancel。 2. 测试NTP服务器是否能PING通 3.如果都没有问题,尝试重启基站;

与性能无关但关系到KPI的告警

9.2 Fault 61613:NTP server is not accessible 伴随告警号 问题描述 处理方法 7665 NTP服务不可用,RRU找不到 1、从告警基站上PING NTP服务器地址,确认传输可用,并检查基站的NTP server配置是否正确。 2、如果NTP服务器正确配置并且传输正常,尝试重启基站。一般重启之后都可以恢复(注意新站刚起来需要一段时间才能找到NTP同步时间,需要耐心等待,而我们基站当前的设计是必须GPS时钟和NTP时间都完成同步之后才能发现RRU)。 3、如果传输正常,但全网基站都出现NTP不可达,就需要检查NTP服务器是否工作正常,NTP服务是否正常开启了。 4、注意,更换了RRU侧的光模块后,务必在TD-S的站点闭锁的情况下对RRU进行重启,然后再对LTE的BBU进行重启。否则会出现此告警,并且RRU识别不到。 9.3 Fault 1898:NTP BTS Reference clock missing

伴随告警号 问题描述 处理方法 7650 BTS 检测到基站没有受到同步参考信号 1. 检查GPS安装情况有无问题。 2. 检查GPS安装连接状态。 3. 检查GPS与FYS之间的连接状态。

本文来源:https://www.bwwdw.com/article/4pu3.html

Top