5.5 阿尔卡特DWDM设备维护心得
5.5.1 阿尔卡特1626波分设备常见告警分析
1. 常见设备告警信息
(1)告警名称:COCE(Configuration or Customization Error)
告警原因:该告警一般出现在光放(LOFA)、ALCT、TRBX上,表示输出光功率、可调光损耗器、可调色散等已经超出了正常的工作范围。
处理方式:首先检查该告警发生的具体位置(如LOFA的一级输出最大/最小、VOA已经达到最大/最小值等),再查看具体的光功率/衰耗值,检查设备的软件配置,通过调整设备的配置参数,消除该告警。
注:该告警如果发生在设备正常运行过程中而非设备开通调试中,一般有以下几种可能:① 设备配置人为调整,调整范围不合理;② 机盘故障(对本告警,其可能较小);③ 线路(包括接收光功率、色散)发生较大的变化,其中接收光功率变化影响LOFA,而色散变化一般是用户调整、倒换、割接光缆后出现,影响40 G系统的OTU;④ 增加、减少波道后出现,这种情况是由于未能正确配置ALCT引起的。
对系统中出现的异常变化,在处理过程中,需及时对比工程归档文件,若有特殊原因需更新工程文件并做详细说明。
(2)告警名称:HT(High Temperature)
告警原因:该告警表明设备工作温度过高(超过50℃)。
处理方式:在相关机盘中通过Instantaneously Measurements监测机盘的工作温度,确认是否高于50℃。若低于50℃,说明为误告警;若高于50℃,检查环境温度、机房空调运行情况、设备风扇工作状态、清理风扇防尘罩等;在机盘工作温度低于48℃时该告警会自动清除;必要时更换风扇、机盘。
(3)告警名称:HVCSP(Heating or Ventilation or Cooling System Problem)
告警原因:该告警一般出现在光放(LOFA)和风扇单元上,说明光放的增益模块未能达到正确的工作温度或风扇单元的防尘罩过脏发生堵塞。
处理方式:当告警出现在LOFA上:如果该机盘上刚插入设备,则须等待该机盘初始化完成;如该机盘一直正常运行,突然出现该告警,则检查环境温度、机房空调运行情况、设备风扇工作状态、清理风扇防尘罩等,在其他状况均正常无法消除该告警的情况,可更换该机盘;如告警出现在风扇单元上,检查环境温度、机房空调运行情况、设备风扇工作状态、清理风扇防尘罩,在其他状况均正常也无法消除该告警的情况更换该风扇单元。
(4)告警名称:IPD(Input Power Degrade)
告警原因:该告警一般出现在光放(LOFA)TRBX上,表示输入光功率劣化,接收光功率值低于指定的最低容忍范围。
处理方式:检查发送端发送光功率是否正常,检查相关尾纤、光缆等。
(5)告警名称:IPL(Input Power Loss)
告警原因:在机盘光接收口未监测到光信号。
处理方式:检查发送端机盘发送光功率是否正常、用光功率计检测验证接收光功率、检查尾纤连接是否正确、尾纤布放是否合乎规范、必要时更换相关机盘。
(6)告警名称:LAN(Local Area Network)
告警原因:设备和网管系统之间的网线连接故障。
处理方式:检查网线连接、更换网线。
(7)告警名称:OCCO(Optical Connector Cover Open)
告警原因:该告警一般出现在光放(LOFA)EMPM上,表示其前面板盖板被打开,出于安全考虑,EMPM的输出光功率立即自动关闭;LOFA的输出光功率视软件配置情况有一定区别,如果配置为Cover_Enable,则输出光功率立即自动关闭;如果配置为Cover_disable,则在5分钟后关闭输出功率。
处理方式:检查相应机盘的前面板盖板状态,必要时更换该盖板。
(8)告警名称:OPD(Output Power Degrade)
告警原因:TRBX、ALCT机盘的输出光功率未达到软件配置的要求值(超出配置要求±1dB范围)。
处理方式:调整输出光功率值、检查VOA和WDM Output之间的尾纤连接,检查是否有其他相关的设备故障告警以确认是否为机盘硬件故障,并更换相应机盘。
(9)告警名称:OPL(Output Power Loss)
告警原因:LOFA、OSCU等机盘的输出光功率低于指定的最低门限值。
处理方式:通过Instantaneously Measurements检查输出光功率值、检查配置的最低门限值是否合理、检查激光器及APSD状态、更换相应机盘。
(10)告警名称:PP(Power Problem)
告警原因:电源模块不能提供正常的工作电压。
处理方式:检查机房对设备的供电情况、检查电压是否正常、检查电源线布放和电源接头、更换电源模块。
(11)告警名称:RUM(Replaceable Unit Missing)
告警原因:配置的机盘未插入相应的槽位或插入机盘不能被设备检测到。
处理方式:检查机盘是否正确插入相应槽位、更换相应机盘。
(12)告警名称:RUP(Replaceable Unit Problem)
告警原因:机盘或机盘组建硬件故障。
处理方式:插拔该机盘,观察告警能否消除;最后更换该机盘。
(13)告警名称:RUTM(Replaceable Unit Type Mismatch)
告警原因:插入的机盘和软件配置的机盘类型不一致。
处理方式:检查设备配置、检查机盘类型。
(14)告警名称:SCP(Serial Communication Problem)
告警原因:主、从子架子架SC通信故障,或ESCT的SC与EC之间通信故障。
处理方式:检查主、从子架之间连接、重新插拔监控盘、检查监控盘上的EC、SC状态灯是否正常、更换监控盘。
(15)告警名称:TD(Transmitter Degrade)
告警原因:光发送模块性能劣化。
处理方式:如出现在机盘初始化过程中,则等待初始化完成会自动清除;如在运行过程中出现,插拔该机盘,观察告警能否消除;最后更换该机盘。
(16)告警名称:TF(Transmitter Failure)
告警原因:机盘光发送模块故障或激光器泵浦劣化。
处理方式:插拔该机盘,观察告警能否消除;最后更换该机盘。
(17)告警名称:UEP(Unconfigured Equipment Present)
告警原因:机盘已经插入但还未进行软件配置。
处理方式:配置该机盘。
(18)告警名称:UDCL(User Data Channel Loss)
告警原因:TRBX检测到用户数据通道信号丢失。
处理方式:如果该端口未使用,则屏蔽该告警;如在用,检查该端口的物理连接。
(19)告警名称:VM(Version Mismatch)
告警原因:下载到监控盘(SC)里的软件版本不正确。
处理方式:插拔该机盘,重新初始化SC。
(20)告警名称:WD(Wavelength Deviation)
告警原因:机盘激光器发送模块故障,实际发送波长较配置指定波长有较大偏移。
处理方式:如出现在机盘初始化过程中,则等待初始化完成会自动清除;如在运行过程中出现,插拔该机盘,观察告警能否消除;若不消除,需要更换该机盘。
2. 常见传输告警信息
(1)告警名称:AIS(Alarm Indication Signal)
告警原因:远端设备检测到故障,向下游发送的告警维护信号。
处理方式:首先判断发送AIS信号的源设备网元,然后检查其告警及设备运行状态,根据告警信息检查相关尾纤、机盘等。
(2)告警名称:CSF(Communication Subsystem Failure)
告警原因:监控信道帧结构中的LAPD通信协议故障。
处理方式:检查光缆线路、检查本网元和远端相应网元的LAPD配置是否正确、检查两端网元工作状态和告警信息。
(3)告警名称:LBER(Low Bit Error Rate)
告警原因:接收信号误码率达到或超过门限值(10 -6)。
处理方式:检查光路是否有异常变化,检查波分侧的接收信号情况、FEC状态以判断该误码是由波分侧传输引起的,还是远端客户侧产生的;如是波分侧传输引起,检查各点光功率、色散值(40Gbps信号)是否有异常变化;如是远端客户侧产生的,检查用户侧接收光功率及尾纤连接。
(4)告警名称:LOSC(Loss of Supervision Channel)
告警原因:OSCU机盘接收端口未检测到监控信道信号。
处理方式:检查预放和OSCU之间的尾纤连接,用光功率计确认预放发送的监控信道信号;更换相应机盘。
(5)告警名称:LOSCF(Loss of Supervision Channel Frame)
告警原因:OSCU机盘能检测接收到监控信道信号,但不能正确解码提取有效信号帧。
处理方式:检查本地和远端网元OSCU的时钟配置是否正确;更换OSCU机盘(本地或远端网元)。
(6)告警名称:LTCER(Low Threshold Corrected Error)
告警原因:传输质量产生劣化,FEC的纠错率达到了较高门限。
处理方式:检查该波道发送激光器工作状态、各点光功率是否正常、色散补偿(40Gbps OTU)是否正常;检查光放配置(发送光功率等)是否正确,检测线路情况有无异常变化;检测该波道OSNR值,CM值;必要情况下可更改光放配置以消除告警(更改后做详细记录);如各点光功率正常仍无法消除告警,可考虑更换收、发TRBX。
(7)告警名称:TCA(Threshold Crossing Alarm)
告警原因:传输质量劣化,性能监视中发现相应参数超过配置的门限值。
处理方式:如图5.13所示,告警产生、消除有不同的门限值。首先检查该告警是性能监视中的哪个参数超过门限引起的;检查、确认该门限设置是否按照实际情况的要求确定的;根据相应参数以及对应的监测点,检查光功率、CM等,区分线路传输的性能下降还是接收到的用户侧信号质量下降,然后分别采取措施消除告警。
图5.13 告警产生、消除的门限
5.5.2 阿尔卡特1686WM、1626LM OA维护注意事项
1)1686WM中同一放大级别的光放盘都是通用的,可以配置为Booster、Pream、OADM或LR。如果用于OA站的盘没跳好跳线,则软件监控上有RUTM告警相应的DCC不通,因此在更换OA站的光放盘前,除了类型一致,一定要确认跳线,也就是要把1和3拨到相应的ON的位置,如图5.14所示。
图5.141686WM设备光放盘OA站与TM端站的跳线设置
2)用于1686WM4.0终端设备和中继设备中的DCC-AUX单元盘的硬件结构是一样的,在实际应用中,用DCC-AUX单元盘内的一组插针设置来区别该单元在不同设备中的使用,如图5.15所示。
图5.151686WM设备“DCC-AUX”盘OA站与TM端站的跳线设置
3)盖上光放盘的盖子时,一定要检查有没有压着尾纤。
4)1686WM的OA站,更换DCC/AUX盘时,要注意新盘与故障盘跳线设置一致。
5)监控盘上的R(复位键)需要时可以按下,以用于设备的重新启动,某种情况下可以解决脱管故障。
6)1626LM的OA站,更换LOFA时要注意型号,有LOFA1110与LOFA1120的区别。
7)1686WM与1626LM的光放盘,带业务运行中不能揭开其盖子,否则激光器关闭,业务中断。这一点尤其要注意,以前我们遇到过两次故障,都是维护人员正在清洁设备的时候,直接打开了盖子,导致OA不发光。
8)1686WM与1626LM设备的监控盘可以热拔插,不影响业务,这种方法也常用于解决设备网管脱管。
9)1626LM的数据存在一张FLASH CARD中,如果ESCT1000(或ESCT2000)监控盘坏了,并且数据卡没坏,则更换盘后,可以使用原数据卡。
1686WM的R4.0的数据也是存在一张FLASH CARD中,更换SMEC2监控盘时使用原来的数据卡。R4.0以前的版本,数据是存在SMEC监控盘的存储器上的,不能单独取出,换新盘后要重新做数据。
10)1626LM的OTU自适应,在日常维护中,不同槽位的OTU可以互换使用。