电信网传输系统维护实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第5章 DWDM系统维护实战

面对波分故障,很多情况下大家一头雾水,其实主要是因为大家分不清信号流程、各个点的光功率范围。学习本章后,你会发现波分故障其实很简单。

5.1 DWDM分类故障处理

5.1.1误码故障的分析

1. 误码产生的原因

(1)光功率异常

接收光功率低于接收机的灵敏度或接收光功率高于接收机的最小过载点。

(2)色散容限不够或色散超过容忍范围

光纤的色散用色散系数来衡量,色散系数单位为ps/(nm·km)。G.652光纤上的色散系数为17 ps/(nm·km),G.655光纤上的色散系数一般为4.5 ps/(nm·km)。部分设备厂家的10 G线路盘或光转发盘的色散一般为800 ps/nm或1600 ps/nm,2.5Gbps速率的发光模块色散容限大,一般为7200 ps/nm或12800 ps/nm,一般不需要补偿。

(3)信噪比过低

比如烽火LMS2E/OTU2S机盘对信噪比的要求是:2.5 G,≥22dB;2.5 G(FEC),≥20dB;10 G(FEC),≥20dB;10 G(SFEC),≥18dB,当现网中运行的设备产生的信噪比低于所要求的信噪比时就会产生误码。

(4)光纤非线性效应

包括受激布里渊散射、受激拉曼散射、交叉相位调制、自相位调制、四波混频等非线性效应的影响。

解决方法:降低入光功率、合分波器件指标合格、不使用G.653光缆等,但须注意降低入光就会降低了入纤信号功率,对系统末端信噪比将有一定的影响。

(5)光器件性能劣化

(6)客户信号本身产生

2. 与误码有关的性能

1误码数量(SDH帧结构)、B2误码数量(SDH帧结构)、误码率、OTUk-BIP8(SM-BIP8)、误码数量(OTN帧结构)、PM-BIP误码数量(OTN帧结构)、误码秒、严重误码秒。

带有FEC纠错功能的单板OTU单板,具有以下纠错性能,用来反映在波分线路上纠正的误码数量和未纠正的误码数量:

FEC纠正的0误码个数、FEC纠正的1误码个数、FEC纠正的误码数、FEC纠错后的误码数、FEC纠错前误码率、FEC纠错后误码率、FEC不可纠正的帧。

3. 与误码有关的常见告警

15分钟B1误码计数越限告警(SDH帧结构)、24小时B1误码计数越限告警(SDH帧结构)、15分钟B2误码计数越限告警(SDH帧结构)、24小时B2误码计数越限告警(SDH帧结构)、15分钟OTUk-BIP8误码越限告警(OTN帧结构)、24小时OTUk-BIP8误码越限告警(OTN帧结构)、15分钟FEC纠错前误码性能越限告警(带FEC功能)、24小时FEC纠错前误码性能越限告警(带FEC功能)、15分钟FEC纠错后误码性能越限告警(带FEC功能)、24小时FEC纠错后误码性能越限告警、15分钟误码秒越限告警、15分钟严重误码秒越限告警、24小时误码秒越限告警、24小时严重误码秒越限告警、信号不可用告警、信号劣化SD告警。

4. 故障定位方法

在排除故障时,灵活地运用故障定位方法可以迅速定位故障点。

1)判断误码涉及通道

(1)多数通道(或所有通道)出现误码

所有通道出现误码,说明故障发生在线路上(MPI-S和MPI-R点之间)。这时需要重点检查主光通道是否有功率下降,进而导致OSNR下降或者业务单板的输入功率过低,其中主要核查的对象为OA、OMU、ODU等与主光通道有关的各机盘,查看这些机盘的当前性能和历史性能是否存在较大的差异。

可能的原因有:

◆OA单板故障,增益下降。这种情况通常是由于OA长期工作在过保护状态,导致单板损坏,增益不足;

◆线路衰耗增加。应清洁光纤,减少接头损耗,调换光缆或者对原光缆进行整治;

◆与主光通道有关的单板使用的尾纤或法兰故障,导致衰减增加。

(2)个别通道出现误码的可能原因

◆单板自身故障,OSNR比较低,导致单板接收到误码;

◆单站内连接的尾纤有问题或不洁净;

◆输入功率过低导致接收机无法正常接收。

2)单板客户侧输入信号异常

(1)利用B1字节定位误码

OTU-SDH单板上B1字节的监控功能对误码的故障定位分析很有帮助。OTU-SDH单板对OTU-SDH单板上B1字节进行非介入性监测,监测的功能如图5.1所示。

在A站的发送端OTU-T监测到B1字节中的误码数量和产生时间,但不对误码进行处理,而是直接传输到B站。B站接收端的OTU-R也监测到B1字节中的误码数量和产生时间,在同一误码产生时间,B站点与A站点的误码数量的差值就是A站与B站间产生的误码数量,即波分设备在传输中产生的误码。这样就可以了解误码是在SDH侧还是波分侧产生的,同时了解客户侧的误码数量和波分侧的误码数量。

图5.1 OTU-SDH单板上B1字节的监控功能

(2)利用OTUk-BIP8字节定位误码

OTU-OTN单板的工作机制如图5.2所示,图中给出的是10Gbps速率的单板的工作机制。

图5.2 10Gbps速率的单板的工作机制

客户侧接收模块:客户侧业务信号通过OAC侧的接收模块进行O/E转换后,业务电信号进行非介入性的性能监测(如B1误码);之后信号进入OTN处理单元进行STM-64到OTU2的映射或者10 GE到10 GE OTU2的映射,接着进行FEC/AFEC编码(在实际使用中通常都会启用FEC/AFEC功能);经过编码的电信号送至通道侧的光发送模块进行E/O转换,最后送到波分线路上。

通道侧接收模块:波分通道侧的光信号通过通道侧的光接收模块进行O/E转换,转换后的OTU2(AFEC)电信号进行FEC/AFEC解码,并进行OTN的开销检测;之后从OTU2信号中解映射出STM-64信号或10 GE信号;再对STM-64信号和10 GE信号进行性能监测;之后输出业务信号至客户侧的发送模块进行E/O转换。

B1字节是STM-N帧结构业务的误码监测字节,OTUk-BIP8是OTUk(k=1,2,3)帧结构业务的误码监测字节。OTU-OTN单板具有B1误码和OTUk-BIP8误码的监测性能。我们可以根据B1和OTUk-BIP8来区分误码是产生在OAC侧还是OCH侧。通常OCH侧性能劣化会伴随着OTUK-BIP8误码产生。在通道无故障的前提条件下,本端OAC侧B1误码会透传至对端接收端单板,在对端接收端单板的OCH性能项中也会检测到B1误码。

(3)替换法

如果系统单方向出现误码,最常用的处理方法就是替换法。观察替换前后误码和性能是否有变化,可以方便地进行故障定位。替换内容包括以下内容:

替换光纤:在线路侧,把双向光缆对调,把A向和B向光缆互换;在通道侧,把OTU单板的IN口尾纤替换。

替换OTU单板:接收端单板不区分波长,相互间可以替换。可以用没有上业务的通道的单板或者使用备件替换怀疑有故障的单板。发送端的单板(或收发一体)都是有固定波长的,单板和波长一一对应,如果现场没有备件,可以利用背靠背OTM站点的另外一个方向的OTU单板进行替换。如果有可调波长的单板,则可以根据需要调谐到需要的波长上。

替换光板:采用备品备件或者本系统其他方向的光板对故障光板进行替换,需要注意替换光版与故障光板之间的型号是否一致。

5. 故障案例

案例1——根据B1误码诊断故障点

故障描述

某工程的网络示意图如图5.3所示,波分使用的均为OTU-SDH业务单板(即OCH侧都是标准的STM-N的帧结构),波分单板对B1误码都是进行非介入性地监测(业务单板不处理接收到的信号中的B1信息),SDH2设备上报“B1误码”。

图5.3 网络示意图

故障排查思路

首先明确业务流程,发现SDH2上有B1误码,沿着业务的路径:SDH1—A—B—C—SDH2查找各点的B1误码上报情况,找到第一个产生B1误码的结点。该结点和其相邻的上游结点很可能就是主要的故障点,解决该故障点的问题后再观察是否还有其他故障点。

如果通过查询发现:

1)A点的OTU的OAC侧上报有B1误码,那么故障点在SDH1至A点之间。下游单板监测到的误码都是从上游透传的。找到故障点后可以采用下面的方法解决:

(1)查看A点OTU单板的OAC侧输入功率是否合适,清洁尾纤。

(2)更换A点OTUT单板。

(3)更换OTUT单板的输入口尾纤。

(4)SDH1设备自环,检查是否SDH1光板故障。

2)如果B1误码是从B点开始上报的,则故障点是在A至B之间,下游监测的B1误码都是直接从B点透传的。找到故障点后可以采用下面的方法解决:

(1)查看B点OTU单板的OCH侧输入功率是否合适,并和历史数据比较是否有明显降低。如果有明显降低,找到功率降低的原因,确定是群路功率降低还是单通道功率降低,通过网管配合功率计找出功率损耗的原因。

群路功率降低重点核查:A点OMU至OBA之间的每个环节;B点OPA至ODU之间每个环节。尾纤、单板法兰、ODF、OA实际增益都是重点核查的对象。

单通道功率降低:如果A点的OMU输出功率和历史性能相比有明显的变化,则A点的OTUT至OMU之间的尾纤和法兰是重点排查对象。

如果A点的OMU输出功率和OBA的输出功率和历史性能相比都没有变化,则重点放在B点的OPA和ODU之间的尾纤和法兰盘上。

(2)更换B点的OTUG单板。

(3)更换B点OTUG单板IN口的尾纤。

(4)更换A点的OTUT单板。

3)其他站点之间的故障可以参考1)和2)的处理过程。

案例2——利用B1和OTUk-BIP8迅速查找故障点

故障描述

某工程的业务流向如图5.4所示。波分侧的所有单板都支持OTN的帧结构(即单板的OAC侧输入的信号为STM-N帧结构,OCH侧业务的帧结构都为OTUk),SDH2设备上发现有“B1误码”。

图5.4 业务流向

故障排查思路

单板的误码监测机制说明:

● B1和B2是SDH层的开销字节,波分单板可以提供B1和B2误码监测。波分设备对SDH的所有净荷和开销做透传处理,因此B1和B2在波分的单板上都是透传的。

● SM-BIP8就是OTUk-BIP8(k =1,2,3)。当速率为10Gbps时,OTUk-BIP8就是OTU2-BIP8。当速率为2.5Gbps时,OTUk-BIP8是OTU1-BIP8。SM-BIP和PM-BIP是OTN业务的开销,目前波分的单板上SM-BIP8和PM-BIP8都是透传的。但根据标准SM-BIP8应该再生,PM-BIP8应该透传。

● OTU-OTN的所有单板都可以提供SDH层的B1、B2非介入性监测和OTN层的SM-BIP8、PM-BIP8监测。在中继单板上对B1、B2、SM-BIP8和PM-BIP8透传,并进行非介入性监测。

通过监测机制可以很明确地判断业务是发生在OCH侧还是OAC侧。

(1)查看所有单板,如果发现A、B、C、D站点上都只有B1误码,没有OTUk-BIP8误码,则故障点是在SDH1与A站点之间(即OAC侧故障)。

(2)沿着业务流向,找到第一个有OTU2-BIP8误码的站点。假如发现在C站点的OTU单板上发现有OTUk-BIP8误码、PM-BIP8误码(同时就可能伴随有B1误码),则说明故障发生在B站点与C站点之间。D站点的OTUk-BIP8误码、SM-BIP8误码、B1误码及SDH2上监测的B1误码都是从C站点透传到下游的。OTN的帧结构是面向波分侧的,因此只要发现OTUk-BIP8误码、SM-BIP8误码,则说明故障发生在OCH侧。

(3)对于复杂的情况也是先从第一个故障点开始处理,顺着业务流向逐个解决故障点。

案例3——尾纤连接不良导致误码纠错事件

某工程是40×10Gbps系统,如图5.5所示。系统中使用的业务单板都是10Gbps速率的单板(NRZ、AFEC、OTN),业务单板都开启AFEC功能,系统满配置。所有OLA站点都采用两级放大的方式:OPA1717+LAC+DCM+OBA2020。

图5.5 40×10Gbps系统组网

故障描述

系统在开局初期运行正常,运行一段时间后,A站点的多数业务单板上都有OTU2-BIP8误码,各通道FEC纠错前误码率都很高,分别达到10-3,10-4,10-5,有些通道伴随着15分钟FEC纠错前误码越限告警。E点业务单板FEC纠错前的误码率都比较低,为10-10左右。

故障排查思路

开局初期系统运行正常,可以排除系统配置上的问题(如DCM、OA的类型)。从故障描述上来看问题出在群路上,可能的原因有:

(1)OA单板异常,导致输出功率下降,进而导致OSNR下降。

(2)线路衰减增加(光纤连接不良或者连接法兰不好),导致A站点OSNR下降。

处理步骤

沿E—D—C—B—A的顺序依次查询OA单板的输入和输出光功率,和开局初期的数据对比,找出变化明显的地方。由于系统是满配置(OBA的输出功率一般都会接近单板饱和输出功率),所以可以重点查询OBA的输出功率,并与单板饱和输出功率对比,单板输出功率明显低于饱和输出功率的点即是要找的故障点。现场查询发现D站点的OBA输出功率只有15dB,比饱和输出低了5dB。进行进一步查询:

(1)查询OA(OPA、OBA)的输出和输入之差是否等于增益(注意网管上是否有增益调整),如果等于,说明OA单板无故障。

(2)查询D站点OPA的输入功率和OPA的历史性能对比,发现入光功率下降5dB,由此断定是线路衰减增加所致。清洁E站点与D站点间的线路光纤,用功率计测量E站点OBA的输出功率没有发现有大的变化。用功率计测量D站点OPA输入功率,发现和网管上报的差异不大,怀疑ODF架上法兰故障。在ODF架法兰盘处进行测试发现通过ODF架后衰减明显增加,更换法兰盘后故障解决。

其他说明

如图5.6所示,如果传输线路上产生误码超过了业务单板的AFEC纠错能力,则会产生无法纠错的误码或者不可纠正的帧。如果传输线路上产生的误码在业务单板的AFEC纠错能力之内,则AFEC纠错后没有误码产生,业务正常。

图5.6 FEC纠错示意图

在维护中需要关注FEC纠错前的误码率指标,一般单板使用AFEC功能时,需要关注以下两点:

(1)FEC纠错前误码率。

FEC纠错前的误码率低于10-5时,可以保证纠错后不产生误码,因此可以根据当前的FEC纠错前的误码率来估计系统尚存在的余量,系统的性能变化可以通过这个性能值来体现。

(2)15分钟纠错误码越限。

这个是一个警示的告警,网管对15分钟内能够纠错的误码数量设置一个警示门限,用于提示维护人员:输入的业务质量劣化很可能会出现无法纠正的误码。由于这个门限值比较低,所以维护人员会发现网管上报“15分钟FEC纠错误码越限告警”,但实际的业务并没有受到影响,输出的业务没有任何误码(FEC纠错后误码率0)。这个告警的功能就是提示用户:已经有潜在的风险,请尽快处理。业务割接时会出现这个告警,只要确认多次查询的FEC纠正的误码数量不再增加,则说明业务运行正常,不必关注15分钟FEC误码越限告警,在15分钟的性能归档后,这个告警会自动消失。

案例4——色散补偿不匹配导致误码

故障描述

某工程为40×10Gbps波分系统,A、B两站为OTM,距离为80km。资料中记录A站与B站之间双向采用G.655光纤。工程验收测试时发现A站收B站的所有10Gbps速率的业务单板都上报大量的FEC纠错后误码,有15分钟FEC纠错前误码越限告警;而B站收A站的业务单板上报的FEC纠错前误码率很小(为10 -10),FEC纠错后没有误码。

故障排查思路

10Gbps单板具有FEC功能,能纠正信号在波分线路上传输产生的误码,如果实际误码量超过了FEC的纠错能力,除上报15分钟纠错前误码越限外,同时性能项中上报大量的FEC不可纠错的误码数,说明系统运行异常。

单向出现误码并且多数的业务单板都有大量“FEC纠错后的误码”上报,说明故障发生在群路上,非单板故障。

处理步骤

(1)检查A站收B站各光放大板和OTU板的输出和输入光功率,均正常。

(2)将A站和B站间的双向线路光纤对调,发现A站收B站的所有单板纠错后误码都消失(查询性能纠错后误码),但B站收A站的所有OTU都上报大量纠错和误码,说明误码和光纤相关。

(3)检查光缆资料,发现A站收B站方向的光纤是由3段光纤连接而成,中间段光纤长度为二十多千米,光纤型号为G.652;将此段光纤更换为G.655光纤,误码消失,纠错量很小,故障排除。

其他说明

1550nm窗口的信号在G.655光纤上色散系数为4.5 ps/(nm·km),10Gbps速率(NRZ)单板色散容限为800 ps/(nm·km),因此传输距离在110~130km内无需进行色散补偿。但对于G.652光纤,色散系数为17 ps/(nm·km),一般传输距离大于30km就需要色散补偿。本案例正是由于对信号的色散补偿不足而导致纠错和误码。

此类故障通常多出现在以下情况:

(1)系统开局阶段实际使用的光缆类型和设计中使用的光缆类型不一致。

(2)系统维护阶段,倒换线路光纤可能出现光缆倒换前后类型不一致。

(3)单板更换时没有注意色散容限,10Gbps速率(NRZ)单板色散容限为800 ps/(nm·km),10Gbps速率(ERZ)单板色散容限为400 ps/(nm·km)。

系统设计时都是根据使用的光纤类型和测量的色散系数来考虑色散补偿的,一旦网络结构有变更或者光纤类型有变更,都必须重新预算色散补偿的余量。在实际工程开局和日常维护中,应该熟悉整个系统采用的光纤的类型和色散补偿模块的分布。

对于超长传输的系统,开局时进行总残余色散的测试是必要的。另外,还需要进行PMD的测试。

案例5——光纤的非线性导致误码

系统概述

某工程配置如图5.7所示(图中只画了单向的配置),系统设计为16×10Gbps系统,目前只开通了其中的5波。

图5.7 工程配置

故障描述

在OTM2做环回,在OTM1进行24小时误码测试,测试到10小时仪表上报误码。

故障排查思路

在网管上查询性能发现OTM2站收OTM1站方向没有出现误码,但OTM1站收OTM2站方向有部分通道出现误码,并且出现误码的通道和数量不稳定。查询网管性能事件中各站放大器的光功率,与工程调试值相符;重新清洁各结点尾纤,问题并没有解决。初步判断故障是在群路上,可能的原因为线路光纤问题、光纤非线性或OA光放大器故障。

处理步骤

(1)由于误码是单向出现的,通知OTM1站和OTM2站人员调换A向和B向的线路光纤,误码仍然存在,这样就排除了光纤问题。排查的目标转向线路的非线性方面和光放大器。

(2)在保证信噪比前提下,提高OTM2发送点入纤光功率,从网管上观察误码量的变化,发现光功率越大,误码量也越大,减小入纤光功率,发现光功率越小,误码也越小。通过以上现象可以判断误码是由于光纤的非线性引起的。

(3)在信噪比满足系统要求情况下,降低OTM2发送端入纤光功率3dB来降低光纤非线性影响,之后再次测试,误码消失;连续观察5天,系统工作正常。

其他说明

光纤非线性引起误码的事件出现概率很小,且具有随机性,主要与线路光纤性能有关。由于光纤非线性引起误码时,接收端的信噪比可能很好,因此故障的隐蔽性比较强。

判断误码是否由光纤的非线性引起,可以通过提高和降低入纤光功率的方法。如果出现以下现象,表示误码极有可能是由于光纤非线性引起的:

① 提高入纤光功率,误码随光功率的增加而增大;

② 降低入纤光功率,误码随光功率的降低而减小。

对单通道2.5Gbps系统来讲,这个特征比较明显;但是对于单通道10Gbps的超长传输系统来讲,影响系统的因素比较多,色散、非线性效应和反射是作用在一起的,综合的效果导致特征模糊化。

对于非线性带来的问题,常见的改善方法就是增加DRA放大器来降低发送端的入纤功率或采用新码型技术等。

案例6——光纤反射导致的误码

系统概述

某工程的32×2.5Gbps系统,其组网如图5.8所示。

图5.8 32×2.5Gbps系统组网

故障描述

A站点收E站点方向第CH3、CH13波均偶尔上报误码,误码出现时间不确定。

故障排查思路

(1)通过网管查询A站点收E站点的OTU3、OTU13单板性能发现,这两块单板几乎每15分钟都有B1误码的产生;每个15分钟内的误码并不是持续增长的,而是时有时无;而且第3波、第13波的误码上报时间也不是同步的。

(2)通过网管查询OTU单板的输入功率,功率合适,处于输入功率范围中间点,排除功率问题。

(3)用光谱分析仪测试OSNR,CH3和CH13的OSNR分别为:21.0dB、23.5dB(系统要求18dB),均正常,也排除了OSNR问题。

经过上面的排查,故障的原因可能是:

(1)单板问题。

(2)线路尾纤反射或架内尾纤回损问题。

处理步骤

(1)更换A站点的接收OTUR,故障没有消失;更换B站点发送端的OTUT,故障也没有消失,排除单板问题。

(2)更换A站点ODU到OTUR间的尾纤故障依旧;更换B站点发送端OTUT与OMU之间的尾纤,故障没有消失,排除架内尾纤问题。

经过上面的排查后,怀疑线路尾纤反射过大、接头回损过大或者OA有问题(一般OA出问题的概率比较小)等原因。在保证系统OSNR符合要求及OTUR输入功率符合要求的情况下,按B、C、D、E的顺序改变OLA的输出功率,通过观察误码的变化趋势来缩小故障排查的范围。发现在改变D站点的输出功率后,误码的变化随着功率的增加而增加,随着功率的减小而减小。认为故障可能点在C、D之间,通过光纤替换法更换C、D之间的尾纤后故障消失。

其他说明

反射的影响在10Gbps系统中比2.5Gbps系统明显。10Gbps系统的速率比较高,反射光和入射光之间相互作用会对入射光产生“啁秋”,这样会影响业务信号的传输。反射问题通常也是比较隐蔽的,且无规律性,给已经上业务的系统带来故障诊断的困难。对于通道速率很高的系统,对每根光纤进行衰减、反射、色散的测试是必要的。

光纤的反射、单板连接器的回损都是依附在光纤和单板上的,在处理故障时(没有足够的测试仪表时)经常都是通过替换法来判断故障,最终问题几乎都可以归结为尾纤问题或者单板问题。

5.1.2光功率异常故障

在WDM设备维护和故障处理中,应熟悉光放大盘、光合波分波盘、光分插复用盘以及OTU等机盘的输入、输出光功率典型值,光放大盘的增益和光合、分波盘、光分插复用盘的插损等指标,以便在维护和故障处理过程中对各个光功率点、插损是否异常进行快速、准确的判断,迅速定位系统的光功率异常点。

采用不同的光发送模块,相应的输出光功率也略有不同,采用不同的光接收模块,相应的灵敏度和过载光功率不同,在维护及故障处理中要注意区分光发送模块和光接收模块的类型。常见华为波分设备中收发一体型的OTU机盘有四个光接口:Rx光接口、Tx光接口、IN光接口和OUT光接口,其中Rx光接口、Tx光接口分别是接收、发送客户侧的信号,IN光接口、OUT光接口分别是接收、发送波分侧的信号;常见中兴波分设备中收发一体型的OTU机盘有四个光接口:IN1光接口、OTU1光接口、IN2光接口、OTU2光接口。其中IN1光接口、OTU2光接口分别是接收、发送客户侧的信号,IN2光接口、OUT1光接口分别是接收、发送波分侧的信号。

光功率异常的处理步骤(以华为设备为例)

(1)检查OTU盘输入、输出功率是否发生故障:要熟知OTU盘的输入、输出功率的正常范围。

a. 检查OTU盘“Rx”口输入功率是否正常:若正常,转至下一步骤;若异常,则需排除客户侧设备输出功率故障、客户侧设备与OTU盘“Rx”口之间的光纤连接故障。

b. 检查OTU盘“OUT”口输出功率是否正常:若正常,则转至下一步骤;若异常,则更换OTU盘。

(2)排除OBA盘输入、输出功率故障。

a. 核对OBA盘“IN”口输入功率与网管查询的OMU盘“OUT”口输出功率是否一致:若一致,转至下一步骤;若不一致,则排除OBA盘与OMU盘之间的光纤连接故障。

b. 检查OBA盘的输出功率是否正常:通过网管读取OBA盘的输出功率值,将该值与网管配置的期望输出值对比,若一致,则转至下一步骤;若不一致,则更换OBA盘。

(3)排除对端OPA盘输入、输出功率故障。

a. 核对OPA盘“IN”口输入功率与记录的功率是否一致:若一致转至下一步骤;若不一致,则排除OPA盘与线路之间的光纤、光纤连接故障。

b. 检查OPA盘的输出功率是否正常:通过网管读取OPA盘的输出功率值,将该值与网管配置的期望输出值对比,若一致,则转至下一步骤;若不一致,则更换OPA盘。

c. 在OPA盘MON口检测各波光信噪比是否过低:若正常则转至下一步骤;若所有波道信噪比过低,则增大发端OBA盘的输出功率;若某波或某几个波信噪比过低,则减小上游站点OMU盘对应的输入功率衰减值。

(4)检查OTU盘“IN”口输入、“Tx”口输出功率是否发生故障:OTU盘的输入、输出功率是否正常。

a. 检查OTU盘“IN”口输入功率是否正常:若正常,转至下一步骤;若异常,则排除OTU盘“IN”口与ODU盘之间的光纤及连接故障,或者调整“IN”口前固定衰减器的衰减值。

b. 检查OTU盘“Tx”口输出功率是否正常:若正常,则转至下一步骤;若异常,则更换OTU盘。

c. 检查客户侧设备的接收功率是否正常:若正常,则联系当地客户侧设备维护人员做进一步判断;若异常,则需排除OTU盘与客户侧设备之间的光纤及连接故障,或者调整客户侧设备前固定衰减器的衰减值。

1. 故障现象

某工程为80Gbps波分工程,采用华为设备,如图5.9所示,其中A站到B站均为OTM站,中间没有OLA中继,全长150km,衰耗为37dB,A站和B站间有5波业务,全部配置为LWC单板。

图5.9 80Gbps波分工程组网

A站和B站间24小时误码测试通过,但通过网管发现B站收A站方向的LWC板的性能数据中出现很大的纠错数。但A站收B站纠错数为零。

2. 故障分析及排除

LWC单板是收发一体的OTU单板,其TI和TO口相当于TWC的IN口和OUT口,RI和RO口相当于RWC的IN口和OUT口,与TWC和RWC不同的是LWC采用了FEC功能(前向纠错功能),TO口和RI口是到DWDM侧的光口,速率为2.67Gbps,TI和RO口是到SDH侧的光口,速率为2.5Gbps。

LWC单板网管上的性能数据比TWC/RWC多了两项“FECCOR1 BIT”和“FECCORBYTE”,“FECCOR1 BIT”为纠错位,“FECCORBYTE”为纠错字节,如果接收端出现误码,可以通过FEC功能将误码纠正过来,降低对光信噪比的要求,一般信噪比为12dB都能正常解码。目前LWC一般配置在距离比较长、线路衰耗比较大的段,出现纠错数说明线路上出现误码。没有FEC功能的LWC就相当于TWC和RWC板的集成,所以按照正常组网,满足光功率和信噪比,LWC应该没有误码,也没有纠错数。

(1)用光谱分析仪测量收端的信噪比都在25~26dB,LWC收端激光器采用PIN管,光功率为-9dBm,在动态范围之内。

(2)测量A站和B站收端各通道波长,发现波长都在正常值范围。

分析:波长不稳定会干扰相邻通道,引起本通道和相邻通道产生误码,此项检测排除波长不稳定引起误码的原因。

(3)从网管上观察WBA和WPA上报的输入、输出光功率,发现双向的功放板的输入、输出参数一样,增大和减小光功率,纠错有变化,但没有消失,而且光功率越小,纠错数越大。

分析:误码不是由光纤的非线性引起的。

(4)更换WBA/WPA单板和LWC单板,纠错数有变化,但没有消失。

分析:与功放板和LWC单板没有关系。

(5)在A站和B站将SCA单板的RI和TO口交换,交换线路上的光纤,发现误码消失;再将SCA面板上的尾纤换回去,误码不再出现。说明故障是由于尾纤在SCA上没有接好导致。

3. 结论和建议

两根尾纤通过法兰盘对接时,很容易出现尾纤头对接出现缝隙,虽然光功率正常,但会造成很大的反射,这样虽然信噪比和光功率都正常,但还是会出现误码。

在连接尾纤时,一定要保证尾纤头干净,安装手条上的光口时一定要插紧,如果没有插紧,经常会由于这种小问题引起系统光功率过低导致中断或产生很大的误码。

5.1.3 业务中断故障原因

1. 单波道业务中断处理步骤

(1)排除OTU盘配置错误故障:检查OTU盘配置中的“FEC编码类型”,确保本、对端编码类型一致。

(2)排除客户侧设备故障以及客户侧设备与OTU盘之间的光纤连接故障。

a. 检测本、对端客户侧设备发送光功率是否正常,若正常转至下一步,若不正常则排除客户侧设备故障。

b. 检查OTU盘“IN”口的输入功率是否等于客户侧设备发送端功率+固定衰减器衰减值,若一致则转至下一步,若不一致,则排除客户侧设备与OTU盘之间的光纤及连接故障。

c. 检查客户侧设备的输入功率是否等于客户侧设备发送端功率+固定衰减器衰减值,若一致则转至下一步,若不一致,则排除客户侧设备与OTU盘之间的光纤及连接故障。

(3)排除OTU盘与分波盘之间的光纤连接故障:检查分波盘单波输出功率与OTU盘单波输入功率是否一致,若一致,转至下一步,若不一致,则排除OTU盘与分波盘之间的光纤及连接故障。

(4)排除OTU盘故障:若以上步骤仍不能解决问题,则更换OTU盘。

2. 处理网元业务全部中断故障方法

(1)排除外部故障。

a. 检查网元的电源是否存在掉电、电压波动范围过大、电源线损坏等故障,若存在,先排除电源故障。

b. 通过检查OSC/OPA盘是否有LOS告警、检查网元的线路光纤是否中断或严重劣化,若中断,则排除故障。

(2)排除线路功率、放大盘异常故障。

a. 检查本网元放大盘至ODF、ODU之间的光纤是否老化、光纤连接是否正常。

b. 在保证线路光纤、盘间光纤连接正常情况下,查询本网元放大盘输入功率、输出功率,若输入功率正常,但输出光功率过低,则更换放大盘;若放大盘输入变低导致其输出变低,则转至下一步。

c. 逆着信号流的方向,检测上游站点放大盘输入功率、输出功率,若输入功率正常,但输出光功率过低,则更换放大盘;若放大盘输入变低导致其输出变低,继续逆着信号流的方向,直至找出故障点。

5.1.4波分瞬断的分析与定位

目前,在波分设备的日常维护中,最难处理的是网络中的瞬断问题,出现瞬断现象的间隔时间不定,具有随机性,有时1~2个月出现1次,有时1周出现几次。瞬断产生时,网管上检测到只是1~2 s的RLOS告警。为避免影响网管的速度,一般网元的15分钟和24小时性能数据都不设置自动上报,只设置监视,但这样,单板检测到瞬断告警时的性能变化的时间很难确定;瞬断产生时,网管有时会检测不到,而且故障无法短时间进行重现定位。

产生瞬断不外两个原因,一是设备工作不稳定产生的,二是由于线路上的衰减出现突然的变化引起。瞬断问题分析和定位的思路是先排除线路的原因,再考虑设备的问题。怎样定位故障是设备问题还是线路问题将是我们分析的重点。

首先分析定位瞬断问题的原理:波分设备的监控信道信号不经过光放大器,监控信道与主信道是相互独立的,监控信道和主信道是在监控信道接入板(华为320 G是SCA单板,华为1600 G是FIU单板)上复用到同一根光纤中。参见图5.10,其中实线为主信道,虚线为监控信道。

图5.10 监控通道示意图

在发送端,主信道信号经过功放板(WBA)放大后,与监控信号处理板(SC2)输出的监控信号在监控信道接入板(SCA)上进行合波,再发送到线路上;在接收端,合波信号在SCA板上分波后,主信道信号接入到WPA上进行前置放大,监控信号接入到SC2板进行监控信号处理。监控信道处理板SC2的接收灵敏度指标为-48dBm,实际一般可以达到-51dBm,但WPA的灵敏度高于-32dBm,接收光功率低于-32dBm时则可能出现主信道中断。

如果线路上衰减值过大,由于监控信道和主信道的接收端灵敏度的差异,会出现以下4种情况:

(1)瞬断双向同时产生,而且监控信道和主信道都出现瞬断。

(2)瞬断双向同时产生,监控信道运行正常。

(3)瞬断单向产生,监控信道和主信道同时出现瞬断。

(4)瞬断单向产生,监控信道运行正常。

主信道和监控信道同时出现瞬断,说明瞬断的主要原因是线路上瞬间衰减增大造成的,如果光缆的质量不好或部分段落采用架空光缆,出现风雨天气时则极有可能出现同时双向瞬断。如果是设备的原因,由于监控信道和主信道光源相互独立,主信道和监控信道不可能同时出现瞬断,更不会双向同时出现。

对于第(1)种情况,最大可能是光缆衰减突然变化,引起双向线路上衰减都突然增大,同时影响到业务和监控通道,但线路不是永久性损坏导致,线路上的光功率在灵敏度功率范围内波动,当衰减恢复正常后,线路又恢复了。如果光缆的衰减不是非常稳定,有时较大,有时较小,由于监控信道和主信道接收灵敏度的差异,会出现衰减过大从而影响业务通道,不影响监控通道,即第(2)种情况。单向的光纤出现衰减突变时会产生第(3)种情况,如机房人员施工或维护时不小心动过线路尾纤等。第(4)种情况说明只是主信道出现瞬断,如果是设备的原因则会出现该现象。

5.1.5 网元脱管分析

网元脱管最常见的有以下3种情形:

(1)单个网元脱管。

可能的原因有:AUX故障;HUB或者网线不通;IP/ID被误改动,主控板故障。

(2)子网所有网元脱管。

可能的原因有:AUX/HUB故障;网线不通;网管IP/ID被误改动;光缆故障。

(3)网元频繁脱管。

可能的原因有:网元IP冲突;ECC通信不畅;ECC负荷过重;网元用户登录冲突。

5.1.6 ECC故障分析

网管(NMS)和网关网元(GNE)之间运行的是TCP/IP协议,网关网元(GNE)和非网关网元(NE)之间运行的是ECC协议。常见的ECC故障有以下3种情形:

(1)ECC通信中断。

可能的原因有:网元ID重复;OSC单板的尾纤故障;SCC/OSC故障。

(2)ECC时断时通。

可能的原因有:时钟跟踪设置错误。

(3)主控板频繁复位。

可能的原因有:网络规模过大导致ECC负荷过重。