1.4 CPS的典型事故案例分析
1.4.1 轨道交通系统事故案例
1.北京地铁故障案例分析
北京地铁10号线是继2号线以后的第二条环线地铁,是北京也是中国目前最繁忙的线路之一,该线位于北京三环路与四环路之间,全长57.1km,全部为地下线,设45座车站。10号线分两期建设,第一期于2008年7月开通,第二期于2013年5月开通。2013年5月5日,从10号线巴沟站首班车启动时刻,10号线由“C”形变为“O”形,环行全程运行时间约104分钟,设计最小行车间隔90s,运营最小行车间隔为2分15秒至4分30秒。
通过对北京地铁故障数据进行统计分析得知,2013年北京地铁16条线路故障总计30次,其中10号线占15次,这其中信号故障11次,其他故障4次。这些故障中有10次发生在早高峰时段,3次发生在晚高峰时段(见表1-2)。自环线贯通至2013年年底,涉及信号、列车、道岔、设备的较严重故障达11次,平均约每月一次,绝大部分发生在市民上下班高峰时段,仅10月一个月就高达7次。
表1-2 北京地铁10号线故障数据
故障原因包括以下几个方面。
第一,由于10号线是分时分段开通的,对早期信号系统的升级和新系统的完善需要新的磨合期,导致故障频发。
第二,按照现有能力,北京市轨道交通的运载能力已达到饱和,尤其是早晚高峰时段,而庞大的客流量使得行车间隔不得不缩短,易加速设备磨损,加大运行故障的几率。地铁方面称,10号线目前最高日客运量已经超过200万人次,工作日日均190万人次使得系统超负荷运行,加剧了运行故障的发生。
第三,信号系统维修的困难巨大。目前10号线信号系统使用的是国际上最先进的CBTC系统,供应商是德国西门子公司,其中关键技术都只有外方掌握。引进系统在国内的集成验证平台欠缺,核心代码修改需要在国外完成,因而一旦出现问题,地铁公司自己不能直接快速解决,这是一些故障解决迟缓的重要原因。
2.动车事故案例分析
2011年7月1日,全国铁路调图。全国铁路将开行旅客列车2128.5对,增加了195对;全面实施了“3种混合运行”的列车开行新模式:① 在时速300km/h的高速铁路上,同时开行时速300km/h和时速200~250km/h两种动车组列车;② 在时速200~250km/h的线路上,同时开行时速200~250km/h动车组列车和时速120~160km/h普通客车;③ 在时速200km/h及以下线路上,开行普通客车和货物列车。在此背景下,京沪高铁通车。2011年7月10日,京沪高铁G151次往上海方向列车在山东省境内发生停车断电事故,造成当天19趟列车晚点。2011年7月12日,京沪高铁安徽省境内“供电设备发生故障”,造成多趟列车停车和晚点。2011年7月13日,由上海虹桥开往北京南的G114次列车,运行至常州北站突发故障,列车无法正常运行,经及时换车处置,未影响京沪高铁其他列车正常运行。但受故障影响,G114次列车预计17时到达北京南站,晚点2小时30分。
2011年7月23日晚8:30左右,甬温线永嘉站至温州南站间,北京南至福州D301次列车与杭州至福州南D3115次列车发生追尾事故,导致D301次1、2、3列车厢侧翻,从高架桥上坠落,毁坏严重,4车厢悬挂桥上,D3115次15、16车厢损毁严重。事故造成40人死亡,200多人受伤,D301次列车司机当场死亡。经调查和事故认定结果得知,该事故原因首先是列车控制中心设备具有严重设计缺陷,因雷击导致的轨道电路设备故障未能察觉,导致后续时段轨道实际有车占用时,列控中心设备仍按照无车占用状态进行控制输出;同时轨道电路发送器与列控中心通信故障,导致占用轨道列车无法通过人工控制按时驶离事故路段,最终酿成重大事故。
动车控制系统结构如图1-6所示。
地铁系统与铁路运行系统均属于轨道交通系统,是典型的 CPS,尤其是列车运行的信息采集与监控系统负责严密监视整个系统的运行状态,应能在发生问题时及时根据状态信息进行应急响应、制定故障控制策略、避免事故发生,其故障小则导致经济损失,重则酿成事故、带来人员伤亡,对国家和城市的可靠与安全生产运营影响巨大。全国调图、地铁环线全线贯通这些行为本身就是复杂系统的突变,原有的运行机制是否能够平稳过渡就在其中起到至关重要的作用。然而,由于缺乏有效的预先评估,未能及时预测负载突然增加和变更后的调度机制是否安全可靠,以“正点到达”和“经济利益为优先”的目标与原则,以及应急预案的不完备导致了上述事故接连发生。
图1-6 动车控制系统
1.4.2 工业控制系统事故案例
以网络和智能控制技术为核心的工业控制系统,如核电站仪控系统、石油管网的信息采集与监控系统(简称为SCADA系统)也是目前已部署的典型CPS之一。工业控制系统已经成为涉及民生和国家安全的重大、关键基础设施的心脏和大脑,其安全问题在西方发达国家受到了越来越高度的重视。从克林顿 1998 年签发《关键基础设施保护》总统令(PDD-63),到奥巴马2009年5月29日公布的《网络空间政策评估——保障可信和强健的信息和通信基础设施》报告,美国将关键基础设施的安全与网络安全紧密联系在一起,在国家安全战略高度上进行了周密部署。欧洲对控制系统安全问题也高度重视,欧盟成立了专门的机构ENISA,于2011年12月发布了针对其成员国的《工业控制系统安全保护建议》。随着“网络战”和“制网权”概念的提出,西方发达国家将控制系统的安全技术作为新的干预和制衡的手段。第一次海湾战争中,美国特工利用伊拉克购买的一批打印机途径安曼的机会植入病毒芯片,在“沙漠风暴”行动中通过无线网络唤醒这些“潜伏”的打印机,使伊拉克的防空体系陷于瘫痪,多国部队如入无人之境。在2008年8月俄格冲突中,俄罗斯同时发动网络攻击与传统战争,对格鲁吉亚的指挥通信、电力供应系统、武装力量进行并行打击,在最短的时间内结束战斗,干净利索地取得战争胜利。2010年,一种名为“震网”的蠕虫病毒入侵了伊朗布什尔核电站,20%的离心机报废,伊朗大约 3 万个网络终端被感染。“震网”蠕虫病毒侵入西门子为核电站设计的SCADA系统,意在夺取核电设备的控制权,意图就是发达国家利用工业控制系统的安全漏洞遏制伊朗核技术发展。
1.4.3 电力系统事故案例
1.美洲大停电事故
2003年8月14日美国东北部和加拿大东部互联电网发生大面积停电事故,在停电29小时后恢复供电。这场事故共损失6180万kW负荷,263座电厂531台发电机停运(包括10座核电站19台核电机组),约5000万人受到影响,造成超过300亿美元的经济损失,这是世界电力史上规模最大、影响范围最广的一次停电。2006年11月4日欧洲大陆互联电网发生大面积停电事故,共造成11个国家的1500万用户停电。2011年9月8日,美国西南部发生大停电事故,包括美国、墨西哥部分地区在内超过500万用户受到影响,由于正值“9.11”恐怖事件10周年前夕,这不仅给居民生活和企业生产带来了严重影响,也给社会民众造成了一定的恐慌情绪。
经过分析可以发现,3起大停电事故均是由于单一故障触发(无论是设备故障、软件运行错误还是外界环境影响),引起潮流瞬时转移、电压大幅波动、设备负载越限,逐步导致一系列保护和安全自动装置动作,先后造成变压器、输电线路、发电机和负荷的自动切除,最终使得至受电区域的主通道严重过载并自动解列。这是由一系列互为因果的事件形成的故障发展过程,属于典型的“级联失效故障”。同时,在事故过程中,由于监测系统的不完善,无法向工作人员提供可靠的、足够的和及时的系统状态信息,以至于丧失了一个又一个挽救的机会。
2.欧洲互联电网大停电事故
2006年11月4日欧洲当地时间22:10,欧洲大陆互联电网(UCTE)发生大面积停电事故,共造成11个国家的1500万用户停电。从波及的国家数量上来说,本次事故是欧洲互联电网有史以来最严重的一次电网事故。
事故中整个欧洲互联电网解列成东部、西部和南部3块孤岛电网。西部电网短时内缺失功率将近20GW,频率最低降到49Hz;北部电网富余功率则超过10GW,频率最高升到50.6Hz;南部电网则供需大体平衡。事故发生后,UCTE 电网的安全防线,包括一次、二次、三次调频以及甩负荷机制,在关键时刻发挥重要作用,抑制了事故的进一步扩大,使得电网没有崩溃。在事故发生 40 分钟后,3 块孤岛逐步重新互联。大多数停电用户在 30分钟之内恢复供电,最慢的也在1小时之后恢复了供电。