企业自动驾驶网络架构与技术
上QQ阅读APP看书,第一时间看更新

1.3 网络管理发展遇到的桎梏

企业的持续发展与网络管理紧密相关,稍有不慎就可能会蒙受巨大损失,特别是对于一些大中型企业,IT设备和系统多而复杂,需要计算、网络、存储、安全等管理系统的协同,一体化地为业务提供基础支撑。然而,企业维护和管理有效的网络正面临着严峻的挑战。

近些年,计算和数据中心基础设施在很大程度上率先采用了更快速且更灵活的自动化方法,以私有云、公共云和混合云为策略的部署模式已经成为数字化转型的前提条件之一。数字化转型不可避免地会对网络产生新的需求,涉及可扩展性、敏捷性、安全性和洞察力等诸多方面,以适应云、移动、物联网和新型数字化业务模式。但是如今大多数网络都旨在提供快速、可靠的连接,而不是满足这些新需求,以至于网络成为许多组织数字化转型过程中的薄弱环节和制约因素。

网络亟须优化调整,以便与组织的业务目标保持一致,在满足业务需求的同时,能够快速响应业务策略。事实上,网络决不应该是IT基础设施的薄弱环节,而是有机会成为推动数字化转型的要素中最有价值的一环。如果没有网络将利益相关者与下一代通信技术和数据联系在一起,就会失去相关优势。许多IT领导者都已经认识到了网络转型所带来的机遇。在最近的一项调查中,国际数据公司(International Data Corporation,IDC)发现全球45%的组织计划在两年内迅速采用自动化程度更高并且能够“自驱动”的网络,从而更好地满足数字化业务的需要。

然而,目前大多数网络运维还处于初级阶段,网络管理分散,资产管理、配置管理、作业管理、工单管理等系统互相独立,需要分别维护,效率低。网络结构、配置、拓扑、链路状态的不可见,使网络运维人员只能依赖经验和记忆,这为网络变更和排障留下了大量隐患。网络运维人员每天就像救火一样,疲于奔命,“网络怎么又断了”“网速慢得跟乌龟爬一样”“应用交易怎么超时了”等类似的埋怨声在网络运维人员耳边回荡。传统的网络运维每天都是针对不同的厂商设备执行不同的命令,网络运维人员只能埋头查找系统运行的日志,检查告警、配置、变更记录,耗时耗力不说,有时候忙了半天还一无所获。以上这些场景给网络运维人员带来了巨大的工作压力。与此同时,随着企业业务的增多,业务系统变得复杂,网络设备涉及的种类越来越多,对网络运维人员的需求也翻了数倍,这给企业带来了巨大的成本压力。我们可以看到,目前企业在网络管理方面存在着以下几个共性问题。

1.治标不治本

网络运维设施故障往往是突发、随机、不可预测、不可控制的,也很难自动提醒和告警。网络运维和管理人员成天处于高度紧张状况,节假日也提心吊胆。一旦发生故障,他们往往手忙脚乱,来不及仔细多方面观察、分析原因,也无法很快准确定位。为了尽快恢复业务,只能采取运维“三板斧”——隔离、切换、重启等不可回溯操作。这种治标不治本的维护措施,不能从根本上解决问题,类似现象仍然可能再次发生。

2.没有排错记录

很多网络运维和管理人员没有记录的习惯,这样事后查找原因缺乏排错记录,就算找到一些痕迹,也难以进一步分析数据,因为故障很可能不会再现,所以很难捕捉有效信息。要在生产环境模拟故障业务几乎是不允许的,而开发环境又很难模拟和再现。从少量、片面的系统日志很难看出问题症结,缺乏自动实时捕捉问题关键点并忠实记录的工具,造成问题发生后无法回溯,难以找到头绪来解决问题。

3.缺乏统一的规范要求

出现问题时解决办法因人而异,缺乏方法和工具,无法制定统一的规范要求,对专家解决问题的经验缺乏记录、整理、积累和继承。从保障稳定方面看,必须高成本保持足够数量的专业运维人员,工作安排松了,不利于人员的发展和稳定,但安排太紧,又无法保证及时响应和解决问题。

4.应对危机太被动

对反映的问题和解决状况缺乏统一管理和跟踪,全靠个人素质和责任感,无法衡量、统计员工的业绩贡献,也无法发现哪些问题对系统稳定性影响最大,对于造成问题的因素是在积累还是在减少,更是缺少预警提醒机制,只能被动无序地等待问题发生,甚至问题很严重了才意识到。

5.人工作业

手动网络配置效率低下,通常以周为单位进行交付,无法应对当今瞬息万变的市场环境。另外,人工作业可能也会导致不一致、配置错误和网络不稳定的问题,问题发生后,还需要依靠人工敲命令的方式进行故障排查,导致平均修复时间(Mean Time To Repair,MTTR)过长,所以依靠人工作业难以提供数字业务运营所需的高水平服务。

回到企业网络本身,解决网络管理发展滞后带来的种种问题更为迫切。按应用特性,企业网络可以划分为三大类,分别是园区网络、数据中心网络和广域网。园区网络主要负责连接各类终端设备,包括传统IT终端和各类物联网终端,这些终端设备通过园区网络进行连接,实现互通,并能访问互联网和公司应用。数据中心网络主要以应用承载为主,为企业和企业客户交付各类业务,网络主要负责连接服务器和存储等设备,保证数据中心内数据高速交换和园区与数据中心间的互访。广域网用于连接园区和园区、园区和数据中心、数据中心和数据中心的网络,侧重于园区网络和数据中心网络外部的连接与互通。

三大类企业网络面临的挑战主要来自以下几个方面。

1.园区网络面临的挑战

现在全球企业园区数字化正进入快车道,端到端业务的体验保障和运营管理是园区数字化面临的挑战。而网络是这一挑战的基础:高性能网络是保障体验的基础;网络智能管理是提升运营效率的基础。根据IDC的一项调查,在制造、金融、零售、交通、教育、医疗、能源、政务八大行业里,700家受访企业中,有76%的企业有园区网络改造的诉求,但同时又受限于网络技术复杂、人员技能不足以及资金短缺,这使得园区网络的智能化改造无法启动,进而造成企业数字化进程严重滞后。传统园区网络已无法应对数字化带来的新挑战。

当前园区正向万物感知、万物互联、万物智能的智慧化园区方向发展。为了保证企业业务的连续性,网络要保证随时随地就绪,而低效率的网络部署与新业务开通,使得园区网络响应滞后,无法满足数字化转型的敏捷、高效诉求。同时,日趋复杂的网络结构与简单原始的管理手段,使得园区网络的运维难度日益增加,运营成本(Operating Expense,OPEX)占比居高不下,数字化转型需要网络管理简单、运维方便,从而适应业务多样化。

根据分析师的预测,到2025年,全球72%的企业会部署Wi-Fi、开展移动办公。传统的园区网络个人计算机(Personal Computer,PC)、终端通过有线接入,位置固定、策略固定,网络流量和路径也更容易规划和保障。而实现无线化之后,员工流动性增大,接入位置增加,体验变化更动态。如何保证通过Wi-Fi接入网络的体验和原来通过固定网络接入的体验一致是关键问题。

根据Gartner的预测,2025年,全球80%的应用都会上云部署。应用上云以后,从终端到应用的路径变长,对网络的性能要求更高;同时,千行百业的场景会放大对网络的差异化要求。比如,金融、政务行业关注高可靠、高安全,游戏企业关注低时延等。应用上云后如何获得和原来本地部署一样的业务体验,是关键的挑战。

随着诸如摄像头、闸机、门禁等越来越多的物联网设备接入,办公网与物联网相互融合,连接数激增,对海量物联网终端的接入管控变得愈发复杂。以安徽某高校为例,随着智慧教学和校园服务的发展,学校引入智慧教学、智慧服务、智慧环境等多种应用,除摄像头、人脸闸机等终端外,还增加了智能门禁、教学录播、环境控制等各类终端30多种、10余万台;终端覆盖广且分散部署,在终端管理上存在资产更新不及时、私搭乱接严重、安全漏洞频现等诸多隐患,靠传统的管控方式已经无法应对。

2.数据中心网络面临的挑战

在企业信息化进程快速推进的同时,企业数据中心OPEX随着网络规模的扩大而逐年增加,网络运营在规划、建设、维护和优化各阶段仍严重依赖于人员经验和技能,结构化矛盾日益凸显。通过与TOP 30金融客户的深入探讨,我们发现数据中心平均每千台设备的运营维护需要约30名工程师。另外,数据中心也存在业务体验难以管理的巨大挑战,网络部门收到的用户投诉一半以上与业务体验问题有关。通过对数据中心网络全生命周期进行研究和分析,识别出不同阶段面临的如下重大问题。

规划阶段:企业数据中心网络在未来3年仍处于高速建设期,服务器规模将翻倍增加。网络设计人员需要完成将业务需求转化为网络设计、评估应用安全要求、规划网络资源使用等烦琐工作,这消耗了企业中约一半的网络人力,急需通过系统化、自动化手段改变人员疲于奔命的状态。

建设阶段:一方面,随着云化业务量大幅上升,业务上线周期由原来的周级提升至天级,压力日趋增大;另一方面,企业关键核心业务对可靠性要求极高。据Gartner统计,近40%的网络事故由人为失误导致,如何保障配置发放的正确性至关重要。以某银行网络为例,2019年累计变更配置14 500余次,变更工作量巨大,已超出人工处理极限,应接不暇的变更评审使变更成功率不断下降,造成5起网络中断事故。

维护阶段:当前企业数据中心网络大多采用4个9(99.99%)高可用标准,即数据中心网络全年中断时间应少于26 min;部分核心业务应达到5个9(99.999%)标准,即全年中断时间应小于5 min。为此,金融行业、运营商及一些大企业均提出5 min故障快速修复的目标。然而,当前企业网络维护智能化改造进程明显慢于业务自动化进程。云化业务弹性发放及虚拟机(Virtual Machine,VM)迁移带来网络访问与流量的动态变化,给网络运维增大了难度。传统网络运维依靠告警、事件和日志等信息,无论是状态信息丰富度,还是监测周期(10 min),都无法满足云数据中心网络的运维要求。

优化阶段:一方面,云数据中心网络业务变化加快,网络、安全资源使用易存在局部热点,如不及时调度,将可能导致业务上线失败;另一方面,AI训练、大数据、高性能计算(High Performance Computing,HPC)和分布式存储等新兴业务规模上线,应用之间点到多点分发式通信模式增多,导致网络微突发情况加剧和亚健康状态频发,严重影响业务运行效率。当前网络状态评估、业务预测、补丁升级等工作仍严重依赖人工经验,存在滞后性,无法及时排除潜在风险,造成业务体验差。

3.广域网面临的挑战

企业连接专线仍然是主流的架构选择,因其性能指标水平较高,可以使核心业务得到保证,而民用通信服务通常无法保障企业级各类数据传输的稳定性。随着企业业务愈发依赖多平台与混合链接方案,专线由于其高度依赖人工配置且部署周期长,已难以跟上当今的企业运营节奏。

从架构的敏捷程度来看,专线的解决方案缺少灵活或可扩展的连接能力,无法及时满足带宽变化的需求。

从管理的角度分析,当前架构也存在诸多挑战,例如,运营商不同连接点的并存不利于统一管理与可视化分析,导致对根源问题的排查困难,故障难以得到及时处理,难以实现跨国链路的优化。

此外,基于下一跳的路由算法链路调度能力不足,使得关键业务无法得到保障,类似远程通信、远程办公等使用场景时常发生通信质量不稳定、连接不顺畅等问题,用户体验较差。

另外,当前架构在线路利用率上也表现欠佳,负载均衡不成熟而导致成本开支略大。与云的连接使得对网络品质的要求发生了质的飞跃,快捷上云与跨云连接的整体解决方案也需要加速发展。

总而言之,随着企业业务的数字化普及,传统网络面临着前所未有的挑战,网络的自动化需求在不断增多,企业需要搭建更先进的网络架构来满足业务的需求。如何从零开始逐步向网络自动化运维过渡?如何提高网络运维的效率?如何提升网络操作准确性以及网络业务可用性?自动化和智能化的网络能够有效应对以上挑战,它已经成为未来网络的演进方向。

网络管理的发展需要借助多方能力和技术(包括自动化、人工智能、大数据分析、知识图谱等),从而才能实现数字化网络,做到主动维护和故障“自愈”。面对这种情况,自智网络应运而生,2019年,TMF(TeleManagement Forum,电信管理论坛)成立了“自智网络项目”(Autonomous Networks Program),其目的是构建业界领先、端到端网络自动化、智能化的方法,帮助运营商简化业务部署,推动网络Self-X(自服务、自发放、自保障)能力全面提升,为垂直行业和消费者用户提供Zero-X(零等待、零接触、零故障)体验,真正意义上实现《自智网络白皮书3.0(中文版)》中所提及的“将复杂留给供应商,将极简带给客户”。

华为针对自智网络产业,凭借多年来在ICT领域不断深耕的一线经验,结合众多领域,贯穿融合多方技术,提出了自动驾驶网络(Autonomous Driving Network,ADN)解决方案,旨在加速网络自治,助力企业成功实现数字化转型。