互联网基础资源技术与应用发展态势(2021—2023)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

算力网络

郑纬民

算力是数字经济的主要生产力,是数字经济的底座,和高铁、5G一样对国民经济具有强大的推动作用。算力赋能数字经济就是提高算力的利用率和质量,从而促进经济数字化的创新与发展。

随着国内各地的基础设施不断完善和计算机数量日益增加,一个自然的想法是将这些计算机连接起来组成算力网络,进行统一管理和统一使用。这涉及两个关键因素:一个是算力,另一个是网络。

算力就是计算的能力。当前主要有三大类算力:第一类是HPC算力(超算算力),即超级计算机算力;第二类是AI算力(智算算力),专用于处理人工智能问题;第三类是数据中心算力(基础算力),即数据中心所拥有和能够提供的计算能力。

一、HPC算力

HPC算力在某种程度上是一个国家综合实力的体现,它能处理最困难的计算问题。

我国的超级计算机是我们向外界展示综合国力的一张名片。在过去的十年里,我国在顶尖超级计算机系统的研制和部署数量上,一直处于国际领先地位,在应用领域也取得了显著成就。2014—2021年,我国共有3个项目入选国际超级计算最高奖项——“戈登·贝尔”奖(ACM Gordon Bell)。2018年,习近平总书记在两院院士会议上提到,搭载国产芯片的“神威·太湖之光”获得了高性能计算应用最高奖“戈登·贝尔”奖,这表明我们在超级计算应用方面取得了重大突破。在2022年TOP 500最快计算机排名中,我国上榜162台,排名世界第一。

目前,我国已经建立了13个国家级超算中心,包括北京、上海、广州、天津等地的超算中心,形成了庞大的计算规模。

虽然我国超级计算机技术发展迅速,但超算的应用有待改进,还有很长的路要走。超级计算机在理论峰值上具有世界领先的计算能力,但其实际运算速度只能达到理论峰值的10%~20%,要解决这一世界性难题,我们要在软件上实现突破,制造出另一台“超级计算机”——超算软件,提升计算机的实际运算速度。

二、AI算力

AI算力是专用于人工智能计算的算力。人工智能计算机是近年来新兴起的一种概念。2020年4月,国家发展和改革委员会明确将人工智能纳入新基建,人工智能作为新基建,同高铁、5G信号塔、高速公路这些传统基建一样需要大量的资金投入,其资金应主要用于建设能处理人工智能问题的计算机。

为解决HPC计算机在处理人工智能问题方面的低性能问题,人工智能计算机应运而生,因其在解决人工智能问题方面的出色表现,AI算力得到飞速发展。

AI应用主要分成三大类。一是图像检测,如人脸识别,这类应用对推动国民经济发展和保障国家安全具有强大支撑作用。二是决策类应用,主要用于辅助决策者做出决策。以上两类AI应用对算力的要求不高,不需要大型计算机支撑也可以落地实施。三是自然语言处理,主要指自然语言处理的大模型,如ChatGPT,此类大模型的“大”主要反映在参数数量上。从2019年GPT-2的15亿个参数增长到2020年GPT-3的1700亿个参数,参数越多,训练所需的计算机规模越大、效果也越好,更趋近于人类的思维。因此,自然语言处理的应用需要大型计算机的支撑。

近年来,人工智能产业发展迅速,规模越发庞大,国内有超30个城市在陆续建设人工智能超算中心。与此同时,我国的人工智能产业面临的风险也日益凸显:一是我国人工智能企业面临着来自美国的巨大的“卡脖子”风险。为限制我国人工智能技术的发展,美国将华为、海康威视、科大讯飞、大华等领先的人工智能企业列入了实体清单;二是在人工智能服务器芯片市场上,我国所占的市场份额相当有限。以2021年为例,我国人工智能服务器芯片的总出货量为100万片,而国产芯片的出货量不足5万片,来自美国英伟达的芯片占据了约95%的市场份额;三是我国当前市场上使用的人工智能算法开发框架90%以上来自美国。

三、数据中心算力

当前,我国各地涌现出大量的数据中心,每个数据中心内部配备了数十万台甚至上百万台计算机。这些计算机的算力通过云计算出租机器、出租软件等方式得以充分利用,目前已成为一项极为重要的算力资源。

四、算力网络

上述三种算力的计算机呈现出融合趋势。首先,科学人工智能的出现使得HPC程序中包含了深度学习软件;其次,深度学习软件需要人工智能计算机作为支撑;最后,数据处理需要数据中心计算机来完成。因此,在不久的将来,三种算力的计算机很可能会实现整合。

算力网络旨在通过网络将全国各个计算中心连接起来,形成一台“庞大的计算机”,但这一目标的实现还面临许多困难与挑战,就此提出三点建设建议。

(1)并网建设。要将全国的计算中心连接起来,一个必要的前提条件是高带宽、低时延。当前,国内各计算中心之间还没有建立联系,这给大数据传输带来了极大的不便。例如,要将4TB原始数据从北京传输到无锡,即使使用目前最快的网络,并且保证网络无故障,传输时间也将高达5天,费用更是大幅度高于实体快递。因此,当前需要提高算力传输效率,通过并网实现高带宽、低时延的算力互联,使各城市间能够以较低的价格进行数据快速传输。

(2)统一的资源管理调度软件。将全国的计算中心连接起来组成一台“大计算机”后,需要进行调度管理,以保证各类软件在任一计算中心均可运行。当前,国内各计算中心的基础设施多为异构,只有通过统一的资源管理调度软件才能实现算力互通。

(3)更多的服务软件。当前,国内的计算机多以出租机器的形式使用,导致计算机利用率普遍偏低,内蒙古、宁夏、甘肃、贵阳等地的计算机利用率更是不超过30%。与之相反,国内的机器类服务需求却居高不下,如数据灾备。因此,需要研制更多的服务软件,使国内的计算机得到更有效的利用。

(根据在2023年6月3日中国互联网络信息中心举办的“未来互联网发展研讨会”上的发言整理)