1.2.2 大型计算机
1.计算机集群技术
大型计算机主要用于科学计算、军事、通信、金融等大型计算项目等。在超级计算机设计领域,目前主流设计思想是采用计算机集群结构(占超级计算机的90%以上)。
计算机集群(Cluster)技术是将多台(几台到上万台)独立的计算机(大多为PC服务器),通过高速网络组成一个机群,并以单一系统模式进行管理,使多台计算机像一台超级计算机那样统一管理和并行计算。集群中运行的计算机并不一定是高档计算机,但集群系统却可以提供高性能的不停机服务。集群中每台计算机都承担部分计算任务,因此整个系统的计算能力非常高。同时,集群系统具有很好的容错功能,当集群中某台计算机出现故障时,系统可将这台计算机进行隔离,并通过各台计算机之间的负载转移机制,实现新的负载均衡,同时向系统管理员发出故障报警信号。
计算机集群一般采用专用操作系统(90%的计算机集群采用Linux)和集群软件实现并行计算。计算机集群系统的价格只有专用大型计算机的几十分之一。计算机集群具有可增长特性,也就是可以不断向集群中加入新的计算机。计算机集群提高了系统的稳定性和数据处理能力,绝大部分超级计算机都采用集群技术。少部分大型计算机采用专用的系统结构。
2.超级计算机系统
2012年6月,美国IBM公司生产的“红杉”(Sequoia)超级计算机集群荣获世界最快计算机桂冠。“红杉”超级计算机占地约318m2,在96个机柜中集合了大约160万个处理器和超过1.6TB的内存。“红杉”的持续测试达到了16324万亿次/s运算,峰值运算速度高达20132万亿次/s运算。“红杉”的运算能力相当于200万台采用Intel双核处理器笔记本式计算机的运算量。“红杉”运行1h的数据量,需要全世界人用计算器算上320年。“红杉”主要用来进行模拟核试验,避免进行地下核试验。它目前安装在美国能源部所属的劳伦斯利福摩尔国家实验室。
图1-14所示为我国国防科技大学研制的“天河二号”(Tianhe-2)超级计算机,2013年6月排名世界500强计算机第1名(天河一号计算机曾经在2010年世界排名第1)。天河二号的峰值计算速度为每秒54902.4TFLOPS(万亿次浮点运算),持续计算速度为每秒33862.7TFLOPS。天河二号造价达1亿美元,整个系统占地面积达720m2,整机功率为17.6MW。
图1-14 “天河二号”超级计算机
天河二号共有16000个计算结点,安装在125个机柜内;每个机柜容纳4个机框,每个机框容纳16块主板,每个主板有2个计算结点;每个计算结点配备2颗Xeon E5 12核心的中央处理器,3个Xeon Phi 57核心的协处理器(运算加速卡)。累计32000颗Xeon E5主处理器和48000个Xeon Phi协处理器,共312万个计算核心。
天河二号的每个计算结点有64GB主存,每个协处理器板载8GB内存,因此每个计算结点共有88GB内存,整体内存总计为1375TB。硬盘阵列容量为12.4PB。天河二号使用光电混合传输技术,由13个大型路由器通过576个连接端口与各个计算结点互连。天河二号采用麒麟操作系统(基于Linux)。