第1章 FPGA技术分析
1.1 芯片架构的演变
FPGA,英文全称是Field Programmable Gate Array,中文意思是现场可编程门阵列,是在PAL(Programmable Array Logic,可编程阵列逻辑)、GAL(Generic Array Logic,通用阵列逻辑)、CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)等可编程器件的基础上进一步发展的产物。作为ASIC(Application Specific Integrated Circuit,专用集成电路)领域中的一种半定制电路,FPGA既弥补了全定制电路的不足,又克服了原有可编程器件门电路数目有限的缺点。
FPGA的两个主要特征就体现在其名称中,即“现场”和“可编程”。“现场”意味着工程师只需要一台计算机,安装了FPGA厂商提供的开发软件,外加焊接了FPGA芯片的板卡,即可完成从模型搭建到生成烧写文件的全过程;“可编程”意味着工程师可以根据设计需求,通过编程方式把FPGA内部逻辑块连接起来,这就好比把一个电路试验板放在了一颗芯片里。一个出厂后的成品FPGA内部的逻辑块和连接可以按照工程师的需要而改变,所以FPGA可以完成特定的逻辑功能。更重要的是这种编程是可以反复操作的,即编程、除错、再编程。正因为如此,FPGA也被称为“液体硬件”。
一般情况下,FPGA比ASIC的速度要慢,实现同样的功能FPGA需要的面积更大,功耗也更高。但相比于ASIC,FPGA的优势也很明显:①快速成品——这有助于缩短产品上市时间;②反复编程——这使得工程师可以根据设计需求修改电路功能,同时也有助于除错;③较低的调试成本——厂商开发工具如Vivado,下载器如Xilinx Platform Cable Usb,外加FPGA板卡即可进行调试。
FPGA芯片起源于Xilinx(赛灵思)公司。1985年,首款FPGA即赛灵思XC2064,采用双列直插式封装,也称为DIP封装(Dual In-line Package),如图1-1所示,只包含64个可配置逻辑模块,每个模块含有两个3输入查找表(LUT:Look-Up Table,后文介绍时“查找表”和“LUT”会交替使用)和一个触发器(FF:Flip-Flop,后文介绍时“触发器”和“FF”会交替使用)。按照现在的方式计算,该器件有64个逻辑单元——不足1000个逻辑门。这也构成了早期FPGA的基本架构:可配置逻辑模块(CLB:Configurable Logic Block)、开关矩阵(Switch Matrix,也称为Switch Box)、互连线(Interconnect Wires)和输入/输出引脚,如图1-2所示。较为简单的结构决定了其主要扮演胶合逻辑的角色。
图1-1
图1-2
在摩尔定律的推动下,Xilinx在2001年推出了基于150nm工艺制程的Virtex-II FPGA,最大亮点是嵌入了硬核的18×18的有符号数乘法器和18Kb的Block RAM(简写为BRAM),如图1-3所示(图中未包含布线资源和输入/输出引脚)。其中XC2V8000中包含168个乘法器和168个Block RAM,这大大提升了FPGA的计算能力。
图1-3
时隔一年,也就是2002年,Xilinx推出了基于130nm工艺制程的Virtex-II Pro FPGA,在Virtex-II的基础上嵌入了硬核PowerPC 405处理器(简写为PPC405),这是当时IBM公司的RISC CPU(Reduced Instruction Set Computer,精简指令集中央处理器),主频最高可达400MHz。同时,在接口方面,Virtex-II Pro集成了硬核高速收发器,传输速率最高可达6.25Gb/s,如图1-4所示。其中XC2VP70所包含的高速收发器个数达到了20个。
图1-4
2004年,Xilinx推出了基于90nm工艺制程的Virtex-4 FPGA。采用了基于列的ASMBL(Advanced Silicon Modular Block)架构,如图1-5所示,极大地提升了FPGA的可编程能力,使得其成为ASIC的强有力的替代者。FPGA也由胶合逻辑的角色变为平台级产品。通过不同列(CLB列、DSP列、BRAM列、GT列等)的组合,Virtex-4 FPGA形成了三个平台级家族:LX、FX和SX,给用户提供了多种选择以应对不同的应用场景。其中,LX面向高性能逻辑应用,CLB列会更多一些,XC4VLX200中的逻辑单元(Logic Cell,1个Logic Cell等于1个4输入LUT+1个触发器+1个进位链)达到了200 448个;SX面向高性能数字信号处理,DSP列会更多一些,XC4VSX55中的乘加器多达512个;FX面向嵌入式应用,增加了GT列,内部嵌入了硬核PowerPC处理器PPC405,主频可达450MHz。和Virtex-II Pro相比,Virtex-4 FPGA扩展了乘法器的功能,将乘法器变为包含48位累加器的乘加器,这可以看作第一代DSP48。DSP48在数字信号处理应用中扮演着重要的角色,例如,在高性能FIR(Finite Impulse Response)滤波器和FFT(Fast Fourier Transform)中,DSP48是重要的计算单元。此外,从功耗角度看,Virtex-4的核电压也由Virtex-II和Virtex-II Pro的1.5V降低至1.2V,这对于降低动态功耗是有益的,因为动态功耗与核电压的平方成正比。
图1-5
2006年,Xilinx推出了基于65nm工艺制程的Virtex-5 FPGA。依托于第二代ASMBL架构,Virtex-5形成了五个平台级家族系列以满足不同领域的需求,如表1-1所示。实践证明,Virtex-5是非常成功的一代产品。
表1-1
与Virtex-4相比,Virtex-5 SLICE的容量扩大,由2个LUT和2个触发器变为4个LUT和4个触发器。更重要的是Virtex-5中的LUT是6输入LUT,相比于Virtex-4中的4输入LUT更有优势。例如,实现一个8选1的多路复用器(MUX:Multiplexer),如果使用Virtex-4 FPGA,就需要消耗4个4输入LUT和3个2选1 MUX(SLICE里固有的);如果使用Virtex-5 FPGA,则只需消耗2个6输入LUT和1个2选1 MUX(SLICE里固有的),如图1-6所示。显然,后者逻辑延迟会更小。分别选用Virtex-4和Virtex-5最快的FPGA(对应速度等级分别为-12和-3),在ISE 8.1版本下,实现一个6输入布尔表达式,Virtex-4 FPGA逻辑延迟为1.1ns,而Virtex-5 FPGA为0.9ns。从分布式RAM角度看,实现一个64×1(深度为64,宽度为1)的RAM,Virtex-4与Virtex-5的实现方式如图1-7所示,显然Virtex-5的实现方式具有更小的延迟。
图1-6
图1-7
Virtex-5中的Block RAM也有所改进。Virtex-4的每个Block RAM大小为18Kb,而Virtex-5的每个Block RAM大小为36Kb,由两个独立的18Kb Block RAM构成。这对于搭建更大的存储空间非常有利。同时,对于每个独立的18Kb Block RAM,如果只使用了其中的9Kb或不到9Kb,剩余的9Kb会被自动关闭,从而可有效降低功耗。
相比于Virtex-4,Virtex-5中的乘加器DSP48E功能更强大。不仅乘法器的位宽由18×18提升为25×18,而且每个DSP48E的C端口是独立的(Virtex-4中同列相邻的两个DSP48共享C端口),这增强了DSP48E的灵活性,也简化了数字信号处理算法的实现。此外,不得不提的是DSP48E中的累加器还可用来实现按位逻辑运算,如逻辑与、逻辑或、逻辑异或、逻辑非等。确切地说,DSP48E中乘法器后面跟随的是算术逻辑运算单元ALU (Arithmetic Logic Unit):既可以实现加法运算,又可以实现逻辑运算。
在时钟方面,Virtex-5在保留Virtex-4数字时钟管理单元(Digital Clock Manager,DCM)的基础上,引入了模拟锁相环PLL(Phased Lock Loop),这对于改善时钟抖动非常有利。
此外,Virtex-5 FXT系列嵌入了PowerPC 440(简写为PPC440)处理器,主频最高可达550MHz,性能比Virtex-4中的PPC405有了进一步的提升。
2009年,Xilinx推出了基于40nm工艺制程的Virtex-6 FPGA和45nm工艺制程的Spartan-6 FPGA。Virtex-6采用了第三代ASMBL架构,通过不同资源列的配比,形成了三个系列:面向高性能逻辑应用和数据传输的LXT系列,面向高速数字信号处理和数据传输的SXT系列和面向高带宽应用的HXT系列。与Virtex-5相比,所有的Virtex-6 FPGA都带有高速收发器,同时Virtex-6不再提供嵌入PowerPC处理器的FPGA。Spartan-6属于Xilinx的低端产品,与Virtex-6相比性能略逊一筹。例如,Spartan-6中的乘加器DSP48A1乘法器位宽为18×18,且其后的累加器不支持逻辑运算,而Virtex-6中的乘加器DSP48E1乘法器位宽为25×18,其后为ALU。Spartan-6中的Block RAM大小为18Kb,可当作两个独立的9Kb Block RAM使用。Virtex-6中的Block RAM大小为36Kb,由两个独立的18Kb Block RAM构成。Spartan-6中的时钟模块由DCM和PLL构成,而Virtex-6中的时钟模块则为MMCM(Mixed-Mode Clock Managers)。但是,Spartan-6也有自己的特色,例如,封装小,CPG196封装只有8mm×8mm,而Virtex-6最小封装也要达到23mm×23mm。此外,Spartan-6还集成了硬核存储器控制器模块MCB(Memory Controller Blocks)。从输入/输出引脚角度看,Spartan-6引脚个数依据不同芯片和封装在102~576之间变化,输出电平最大为3.3V;Virtex-6引脚个数则在240~1200之间变化,输出电平最大为2.5V。
2011年,Xilinx推出了基于28nm高性能低功耗(High Performance Low Power,HPL)工艺制程的7系列FPGA,分为高端、中端和低端三个产品,对应Virtex-7、Kintex-7和Artix-7。其中,Virtex-7面向对系统性能要求比较苛刻的场合;Kintex-7可提供业界最佳的价格/性能比;Artix-7面向低功耗且需要高速收发器的场合。2017年,Xilinx又发布了Spartan-7,具有封装小(CPGA196封装只有8mm×8mm)、性能功耗比高的特点。不同于Virtex-6和Spartan-6,7系列FPGA采用了统一的内部架构。图1-8对7系列FPGA从逻辑单元个数、Block RAM容量、DSP个数、高速收发器个数、高速收发器速率和外部存储器速率等几个方面进行了比较(这里显示的均为最大值),可进一步理解其中的差异及各个产品的应用场合。
图1-8
7系列FPGA还首次使用了SSI(Stacked Silicon Interconnect,堆叠硅片互连)技术,包括XC7V2000T、XC7VX1140T、XC7VH580T和XC7VH870T 4颗芯片。SSI技术有效解决了采用传统方式互连多片FPGA时导致的互连资源有限(如输入/输出引脚个数不够用)、互连延迟过大、高速串行互连的信号完整性等问题。以XC7V2000T为例,整个芯片包含4个SLR(Super Logic Region,又称为die),这4个SLR并行放置在一个硅中介板上,如图1-9所示。再看4个SLR的内部布局,如图1-10所示。可以看到4个SLR的大小和内部结构是完全相同的。图中GTX代表的高速收发器最大速率为12.5Gb/s。每个SLR由3个CR(Clock Region,时钟区域)构成。每个CR的高度为50个CLB,也可表示为20个DSP或10个36Kb Block RAM,如图1-11所示。
图1-9
High-Bandwidth,Low-latency Connections:高带宽低延迟互连线 Microbumps:微凸块 Through-Silicon Vias:硅穿孔 C4 Bumps:C4凸块 28nm FPGA die:28nm FPGA超级逻辑区域 65nm Silicon Interposer:65nm硅中介板 Package Substrate:封装基板 BGA Solder Balls:BGA锡球
图1-10
图1-11
SLR之间通过SLL(Super Long Line)互连,实现die间的数据传输。紧邻每个CLB会有一个互连单元(Interconnect Tile),SLL的起点和终点正是这些位于相邻SLR的不同互连单元。每个互连单元列可提供49个SLL(见图1-12),不同芯片互连单元列个数有所不同,故7系列SSI器件相邻SLR总的SLL个数为10 800或13 700,从而保证了die间的高带宽数据传输。
图1-12
XC7VX1140T内部结构如图1-13所示,由4个SLR构成,有更多的高速收发器(图中GTH代表的高速收发器最高速率可达13.1Gb/s,共96个)。
图1-13
面向高带宽数据传输的XC7VH870T则由6个SLR构成,如图1-14所示,其中顶部和底部的SLR仅包含GTZ(高速收发器,共16个,最大速率可达28.05Gb/s),因此,这是一颗异构SLR构成的芯片。
在推出传统FPGA的同时,2011年,Xilinx也发布了集成ARM Cortex-A9 CPU的Zynq-7000系列SoC(System on Chip)。将FPGA分割为PS(Processing System)和PL(Programmable Logic)两部分,实现了全可编程:软件可编程、硬件可编程和I/O可编程。其中,PS包含一个或两个ARM Cortex-A9核,以及丰富的硬核接口,CPU主频最高达1GHz;PL为传统的逻辑资源,如CLB、Block RAM、DSP和GT等,如图1-15所示。图中灰色区域即为PL。Zynq-7000因其异构特性在Xilinx FPGA发展史上留下了浓墨重彩的一笔。
图1-14
图1-15
2014年,Xilinx推出了基于20nm工艺制程的UltraScale FPGA,包括Kintex和Virtex两个系列。与Kintex相比,Virtex无论在规模还是性能上都更胜一筹。时隔两年,也就是2016年,Xilinx又推出了UltraScale+FPGA,采用16nm工艺制程,包括Artix(2021年推出)、Kintex、Virtex、Zynq MPSoC(Multiprocessor System on Chip)和Zynq RFSoC (Radio Frequency System on Chip)。这一系列FPGA的比较如表1-2所示(表中US代表UltraScale,US+代表UltraScale+)。可以看到UltraScale+FPGA引入了新的存储单元UltraRAM,每个UltraRAM大小为288Kb(深度为4096,也就是4K,宽度为72),这对于大批量的数据存储非常有用。
表1-2
Vritex UltraScale+还引入了HBM(High Bandwidth Memory),有效地增大了数据存储空间及数据传输带宽,其内部布局如图1-16所示。仍然采用了SSI技术,HBM位于单独的一个SLR上。在与其紧邻的SLR内,集成了硬核的HBM控制器。UltraScale+HBM系列FPGA内HBM的容量对比如图1-17所示,可以看到,HBM最小为4GB(也就是32Gb),最大为16GB(也就是128Gb)。在执行机器学习算法时,通常需要存储大量的权值,而且为了保证足够的并行性需要同时从存储空间读出多个数据,传统的Block RAM和UltraRAM很难满足这一需求,而HBM正好解决了这一问题。
图1-16
图1-17
这里不得不提一下Xilinx第二代SSI芯片。Kintex UltraScale只有KU085和KU115为SSI芯片,均包含2个SLR。Virtex UltraScale有4颗芯片为SSI芯片,分别为VU125 (2个SLR)、VU160(3个SLR)、VU190(3个SLR)和VU440(3个SLR),而Virtex UltraScale+绝大多数为SSI芯片。与第一代SSI芯片相比,第二代SSI芯片不仅有专用跨die布线资源SLL,还有专用跨die寄存器,也就是LAGUNA寄存器,如图1-18所示。在相邻两个die的边界,每个时钟区域内有两列LAGUNA寄存器,SLL的起点和终点位于同列不同die的LAGUNA寄存器上。每两列LAGUNA寄存器也就是die边界的每个时钟区域可提供2880个SLL,图中每个SLR位于边界的时钟区域共有6个,故可提供17280个SLL。
图1-18
作为第二代嵌入了ARM核的FPGA,Zynq UltraScale+MPSoC性能进一步提升,共3个系列:CG、EG和EV。ARM核由Cortex-A9升级为Cortex-A53,双核(CG)或四核(EG和EV),扮演着APU(Application Processing Unit,应用处理单元)的角色,主频可达1.5GHz。同时,嵌入了RPU(Real-time Processing Unit,实时处理单元),双核Cortex-R5F,主频最高为600MHz。EG和EV系列还嵌入了GPU(Graphics Processing Unit,图形处理单元)Mali-400MP2,主频最高为667MHz。在此基础上,EV系列增强了视频处理功能,嵌入了硬核视频编解码处理单元VCU(Video Encoder/Decoder),可支持H.264/H.265,如表1-3所示。以EV系列为例,其内部布局如图1-19所示,图中阴影部分为PL。
表1-3
在Zynq MPSoC的基础上,Xilinx还将射频模数/数模转换器(Radio Frequency Analog-to-Digital Converter/Digital-to-Analog Converter,RF-ADC/DAC)和软判决前向纠错(Soft Decision Forward Error Correction)集成其中,形成了Zynq RFSoC FPGA,是业界唯一的单芯片自适应射频平台,其内部布局如图1-20所示。图中阴影部分为PL。DDC为数字下变频器(Digital Down Converter),DUC为数字上变频器(Digital Up Converter)。ADC的分辨率为12位(如XCZU25DR)或14位(如XCZU42DR),最多可达16位(如XCZU29DR);采样速率最高可达4.096GSPS(Gigabit Samples Per Second,每秒千兆次采样),如XCZU25DR。DAC分辨率为14位,最多可达16位,如XCZU29DR,采样速率最高可达9.85GSPS。SD-FEC仅存在于XCZU21DR、XCZU28DR、ZCZU46DR和XCZU48DR中,共8个。
图1-19
图1-20
2019年,Xilinx推出了基于7nm工艺制程的Versal芯片,将其定义为ACAP(Adaptive Computing Acceleration Platform,自适应计算加速平台),而不再是FPGA。ACAP包含三大引擎:标量引擎、自适应引擎和智能引擎。通过可编程片上网络(Network on Chip,NoC)将三者连接在一起,如图1-21所示。其中,标量引擎由双核ARM Cortex-A72和双核ARM Cortex-R5F构成,主频可分别达到1.7GHz和800MHz;自适应引擎由传统的FPGA逻辑资源构成,包括CLB、Block RAM和UltraRAM;智能引擎主要提供计算功能,由AIE(Artificial Intelligence Engine)和DSP58构成。
图1-21
目前,Versal ACAP已推出5个系列:AI Edge系列、AI Core系列、Prime系列、Premium系列和HBM系列,性能对比如表1-4所示。表中存储空间是指分布式RAM即LUTRAM、Block RAM和UltraRAM的总和。AI Edge系列嵌入了针对机器学习推理应用而优化的AIE-ML,AI Core系列嵌入的则是第一代AIE。其他系列没有植入AIE。
表1-4
以AI Core系列为例,芯片内部布局如图1-22所示。其中,AIE阵列位于芯片最上方,DDR控制器位于最下方,两者通过NoC实现数据传输。不难看出,与前一代UltraScale+相比,Versal中的硬核越来越多。为了发挥这些硬核的性能,需要在设计初期研究芯片架构,规划好整个系统的布局。
图1-22
AIE阵列中的每个AIE核内部结构如图1-23所示。其核心部分是向量单元,可提供强大的计算能力。例如,其中的乘加器在一个时钟周期内可实现128个8×8有符号数乘法运算或32个16×16有符号数乘法运算。
图1-23
从2001年发布Virtex-II FPGA到2019年发布Versal ACAP,将近20年的时间里,Xilinx先后推出了9代产品,如表1-5所示,平均每两年就会有一代新产品诞生。产品性能不断突破——容量越来越大,速度越来越快;产品架构不断革新——从仅有PL到嵌入CPU,再到嵌入AIE。架构的不断演进使得FPGA除了在传统领域如原型验证、通信、工业控制、航空航天等继续保持一定优势外,还使得FPGA进入新的领域如数据中心,成为数据中心加速器、AI加速器、SmartNIC(Smart Network Interface Card,智能网卡),以及网络基础设施中的加速器。而FPGA厂商除了提供FPGA芯片外,还生产制作了各种加速卡,如Xilinx的Alveo加速卡、Varium加速卡,以期最大程度上满足业务需求,帮助客户缩短研发周期。
表1-5