上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.2.7 小结
Transformer这种新型的深度学习模型,被认为是继MLP、CNN、RNN之后的第四大特征提取器。它最初用于机器翻译,但随着GPT和BERT的出现,Transformer模型引领了NLP领域的快速发展,同时促进了多模态、大模型、ViT等新型模型的兴起。Transformer模型的出现也给AI研究人员带来了信心,使他们意识到除了CNN和RNN之外,还有更有效的特征提取器可供选择,鼓励从业者进一步探索。不过,Transformer模型也存在一些不足之处。首先,由于其计算量巨大,模型对GPU显存和算力的要求很高。其次,由于Transformer模型缺乏归纳偏置能力,因此需要大量的数据才能取得良好的效果,关于这一点我们将在后面详细介绍。
Transformer模型这种完全基于注意力机制的结构,意味着可以不再用递归神经网络和卷积神经网络了,这在当时可以说是开了先河。图1-29是自注意力、递归和卷积等操作的每层复杂度、最小序列操作数和最大路径长度对比,其中n表示序列长度,d表示维度,k表示卷积核大小。可以发现,自注意力层与递归层相比,虽然每一层的计算复杂度变大了,但是需要的序列操作复杂度从O(n)减小到了O(1),这是一种典型的“用空间换时间”的思想的应用。而相比于模型结构的优化和硬件的提升,这点空间的牺牲不足为奇。自注意力层与卷积层相比,虽然同样不需要序列操作,但是卷积层作用于二维结构,一般用于图像处理,它的计算量是正比于输入的边长对数的,也就是O(logkn),而理想情况下,自注意力层是能够将计算量降低到O(1)的,也就是说,自注意力层相比于卷积层更有潜力,这也为后续的ViT模型提供了思路。
图1-29 自注意力、递归和卷积等操作的每层复杂度、最小序列操作数和最大路径长度对比