多模态大模型:算法、应用与微调
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 Transformer模型

Transformer可以说是2017年深度学习领域中的重大突破,虽然一开始仅应用于机器翻译任务,但是后面经过不断的研究和发展,在自然语言处理(NLP)的多个任务上都取得了非常好的效果。一方面,Transformer成为继多层感知机(MLP)、卷积神经网络(CNN)和递归神经网络(RNN)之后的第四大特征提取器,开启了新的深度学习范式。另一方面,Transformer由于可扩展性也打开了大模型的大门,成了后续各种大模型的基石,引领了一个新的时代。

在本章中,我们首先介绍一下Seq2Seq结构,这是Transformer的基本结构,也是很多自然语言处理模型所使用的结构。然后将正式介绍Transformer模型,重点是其注意力层。最后介绍ViT(Vision Transformer)模型,此模型在计算机视觉领域中第一个彻底抛弃了卷积神经网络,单纯使用Transformer编码器进行特征提取。