1.2 Transformer模型介绍_多模态大模型：算法、应用与微调-QQ阅读男生玄幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.2 Transformer模型介绍

Transformer是一个完全基于注意力机制训练的模型，在2017年发表的论文“Attention Is All You Need”（https://arxiv.org/abs/1706.03762）中首次提出，用于机器翻译任务，它在特定任务中的表现优于谷歌的其他神经网络机器翻译模型。Transformer也是Seq2Seq结构的模型，相比于之前基于RNN的Seq2Seq结构模型，Transformer模型具有更好的并行性，能够极大地提高模型的训练和推理速度。