大模型导论
上QQ阅读APP看书,第一时间看更新

1.1.1 生成原理

大模型基于Transformer架构进行构建,由多层神经网络架构叠加而成,能够根据输入内容预测输出内容。

大模型的核心生成原理是将输入的语句以词向量的表征形式传递给神经网络,通过编码器/解码器(Encoder/Decoder,详见第3章)、位置编码和自注意力机制建立单词(或字)之间的联系。从宏观的视角来看,输入的每个单词(或字)首先会与已经编码在模型中的单词(或字)进行相关性计算,然后把这种相关性以编码的形式叠加在每个单词(或字)中。如图1-2所示,经过计算后,“it”与输入句子中的其他单词的相关性权重将会增加,颜色越深代表相关性越高。

The animal didn’t cross the street because it was too tired.

图1-2 相关性权重可视化示例

在获得各个单词间的相关性之后,模型以概率分数标记序列中下一个输出的单词的可能性(也称概率),并选择最佳选项。如图1-3所示,由于“movie”的概率最大,因此模型的最终输出结果为“movie”。

图1-3 不同单词的输出概率

虽然模型会选择下一个最合适的单词,但是由多个最佳单词组成的句子可以并不通顺。为了解决这个问题,Transformer使用了Beam Search(束搜索)[1]等方法以提高生成质量。这些方法不是只关注序列中的下一个单词,而是将更大的一组单词作为一个整体来考虑,同时考虑多个序列上的联合概率。如图1-4所示,我们同时考量4个序列上的联合概率(为了方便理解,此处以一组单词的颜色深浅来表示输出概率,单词的颜色越深,代表其被选择并输出的概率越大),将一组单词作为整体进行评估,可以有效提高模型的生成质量。


[1] 束搜索是处理文本生成任务时常用的解码策略。

图1-4 通过束搜索方法生成最佳输出

综上所述,可以将大模型看作概率模型。不同于通过数据库对数据进行检索,大模型通过大量学习世界知识,依据概率生成足够准确的回答。