1.3 大语言模型的技术演化
1.3.1 从符号主义到连接主义
ChatGPT的核心功能之一是NLP。NLP初期是通过符号来表达对现实世界的理解,并依赖预设规则进行知识推理。具体来说,这种方法根据预设规则在知识库中进行查找,并通过逻辑运算进行推理。但是,符号主义往往难以有效应对语言的多样性和歧义性,同时其鲁棒性和泛化能力也相对较弱。随着语言现象的复杂性增加,手动设计规则的数量急剧增长,导致处理语言的多样性和统计特征变得更加困难。
机器学习和深度学习的出现引领了NLP技术向数据驱动的时代迈进。在机器学习时代,尽管可以针对NLP的特定子任务,基于训练数据在预设的函数空间内寻找最优映射,但这并未完全解决规则设计的问题。特征工程成为影响机器学习效果的重要因素,然而预设的函数空间往往在特定子任务的鲁棒性和泛化能力方面表现不佳。
深度学习模型的出现引发了NLP的革命。早期的NLP文本生成主要依赖传统的循环神经网络(RNN)、长短时记忆(Long Short-Term Memory,LSTM)网络或门控循环单元(Gated Recurrent Unit,GRU)。这三种经典模型都是基于循环结构的,非常适合处理序列化的NLP任务。
RNN通过引入记忆机制,可以处理序列数据点之间的依赖关系(前后或时间关系),并将记忆的概念引入神经网络,通过训练学习上下文相关的模式。然而,RNN存在记忆短暂的问题。为解决此问题,LSTM和GRU应运而生。它们通过内部的门控机制调整信息流动,保留序列中的重要信息,丢弃非关键信息,从而把有价值的数据传递到后续的长序列计算中。
然而,RNN架构(包括LSTM和GRU)仍面临着多项挑战,难以作为大语言模型(Large Language Model,LLM)的基础架构,主要表现在以下方面:
1)并行计算能力不足。RNN需要按序处理序列数据中的每个时间步,这限制了它在训练过程中充分利用现代GPU的并行计算能力,从而影响训练效率。
2)长程依赖问题。尽管LSTM和GRU在处理长程依赖上比基本的RNN更为出色,但在处理非常长的序列时,它们依然存在困难。
3)模型容量限制。LSTM和GRU的模型容量相对较小,这在大语言模型训练中限制了模型的规模,使获取更丰富的语义信息和构建更复杂的表示变得困难。