ChatGPT原理与实战:大型语言模型的算法、技术和私有化
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 ChatGPT的由来

2017年,谷歌大脑团队(Google Brain)在神经信息处理系统大会上发表了一篇名为“Attention Is All You Need”的论文,并在这篇论文中首次提出了基于自我注意力(Self-Attention)机制的模型。在这篇论文面世之前,自然语言处理领域的主流模型是循环神经网络(Recurrent Neural Network,RNN)。循环神经网络的优点是,能很好地处理具有时间序列的数据,比如语言、股票、服务器的监控参数等。正因如此,这种模型在处理较长序列,例如长文章、图书时,存在模型不稳定或者模型过早停止有效训练的问题。

在自我注意力机制论文发表之后,2017年诞生的Transformer模型(基于自我注意力机制的模型)能够同时并行进行数据计算和模型训练,训练时长更短,模型具有可解释性。最初的Transformer模型有6500万个可调参数。谷歌大脑团队使用多种公开的语言数据集来训练这个模型,这些数据集包括2014年英语-德语机器翻译研讨班(Workshop on statistical Machine Translation,WMT)数据集、2014年英语-法语机器翻译研讨班数据集,以及宾夕法尼亚大学树库语言数据集的部分句组。谷歌大脑团队在论文中提供了模型的结构,任何人都可以用该结构搭建模型并结合自己的数据进行训练。

经过训练,最初的Transformer模型在翻译准确度、英语语句成分分析等各项评分上都达到了业内第一的水平,成为当时最先进的大型语言模型(Large Language Model,LLM)。

在正式介绍ChatGPT之前,我们先简单了解一下GPT。GPT代表生成式预训练Transformer(Generative Pre-trained Transformer)模型,是一种自然语言处理(Natural Language Processing,NLP)模型,由OpenAI开发,旨在通过预训练来改善各种自然语言处理任务的性能。GPT模型使用了Transformer结构,包含多个编码器和解码器层,以便对输入文本进行编码和生成。GPT模型通过从大量未标记的文本数据中预先训练来学习语言知识和结构,并在特定任务的微调过程中进行微调,例如文本分类、机器翻译和对话生成。GPT模型已经被广泛用于自然语言处理领域,尤其是在生成文本方面取得了很大的成功。