译者序
大语言模型(Large Language Model,LLM)是继深度学习技术之后出现的颠覆性技术,也是实现新一代人工智能的主要途径。从技术角度来讲,语言模型(LM)是提高机器语言智能的主要方法之一。语言模型的发展主要经历了四个阶段,相应的模型如下:① 统计语言模型(Statistical Language Model,SLM),主要有bigram和trigram等;② 神经语言模型(Neural Language Model,NLM),主要有循环神经网络(RNN)、word2vec等;③ 预训练语言模型(Pretraining Language Model,PLM),主要有Transformer和BERT等;④ 大语言模型,基于PLM模型扩展而来。近年来最广为人知的语言模型就是OpenAI从2018年开始陆续发布的GPT,这也是本书主要讨论的内容。
数据、算力、算法是大模型有效发挥作用的主要要素。所谓数据,是指存储在分布式数据库中的海量文本、语言、视频和图像等结构化、非结构化数据,大模型通过对其进行预处理实现知识的跨模型融合,进而为应用场景提供新的解决方案。算力主要从两方面予以保障:一是硬件加速方式,采用GPU/TPU硬件加速算法实现;二是在软件层面采用并行计算策略,为训练万亿参数大模型提供有力保障。算法的突破是大模型的一大创新之处,采用生成式预训练范式,使得模型具有较高的准确率和泛化能力,可有效应用于自然语言处理、图像识别、语音识别等领域。此外,应用场景也可以算作大模型的主要要素,即以业务场景驱动,明确解决方案数据来源和采用的技术架构。
除了大模型,生成式人工智能也是本书的一大亮点。本书先介绍了生成式人工智能的基础知识、发展历程和最新发展,阐释了生成式人工智能典型模型和OpenAI发布的GPT系列模型及产品ChatGPT背后的设计思想;随后逐步教你使用ChatGPT,包括注册、提示工程和应用案例;最后讨论了ChatGPT涉及的伦理道德问题。本书力求让你能基于所学知识实现举一反三,找到更高效、更适合自己的 AI 应用方式。
在翻译本书的过程中,我们对书稿进行了交叉审校工作,以期尽可能准确地体现原书内容。同时感谢人民邮电出版社吴晋瑜编辑为本书所做的大量编辑与审校工作。
由于本书涉及的领域较广,技术有一定深度,加上译者翻译水平有限,书中难免存在不足之处,若读者在阅读过程中发现问题,敬请批评指正。