PREFACE
前言
为什么要写本书
2022年11月30日,ChatGPT模型问世后,立刻在全球范围内掀起了轩然大波。无论是AI从业者还是非AI从业者,都在热议ChatGPT极具冲击力的交互体验和惊人的生成内容。各大厂纷纷入局大型语言模型,“百模”甚至“千模”大战的帷幕慢慢被拉开。很多企业和高校也随之开源了一些表现优异的大型语言模型,例如GLM系列模型、LLaMA系列模型、CPM系列模型、Yi系列模型、Baichuan系列模型、Qwen系列模型、Mistral系列模型、DeepSeek系列模型、Moss模型等。但是大型语言模型距离真正落地,还有一段艰难的路要走,例如:如何优化通用大型语言模型在领域上的效果,如何在某些场景中合理运用大型语言模型,如何确保生成内容的稳定性和安全性,如何确保大型语言模型可以在生产环境下稳定使用等。
2023年,很多人在做底座大型语言模型的搭建、领域大型语言模型的预训练或微调,我们也出版了《ChatGPT原理与实战:大型语言模型的算法、技术和私有化》一书,对大型语言模型的知识体系进行了细致的梳理,并且通过实战帮助读者从零开始搭建自己的ChatGPT模型。但很多读者反馈这本书对大型语言模型应用部分的讲解不够细致,并且随着技术和时代的发展,大型语言模型如何进行场景落地变得尤为重要。
因此,经过一番思考和准备之后,我们决定从大型语言模型的应用落地角度出发,进一步系统梳理大型语言模型的相关技术,帮助读者学习如何利用开源的大型语言模型优化自身领域或场景中的使用效果。
技术的变化是飞速的,在撰写本书初期,OpenAI的GPTs应用还没有提出,不少应用还没有以产品形态呈现。随着新的应用的推出,我们修改了相关章节,目的是希望本书介绍的大型语言模型相关技术更具前沿性。技术会持续更新换代,书中提到的很多技术也许在不远的将来会被更强大的技术所取代,但这并不影响我们学习这一系列技术,因为学习这些技术本身会引发更深层次的思考。
AI已来,学无止境,那么请各位与我们一起来迎接AGI(人工通用智能)的到来吧。
读者对象
●AIGC(生成式人工智能)相关领域的师生。
●初入AI行业的从业人员。
●对大型语言模型感兴趣的读者。
本书特色
本书是一本集理论、实战、应用与落地于一体的大型语言模型力作,具备以下特点。
1)理论联系实际。本书不仅全面讲解了大型语言模型的核心理论,如Transformer架构和各种主流模型等,还深入探讨了领域特定模型的应用,如法律、医疗、金融和教育领域,有助于读者从多个维度理解和实践大型语言模型。
2)实战应用落地。本书详细介绍了如何构建具有个性化特点的大型语言模型应用,包括大型语言模型的微调方法、人类偏好对齐技术,以及构建具体应用的步骤等。通过实战案例和深入浅出的讲解,确保读者能够理解模型的构建和优化过程。
3)多样化应用场景。本书通过展示大型语言模型在多种场景下的应用潜力,如角色扮演、信息抽取、知识问答等,引导读者探索大型语言模型在不同领域的应用可能性,以激发读者的创新思维,最终实现大型语言模型的应用创新。
4)应用发展洞察。本书结合了我们在AI领域的丰富经验,从基础理论到实战应用,从简单模型应用到复杂系统应用,提供了全面的技术和应用视角。通过分析大型语言模型的行业应用、挑战、解决方案以及未来的发展趋势,为读者在迅速变化的技术领域中应用大型语言模型提供了宝贵的参考。
如何阅读本书
本书从逻辑上分为三部分。
第一部分(第1~3章)为基础知识,深入探讨大型语言模型的核心概念。第1章详细介绍大型语言模型的基础理论,包括常见的模型架构、领域大型语言模型以及如何评估模型的性能。第2章解析模型微调的关键步骤,即数据的收集、清洗到筛选,直至微调训练。第3章介绍如何将大型语言模型与人类偏好进行对齐,详细介绍了基于人工反馈的强化学习框架及当前主流的对齐方法,旨在提供一个全面的视角来帮助读者理解大型语言模型的发展和优化路径。
第二部分(第4~7章)着眼于大型语言模型的实际应用,指导读者构建简单但强大的应用程序。第4章展示如何利用GPTs来快速构建一个个性化的专属ChatGPT应用。第5章介绍Text2SQL应用的搭建,以及如何通过DeepSeek Coder模型进行定制化优化。第6章探讨角色扮演应用的构建,并介绍了如何通过微调Baichuan模型来增强体验。第7章聚焦于对话信息抽取应用的搭建,展示了如何通过微调Qwen模型来将大型语言模型有效地应用于实际场景中。
第三部分(第8~10章)带领读者挑战更加复杂的应用的搭建。第8章介绍大型语言模型Agent以及常用框架。第9章深入RAG(检索增强生成)模型的各个组件,展示了如何构建一个基于知识库的智能问答应用。第10章则基于LangChain框架,引导读者构建一个AutoGPT应用,展示了大型语言模型在自动化任务执行中的潜力。
本书内容丰富,旨在为读者提供一个结构清晰的学习路径,无论是大型语言模型的新手还是有经验的开发者,都能从中获得宝贵的知识和灵感。
勘误和支持
由于水平有限,书中难免存在一些遗漏或者不够准确的地方,恳请读者批评指正。如果读者发现了书中的错误,可以将其提交到https://github.com/liucongg/LLMsBook。同时,读者遇到任何问题,欢迎发送邮件至邮箱logcongcong@gmail.com,我们将在线上提供解答。期待得到读者的真挚反馈!
致谢
首先要感谢提出ChatGPT的每一位研究员,他们的坚持让人工智能进入大型语言模型时代,让我有机会体验到人工智能的魅力,也让我对人工智能有了新的认识。
感谢为大型语言模型开源社区贡献力量的每一个人,他们的无私奉献让更多人体会到了大型语言模型的美好。
感谢我硕士期间的导师侯凤贞以及本科期间的关媛、廖俊、胡建华、赵鸿萍、杨帆等老师,他们指引我走到今天。
感谢在“云问”共同奋斗的每一位充满创意和活力的朋友:李平、杨萌、李辰刚、张雅冰、孟凡华、李蔓、付晓东、丁兴华。由衷感谢云问公司创始人王清琛、茆传羽、张洪磊对我工作的支持,十分荣幸可以与各位在一家创业公司一起为人工智能落地而努力奋斗。
感谢关注“NLP工作站”的社区成员以及所有粉丝,他们的支持才让我有了不断创作的动力。
最后感谢我的爸爸妈妈、爷爷奶奶,他们将我培养成人,并时时刻刻给予我信心和力量!
谨以此书献给我亲爱的妻子崔天宇!
刘聪
2024年2月