更新时间:2024-04-25 18:20:57
封面
版权信息
内容简介
前言
本书主要内容
本书读者对象
联系作者
致谢
第1章 人工智能的新里程碑——ChatGPT
1.1 ChatGPT的发展历程
1.2 ChatGPT的能力
1.3 大语言模型的技术演化
1.3.1 从符号主义到连接主义
1.3.2 Transformer模型
1.3.3 无监督预训练
1.3.4 有监督微调
1.3.5 人类反馈强化学习
1.4 大语言模型的技术栈
1.5 大语言模型带来的影响
1.6 大语言模型复现的壁垒
1.6.1 算力瓶颈
1.6.2 数据瓶颈
1.6.3 工程瓶颈
1.7 大语言模型的局限性
1.8 小结
第2章 深入理解Transformer模型
2.1 Transformer模型简介
2.2 自注意力机制
2.2.1 自注意力机制的计算过程
2.2.2 自注意力机制的本质
2.2.3 自注意力机制的优势与局限性
2.3 多头注意力机制
2.3.1 多头注意力机制的实现
2.3.2 多头注意力机制的作用
2.3.3 多头注意力机制的优化
2.4 前馈神经网络
2.5 残差连接
2.6 层归一化
2.7 位置编码
2.7.1 位置编码的设计与实现
2.7.2 位置编码的变体
2.7.3 位置编码的优势与局限性
2.8 训练与优化
2.8.1 损失函数
2.8.2 优化器
2.8.3 学习率调整策略
2.8.4 正则化
2.8.5 其他训练与优化技巧
2.9 小结
第3章 生成式预训练
3.1 生成式预训练简介
3.2 GPT的模型架构
3.3 生成式预训练过程
3.3.1 生成式预训练的目标
3.3.2 生成式预训练的误差反向传播过程
3.4 有监督微调
3.4.1 有监督微调的原理
3.4.2 有监督微调的特定任务
3.4.3 有监督微调的步骤
3.5 小结
第4章 无监督多任务与零样本学习
4.1 编码器与解码器
4.2 GPT-2的模型架构
4.2.1 层归一化
4.2.2 正交初始化
4.2.3 可逆的分词方法
4.2.4 可学习的相对位置编码
4.3 无监督多任务
4.4 多任务学习与零样本学习的关系
4.5 GPT-2的自回归生成过程
4.5.1 子词单元嵌入
4.5.2 自回归过程
4.6 小结
第5章 稀疏注意力与基于内容的学习
5.1 GPT-3的模型架构
5.2 稀疏注意力模式
5.2.1 Sparse Transformer的特点
5.2.2 局部带状注意力
5.2.3 跨层稀疏连接
5.3 元学习和基于内容的学习
5.3.1 元学习
5.3.2 基于内容的学习
5.4 概念分布的贝叶斯推断
5.4.1 隐式微调
5.4.2 贝叶斯推断
5.5 思维链的推理能力
5.6 小结
第6章 大语言模型的预训练策略
6.1 预训练数据集
6.2 预训练数据的处理
6.3 分布式训练模式
6.3.1 数据并行
6.3.2 模型并行
6.4 分布式训练的技术路线
6.4.1 Pathways
6.4.2 Megatron-LM
6.4.3 ZeRO
6.5 训练策略案例
6.5.1 训练框架
6.5.2 参数稳定性