更新时间:2024-09-11 17:38:30
封面
版权信息
内容简介
前言
第一篇 算法原理
第1章 Transformer模型
1.1 Seq2Seq结构
1.1.1 分词器
1.1.2 编码器-解码器结构
1.1.3 注意力机制
1.1.4 实战:日期转换
1.2 Transformer模型介绍
1.2.1 位置编码
1.2.2 模型架构
1.2.3 标准化和残差连接
1.2.4 线性层和softmax层
1.2.5 损失函数
1.2.6 实战:日期转换
1.2.7 小结
1.3 ViT模型介绍
1.3.1 注意力机制在图像上的应用
1.3.2 ViT模型架构
1.3.3 大数据预训练
1.3.4 ViT模型训练实践
1.4 本章总结
第2章 GPT系列模型
2.1 GPT-1
2.1.1 语言模型
2.1.2 训练框架
2.1.3 模型效果分析
2.2 GPT-2
2.2.1 模型架构分析
2.2.2 构造训练数据集
2.2.3 模型效果分析
2.3 GPT-3
2.3.1 上下文学习
2.3.2 构造训练数据集
2.3.3 训练停止判定
2.3.4 重要潜力
2.4 GPT-3.5
2.4.1 代码生成模型Codex
2.4.2 强化学习
2.4.3 ChatGPT的“孪生兄弟”:InstructGPT
2.4.4 RLAIF
2.5 GPT-4
2.5.1 GPT-4的非凡表现
2.5.2 基于规则的奖励模型
2.5.3 多模态架构
2.5.4 训练流程
2.5.5 局限性
2.6 语言模型的未来
2.6.1 自我学习与自我核实
2.6.2 稀疏专家模型
2.7 GPT系列的其他应用
2.7.1 MiniGPT-4
2.7.2 minGPT与nanoGPT
2.7.3 AutoGPT与AgentGPT
2.8 本章总结
第3章 深度生成模型
3.1 从自编码器到变分自编码器
3.1.1 自编码器
3.1.2 变分自编码器
3.2 生成对抗网络
3.2.1 网络架构
3.2.2 算法描述
3.2.3 实战:手写数字图像生成
3.2.4 衍生应用
3.3 文本与图像的桥梁:CLIP
3.3.1 介绍
3.3.2 训练与推理
3.3.3 实战:图像文本匹配
3.3.4 CLIP的局限性
3.4 稳定扩散模型:Stable Diffusion
3.4.1 基本组件
3.4.2 扩散原理
3.4.3 数据集构建
3.4.4 流程梳理
3.4.5 实战:图像生成
3.4.6 Stable Diffusion升级
3.5 本章总结
第4章 预训练模型
4.1 大模型的涌现能力
4.1.1 缩放法则
4.1.2 涌现能力
4.2 模型参数量估算
4.3 通信数据量分析
4.3.1 点对点通信
4.3.2 集群通信
4.4 分布式训练
4.4.1 基本概念
4.4.2 数据并行
4.4.3 模型并行
4.4.4 混合并行
4.4.5 混合精度训练
4.5 DeepSpeed
4.5.1 ZeRO
4.5.2 ZeRO-Offload
4.5.3 ZeRO-Infinity
4.6 模型即服务平台
4.6.1 ModelScope