1.2.2 OPT模型
经过大量数据的训练,大型语言模型在小样本甚至零样本学习方面展现出卓越的能力。但是,考虑到成本问题,很多模型在没有大量资金的情况下很难复制。对于通过API访问的模型,没有完全授予整个模型所有的权重访问权,使基于这些大型语言模型的研究变得更加困难。此外,随着大型语言模型的伦理、偏见等问题的出现,对于模型风险、危害、偏见和毒性的研究也变得更加困难。
MetaAI在2022年提出了GPT-3模型的开源复制版本OPT(Open Pre-trained Transformer language model,开放的预训练Transformer语言模型)。OPT的结构与GPT-3一致,仅采用解码器部分,参数个数从1.25亿到1750亿,旨在实现大型语言模型的可重复性和负责任的研究。其中,1.25亿到660亿参数量的模型可以直接下载,1750亿参数量的模型可以通过申请获取完整模型的权限。模型结构信息具体如表1-3所示。
表1-3 模型结构信息
为了实现模型的可重复性,OPT公布了模型训练日志并开放了源代码。在训练1750亿个参数的模型时,使用了992个80GB显存的A100型号GPU显卡,每个GPU的利用率达到147 TFLOP/s,总计算资源消耗为GPT-3的1/7。模型训练权重的初始化与Megatron-LM开源代码保持一致,采用均值为0、标准差为0.006的正态分布初始化,输出层的标准差采用进行缩放,其中L为层数。所有偏差都被初始化为0,并采用ReLU激活函数,最大训练长度为2048。优化器采用AdamW优化器,β1和β2分别为0.9和0.95,权重衰减率为0.1,dropout始终为0.1,但在嵌入层上不使用dropout。学习率和批次大小随模型大小不同而变化。
在训练过程中,出现过硬件故障、损失值异常、优化器选择等问题,这些都是大型语言模型在训练过程中可能出现的。