1.2.4 大模型的训练成本问题_大模型RAG实战：RAG原理、应用与系统构建-QQ阅读男生科幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.2.4 大模型的训练成本问题

近几年，模型的规模不断攀升。BERT-Base仅有1亿参数量，而如今已出现千亿、万亿级别的大模型，如图1-6所示。

图1-6 知名大模型的参数量

庞大的参数量意味着需要更多的训练资源。同时，考虑到训练时长，一个大模型的训练成本极为昂贵。早在2021年，便有科学家在论文“RETRO：Improving Language Models by Retrieving from Trillions of Tokens”中通过大量实验证明，可以使用仅1/25参数量的模型结合RAG系统，在Pile数据集上达到GPT-3的效果。