大模型RAG实战:RAG原理、应用与系统构建
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.4 大模型的训练成本问题

近几年,模型的规模不断攀升。BERT-Base仅有1亿参数量,而如今已出现千亿、万亿级别的大模型,如图1-6所示。

图1-6 知名大模型的参数量

庞大的参数量意味着需要更多的训练资源。同时,考虑到训练时长,一个大模型的训练成本极为昂贵。早在2021年,便有科学家在论文“RETRO:Improving Language Models by Retrieving from Trillions of Tokens”中通过大量实验证明,可以使用仅1/25参数量的模型结合RAG系统,在Pile数据集上达到GPT-3的效果。