GPT图解:大模型是怎样构建的
上QQ阅读APP看书,第一时间看更新

“预训练+微调大模型”的模式

不过,话虽如此,大型预训练模型的确是应用人员的好消息。因为,经过预训练的大模型所习得的语义信息和所蕴含的语言知识,很容易向下游任务迁移。NLP应用人员可以根据自己的需要,对模型的头部或者部分参数进行适应性的调整,这通常涉及在相对较小的有标注数据集上进行有监督学习,让模型适应特定任务的需求。这就是对预训练模型的微调(Fine-tuning,有时也译为精调)。微调过程相对于从头训练一个模型要快得多,且需要的数据量也要少得多,这使得NLP应用人员能够更高效地开发和部署各种NLP解决方案(如下图所示)。

“预训练+微调大模型”的模式

这种“预训练+微调大模型”的模式优势明显。首先,预训练模型能够将大量的通用语言知识迁移到各种下游任务上,作为应用人员,我们不需要自己寻找语料库,从头开始训练大模型,这减少了训练时间和数据需求。其次,微调过程可以快速地根据特定任务进行优化,降低了模型部署的难度。最后,“预训练+微调大模型”的模式具有很强的可扩展性,应用于各种NLP任务都很方便,大大提高了NLP技术在实际应用中的可用性和普及程度,确实给NLP应用人员带来了巨大的便利。