观点|Opinion

微软CTO断言，明年是AI社区最激动人心的一年，网友：GPT-4要来了？

作者褚杏娟

“对于人工智能，2022年是有史以来最激动人心的一年。”微软首席技术官Scott Stein在近日的分享中说道，但他还自信地表示，“2023年将是AI社区有史以来最激动人心的一年。”

值得关注的是，微软是OpenAI的主要投资者，而OpenAI最近GPT-3.5系列主力模型之一的ChatGPT爆火，Stein的这次发言也牵动了网友敏感的神经：GPT-4要来了？

生成预训练transformer（Generative Pre-trained Transformer，简称GPT）是一种可利用互联网数据进行训练的文本生成深度学习模型，在问答、文本摘要、机器翻译、分类、代码生成和对话式AI领域都有相当出色的表现。

2022年7月，OpenAI发布了最先进的文本转图像模型DALLE2。就在几周之后，Stabil ity.AI推出了DALLE-2的开源版本，名为Stable Diffusion。两款模型在亮相后均大受好评，也在质量和理解文字描述的能力上展现出可喜的成果。最近，OpenAI又推出名为Whisper的自动语音识别（ASR）模型，带来了优于原有同类模型的稳健性和准确度。

从过往趋势来看，OpenAI在接下来几个月内推出GPT-4的概率很大。市场对大语言模型有着相当迫切的需求，GPT-3的流行已经证明大家愿意接受GPT-4，同时也对它的准确性、计算优化、更低偏差和更高安全性充满了期待。

GPT不出，AI万古如长夜

在GPT-1之前，大多数自然语言处理（NLP）主要针对分类和翻译等特定任务进行训练，使用的也均为监督学习方法。这类学习方法有两个问题：过度依赖注释数据，而且无法实现任务泛化。

GPT-1（1.17亿参数）相关论文《Improving Language Understanding by Generative Pre-Training》发表于2018年，其中提出了一种生成语言模型，能够使用未标记数据进行训练，并在分类和情感分析等特定下游任务上进行微调。

GPT-2（15亿参数）论文《Language Models are Unsupervised Multitask Learners》发表于2019年，其中使用的参数更多、训练数据集也更大，语言模型自然进一步提升。GPT 2使用任务调节、零样本学习和零样本任务转换等方式提高了模型性能。

GPT-3（1750亿参数）论文《Language Models are Few-Shot Learners》发表于2020年，其模型参数达到了GPT-2的100倍，使用的训练数据集更大，因此能在下游任务上取得更好的效果。

GPT-3在故事写作、SQL查询、Python脚本、语言翻译和摘要编写等能力上几乎能够与人比肩，效果惊艳全球AI界。如此出色的表现，离不开其中的上下文学习、少样本、单样本及零样本等技术设置。

GPT-4可能是什么样子

在最近的活动中，OpenAI CEO Sam Altman证实了GPT-4模型的发布传闻。下面是国外数据培训企业DataCamp对GPT-4模型大小、参数水平以及计算、多模、稀疏性及性能等方面的预测。

模型大小

根据Altman的介绍，GPT-4并不会比GPT-3大太多。因此，预计其参数大约在1750亿到2800亿之间，跟Deepmind那边的语言模型Gopher基本相当。

块头更大的Megatron NLG是GPT-3的三倍，参数达5300亿，但性能并没有更好。紧随其后的稍小版本反而性能更优，所以单纯堆体量明显不足以让性能更上一层楼。

Altman表示，他们正努力让更小的模型获得更佳性能。大语言模型需要庞大的数据集、海量算力和更复杂的实现。对于多数企业来说，不要说训练，这类大模型就算部署起来都困难重重。

最优参数化

大模型的优化水平往往不高，为了有效控制模型训练成本，企业必须在准确性和成本之间做出权衡。例如虽然还能改进，但GPT-3确实只训练过一次。由于无法承受成本，研究人员根本没办法进一步做超参数优化。

微软和OpenAI已经证明，如果用最佳超参数对GPT-3进行训练，该模型还有继续改进的空间。在调查结果中，他们发现经过超参数优化的67亿参数GPT-3模型与130亿参数GPT-3模型的性能基本一致。

他们还发现了新的参数化方法（μP），即较小模型的最佳超参数与相同架构的较大模型的最佳超参数相同。如此一来，研究人员就能以更低的成本实现大模型优化。

最优计算

DeepMind最近发现，训练令牌的数量对模型性能的影响也很大，甚至不亚于模型大小。自GPT-3面世以来，他们一直在训练具有700亿参数的Chinchilla模型并证明了这一结论。该模型只相当于Gopher的四分之一，但使用的训练数据反而是后者的四倍。

所以我们基本可以假设，要实现模型最优计算，OpenAI会额外再加5万亿个训练令牌。就是说要想将性能损失控制在最低，GPT-4的模型训练算力将达到GPT-3的10到20倍。

GPT-4将是一套纯文本模型

在问答当中，Altman表示GPT-4不会是像DALL-E那样的多模模型，而是纯文本模型。

为什么这样说？与纯语言或纯视觉相比，多模模型的质量往往难以控制。将文本和视觉信息结合起来本身就是个大挑战，导致多模模型需要身兼GPT-3和DALL-E2的双边优势，这显然很不现实。所以，GPT-4应该不会出现什么花哨的新功能。

稀疏性

稀疏模型使用条件计算来降低计算成本。这类模型可以轻松扩展至超过1万亿参数，仍不会产生高昂的计算成本。稀疏模型能帮助我们用较低的资源训练出大语言模型。

但GPT-4应该不会是稀疏模型。为什么？因为OpenAI长期以来只研究密集语言模型，所以不太可能牺牲体积换取算力节约。

AI对齐

考虑到OpenAI一直在努力解决AI对齐问题，所以GPT-4的表现应该会比GPT-3更好。OpenAI希望语言模型能延伸我们的认知、坚守人类的价值观，并为此训练出了In structGPT。作为GPT-3的变体模型，其根据人类反馈接受了训练以确保遵循指令。有专家认为，该模型在多种语言基准上的表现均优于GPT-3。

目前，GPT-4的发布日期仍未确定。所以我们可能要到明年才能见其真容，也可能在下个月就迎来惊喜。但唯一可以肯定的是，下个版本一定能解决旧版本的某些问题，并带来更好的性能表现。

当然，目前已经出现了不少关于GPT-4且自相矛盾的传闻。比如说它有100万亿个参数，而且专门用于生成编程代码。但这些都是纯猜测，没有任何根据。我们不清楚的情况还有很多，毕竟OpenAI没有公布关于其发布日期、模型架构、大小和训练数据集的任何消息。

结束语

AI模型开发领域，经历了预训练模型-大规模预训练模型-超大规模预训练模型的演进。Google发布的Bert模型即是自然语言处理领域最为典型的预训练模型。OpenAI则提出了GPT模型，尤其是2020年发布的GPT-3模型参数量达到1750亿，其在全球掀起大模型的浪潮。

根据IDC观察，国内大力投入大模型研发和落地的以大型云厂商为主。例如百度智能云推出了“文心大模型”，包括了NLP大模型、CV大模型以及跨模态大模型等36个大模型；阿里达摩院则推出“通义大模型”系列，以M6大模型为底座，发布Alice一系列模型合集；华为则从框架层、算力层以及软件层面全面发力大模型，既有内部自主研发的盘古大模型，也开放华为昇思MindSpore框架支持业界进行大模型的训练。

随着市场对于大模型的认知逐渐理性和落地，使用大模型的价值也开始凸显，如不要求企业具备海量的数据基础、应用大模型的效果更优、降低AI开发门槛等。很多AI先行者已经在成熟度较高的场景中引入了大模型。

大模型为人工智能未来发展带来了全新的可能，未来将如何迸发出新的可能，我们拭目以待。

参考链接

https://www.datacamp.com/blog/what-we-know-gpt4

https://the-decoder.com/microsoft-cto-scott-stein-predicts-most-exciting-2023-for-ai-with-gpt-4-on-the-horizon/

https://www.idc.com/getdoc.jsp?containerId=prCHC49424422