AI狂飙
张江 AI何以涌现:复杂适应系统视角的ChatGPT和大语言模型
张江,信息社会50人论坛成员、北京师范大学系统科学学院教授、集智俱乐部、集智学园创始人、集智科学研究中心理事长。主要研究领域包括因果涌现、复杂系统自动建模、社会与经济系统的规模法则(Scaling Laws)等。
一、“涌现”:大语言模型与复杂系统科学的渊源
最近,人工智能再一次被人们推上了风口浪尖,以ChatGPT为代表的AI大模型展现出了令人惊艳的能力。仅仅将数据量和模型参数量提升上去,这些大模型就忽然间拥有了很神奇的能力,如通过和用户对话来自动学习知识,还能够在一定的引导下完成较为复杂的推理任务。关键是,所有这些新能力,都并不是该模型训练学习的目标,它是随着参数量规模的增大而自发产生的。研究者将这样的现象称为“涌现”(Emergence)。
对于复杂系统科学(以下简称“复杂科学”)研究者们来说,“涌现”是一个再熟悉不过的概念了。一个复杂的人工智能大模型能够展现出“涌现”的能力,这本身就暗示着,现在的大模型已经成为一个不折不扣的复杂系统。不仅如此,大模型超级强大的学习能力,使得这个复杂系统能够灵活地适应环境,甚至能够展现出在少量提示下就可以学到全新技能的所谓in-context的学习能力。从结构上来说,大模型之所以能够表现得如此惊人,就在于其深度的层级结构,这种结构是一种自发演化形成的复杂网络。从动力学角度来说,大模型的运作分成了两个相互作用的耦合动力学:一个是更加快速的前馈动力学;另一个是较为慢速的学习反馈动力学。然而从宏观的定量表现角度来看,大语言模型也会具有像生物体、城市、公司这样的复杂系统都具备的“规模法则”(Scaling Law)及临界相变等表现。这一切都说明,似乎复杂科学中的那些分析工具都能应用于AI大模型。
那么,这些AI大模型会不会成为复杂科学的下一个热点研究对象呢?
1972年,著名的凝聚态物理学家,诺贝尔奖得主菲利普·安德森(Philip Anderson)就在Science上发表了一篇影响深远的文章——“多者异也”(More is Different)。文章指出,我们不能指望将微观原子世界的规律了解清楚之后,就能自然而然地了解诸如细胞、大脑、城市等宏观复杂系统的规律,这二者是非常不同的。该文章指出,“系统定量上的变化可以导致系统行为上的定性变化,这就是‘涌现’”。用亚里士多德的话来解释,就是“整体大于部分之和”,即整体能够展现出构成它的个体所不具备的新特性。通过这些复杂的相互作用,系统往往表现出非线性、涌现、自组织等性质。
复杂系统的适应性能力又是一个应该特别关注的现象,它表现为能够灵活地随环境的变化而变化。例如,一场森林大火并不能破坏整个生态系统,相反,有些时候它还会对清理杂草有很大的好处。这种灾后重生的能力就是生态复杂系统的适应性能力。著名的已故复杂科学家、遗传算法的发明人约翰·霍兰德(John H.Holland)将这种具备适应性能力的复杂系统称为复杂适应系统(Complex Adaptive Systems,CAS)。
建模是研究复杂系统的主要方法,即通过数学或计算机在符号世界中再造一个复杂系统。尤其是2010年以来,随着人工智能时代的来临,大数据终于催生出了AI大模型这一全新“物种”。从建模能力上来看,无人能与现在基于神经网络和深度学习的AI大模型相媲美。那么,复杂系统研究又会不会因AI大模型的出现而有所改变呢?笔者认为,有两个全新的研究方向值得关注:
(1)用复杂系统研究方法研究AI大模型本身;
(2)通过AI大模型研究真实的复杂系统。
二、作为复杂系统的AI大模型
AI大模型首先是一个典型的复杂系统。我们以目前异常火爆的ChatGPT为例来说明。首先,ChatGPT其实就是一个超级庞大的神经网络。其中,一个个神经元构成了ChatGPT这个复杂系统的基本组成单元,而这些神经元彼此复杂的相互连接就构成了一个复杂网络。
(一)神经网络与复杂网络
与绝大多数复杂网络不同,人工神经网络是一个处于不断变动之中的加权有向网络。随着训练的进行,大量的连边实际上都会被“砍掉”,最后无论在哪个层次,都会形成“胜者通吃”的局面,即各个神经元上的权重分布会呈现异质化趋势。
(二)作为复杂动力系统的前馈运算与训练
从动力学角度来说,神经网络本身就是一个复杂的动力系统。如果我们将每个神经元的激活状态看作每个节点的状态,那么整个神经网络在执行前馈运算的过程中,就体现为一个高维空间中的动力学演化过程(前向动力学过程)。例如,前馈神经网络在给定输入后可以通过动力系统的吸引子来赋予网络记忆的能力。还有研究将基于ResNet网络结构的神经网络理解为一个动力系统,从而讨论其动力学的稳定性问题。
除了前向动力学过程,神经网络的训练过程还可以体现为一个神经网络权重空间中的动力学过程。很多机器学习任务都可以看作一个优化问题的求解任务,而最常用的训练算法就是所谓的随机梯度下降算法,这样,整个网络的训练过程便可以看作一个势场中的扩散过程,不同的随机梯度下降算法(如动量梯度下降等)又可以看作不同类型的扩散过程,如包含漂移项等。于是,神经网络的学习过程就可以用一个朗之万(Langevin)方程来建模,这样非平衡统计物理中的大量分析工具便可以被应用到神经网络训练过程中。
(三)自注意力是一种自调控机制
值得一提的是,目前几乎所有的大语言模型都采用了Transformer架构,而这一架构的其中一个核心部件就是注意力机制。因此,神经网络在前向动力学中就可以动态地决定一个加权有向网络,该网络可以反作用到神经网络上,从而相当于在前向动力学过程中形成一种高阶的控制结构。
我们不妨把一个前馈运算过程和网络权重比喻成水流和河道。一般的神经网络河道是慢变的,水流只能被动地在河道中流淌,而且只能通过缓慢的训练过程慢慢改变河道。但是,有了自注意力这种机制,河水能够在流淌的过程中改变河道的分布情况,这就使得单一的前馈运算过程成为快慢两种时间尺度混合的动力学过程。
从图灵机的角度来看,前馈的消息可以看作数据,网络权重W可以看作调控程序。学习的过程就体现为程序的改变。因此,配备了自注意力机制的神经网络本质上可以做到自我调控。这种调控手段类似基因网络的自我调控机制。一个基因在整个过程中既可能成为调控者,又可能成为被调控对象。或者说,调控者可以被看作程序,被调控对象可以被看作数据。所以,自注意力机制使得神经网络具备了“自我编程”的能力(参看递归函数论中的s-m-n定理),即调整W就是在改变程序。我们猜测,这是ChatGPT这样的大语言模型能够实现in-context学习,以及各种复杂推理功能的核心。
(四)大语言模型中的“涌现”
大语言模型的“涌现”现象也是近年来研究的热点问题,但是与传统复杂系统中的“涌现”定义不同。大语言模型的“涌现”能力,指的是随着模型规模的增长,一些能力会突然变强,突变式地拥有了小语言模型不具有的新能力。
需要注意的是,虽然解锁“涌现”能力的方法有很多,包括:①进一步扩大模型规模;②提高数据的质量及改善模型架构和训练方式;③改善语言模型的通用few-shot prompting能力。但是,并非大语言模型中所有的任务都会发生“涌现”。同时,随着语言模型的增大而产生“涌现”能力,这种能力带来的风险也在增加。因此弄清楚发生“涌现”的真正机理显得尤为重要。
AI大模型的“涌现”能力也许可以用网络渗流(Percolation)模型来解释。其中,网络的规模就对应了连边概率,诸如in-context这样的能力就对应为最大联通集团。所以,神经网络的规模在突破一定阈值之前,其各种表现效果都接近随机,但是一旦规模超过该阈值,效果将会大大提高。这种“涌现”能力是一种量变引起质变的飞跃。
另外,我们也许可以用渗流现象来解释大语言模型的思维链(CoT):对于长推理,大语言模型也是把它拆成一步一步来完成的,而每步都有一定的正确率,但只要有一步做错,最后的结果就是错的,就好比一连串乘法中有一个乘数是0,那会导致最终结果为0。在小规模阶段,虽然随着训练规模的增长,每步的正确率都在提高,但要把所有步都做对的概率还是极低的。只有训练规模到了某个阈值,最终结果的正确率才一下子提升了上来。这也能很好地解释为什么像思维链这样的技术能够很好地提升“涌现”实验的效果。
(五)大语言模型的规模法则
与许多复杂系统一样,大语言模型也遵循规模法则(Scaling Law),也就是它的各项宏观指标会形成两两的幂律关系。
通过已有实验可以看出,测试损失随模型大小、数据集大小和用于训练的计算量大小呈幂律变化,有些趋势超过7个数量级。这意味着存在简单的方程在控制这些变量之间的关系,并且这些方程可以用于训练非常大的语言模型的最佳有效配置。简单的幂律方程也可以控制过拟合对模型和数据集大小的依赖,以及训练速度对模型大小的依赖。这些关系允许我们确定固定计算预算的最佳分配。
人们在解释各类复杂系统中的规模法则时已具有丰富的经验,那么这些经验能否迁移到大语言模型中呢?让我们拭目以待。
三、作为复杂适应系统的AI大模型
生物群落、自由市场、城市都是典型的复杂适应系统,这些系统中的每个构成单元都具备很强的自学习能力。为什么大模型本身也是一个复杂适应系统呢?根据约翰·霍兰德和默里·盖尔曼(Murray Gell-Mann)等人的理论,一个复杂适应系统会在和外界互动的过程中把握与外界交换信息的规律,总结出相应图式(Schema),再基于这个图式给出相应的行为,形成新的边界。
(一)从生态位到类比思维
在复杂适应系统中,有一个重要的概念,被称为生态位(Niche)。这个概念最早起源于生态学,指的是每个物种在整个生态系统中都有着独一无二的地位和作用。反过来,如果一个生态位上的物种消失,那么经过一段时间的演化,该生态位上就有可能“诞生”出一个全新的物种,但是它的功能和原物种极其相似。也就是说,我们可以把整个生态系统看作一个由各个抽象的生态位(功能)组成的系统,而并非是由具体的物种构成的系统。
约翰·霍兰德给出了这样的例子:三叠纪海洋中的鱼龙与现代海洋中的海豚在整个生态系统中占据了类似的生态位。虽然鱼龙与海豚无血缘关系,但在外形和习性上却惊人地相似。鱼龙以头足动物(枪乌贼、章鱼)为食,而海豚也会以这些动物为食。在另一个例子中,枪乌贼的眼睛和哺乳动物的眼睛具备类似的特征,但是它们却出自完全不同的组织。
在商业世界中,我们也能经常看到类似的现象。例如,中国互联网与美国互联网基本处于两个相对独立的生态系统中,但是这两个生态系统中都有类似的产品,如谷歌搜索与百度搜索都提供搜索功能的引擎;微信与脸书(Facebook)都提供社交服务;新浪微博与Twitter功能类似。可以说,对于互联网生态来说,这些产品占据了类似的生态位。
其实这种生态位的相似性与语言中的类比现象非常类似。如果我们将一个词所表达的概念看作一个物种,而将人类整个语言所起到的功能性作用看作一个生态系统,那么每个概念也就会具有一个类似的生态位。这也就是为什么不同语言都会存在对抽象数字1、2、3进行表达的特殊单词。这一现象,在语言中被称为类比。
关于类比,让我们设想一个抽象的问题:如果abc对应abd,那么ijk应该对应什么呢?我们不妨问问ChatGPT,如图1所示。
图1 引导ChatGPT完成类比思考
很遗憾,ChatGPT并不能直接类比出一个答案,一些略微的提示也不足以让它把握规律,生成图式。这对于人类来讲应该是件很简单的事,我们自然会想到要把第3个字母换成其在字母表中的下一个字母,所以其中一种答案应该是“ijl”。当然类比不是严格的论证,我们也不能证明答案一定就是“ijl”,但人类天然的类比和想象的能力,外加关于字母表的知识,让我们能迅速找到这个合适的答案。那是否ChatGPT只是暂时没有联想到关于字母表的知识呢?我们进一步给ChatGPT一些提示,如图2所示。
图2 ChatGPT经过提示后得到答案
果然ChatGPT给出了我们想要的答案。但读者可能会怀疑,这提示也太明显了,ChatGPT也太笨了,几乎是把解题步骤全告诉它了,它才给出答案。那我们再升级难度,看ChatGPT是不是真的学扎实了(见图3)。
图3 继续引导提问ChatGPT
如图3所示,当给出“xyz”的时候,与大多数人的反应一样,ChatGPT很自然地使用了字母表循环这一假设。但难度更高的“kji”却又不会了。此时需要它能够自动发现字母串的顺序反了,然后构建新的图式。但也不需要我们再提供额外的知识,只要再重复一遍之前出现过的条件,就有神奇的效果出现了,如图4所示。
图4 ChatGPT在掌握规律后的回答
在正序的字母串中替换第3个字母为其在字母表中的下一个字母,在逆序的字母串中就要替换第3个字母为其在字母表中的上一个字母,这是ChatGPT能够自动把握的规律。此时如果再考察“mrrjjj”该怎么对应,就是对ChatGPT极难的挑战了。
这个实验告诉我们,实际上ChatGPT这种大语言模型离真正掌握做类比推理的能力还有一定的距离,这个问题的关键在于每个符号所处的生态位实际上是一个很大的功能集合。在这个实验中,每个字母背后其实都暗藏着一个字母顺序及逆排序等此类关系集合,简单的字母尚且对应着很多隐藏的关系集合,那么更复杂的事物背后的关系空间则可能更大。然而,这个问题的困难之处就在于,所有这些关系都是隐式存在的,而且,很多关系还隐藏在物体属性的背后。
近期发展的数学理论范畴论认为,一个事物的定义本身就应该由它与其他对象的所有关系来决定,而非由这个事物的内部构成来定义。因此,未来的类比推理研究及生态位等概念有可能都由范畴论来定义。
(二)从桶队算法到梯度反向传播算法
现在,说到机器学习,我们就会联想到神经网络。但实际上在20世纪90年代,最流行的机器学习算法并非神经网络,而是约翰·霍兰德提出的遗传算法及其扩展——分类器系统(Classifier System)。遗传算法是通过在计算机中再造一个由大量0-1编码串构成的生物种群模拟大自然的进化,让适应度高的物种自然而然地获得更高的繁殖机会,而让适应度低的物种自然淘汰。
然而,简单的遗传算法只能解决函数优化、组合优化等问题,却很难解决机器学习问题。于是,约翰·霍兰德又开创性地提出了基于遗传算法和桶队算法的分类器系统:一个分类器系统是由大量分类器构成的,每个分类器对应一条规则,所有的分类器会被遗传算法优化,从而进行适应性调节,这就让系统具备了自动从环境中学习的能力。
对于简单的分类任务,上述分类器系统可以工作得很好。但是对于很多复杂任务,往往不是一条简单规则能描述清楚的,如果规则过于复杂,那么潜在的搜索空间将庞大得难以想象。所以约翰·霍兰德认为,可以把一个复杂任务进行拆解,每一步用一个简单规则来完成,许多规则串在一起,让消息从输入开始,一直传递到输出,再根据外界反馈来获得奖励。然而,当传递链条过长的时候,如何对一条消息链上的所有分类器分配信用值则成了一个麻烦的问题。于是,约翰·霍兰德开创性地提出,可以用自由市场买卖的隐喻构建桶队算法(Bucket Brigade Algorithm)。
约翰·霍兰德将整个分类器系统比喻为一个自由买卖的市场,每个分类器产生的新消息比喻为一种商品,而一个长长的被激活的分类器链就相当于一条长长的产品生产链。于是,信用就变成了这些分类器手中的货币,可以对产品进行购买。如果一个分类器产生的系统被输出到环境中,并成功地获得了正向的奖励,那么该分类器会获得一笔可观的信用值(货币)。整个人工智能系统就像个纷纷攘攘的交易市场,盈利能力强的分类器就会被保留下来,构成强大的供应链,一旦有薄弱环节就会被其他分类器替换下去。熟悉神经网络的读者不难发现,整个桶队算法像极了今天工业界大量使用的梯度反向传播算法(Backward Propagation Algorithm)。
我们可以系统性地对比约翰·霍兰德的分类器系统和当今流行的前馈神经网络,如表1所示。
表1 复杂适应系统、分类器系统和前馈神经网络中各组件的对应关系
尽管分类器系统与神经网络存在差异,但是二者的相似性还是非常显著的。二者本质上都实现了一个或两个互为反方向的流动过程,这种双向“对冲”的流动才是一个复杂系统产生学习适应能力的本质。
其实,几乎所有具备学习适应能力的大规模复杂系统(复杂适应系统)都具备这样的双向“对冲流”特征。例如,我们大脑中的学习适应过程就是神经元激活的正向信息流,和由多巴胺等激素控制的反向评价流共同“对冲”而实现的。在人类组织中,前向的流动是由组织成员接续的决策而产生的执行/行动流,反向的流动则是对决策进行评价的评价反馈流,二者构成“对冲”,从而对组织结构和组织成员进行调整(见图5)。
图5 从双向“对冲流”视角理解复杂适应系统
从抽象的双向“对冲流”的视角理解复杂适应系统的好处,是可以在更加底层的角度把握各类学习系统的本质;另外,可以在这种抽象层次上建立起各类不同学习适应系统的类比关系,从而可以将一个领域的知识平移到另一个领域中。例如,我们能否根据误差反向传播思想,或动态规划思想来设计人类组织中的评价机制,或者,我们是否有可能站在“双向流”的视角,改进并超越现有方法(如反向传播算法),让学习优化变得更加高效。
四、总结
总结来看,我们可以将现在已经在各个领域大展身手的AI大模型看作一个复杂适应系统。因此,AI大模型有可能成为复杂科学可以大展身手的一个领域。一方面,可以借助现有的分析工具,如网络分析、动力系统、混沌、分形等理论,来理解神经网络动力学及其学习过程;另一方面,对于只有大模型才能展现出来的“涌现”能力、规模法则现象,则可以通过复杂系统的相变理论等进行深入理解。再进一步,如果站在复杂适应系统的视角,还可以将复杂AI大模型类比为类似生态网络的复杂适应系统,从而站在更高、更抽象的层次理解生态位、类比推理,以及普适的适应学习原理。其中,范畴论有可能为我们提供高维度的数学工具加以抽象描述。
对于复杂系统科学领域的研究者来说,长久以来,人们很难在复杂科学领域取得重大突破,这有相当一部分原因是真实复杂系统很难进行观测及重复实验。于是,人们通过构建计算机模型来替代真实的复杂系统。然而这些模型又因为过度简化,或者并不能完成实际任务,而导致研究工作意义不大。现在,有了可以执行复杂任务的AI大模型,复杂科学家们便有了全新的、理想的研究对象。通过研究分析大模型可以获得关于复杂的网络动力学及其适应演化的第一手材料,从而有助于从中提炼出普适规律。模型具有高度的可控性,我们可以通过数值计算的方式完成实验,从而大大降低了研究复杂系统的成本。另外,AI大模型可以解决很多实际问题,对模型的理解和优化也有助于实际问题的解决。
对于AI研究者来说,采用复杂科学相关的研究手段:非线性动力学、复杂网络、统计物理、复杂适应系统、范畴论等工具,有助于我们站在普遍系统的视角更好地看待AI大模型。它一方面可以帮助我们从整体角度理解AI大模型的工作基础,特别是针对“涌现”能力、规模法则等现象的深层理解;另一方面也可以帮助我们更好地改进模型从而提供洞察思路和帮助。除此之外,这些理论工具也有助于我们构造可解释性的AI模型。
总之,在不远的将来,复杂科学和AI大模型还会有更多的有趣结合点。