陈德人 人类新文明的三元空间:GPT视角
陈德人,信息社会50人论坛成员,浙江大学教授、计算机学院博士生导师,浙江外国语学院资深教授。长期研究信息技术与数字化应用,曾获国家科技进步和国家教学成果奖5项,被评选为首届中国服务业科技创新人物和杭州市数字人物。
纵观人类文明的演化进程,一方面是从个体生存到群体协同的关系进步,另一方面则是从封闭区域到广阔天地的空间延伸。就如恩格斯对于数学的定义所描述的,数学是“研究客观世界的数量关系和空间形式的科学”。“关系”和“空间”不仅是构成数学的两大关键词,也是人类能否走向新文明的关键标志。
2021年和2022年以数字孪生为代表的元宇宙和以ChatGPT为代表的通用人工智能(Artificial General Intelligence,AGI)横空出世,给人类文明在“关系”和“空间”两个维度上带来了一个全新的视角。这与浙江大学前校长潘云鹤院士几年前提出的人类迈向群体智能的三元空间概念[1-2]不谋而合。一个基于AGI和元宇宙的GPT技术推动人类新文明的新时代正在到来。
一、通用目的技术:从ChatGPT到GPT
首先介绍两个热门的GPT概念。一个是ChatGPT中的GPT,即用于聊天的生成式预训练转换器(Chat Generative Pre-trained Transformer),简称聊天机器人[1];另一个是通用目的技术(General Purpose Technologies,GPTs)。前者是由OpenAI公司开发的,后者则是一个通用名称。故此GPT非彼GPT,对于本文出现的GPT,为了区分,将后者统一写为GPTs。
经济学家们早已证明,科学技术的进步是经济增长的主要源泉,而人类长期的经济增长一定是由少数几种关键技术所推动的,这类关键技术被称为“通用目的技术”,即GPTs。《经济转型:通用目的技术和长期经济增长》一书总结出了一个惊人的结论,即人类有史以来一共只有24种技术属于GPTs。这是因为成为通用目的技术的要求非常高,至少需要符合以下3个基本特性。首先是普遍适用性,它能广泛应用于绝大多数行业;其次是动态演进性,随着时间的推移,技术能够不断得到改进,使用成本能够不断降低;最后是创新互补性,它提高了应用部门的研发生产率,反过来又能够促进技术自身的进步。该书总结的24项GPTs技术分为产品类、流程类和组织类3种,其中产品类14项、流程类7项、组织类3项。另外,从时间轴来看,GPTs的数量也是随着人类文明进步的加快而逐步增多的。公元前累计只有7项,公元后至15世纪有3项,18世纪至19世纪有6项,而20世纪迄今就已经有8项[2]。
ChatGPT有各种不同的定义和表述,它可以是一个搜索各类信息的平台、一个任意时间的聊天平台、一个有强大语言处理和问题分析能力的个人助理平台等。它能够进行写作、翻译、编程、制作脚本、撰写电子邮件等从简单到复杂的各项工作。由于它具有强大的自学习能力,其功能仍然在不断完善和野蛮生长过程中,因此更多的新功能和新定义还会继续出现。ChatGPT于2018年推出GPT-1时,模型参数量仅为1.17亿个;2019年2月和2020年5月分别推出了GPT-2和GPT-3,模型参数量达到了1750亿个,2022年10月发布的GPT-3.5终于在全球引起了轰动效应。人类开始认识到其巨大无比的威力。如今应用的GPT-4是2023年3月发布的,据估计模型参数量能够达到100万亿个,而这个数据恰好就是人类大脑神经元的突触数。
2022年,ChatGPT正式推出后,短短2个月内其注册用户数即过亿,成为迄今最为火爆的网络产品之一。数百家大小企业纷纷注资投入到以ChatGPT为代表的AGI的竞争行列中。由于AGI完全满足了评价GPT的3个基本标准,特别是AI这一被普通人认为是高大上的高新技术,到了ChatGPT阶段却一下子成为寻常百姓手中无所不知的“聊机”,它当之无愧地成为第25个GPTs。
下面我们从人类文明发展的时间脉络来分析GPT的出现过程及贡献。
二、人类文明演变:从一元空间到三元空间
人类在地球上的生存演变经历了千百万年的过程,从3000万年前的古猿到300万年前的类人猿(肯尼亚出土的牙齿骨骼和埃塞俄比亚出土的“露西”均在300万年左右),再到5万年前到1万年前的晚期智人。从晚期智人阶段进入现代人类古文明阶段的分界大约在1万年前到5000年前(或许在更长时间或更短时间里,考古界对此会有不同观点)。图1用横向的人类文明轴和纵向的地球年代轴大概描述了人类生存所在的从一元空间到三元空间的变化,下面是相关的具体解释[3]。
图1 人类文明与地球年代的三元空间
(一)一元空间
古文明前及其更早阶段的人类生存活动一般被认为与其他动物的生存状态并无二致,仅局限于人类的一元物理空间,记为H1(P),其中,H和P即为Human和Physical的首字母标记,这里的下标“1”表示空间的维度(以下同理)。所谓物理空间,就是人类(包括晚期智人阶段)早期生存的实体空间。就像美国地理学家E.C.森普尔在《地理环境的影响》开篇中所说的:“人类是地球表面的产物。”原始的人作为个体处于地球表面这个物理空间中,与其他动物一样不存在什么复杂的社会关系、组织形态、经济活动及思想体系等社会和文化类元素。因此从宏观视角(天文学家、物理学家、地质学家等的视角)来看,人类只是一个后面带有28个“0”的阿拉伯数字原子数量的动物体;从微观视角(生物学家、医学家、化学家等的视角)来看,人类只是78%的占比为水,其他为蛋白质、脂肪和无机质的生物体。
人类之所以最后在地球上能够独领风骚,主要在于大约在公元前9000年到公元前7000年率先掌握了植物驯化、动物驯养和矿石冶炼3类赖以生存的关键技术。它们是人类能够从一元空间脱颖而出进入二元空间的关键,它们自然被列为最早的GPTs。
(二)二元空间
古文明阶段一直延续到18世纪,其间人类才真正进入近代文明阶段。在古文明到近代文明的转型过程中,人类在物理空间的基础上逐步形成另一个空间,即社会空间。这里的社会空间,用地理学家R.J.约翰斯顿(R.J.Johnston)的观点来解释,就是“社会群体感知和利用的空间”,即由人类在物理空间的基础上逐步开始有意识地进行社会组织、开展社会活动、规范社会行为等内容组合而成的一个空间,这也是人类有别于地球上其他动物的主要标志,是人类文明产生和不断进步的过程体现。就像马克思在《经济学手稿(1857—1858年)》中提到的:“社会是联合起来的单个人。”从古巴比伦的《汉谟拉比法典》到希腊城邦的迈锡尼文明的出现,从16世纪的大西洋三角贸易到17世纪禁止贩卖奴隶的法律均验证了包括商业文明在内的社会文明的进步。在古代中国,《周易》所描述的从商到周变迁过程中祭祀方式的改变、春秋时期老子开启的道家学说,以及孔子开启的儒家学说均说明了社会空间是如何带动人类文明进步的。人类开始了有组织意识的农业种植和手工业生产(如青铜器、陶器的发明等),希腊城邦的私有经济体系和地中海海上商贸活动也是在古文明时期建立起来的。
综上,古文明以来人类发展从早期单纯的一元空间扩展到了如图2所示的二元空间H2(P,S),其中,S为Social的首字母标记。从某种角度思考,物理和社会这两个空间恰好对应了现代社会所提倡的物质文明和精神文明这两个世界。因此从本体视角(哲学家、文学家、思想家等的视角)来看,人也是一个复杂到其大脑中有超过100万亿个突触的思想体(每个人的大脑皮层中有140多亿个神经细胞,而每个神经细胞又有3万多个突触)。人类在此阶段产生了大量的GPTs技术,例如:公元前的车轮、青铜、铁,以及流程类技术的写作;中世纪早期(公元5世纪后期到公元15世纪中期)的水车、15世纪的三桅帆船(带来了大航海时代)和16世纪的印刷技术。
图2 二元空间示意图
18世纪中后叶到20世纪中叶是人类从近代文明快速进入现代文明的重要时期,其间的GPTs有铁路、铁轮船、内燃机、电力、机动车和飞机,由它们带动了人类史上空前规模的两次工业化浪潮,也奠定了现代社会的物质基础。
(三)三元空间
以计算机和互联网两大发明为标志的GPTs的广泛应用掀起了第三次工业革命的浪潮。从20世纪中叶开始的短短半个多世纪以来,从信息化、数字化到如今的智慧化,信息革命对人类的赋能产生了4次升级演变。首先是计算机赋能(使得计算机能够实现像人一样进行计算);其次是软件赋能(使得计算在各行各业得到应用);再次是网络赋能(使得计算能够随时随地获得应用);最后,由于AGI的推广更是形成了AI赋能(获得比人类更强大功能的赋能),就如英伟达CEO黄仁勋于2023年3月22日在AI与元宇宙开发者大会上的演讲中所总结的“OpenAI就是一台计算机”。人类由此获得了远比物理空间和社会空间所建立起来的二元空间更广阔和更丰富的新的空间领域。潘云鹤院士将这个新的空间称为信息空间,人类的赋能也由此从二元空间扩展到了全新的三元空间H3(P,S,C)这一更广阔的天地(见图3),其中C(Cyber)指信息空间H1(C)。
图3 三元空间示意图
信息空间H1(C)在三元空间H3(P,S,C)里占有极其重要的地位。所谓信息空间,就是用数字化形式实时记录物理空间和社会空间中的各类信息,以及它们之间的关联组合,人类在世间发生的任何事件和活动在信息空间里都能找到对应。简单地用数学语言来描述,信息空间就是由无数个大大小小的虚拟空间、数字空间或数字平台(小到手机App,大到文心一言或ChatGPT等)及它们的关联关系所组成的一个集合体。信息空间及由其产生的创新在人类新文明发展进程中正在扮演着越来越重要的角色。
三、元宇宙:三元空间的关系构建
如同现在再多的世界万物和再复杂的经济体都可以通过计算机的“0”和“1”两个代码的反复组合与计算来解释,我们同样也可以把三元空间H3(P,S,C)中的空间关系用元宇宙概念进行数学描述。说起元宇宙,大部分观点都认为它只是一个数字空间或虚拟空间,甚至只是一个数字游戏空间,这类定义显然不够准确。文献[4]和文献[5]对元宇宙提出了比较合理的解释,它们用空间映射关系来定义元宇宙。这里在上述文献基础上用三元空间进行了进一步的说明,即元宇宙就是由三元空间及其空间的对应关系组成的。其对应关系包括两层含义,第一层含义是,为三元空间H3(P,S,C)里的信息空间H1(C)和物理社会空间H2(P,S)建立一个映射的同态关系:
δ:H1(C)~H2(P,S)
对于H1(C)中的每个元素,即数字平台Xi(i=1,2,…,n),找到物理空间或社会空间的对应内容Y。第二层含义是信息空间H1(C)中的每个数字平台Xi本身也是一个数字空间(或虚拟空间),它同样可以建立起从数字平台Xi到物理空间H1(P)的同态映射关系。因此可以说,元宇宙不仅是这些物理空间、社会空间、数字空间(虚拟空间)的组成,更包含了它们之间的有机关联。1992年,尼尔·斯蒂芬森(Neal Stephenson)在他的科幻小说《雪崩》(Snow Crash)中首次提到了Metaverse。该小说描述了脱胎于现实世界的一代互联网人对两个平行世界的感知和认识,最终认为在Metaverse里的行为和资产与物理世界中的一样有意义。从这个意义上理解,Metaverse最早的中文翻译“超元域”可能比元宇宙本身更为恰当。
就像二元空间中的两个空间可以对应相应的文明(如物理空间对应物质文明,社会空间对应精神文明),信息空间也对应着信息文明这一更为艰巨复杂的任务。元宇宙建立起的三元空间与这些空间之间同态关系的本质,就是实现物质文明、精神文明和信息文明间的融合。这当然是一个异常艰巨的任务,需要一步一个脚印地去实施。例如,在用新技术高质量发展新电商的过程中,政府在数字平台运行中的作用更像是一只“看不见的手”,相比于二元空间中政府在传统市场运行中的作用就是一只“看得见的手”。一个高效的管理者就如《道德经》所说的“太上,下知有之”,就需要H3(P,S,C)中的信息空间在其中扮演“看不见的手”这一重要角色。从“最多跑一次”到“最多就近跑一次”,再到“一次都不跑”,就是近年来,政府通过信息空间不断用新技术创新意识,为广大中小微民营企业做更好服务的案例。
四、AGI:三元空间的表现形式与交互技术
人工智能(Artifical Intelligence,AI)是20世纪50年代提出的,在这之前,艾伦·图灵就对“智能”进行了描述,即无法分辨出是人还是机器在操作。在1956年开启AI启航号角的美国达特茅斯会议上,约翰·麦卡锡提出了AI就是能够执行具有人类智能特征的机器。早期的AI基本上属于个体智能范畴,其能够解决的问题和应用的领域也非常有限,属于一类在可统计和可推理状态下的规规矩矩的智能机器。AI在前50年(AI 1.0阶段,1956—2005年)经历了多次的高潮和低谷。进入21世纪,特别是2006年以来,杰弗里·辛顿提出了深度学习理论及其后继的大规模研究和应用,AI终于开始了AI 2.0阶段的黄金周期。正如《人工智能时代与人类未来》中所说的“AI正在改变人类的思想、知识、感知和现实”[8]。随着以OpenAI开发的ChatGPT为代表的AGI的大规模推广,人类正在进入一个通过群体智能科技创新改变世界的新十字路口[6],在这个十字路口,人类可以从二元空间进入全新的三元空间。
AGI与通常AI的不同之处在于,它是一个能够像正常人一样执行各种任务、学习各类知识和适应各种环境的AI。这类执行任务或学习知识的过程需要在各类空间环境中展开,需要比以前更为复杂的表现形式和交互技术。受篇幅所限,这里仅介绍其中的几类技术。
(一)人机交互技术
计算机问世70多年来,人机交互技术不断发展,表1列出了人机交互技术演进过程[5,7]。
表1 人机交互技术演进过程
从表1可以看出,人机交互界面与方式的变化促使信息技术的应用从科学计算的可视化、服务功能的可视化发展到人类行为(从游戏到战争等)乃至思维意念的可视化。然而,通过近年来正在开展的一系列研究应用可知,信息技术越来越需要与生物学、农学、物理学、生命科学和医学等学科的技术(脑机接口等)紧密结合,甚至包括心理学、哲学或宗教学等(行为控制或意念控制)。由此,60年前所设想的赛博空间也正在得以真正地实现,从地球到月球、再到火星的生存探索也得以启航。上述这一切现在都可以归结为元宇宙。
还有一个明显的趋势就是,机器人正在逐步替代一线员工。各个车间里的各类大小机器人忙碌地穿梭,不知疲倦地从事繁重的工作。例如,在港口码头和大型仓库里,数不清的机器人24小时不停地搬运货物。
(二)图形技术与灵境技术
“一幅图顶得上千言万语”,人类任何时候都离不开图形,从世界各地考古发现最早期的文物就是远古时期古人在岩石上刻画的图形。OpenAI开发ChatGPT伊始,在硬件支撑方面首先获得了英伟达超级计算中心的支持,而这个超级计算中心就是由大批量的图形处理器(GPU)支撑的。一个GPU在算力上至少相当于70个CPU[3]。在ChatGPT的大模型开发上,也是首先借助“图片孵化器”进行开发[9],其开发效率和智能化程度远高于其他通常算法的开发手段。因此图形技术是AGI能够成为GPTs的关键因素之一。
计算机图形学的研究从20世纪60年代开始,经历了从字符终端到图形终端、从图形光栅显示和随机显示到图形工作站(Apollo、SUN、SGI、HP等)、从二维图形到三维图形的硬软件技术发展。在三维空间基础上,计算机图形学实现了从三维框架、真实感显示、曲面造型、三维实体渲染、三维影视动画、体元建模到全息显示等的发展。其中全息显示技术在三维空间基础上进一步将空间分解为面内空间和面外空间,通过分析点、线、面内空间与点、线、面外空间交接处的自由度以获取物体的全部信息,可用的物理技术包括激光、微波、声波等,这些都是元宇宙的基础性关键技术。
浙江大学是国内最早在图形技术领域开始研究和应用的单位之一。潘云鹤院士在国内最早将人工智能与图形技术结合起来开发了多个智能设计系统并获得大奖。何志均、金廷赞、董金祥等教授实现了从国家“七五”到“十五”的多个国家重点科技攻关,主持了国家863高技术、国家自然科学基金等相关项目。国内唯一的CAD&CG国家重点实验室在20世纪90年初开始就一直设立在浙江大学。以鲍虎军教授领衔的团队采用端—云协同的计算架构开发了虚拟现实驱动引擎、增强现实支撑平台和超写实数字人平台等基础软件工具。这些基于AI的平台工具能应用在训练模拟、文旅传媒、智慧城市和工业元宇宙等各领域的应用场景中[5]。
灵境技术依赖计算机图形技术和AI技术。灵境技术这一表述是钱学森院士率先提出来的,它认为VR技术实际上就是一种灵境技术。钱学森的观点揭示了信息空间里的一类新的表述方法,它建立了元宇宙中各个空间元素的图形表示与动态关联。由于其硬软件技术上的要求,与一般科学计算用的计算系统不同,直至20世纪80年代后期,灵境技术才开始进行研究,包括用于游戏、控制或设计的VR装置(从手套到头盔等)。
如表2所示,虚拟现实到扩展现实的演变都可以看成灵境技术的提升[5]。从虚拟现实、增强现实、混合现实到扩展现实(统称XR),其装置需求在不断提升,除硬件水平的提升外,还越来越依赖数字孪生、智能计算、云计算、物联网、5G到6G网络等技术的支持。
表2 从虚拟现实到扩展现实
钱学森的灵境技术观点及其所倡导的大成智慧体系如今可以看成元宇宙的核心思路。因此2022年在北京举行的纪念钱学森诞辰111周年的纪念活动中,钱学森被尊称为“元宇宙之父”和“中国元宇宙1号公民”。
(三)Web技术与信用技术
1982年推出的TCP/IP和1990年问世的万维网(WWW)是信息化到数字化得以推行的关键,而Web技术的研制大大提升了信息化应用的广度、力度、高度和深度,并且给人类社会带来了从未有过的深刻变革。Web技术的演进可分为如表3所示的几个阶段[5]。
表3 Web技术的演进
未来,Web 3.0在三元空间里的作用将非常重要,因为它建立起来的信用体系可以看成元宇宙的灵魂,区块链就是一台信用的机器。限于篇幅,这里不再展开讨论。
五、GPT的作用:人类认识世界的一场范式革命
如果仅仅把ChatGPT看成一个聊天机器人,很可能小看了这项技术。早在10年前就有了聊天机器人的概念和产品,如百度推出的“小度”当时就已经在很多场景有所应用。那时的聊天机器人与如今的ChatGPT有什么区别呢?笔者认为至少体现在3个方面:①在内容表达上,经历了从文本到全媒体的变化;②在交互过程中,实现了从简单对话到全文描述的跃进(GPT-3.5只能递交3千字规模的内容提问,而GPT-4则扩大到了2.5万字,相当于2~3篇期中论文的统计字数);③从结果分析上,开启了从简单判断到创造性推演的变化。从简单判断到创造性推演的变化尤其重要。在测试中可以看到,很多问答交流并非如中国人习惯的只有对和错两种选项,而很像中国道教文化中一种“中庸之道”式的交流沟通。
以ChatGPT为代表的AGI对于人类新文明的演变作用,最重要的贡献可能在于人类认识客观世界的范式由此发生了革命性的变化。这可以通过四次工业革命采用的工程模式看出。第一次工业革命采用的是以计算实验为主的机械范式,第二次工业革命采用的是以模拟仿真为主的电子范式,第三次工业革命采用的是以数字仿真为主的信息范式,而如今进入第四次工业革命,正在形成的是以智能创造为标志的智能范式。智能范式丰富多彩的创造性表现不仅仅局限在单一的空间范畴内,三元空间特别是信息空间就是它施展才华的大舞台,而元宇宙就是现阶段最好的一个支撑。
六、三元空间的意义:从物质文明、精神文明到信息文明
人类生存的要素需求已经从农业化时期的物质、工业化时期的能源延伸到了智慧化时期的数据。计算机、互联网、AGI这3个GPTs构成了一个由大数据作为资源、大模型驱动算法、大平台支撑运行的新文明时代,人类正在走进一个高质量发展的全新的三元空间。
以大数据为代表的是一种新生产资料,以人工智能、云计算和大模型等为代表的是一种新生产力,以区块链为代表的又是一种新生产关系,这些新技术恰好对应着新经济的这三大新要素。数字平台就是构建起三类新技术和三大新经济新要素之间关系的桥梁。无数数字平台汇聚成了越来越强大的信息空间H1(C)。因此在现代人类生存的三元空间里,信息空间无疑是推进高质量发展的抓手。那么它与物理空间和社会空间之间的关系如何恰当地描述呢?
在基于元宇宙的三元空间里,借助群体智能、数字孪生等AGI新技术,普通人的智商可能能够得到极大的提升。可以预见,未来物理空间中的人物将出现在信息空间的不同数字空间中,同态映射出数字人或虚拟人。例如,在新电商领域,除了在信息空间里越来越便利的有形商品贸易和占比不断扩大的服务商品贸易,还有快速增长的数字商品贸易。随着区块链技术应用开发的数字藏品的不断发展完善,也许未来最值钱的不是古董文物而是数字藏品。也许人类的遗产继承方式也将因此发生改变。传统的个人遗产就是财富,而未来最应该继承的应该是一个人拥有的知识、品德乃至精神和意识。利用增强的自学习功能和成熟的大数据存储技术,一个人可以随时记录每天的思考和意识,通过自学习功能进行完善,从而形成一个完整的个人思想和知识体系。物理空间的肉体生命会随时随地地新生和消亡,但一个人的思想、知识和精神在信息空间中则可以永垂不朽,这也许正在成为人类在三元空间中对未来人生的一种新的追求。
参考文献
[1]魏江.数字创新[M].北京:机械工业出版社,2020.
[2]吴飞.走进人工智能[M].北京:高等教育出版社,2022:113.
[3]刘军.中国电子商务本科专业建设20年[M]//陈德人,潘云鹤.用新技术高质量发展新电商.北京:对外经贸大学出版社,2023,6(16):333-342.
[4]朱嘉明.元宇宙与数字经济[M].北京:中译出版社,2022:478.
[5]陈德人,陈晓菲.元宇宙:数字化下半场的教育职责[J].中国教育信息化,2022(9):58-69.
[6]刘军.中国电子商务本科专业建设20年[M]//潘云鹤.群体智能与市场经济的平台研究.北京:对外经贸大学出版社,2023:325-332.
[7]信息社会50人论坛.寻路:信息社会新格局下的选择[M].北京:电子工业出版社,2022:114.
[8]亨利·基辛格,埃里克·施密特,丹尼尔·胡滕洛赫尔.人工智能与人类未来[M].胡利平,凤君,译.北京:中信出版社,2023:6.
[9]肯尼斯·斯坦利,乔尔·雷曼.为什么伟大不能被计划:对创意、创新和创造的自由探索[M].彭相珍,译.北京:中译出版社,2023:45-58.
[1]网络上有人将其简称为“聊机”,这是一个值得推广的新词。
[2]注意:这是截至2005年的统计。
[3]该数据参考2009年的统计结果。