1.2 ChatGPT的能力
在2023年3月15日公布的GPT-4演示视频中,GPT-4成功识别了一张气球图片,并对“如果绳子剪断会怎么样?”的指令做出了推断——“气球将飞走”,如图1.2所示。这一事实表明,GPT-4已经掌握了对图像等多模态数据进行读取和综合推理的能力。借助庞大的参数量,GPT-4不仅能解读图片的表面信息,还可以理解其深层含义。这种能力在全球范围内产生了较大的震动,使人们深感GPT-4已逐渐靠近通用人工智能(Artificial General Intelligence,AGI)的领域。这也引发了进一步的思考,即GPT系列是否能向强人工智能(Strong AI)迈进,并最终发展成超越人类智能而存在。
回溯到20世纪70年代,学术界在Intelligence的定义中明确指出,智能不应仅限于特定任务。过去的十年见证了AI在各领域的广泛应用,例如AlphaGo的围棋技艺、AlphaFold对蛋白质的解析,以及CV领域的Yolo系列等,但这些都只是特定领域的智能系统。因此,AGI这一概念应运而生,它与之前提到的“狭义AI”形成鲜明对比,尽管学术界和工业界尚未就AGI的定义达成共识。
图1.2 GPT-4气球图片多模态推理演示
虽然ChatGPT的主要功能是聊天,但其应用领域极其广泛。它能编写和调试计算机程序,模拟名人的写作风格制作商业宣传单,创作音乐、电视剧、童话、学生作文、诗歌,模拟Linux系统、聊天室,甚至模拟ATM的运作。
如图1.3所示,在各类专业和学术基准测试中,GPT-4的表现达到了人类水平。值得一提的是,GPT-4在模拟统一律师资格考试中的表现位列所有考生的前10%,超越了绝大部分考生。在其他各类测试中,GPT-4的表现也处于领先地位。这些高分不仅代表着更为真实和合乎逻辑的推理能力,也代表着更为强大的问题处理能力。
尽管GPT-4在各类考试中表现出色,能助力翻译与编程任务,并提供创新的想法,但评估其智能程度的方式仍待探讨,这是一个颇具深度的问题。此外,由于GPT-4在训练过程中接触了大量的数据,覆盖了互联网上几乎所有的信息,因此在特定任务上,往往难以分辨它是记住了这些任务的内容,还是真正理解了这些任务。这无疑是评估其智能程度的关键因素。
图1.3 GPT-4与人类考试水平对比
(图片来源:https://lifearchitect.ai/iq-testing-ai/)
如果从人类自省智能的角度来看,人类智能的一个重要特征就是对多领域任务的理解。评估GPT-4的智能水平可以从以下几个关键方面进行。
❑任务表现:作为评估ChatGPT能力的重要指标,值得关注的是它在考试、翻译、编程、创新思维生成等多种任务中的表现。实际上,GPT-4已在许多专业和学术测试中证明了它超过常人的能力。
❑知识理解与应用:评估ChatGPT是否真正理解了所学的知识,以及它如何应用这些知识,有助于衡量其智能水平。一个真正的智能实体应具备在各种情况下理解并灵活运用知识的能力。ChatGPT已通过各种任务(如编写和调试程序、模仿名人风格撰写商业宣传单、创作音乐和电视剧)展示了它在知识理解和应用方面的出色能力。
❑泛化能力:一个智能实体在面对新任务和未见过的数据时的表现,即其泛化能力,是评估其智能的关键指标。尽管ChatGPT的训练数据可能存在时效性问题,但它仍能对新问题和情境提出创新的解决方案,而不是仅仅依赖已有的知识和模式。
❑自主学习和推理能力:通过提示示例的方式向ChatGPT注入新的知识,ChatGPT展示了其自主学习和推理的能力。它能发现新知识,并能在各种任务和情境中进行推理。
通过对GPT-4在任务表现、知识理解与应用、泛化能力以及自主学习和推理能力方面的综合评估可以断定,GPT-4代表了当前人工智能研究的最高水平,它是至今为止最接近通用人工智能的产品。这必将给人类的生活方式带来深远影响,这种变革在未来几年内将更加明显。