1.2.1 图灵测试
图灵测试的基本内容是:如果机器能在5分钟内回答由人类测试者提出的一系列问题,并且其超过30%的回答让测试者误认为是人类所答,则机器通过测试。被测试者包括一个被测试人和一个声称自己拥有人类智能的机器。测试时,测试人与被测试人是分开的,测试人只能通过一些装置(如键盘)向被测试人问一些问题,随便什么问题都可以。问过一些问题后,如果测试人能够正确地分出谁是人、谁是机器,那么机器就没有通过图灵测试;如果测试人没有分出谁是机器谁是人,那么机器就通过了图灵测试,即拥有人类智能。
图灵测试是由英国数学家、逻辑学家艾伦·麦席森·图灵(见图1-2)提出的。1950年,他发表了一篇名为Computing Machinery and Intelligence的文章,文章中提出了“机器能否拥有智能?”的问题。这是他第一次成功定义“什么是机器”,但是当时的人们还不能给“智能”下定义。
图1-2 图灵
经过实验,图灵得出机器是具有一定思维的,由此,他对智能问题从行为主义的角度给出了定义,并且大胆做出假设:“一个人在不接触对方的情况下,通过一种特殊的方式,和对方进行一系列的问答,如果在一段时间内,他无法根据这些问题判断对方是人还是机器,那么,就可以判定这个机器具有与人相当的智力。”这就是著名的“图灵测试”。但是,在当时的世界环境中,几乎所有机器都无法通过这一测试。
要想分辨出一个想法是“自创”的思想还是精心设计的“模仿”,是非常难的,任何“自创”思想的证据都可以被否决。而图灵试图解决长久以来关于如何定义“思考”的哲学争论,他认为,一个思想虽然是自创的,带有主观性的,但是也是可以操作的。也就是说:“如果一台机器的表现(act)、反应(react)和互相作用(interact)都和有意识的个体一样,那么它就应该被认为是有意识的。”这也就是说明:机器只要能做出反应,便是具有一定意识的。
图灵当时的想法特别大胆,人们对其是存有一定猜疑的。为了消除人们心中的偏见,图灵设计了一种“模仿游戏”来验证图灵测试的有效性。游戏概况如下:远处的人类测试者在一段规定的时间内,根据两个实体对他提出的各种问题的反应来判断两个实体是人类还是机器。通过一系列这样的测试,根据机器被误判断为人的概率就可以测出机器智能的成功程度。
针对这个模仿游戏,图灵曾对测试的具体操作做出过详细的解释:“我们称下面这个问题为‘模仿游戏’。游戏参与者包括一个男人、一个女人,以及一个任意性别的询问者。一方面,询问者与另外两个人待在不同的房间里,并通过打字的方式与他们交流,以确保询问者不能通过声音和笔迹区分二者。两位被询问者分别用X和Y表示,询问者事先只知道X和Y中有且仅有一位女性,而询问的目标是正确分辨X和Y中哪一位是女性。另一方面,两位被询问者X和Y的目标都是试图让询问者认为自己是女性。也就是说,男性被询问者需要把自己伪装成女性,而女性被询问者需要努力自证。现在我们来做一个假设:如果我们把模仿游戏中的男性被询问者换成机器,结果会怎样?相比人类男性,机器能否使询问者更容易产生误判?”
这里有几个细节值得注意,它们在很大程度上决定了图灵测试的有效性。
首先,图灵测试中,询问者与被询问者之间进行的并不是普通的日常聊天,询问者的问题是以身份辨别为目的的。这种情况下,询问者通常不会花费时间用来寒暄和拉家常,而是会开门见山地说:“为了证明你的身份,请配合我回答下面问题……”事实上,目前,网络上的聊天机器人有时能够以假乱真,往往是采用了在用户不知情的情况下尽量把谈话引到没有鉴别力的话题上的策略(如“谈谈你自己吧”)。
其次,图灵测试中人类被询问者的参与是必不可少的,他的存在是为了防止机器采取“消极自证”的策略。例如,拒绝正面回答问题,或者答非所问、闪烁其词,就像一个真正的不合作的人所做的一样。在这种情况下,另一个积极自证的人类被询问者可以保证询问者总是有足够的信息做出判断。类似的情况也适用于当机器试图模仿正在牙牙学语的幼童或头脑不清的病人等“特殊人类”时。
再次,图灵测试的原则是要求询问的交互方式本身不能泄露被询问者的物理特征。在图灵所处的年代,这几乎只能全部通过基于文本的自然语言来完成,因此图灵限定测试双方基于打字进行交流。但在多媒体技术发达的今天,视频、音频、图片等虚拟内容都可以通过计算机以非物理接触的形式呈现(这当然是60年前的图灵不能预知的)。因此,允许询问者在图灵测试中使用多媒体内容作为辅助材料进行提问(如“请告诉我这个视频的笑点在哪儿”)似乎是对原始图灵测试定义的一个自然合理的补充。
最后,今天一般意义上理解的图灵测试不再严格区分人类参与者的性别。通常,我们允许人类被询问者是任意性别,而询问者的目标也随之变成辨别哪一位被询问者是人类。
除此之外,完成一次具体的图灵测试还要注意很多操作细节。例如,多少人参与测试算“足够多”,多长的询问时间算“足够长”,多高的辨别正确率算“足够高”,如何挑选人类询问者和被询问者才能代表“人类”的辨别和自证能力,等等。由于图灵测试的巨大影响力,几十年来一直有人尝试挑战它,不时就会传出“某计算机程序成功通过图灵测试”的消息。对于意义深远的实验,我们理应格外审慎,只有在仔细检查上面所列和其他一些重要细节之后,才能对其结果的有效性做出正确判断。
那么,针对图灵测试,人们也许会想:如果有一天机器真的通过了测试,这到底意味着什么?这个问题涉及图灵测试与人工智能的关系。的确,几乎所有有关人工智能的书籍都会谈到图灵测试,但一个经常被误解的地方是,图灵测试是作为一个人工智能的充分条件被提出的,它本身并没有,也从未试图定义“智能”的范畴。这一点图灵在他的论文里写得很清楚:“机器能否拥有智能,为了回答这个问题我们应该首先定义‘机器’和‘智能’。一种可能性是根据大多数普通人的日常理解去定义这两个概念,但这样做是危险的……在这里我并不打算定义这两个概念,而是转而考虑另一个问题,它与原问题密切相关,同时可以被更清楚无疑地表达……(图灵测试的描述)。可能有人会说这项测试对机器而言过于严格—毕竟人类也无法反过来成功地伪装成机器,这只需检查算术的速度和正确度即可辨别。难道被认为拥有智能的机器就不能表现出和人类不同的行为吗?这是一个很有力的反对意见。但不管怎样,假如我们有能力制造出一个可以成功通过测试的机器的话,也就无须为这个反对意见烦恼了。”
那么,图灵测试与人工智能究竟有什么样的渊源呢?这里借助集合的概念来帮助我们理解二者的关系。智能行为判断如图1-3所示。
图1-3 智能行为判断
图中“全部智能行为”对应的集合和“全部人类行为”对应的集合既有交集又互有不同。在“全部智能行为”中,有一些是人类靠自身无法做到的(如计算出国际象棋中白棋是否必胜)。但无论如何人类都被认为是有智能的,因此,一方面,在各方面都能达到“人类水平”—也就是完成两个集合的交集部分—就应该被认作“拥有智能”,另一方面,人类行为并不总和智能相关。图灵测试要求机器全面模拟“全部人类行为”,其中既包括了两个集合的交集,也包括了人类的“非智能”行为,因此通过图灵测试是“拥有智能”的一个有效的充分条件。
1956年,在美国达特茅斯大学举办了一场研讨会,明斯基等人在会上热烈地讨论了“用机器模拟人类智能行为”,正式确立了“人工智能”这一术语,这标志着人工智能学科的诞生。以明斯基为代表的参会科学家随后在麻省理工学院创建了一个人工智能实验室,这是人类历史上第一个聚焦人工智能的实验室。图灵测试开启了人们对“人工智能”的讨论,直到今天,图灵测试仍然是判断一部机器是否具有人工智能的重要方法。