简单视觉错觉
1 视觉倒像
基于人工智能设计的机器会犯错,其错误要么是因为用来学习的数据量太少,无法涵盖解决问题所需要的数据或样本空间;要么是由于训练太过精细,导致没办法对新来的未知样本或数据形成有效预测,俗称为过拟合;要么是基于人工智能设计的模型本身能力低,结果对样本的刻画能力不足;要么是硬件条件受限,无法完成相关任务。不管哪种错误,总是多少能找到原因的。
而智能体尤其是人类的犯错,却有很多缺乏明晰的解释。人类会在很多方面犯错,产生错误的判断,视觉上、听觉上、距离上、认知上、情绪上,甚至人类发育的基础,即基因上,都存在犯错。为什么这样一种错误频出的智能体,却能凌驾于其他生命之上成为地球的主宰呢?这些犯错到底有什么用呢?了解这些犯错,说不定能从中找出一些有用的线索,来重新思考人工智能的发展方向。
我们不妨先从人类在视觉上的犯错表现聊起。这种犯错常被称为光学错觉(optical illusion)。
先从光学成像说起,第一个还没得到完全认识,却又是最基本的,是视觉倒像问题。小孔成像原理(图1.1)告诉我们,要观测的目标通过瞳孔的凸透镜原理映射至视网膜上,是一个标准的倒像。如果是机器,则可以通过光学变换还原成正常的影像。而智能体似乎并没有光学变换的能力,从视网膜获得的视觉信息,会经过视神经送往大脑。人类的视网膜上位于中间位置(俗称中央凹,fovea)的视锥细胞(cone cells)和周边的视杆细胞(rod cells)主要承担感受光强、颜色和运动状态的功能,似乎没有自动翻转的能力。
图1.1 眼睛的小孔成像原理
假如没有自动翻转成正常影像而倒着看世界会如何呢?金庸先生的武侠书《射雕英雄传》谈到过。西毒欧阳锋为了学习从黄蓉那儿弄来的假“九阴真经”,居然凭自己的深厚功底,将全身经脉颠倒移位,逆练“九阴‘假’经”。结果走火入魔,变成手当足、足当手来倒立走路。武林中人都以为他从此废掉了。可没曾想,经过一段时间后,他似乎已经习惯这种颠倒的世界,而且功力精进,练成了一套新的武功,并在第二次华山论剑中夺得天下第一。
图1.2 视觉倒像实验[1]
当然,这只是小说中的虚构。但从历史来看,还真有科学家做过这样的尝试。1897年,美国心理学家乔治·斯特拉顿(George Stratton)发表了《视网膜没有逆转视觉》的论文[1]。在论文中,他详细介绍了关于视网膜倒像的实验(图1.2)。他给自己戴了一副凸透镜,并把其中一只眼睛完全遮住。在前四天,本已被凸透镜纠正过来的正像,他看到的却始终是倒的。结果,以平时经验去拿东西都很失败和别扭。因为影像是倒过来的,而手势却还是按正常的思维来行动,想拿地上的物品手会往上伸,想拿架子上的东西手却往下放。不过到第五天后,他的视觉奇怪地、自发地变成正像了,好像视觉神经已经适应了,他肢体的动作也再次与世界协调了。但再取掉凸透镜后,他发现世界竟然都是颠倒的,之前的正像要再过一段时间才能恢复。换一只眼执行此实验,情况依旧。因此,他断定人的视网膜并没有把倒像颠倒过来,其功能是在视觉神经的后端实现的。即,视网膜感受的颠倒信号,通过视神经传导到大脑皮质的视觉中枢后,是在视觉中枢实现自动翻转的。这也是目前学术界的共识。
其实还有个简单的办法可以检验视觉在视网膜位置是倒像的。你读到这里的时候,不妨把手放到下眼皮底下,用手把下眼皮慢慢往上推。你应该能看到一整块模糊掉的字和图向下走,而不是向上。视觉能力强的,说不定在下眼皮遮挡眼睛的过程中,看到上方会出现一块黑斑。这些恰恰就是光学视觉倒像造成的。
后期有很多科学家想重复乔治·斯特拉顿的实验,不过比较遗憾的是,没有人观察到过倒像还能适应后翻转的现象,更多的是表示能够适应颠倒过来的世界。
不过也有科学家在尝试中发现,如果戴那种会导致变形的眼镜时,类似哈哈镜那种,有些人的视觉会自动将一些没注意到的变形的位置纠正。而取下眼镜后,看到的世界反而变得扭曲了。这似乎表明大脑有可能会自适应地纠正一些扭曲。
图1.3 大师辜鸿铭[2]
现实生活中,也有一些人会故意去阅读一些颠倒过来的书本。据说精通9门外语、号称“清末怪杰”的近代东方华学中国第一人辜鸿铭(图1.3)有一次在英国街头就故意倒拿报纸。有路人看到后便笑说:“看这个中国人多笨,居然报纸都拿倒了,还假装懂英文。”辜鸿铭便说:“英文太简单,正着读,显不出本事。”然后便熟练地倒读报纸,发音都是地道的伦敦腔[2]。
除去那些想通过这种方式吸引他人注意的人以外,其他真正这么读书本的,可能是将其视为提高阅读速度和能力的一种秘技。还有科学家说,通过这种方式,可以刺激大脑形成新细胞,防止衰老。其实大家稍微练练,也不难做到。所以,以后看见倒着看报纸、读书的人或新闻照片时,不要马上就嘲笑,说不定他们真的能这样读。
另外,作为感官元件,眼睛和其他感觉器官还有点不一样。它是在大脑发育过程中,从脑细胞中分裂出来的。如果把从眼球到视觉中枢的连接看成是一个深度学习模型,即当今人工智能领域最流行的预测模型,也许可以将这种视频倒像的纠正,理解为大脑处理的端到端(end-to-end)表现,即输入是正像,输出也是正像,中间的纠正都在深度学习模型中自动完成了。
但倒像纠正具体是何时发生的,乔治·斯特拉顿没有给出研究结论。现有的文献也是说法不一。有说初生儿开始感知的世界是颠倒的,随着大脑发育的逐步完善而慢慢实现。因为有报道说,有些两三岁的小孩可能喜欢倒拿玩具,倒读连环画,并猜测这可能和正视发育未完全有关。还有些人,如塞尔维亚的博亚纳·达尼洛维奇(Bojana Danilovic),据说天生就有空间定向障碍现象(spatial orientation phenomenon),看的世界都是颠倒的[3]。所以,她用的电脑和键盘都是反过来的(图1.4)。也有说倒视能力是与生俱来的,毕竟前者的例子还是很鲜见。另外,有不少飞行员在飞行中会出现空间迷向(spatial disorientation)或定向力障碍的问题,即分不清天上与地上,或者把星星的光误以为是地面的“灯光”。这种倒视有极大的危害,处理不当甚至可能导致飞机坠毁。
图1.4 患有“空间定向障碍”的塞尔维亚女子
不管怎么说,“倒像”这个看似极其简单的问题,仍然没有找到统一圆满的答案,不论是它的成因还是发生时间上。