深度学习与机器人
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

认知篇

第1章 人工智能、深度学习和计算机视觉

1.1 人工智能简介

“智能”一词在现代生活中很常见,如智能手机、智能家居、智能驾驶等。在不同的使用场合中,智能的含义也不太一样。例如,“智能手机”中的“智能”,一般指由计算机控制并具有某种智能行为,这里的“计算机控制”和“智能行为”隐含了对人工智能的简单定义。

简单来讲,人工智能(Artificial Intelligence,AI)就是让机器具有人类的智能,这也是人们长期追求的目标。这里关于什么是“智能”并没有一个很明确的定义,但一般认为智能(特指人工智能)是知识和智力的总和,都和大脑的思维活动有关。人类大脑是经过上亿年的进化才形成的复杂结构,但我们至今仍然没有完全了解其工作机理。虽然随着神经科学、认知心理学等学科的发展,人们对大脑的结构有了一定程度的了解,但对大脑的智能究竟是怎么产生的还知道得很少。我们并不了解大脑的运作原理,以及如何产生意识、情感、记忆等。因此,通过“复制”人脑来实现人工智能在目前阶段是不切实际的。

1950年,阿兰·图灵(Alan Turing)发表了一篇有着重要影响力的论文ComputingMachinery and Intelligence,讨论了创造一种“智能机器”的可能性。由于“智能”一词比较难以定义,他提出了著名的图灵测试:“一个人在不接触对方的情况下,通过一种特殊的方式和对方进行一系列的问答。如果在相当长的时间内,他无法根据这些问题判断对方是人还是计算机,那么就可以认为这个计算机是智能的。”图灵测试是促使人工智能从哲学探讨到科学研究的一个重要因素,引导了人工智能的很多研究方向。因为要使得计算机能通过图灵测试,计算机就必须具备理解语言、学习、记忆、推理、决策等能力。这样,人工智能就延伸出了很多不同的子学科,如机器感知(计算机视觉、语言信息处理)、学习(模式识别、机器学习、强化学习)、语言(自然语言处理)、记忆(知识表示)、决策(规划、数据挖掘)等。所有这些研究领域都可以看作人工智能的研究范畴。

人工智能是计算机科学的一个分支,主要研究与开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统等。和很多其他学科不同,人工智能这个学科的诞生有着明确的标志性事件,如1956年的达特茅斯(Dartmouth)会议。在这次会议上,“人工智能”被提出并作为本研究领域的名称。同时,人工智能研究的使命也得以确定。约翰·麦卡锡(John McCarthy)提出了人工智能的定义:人工智能就是要让机器的行为看起来就像是人所表现出的行为一样。

目前,人工智能的主要领域大体上可以分为以下几个方面。

(1)感知:模拟人的感知能力,对外部刺激信息(视觉和语音等)进行感知和加工。主要研究领域包括语音信息处理和计算机视觉等。

(2)学习:模拟人的学习能力,主要研究如何从样例或从与环境的交互中进行学习。主要研究领域包括监督学习、无监督学习和强化学习等。

(3)认知:模拟人的认知能力。主要研究领域包括知识表示、自然语言理解、推理、规划、决策等。

目前我们对人类智能的机理依然知之甚少,还没有一个通用的理论来指导如何构建一个人工智能系统。不同的研究者都有各自的理解,因此在人工智能的研究过程中产生了很多不同的流派。例如,一些研究者认为人工智能应该通过研究人类智能的机理来构建一个仿生的模拟系统,而另外一些研究者则认为可以使用其他方法来实现人类的某种智能行为。一个著名的例子就是让机器具有飞行能力不需要模拟鸟的飞行方式,而应该研究空气动力学。

尽管人工智能的流派非常多,但主流的方法大体上可以归结为以下两种。

(1)符号主义(Symbolism):又称逻辑主义、心理学派或计算机学派,是指通过分析人类智能的功能,然后用计算机来实现这些功能的一类方法。符号主义有两个基本假设:信息可以用符号来表示;符号可以通过显式的规则(如逻辑运算)来操作。人类的认知过程可以看作符号操作过程。在人工智能的推理期和知识期,符号主义的方法比较盛行,并取得了大量的成果。

(2)连接主义(Connectionism):又称仿生学派或生理学派,是认知科学领域中一类信息处理的方法与理论。在认知科学领域,人类的认知过程可以看作一种信息处理过程。连接主义认为人类的认知过程是由大量简单神经元构成的神经网络中的信息处理过程,而不是符号运算。因此,连接主义模型的主要结构是由大量简单的信息处理单元组成的互联网络,具有非线性、分布式、并行化、局部性计算,以及自适应性等特性。

符号主义方法的一个优点是可解释性,而这也正是连接主义方法的弊端。深度学习的主要模型神经网络就是一种连接主义模型。随着深度学习的发展,越来越多的研究者开始关注如何融合符号主义和连接主义,建立一种高效并且具有可解释性的模型。