深度学习实践:计算机视觉
上QQ阅读APP看书,第一时间看更新

第1章
深度学习与计算机视觉

深度学习与计算机视觉近几年非常火,而它们又和人工智能联系紧密,但它们到底是什么,能解决什么问题呢?本章便试着通俗简要地回答这个问题。

首先是对世界的认识,对于人类来说,可以靠各种感官来感受周围的世界,包括眼、口、鼻、耳、舌、身,这样我们就认识了这个世界是由颜色、形状、美丑、味道、温度甚至感情的憎恶等构成的。那么有没有方法让计算机也有这些感受和认知,再进行推理、判断和决策呢?笔者认为这就是人工智能所要解决的终极问题。

对于计算机来说,一切皆为数字。比如性别为男性可以用1表示,女性则用0表示,这些都是公认的,即一种个体的属性可以使用数字来表示。既然如此,那么用向量来表示也不会有问题,如[1,0,0]代表“男”,[0,0,1]代表“女”。一般地,一个个体会包含很多的属性,那么把这些属性全部组合起来是不是就可以代表这个个体呢?当然可以,这对计算机来说就是有智慧的第一步——能认识并识别出不同的个体。

用眼睛观察世界对人类来说轻而易举,但对只认识数字的计算机来说就是一项非常难的任务。那么计算机视觉主要想解决什么问题呢?简单说就是让计算机能像人一样看事物,并能理解看到的事物,粒度从非常小的苍蝇到非常大的宇宙,从静态的物体到动态的行为过程,等等。此时便会涉及到一个根本性的问题:怎么样在计算机中表示这么多不同的物体呢?

以前人们经常使用的就是规则,即人类自己定义如何表示某个(或某类)物体,如从颜色、形状、纹理等等方面描述,但要知道,这个世界是非常大的,物体种类可以说是不计其数,万一规则冲突了怎么办?所以说基于规则的方法局限性非常大。于是就产生了这样的想法:计算机的计算能力这么厉害,有没有可能让它自己学习这些规则呢,比如给计算机看一些正确的例子?这样机器学习就产生了,深度学习是机器学习的一个子领域,而机器学习属于人工智能的研究范围。

机器学习主要是让计算机从历史经验(即数据)中学习知识,可将其理解为发现历史规律,总结经验教训,所以也可称为模式识别。机器学习常常可分为三种类型:监督学习、非监督学习和半监督学习。如果将机器学习简单理解为学生读书学习的过程,那么监督学习可理解为学生跟着老师学习,老师学识丰富;而非监督学习则是学生完全自学,自力更生;半监督学习则是两者综合,老师学识有限或学识丰富但指导时间有限,学生自己也需要自学。

最近几年机器学习领域发展起来的原因主要有以下几点。

(1)互联网快速发展,积累了大量的原始数据,包括图像、文本、影音等。

(2)计算机硬件飞速发展,计算能力大大提高。

(3)学术研究的突破,如以Hinton为代表的团队。

深度学习在很大程度上可理解为表示学习,即如何在计算机中用数字表示一个或一类物体。这种数字组成的东西也常常被称为特征,顾名思义:独特的表征,即在计算机中只有某种物体才会用那样一组数字来表示,因此深度学习也称作特征学习。如图1-1所示的鸟在计算机中可用独特的数字或数字组合来表示,比如:单个数字99、向量[123, 999, 888]或者二维向量,甚至是更高维的向量。

那么这些数字表示什么意义呢?人类制定的规则,这些数字表示的意义一般比较明显,比如表示颜色、形状、有没有羽毛等。而在深度学习中,物体的特征向量常常很难与人类的直观意义匹配,即人们不懂这些数字代表什么意义,但计算机懂——计算机能在大量的特征向量中区分出个体。

图1-1 视觉图片与数字特征表示

本章主要介绍机器学习、深度学习与计算机视觉相关概念之间的关系,并介绍开发环境的安装。