1.2.1 图像分类
图像分类的目标是预测图像的类别,例如“猫”“狗”“卡车”等,是单分类问题。图像分类领域最重要的竞赛是ImageNet竞赛。ImageNet数据集(Deng et al.,2009)的构想起源于2006年,当时使用的数据集普遍偏小,斯坦福(Stanford)大学的Fei-Fei Li(李飞飞)教授认为,一个三岁的儿童就可以识别物体是因为她从小就通过眼睛观察了海量的图像。因此,她希望增强可用于训练机器学习算法的数据集的数量和质量,使数据集能反映现实世界的情况。现在看来用大规模数据训练模型是十分显而易见的想法,但是在当时并不是这么显然,大多数研究者专注于算法的改进,而忽视了数据的作用。
2007年,ImageNet 数据集构建项目正式启动,直至2009年数据集公布。ImageNet使用WordNet中的层次化结构来组织图像类别,WordNet将相同意义的词合并为一个同义词集(Synset),同义词集间存在层次化联系,例如单词“Dog”(狗)在“Canine”(犬科)之下,而“Canine”在“Mammal”(哺乳动物)之下。WordNet 最终将1.5亿个单词合并为11万个同义词集,其中有8万个名词同义词集,ImageNet的目标是为每个同义词集提供500~1000张图像。ImageNet 数据集最终一共包含14,197,122 张图像,对应21,841个类别。在图像收集过程中,先用网络搜索引擎检索相关关键词得到上亿张候选图像,然后利用AMT(Amazon Mechanical Turk,亚马逊土耳其机器人)众包方式通过来自167个国家的48,940个标注者使用三年时间人工核对和标注得到。
ImageNet 数据集在2009年公布的时候,并没有引起特别大的重视。一年后,即2010年,在Fei-Fei Li等人的努力下,ILSVRC(ImageNet Large Scale Visual Recognition Challenge,ImageNet大规模视觉识别竞赛)(Russakovsky et al.,2015)诞生了。ILSVRC是基于ImageNet 数据集的一个子集举办的竞赛,其中用于图像分类任务的数据集有1,281,167 张训练图像、50,000 张验证图像(其中每个类别有50 张图像)、100,000 张测试图像(其中每个类别有100 张图像),1,000个类别。通常所说的ImageNet竞赛即ILSVRC,ImageNet 数据集即ILSVRC 使用的数据集,本书也将遵从这样的习惯。
ILSVRC 竞赛包括图像分类、目标定位(Object Localization)、目标检测(Object Detection)等多个任务,从2010年开始,每年举办一次竞赛,到2017年结束。ILSVRC的重要性相当于“计算机视觉界的奥林匹克竞赛”。ILSVRC的图像分类评价指标是前5(Top 5)错误率,即对每张图像,算法可以预测5个类别,其中只要有一个类别预测正确,就认为对这张图像预测正确;5个类别都预测错误则认为对这张图像预测错误。
在2011年深度学习复兴之前,ILSVRC的前5错误率在25% 左右。在2017年最后一届比赛时,38个参赛团队中的29个团队的前5错误率低于5%,而人工进行分类的前5错误率是5.1%。也就是说,借助深度学习技术,图像分类的识别准确率已经超过普通人的水平。2017年以后,不再举办年度竞赛,而是交付Kaggle 进行维护。由于ILSVRC的训练集和验证集的图像和标注结果可以公开下载,测试集只能下载图像,但不提供标注结果。因此研究者通常在ILSVRC的训练集上进行训练,在验证集上比较算法的性能。
ImageNet 数据集的意义在于改变了人工智能领域研究者对数据集的认识,人们真正开始意识到大规模训练数据和算法一样重要,可以说ImageNet 数据集对深度学习的复兴起到了决定性的作用,ImageNet 数据集也因此获得了2019年CVPR(Computer Vision and Pattern Recognition,计算机视觉和模式识别)大会用于表彰十年影响力的Longuet-Higgins 奖。
由于ILSVRC 竞赛在图像分类领域起到的举足轻重的作用,本书第2章将大致按照时间顺序回顾历年竞赛的优胜网络结构,并穿插回顾其他重要的网络结构。图像分类领域优秀的网络结构也将作为基础骨架(Backbone)用于视频动作识别领域。此外,由于视频帧(Frame)之间存在时序上的先后关系,所以第2章也将介绍RNN和它的两个重要变种。
对图像分类感兴趣的读者可参考综述论文,如(Alom et al.,2018;Canziani et al.,2016;Khan et al.,2020;Li et al.,2020)等。