计算机视觉的对象级场景理解及其应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

图1-1 《大橡树下的母马和马驹》(乔治·斯塔布斯)[1]

图1-2 图像场景语义分割目标

图1-3 底层图像分割结果[3]

图1-4 交互式对象提取与区域分割[7-9]

图1-5 Textonboost图像场景语义分割和标记[13,14]

图1-6 多视角下街景图像的语义分割[15]

图1-7 Label Transfer图像场景语义迁移结果[17]

图1-8 街景图像的语义迁移结果[19]

图1-9 多张图像前景对象共分割结果[25]

图1-10 关注于稀少类别的上下文驱动的场景解析方法[26],蓝色矩形中为普通类别,黄色矩形中为稀少类别,在右边的条形类别分布图中可看到,增强后的稀少类别样本(黄色)比增强前(蓝色)分布更均衡

图1-11 场景语义分割的全卷积网络FCN[33],将全连接层转换为卷积层使得分类网络能够输出与图像相同尺寸的热图

图1-12 基于单幅图像的遮挡边界恢复[41]

图1-13 基于光流的遮挡边界检测和前/后景划分的方法[49],左图为输入图像,右图为该方法遮挡边界检测结果,绿色边界表示前景区域,红色边界表示后景区域

图1-14 单幅图像场景深度信息估计方法[42]的四邻域特征

图1-15 单幅图像场景深度信息估计方法结果[43]

图1-16 基于语义标记预测的单幅图像深度信息估计[44]

图1-17 离散-连续式单幅图像深度信息估计方法[50],左图为输入图像,右图为对应的离散-连续的深度信息估计结果

图1-18 基于多尺度深度网络的单幅图像深度信息估计方法[51],全局粗略尺度网络包含五个由卷积和最大池化构成的特征提取层以及两个全连接层,局部细化尺度网络则由卷积层构成

图1-19 基于CNN框架和连续CRF结构的深度估计卷积神经场模型[54]

图1-20 物理规则指导下的单幅图像3D解析图[45]

图1-21 面向图像分割的层次结构估计[46]

图1-22 基于嵌入角的图像分割和遮挡边界同时求解结果[47]

图1-23 室内折纸世界的展开方法,对于输入图像(第一行左图),该方法估计出每个平面的朝向(第一行中图)以及平面之间边界的凹凸性(第一行右图),“+”表示凸,“-”表示凹

图1-24 基于样例检测的区域级图像解析方法[66]

图1-25 自主驾驶环境下基于密集连接MRF模型的单张图像实例级标记方法[70]

图1-26 相对属性的研究[95]:相对属性比绝对属性能够更好地描述图像内容。绝对属性可以描述是微笑的还是没有微笑的,但是对于b)就难以描述;相对属性能够描述b)比c)微笑多,但是比a)微笑少。对自然场景的理解同样如此

图1-27 属性辅助对象分割的方法[99],由于对象遮挡、对象尺度过小或对象视角的影响,以类别为中心的方法较难描述对象属性,而以对象为中心的该方法可以较好地描述对象属性

图1-28 一种图像对象和属性的稠密语义分割方法[102]

图1-29 交互式场景生成过程示例[115]:第一行,用户界面的示意图面板,用户在其中排列所需对象,不同颜色代表对象的增加或调整;第二行,根据用户提供的布局自动推断的场景图结构;第三行及第四行,根据图结构生成的场景语义图及场景最终图像

图1-30 基于Voxel单元的图像场景三维结构理解方法[119],左图显示了该方法利用Voxel-CRF模型重建的场景三维结构以及每个Voxel的语义标记,右侧图中显示了深度信息的不足和缺失,例如电视机后面墙面的深度信息缺失

图1-31 基于RGBD信息的图像场景全局解析方法[121],左边为输入图像和对应的深度信息,中间为对象的三维检测识别结果,用带有朝向的立方块来表示,右边为嵌入了场景和对象之间上下文关系的CRF模型

图1-32 面向室内场景空间布局估计的曼哈顿交界点检测方法[123],图中显示了Y、W、T、L、X几种类型的交界点以及图像场景空间布局估计结果

图2-1 图像场景内容上下文指导的场景语义分割方法架构图

图2-2 多类别测地线距离示意图

图2-3 基于粗略语义概率的种子点选择示意图

图2-4 传播指示器训练样本示意图

图2-5 传播指示器作用示意图

图2-6 CamVid数据集上类别准确率对比图

图2-7 本方法在CamVid数据集上的部分实验结果

图2-8 MSRC数据集上类别准确率对比图

图2-9 本方法在MSRC数据集上的部分实验结果

图2-10 CBCL数据集上类别准确率对比图

图2-11 本方法在CBCL数据集上的部分实验结果

图2-12 本方法在LHI数据集上的部分实验结果

图2-13 视频场景语义分割框架图

图2-14 基于测地线的MRF模型示意图

图2-15 CamVid视频序列的语义分割实验结果,前三行是Seq05VD视频序列的语义分割结果,后三行是Seq06R0视频序列的语义分割结果

图3-1 具有歧义的图像空间关系理解示意图,a)是输入的图像,b)和c)是对输入图像的不同理解

图3-2 基于层次线索的场景分层框架图

图3-3 语义线索示意图

图3-4 位置线索示意图

图3-5 轮廓线索示意图

图3-6 公共边界线索示意图

图3-7 交界点线索示意图

图3-8 图像内容表达示意图

图3-9 层次排序有向图

图3-10 不同数目的特征组合遮挡判别准确率对比图

图3-11 31种特征组合在相邻区域和不相邻区域的遮挡判别准确率差异

图3-12 三个数据集上遮挡判定的召回率

图3-13 LHI自然场景数据集上场景分层结果

图3-14 LHI人造室内场景数据集上场景分层结果

图3-15 室外场景数据集上场景分层结果图

图3-16 与Hoiem等的遮挡关系判别比较实验

图4-1 “对象级”的图像内容语义标记、以“对象”为单元的场景布局迁移,左图为图像,右图为三维场景布局生成,将左图的图像场景布局,自动迁移到由三维模型组成的三维场景

图4-2 本方法的目标:a)输入图像;b)语义分割目标,不同的颜色代表不同的语义类别,这里只显示了马这种类别(绿色);c)对象分割目标,不同的颜色代表不同的对象

图4-3 方法总体流程图

图4-4 多尺度对象显著性检测示意图,颜色越浅代表对象显著性越高,颜色越深代表对象显著性越低

图4-5 基于深度识别框架的多实例对象分割方法流程图

图4-6 训练集图像标注信息

图4-7 实验结果图,以“马”这种类别为例,其他语义类别可视化为黑色背景,不同的颜色表示不同的“马”对象

图4-8 基于深度识别框架DRF的多对象分割方法在Polo数据集上的实验结果

图4-9 基于深度识别框架DRF的多对象分割方法在TUD数据集上的实验结果

图4-10 图像内容驱动的室内场景布局迁移方法架构图

图4-11 不同类别对象的位置分布可视化,从左至右分别为床、床头柜、柜子、桌子

图4-12 对象距离空间示意图,虚线表示包围盒,d表示从中心O到角落的距离

图4-13 基于用户交互的图像场景语义分割和布局估计

图4-14 室内场景布局图模型表达,三种边表示三种关系,虚线表示缺少的部分

图4-15 基于图模型结构的布局相似性度量

图4-16 布局规则重要性实验

图4-17 单幅图像场景布局迁移结果

图4-18 基于单幅图像的卧室场景布局迁移结果

图4-19 基于单幅图像的客厅场景布局迁移结果

图4-20 基于布局渐变图像序列集的卧室场景布局迁移实验

图4-21 基于布局渐变图像序列集的客厅场景布局迁移实验

图4-22 完备性测试实验

图4-23 布局迁移对比实验

图5-1 人-物交互三元组<女孩,放,风筝>

图5-2 一种基于深度上下文注意机制的人-物交互检测方法

图5-3 利用人体特征估计目标物体密度

图5-4 基于级联方式进行人-物交互识别及关系分割

图5-5 面向自动驾驶相关技术的公共基准数据集

图5-6 一种自主驾驶环境下基于密集连接MRF模型的单张图像实例级标记方法

图5-7 基于端到端学习模型的对象距离估计,从上到下分别是城市场景、公路场景、弯道场景

图5-8 基于属性注意网络的行人属性热图

图5-9 面向车辆重识别的姿态感知多任务学习框架,分割片段、关键点和覆盖了姿态信息的合成数据