第1章 视频编解码基础
本章要点:
▶ 视频编码的必要性和可行性
▶ 视频编码压缩原理及主流算法
▶ ASIC与可编程芯片
▶ 开源的视频CODEC
视频编解码处理是数字视频应用的最主要方面。海量的视频数据在存储、传输时必须做编码压缩;视频的帧内空间局部连续性和帧间运动连贯性以及人眼视觉机制等为视频数据的编码压缩提供了可能;主流的视频编码标准MPEG-4及H.264均为混合编码技术框架,且适于不同的视频应用领域;专用芯片ASIC(Application Specific Integrated Circuits)与CPU/GPU/DSP/FPGA等可编程芯片构成视频技术的实现平台;开源算法为基于可编程芯片实现可定制视频CODEC系统提供了蓝本。
1.1 视频编码的必要性和可行性
在应用目前的视频捕获设备时,获得的图像数据量是巨大的,因此,为节约存储空间、降低传输带宽占用,一般做编码压缩处理。在不影响图像客观信息表达的前提下,我们经常采取有损编码(不可逆)处理。图像的局部空间在一定意义上是光滑连续的,特别是灰度一致不变的区域;同时,图像帧间除了目标运动或少许的光照变化之外,帧间的大部分残差是很小的,甚至趋于零值。生理实验表明,人眼对亮度比色度更加敏感。上述因素促成视频图像编码的必要性和可行性。
1.1.1 编码压缩的必要性
以视频监控的主流分辨率CIF(352×288,PAL制)格式为例,考虑帧频为25f/s、RGB24位的彩色图像,则1小时的数据量为:352×288×25×3×3600=25.49G,即25G字节。尽管目前的硬盘容量已发展到T数量级,但是持续存储多天的视频数据仍然是个难题,而通常情况下,视频监控一般反保存最近三个月的历史记录。CIF分辨率1秒钟的视频数据量是58M bit,尽管目前已有千兆光纤网,但普通的2M网络带宽远远无法满足实时传输需求。
随着计算机、电子技术的迅猛发展以及人们对的高分辨率、高质量图像的迫切需求, CIF近乎成为过去式,D1(720×576,又称标清)、D3(1920×1080,又称高清)日渐成为视频主流格式。简单换算可知,D1及以上大小的视频图像在存储和传输等各种应用中,进行编码压缩处理更是必然的。
1.1.2 编码压缩的可行性
视频图像是立体场景的二维空间数据记录,在空间上是局部连续的、光滑的,而在时间上是运动持续的、连贯的。空间中的区域一致性或局部连续性允许采用少量的主信息来表达其他信息,即预测编码;时间上的运动渐变性允许帧间残差表示目标位移。因此说视频图像在空间及时间上是相关的、冗余的,编码压缩就是利用相关性去除冗余,保留图像的主要信息。
据生理学研究,人眼具有度冗余特性,即人眼对亮度信息的分辨率高于对颜色信息的分辨率,则处理视频数据时我们就可以采取全亮度信息而部分色度信息的数据格式(如YUV420/I420,即4个Y、1个U和1个V)的方式。也就是说部分亮度信息对人眼来说是冗余的。
所以无论是从视频数据自身特点还是图像信息接受者的生理特性考虑,对海量的视频数据做编码压缩以降低空间占用等方法都是可行的。