新一代通用视频编码H.266/VVC:原理、标准与实现
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1.2 视频压缩与编码

视频压缩是一类特殊的数据压缩方法。数据是信息的载体,对于定量的信息,设法减少表达这些信息所用数据量的方法称为数据压缩。数据压缩通常分为无损压缩和有损压缩两大类。其中,无损压缩是指数据经过压缩后,所携带的信息并没有损失,通过重建可以完全恢复压缩前的数据。无损压缩适用于数据需要严格完全重建的情形,常用于对文本文件、程序文件等进行压缩(如压缩成.zip或.rar的文本文件,在解压重建后与原文件应是完全相同的)。在某些特殊应用场合,也可以对音频或图像进行无损压缩,如需要完美音质的音乐制作、用于精确诊断的医学图像、来之不易的遥感图像等。然而,受信源熵的限制,无损压缩的压缩比普遍不高,对于图像的无损压缩来说,压缩比以3:1左右最为常见[2-3]。对于海量的原始视频数据来说,这样的压缩比是远远不够的,因此在绝大多数情况下,视频压缩都采用有损压缩的方式。

有损压缩以引入一定失真为代价,换取更高的压缩比。能够应用有损压缩的条件是人们对于引入的失真“无法察觉”或“可以接受”。有损压缩的典型应用对象就是人类认知用的音频、图像和视频。这是因为对于人耳或人眼来说,丢掉某些信息是不易察觉的。例如,图像中往往包含着许多细节,这些细节在频域里表现为大量的高频信息。而人眼对于细节或高频信息并不敏感,在压缩时丢掉部分高频信息可能并不会被人眼察觉。以如图1.2所示的图像为例,图1.2(a)经过压缩比为8:1的有损压缩后获得图1.2(b),二者在视觉上差别较小。此外,即使压缩产生的失真能够被人感知到,但是如果不会影响人们对视频内容的理解,那么人们也通常愿意接受质量稍差的音频、视频或图像,以获取较高的压缩比。例如,对比图1.2(d)与图1.2(a),能够明显看出图1.2(d)中的字迹模糊,但并不影响人们对图像内容的理解;而此时,我们能够获得更高的压缩比(64:1)。音频、视频和图像压缩算法极大地利用了人类的感知特性,尽可能使压缩产生的失真发生在人不容易察觉的地方。总体来说,有损压缩能够获得比无损压缩高出许多的压缩比,然而,世上没有免费的午餐,其代价就是在质量上产生损失。

图1.2 图像的有损压缩(JPEG 2000)

为了获得较高的压缩比,有损视频压缩以损失一定质量的代价获取高压缩比。此时压缩算法性能优劣与两个参数有关:码率和失真。有损压缩追求的是,在重建质量一定的条件下获得最高的压缩比(最低的码率);或者在码率一定的条件下,视频重建质量最好。对于视频来说,还应当考虑视频在时间域的质量,也就是帧率的变化。视频的时间域失真常见于网络视频传输,传输中的视频数据遇到带宽变化,容易在接收端产生停顿等令人观看不适的现象。

虽然近年来信息技术发展非常迅速,有线与无线网络的带宽都在不断增加,各类存储器的容量也在不断增长,但是与此同时,人们对视频源保真度的要求也越来越高。如今,超高清视频日渐普及,存储容量与网络带宽的增长始终无法满足人们对存储和传输高分辨率视频的要求,因此,视频压缩与编码技术的进步和革新始终没有停歇。

在中文里,“视频压缩”和“视频编码”两个词常常被认为是等同的,被广泛交替使用。无论是视频压缩还是视频编码,通常都是指采用预测、变换、量化和熵编码等方式,尽可能地减少视频数据中的冗余,使用尽可能少的数据来表征视频。但是从严格意义上讲,二者存在细微的差别。视频压缩是“目的”,视频编码则更强调“手段”和“方法”。因此,在讨论视频压缩的方法时,国际上通常采用“视频编码”这一说法,相应的标准也被称为“视频编码标准”。按照国际惯例,本书中均使用“视频编码”的说法。