智能语音处理
上QQ阅读APP看书,第一时间看更新

2.2.2 稀疏表示

信号可稀疏化是利用稀疏性进行信息处理的前提。因此,寻找普适的信号稀疏化方法和特定信号的稀疏模型成为一个重要的研究方向,统称为稀疏表示。

稀疏表示最早可追溯到19世纪傅里叶分析方法的产生。傅里叶提出,任意周期函数都可用三角基的叠加来表示。这种利用基函数描述信号的思想,对近代数学以及物理、工程技术都产生了深远的影响。三角基是一种正交基,采用包含三角基等正交基描述信号的方法得到了广泛的应用。对一些信号采用正交基进行分解后,变换系数呈现出极大的稀疏特性。这一性质引起了研究者的兴趣。例如,利用傅里叶变换,可以得到正弦信号的频域稀疏表示,这在通信信号、音乐分析等处理中极为有用。频域分析已成为信号处理的基本方法。其他变换,如Hadamard变换、离散余弦变换(DCT)、Karhunen-Loeve变换(KLT)等也广泛应用在图像处理等领域。

图2-4给出了稀疏表示理论发展的大致过程。

图2-4 稀疏表示理论发展路径[4]

传统的稀疏表示基于正交线性变换,但许多信号是自然现象的混合体,复杂成分在单一的正交变换中不能非常有效地表现。在声音和图像处理方面,典型的信号描述方式是以短时傅里叶变换(STFT)、离散余弦变换(DCT)为代表的非冗余正交变换。STFT处理的所有波形都具有正比于处理窗长的固定尺度参数,因而无法描述非平稳信号;DCT的基函数缺乏时/空分辨率,无法有效提取具有局部性质的信号特征。20世纪80年代中期,以小波理论为代表[5]的多尺度分析为信号描述指引了新方向。区别于STFT,小波变换是一种变分辨率的时频联合分析方法:当分析低频信号时,其时间窗增大,而当分析高频信号时,其时间窗减小。这正好符合实际中高频信号时域较短、低频信号持续时间长的自然规律。然而,该理论对于边缘不连续的图像信号效果不理想[6]。为解决这个问题,文献[1]基于多尺度的小波分析方法构造了一个函数系统。这个系统不同于传统的正交基,它采用了更多的非正交函数来表示不同尺度的信号成分。由于这个函数系统中的函数数量多于正交基数量,因此被称为冗余(过完备)字典。1996年,B.A. Olshausen和D.J. Field对冗余字典进行了系统的阐述,并论证了过完备表示更符合哺乳动物视觉系统的生理学特性[7]。冗余字典理论的提出引起了广泛关注和研究,通过构造冗余字典来获取稀疏表示已成为一种通用的方法。