智能语音处理
上QQ阅读APP看书,第一时间看更新

1.3.3 智能语音处理的基本模型

智能语音处理是智能信息处理的一个重要研究领域,智能信息处理涉及的模型、方法、技术均可应用于智能语音处理。智能语音处理的基本模型和技术主要来源于人工智能,机器学习作为人工智能的重要领域,是目前智能语音处理中最常用的手段,而机器学习中的表示学习和深度学习则是智能语音处理中目前最为成功的智能处理技术。

图1-6展示了人工智能(Artificial Intelligence,AI)、机器学习(Machine Learning,ML)、表示学习(Representation Learning,RL)及深度学习(Deep Learning,DL)的相互关系。

图1-6 AI/ML/RL/DL的关系图[3]

下面列出了近年来在智能语音处理中常见的模型和技术。

1. 稀疏与压缩感知

一个事物的表示形式决定了认知该事物的难度。在信息处理中,具有稀疏特性的信号表示更易于被感知和辨别,反之则难以辨别。因此,寻找信号的稀疏表示是高效解决信息处理问题的一个重要手段。利用冗余字典,可以学习信号自身的特点,构造信号的稀疏表示,并进一步降低采样和处理的难度。这种字典学习方法为信息处理提供了新的视角。对语音信号采用字典学习,构造语音的稀疏表示,为语音编码、语音分离等应用提供了新的研究思路。

2. 隐变量模型

语音的所有信息都包含在语音波形中,隐变量模型假设这些信息是隐含在观测信号之后的隐变量。通过利用高斯建模、隐马尔可夫建模等方法,隐变量模型建立了隐变量和观测变量之间的数学描述,并给出了从观测变量学习各模型参数的方法。通过参数学习,可以将隐变量的变化规律挖掘出来,从而得到各种需要的隐含信息。隐变量模型大大提高了语音识别、说话人识别等应用的性能,在很长一段时间内都是智能语音处理的主流手段。

3. 组合模型

组合模型认为语音是多种信息的组合,这些信息可以采用线性叠加、相乘、卷积等不同方式组合在一起。具体的组合方式中需要采用一系列模型参数,这些模型参数可以通过学习方式从大量语音数据中学得。这类模型的提出,有效改善了语音分离、语音增强等应用的性能。

4. 人工神经网络与深度学习

人类面临大量感知数据时,总能以一种灵巧的方式获取值得注意的重要信息。模仿人脑高效、准确地表示信息一直是人工智能领域的核心挑战。人工神经网络(Artificial Neural Network,ANN)通过神经元连接成网的方式,模拟了哺乳类动物大脑皮层的神经通路。和生物的神经系统一样,ANN通过对环境输入的感知和学习,可以不断优化性能。随着ANN的结构越来越复杂、层数越来越多,网络的表示能力也越来越强,基于ANN进行深度学习成为ANN研究的主流,其性能相对于很多传统的机器学习方法有较大幅度的提高。但同时,深度学习对输入数据的要求也越来越高,通常需要有海量数据的支撑。ANN很早就应用到了语音处理领域,但由于早期受到计算资源的限制,神经网络层数较少,语音处理应用性能难以提升,直到近年来深层神经网络的计算资源、学习方法有了突破之后,基于神经网络的语音处理性能才有了显著的提升。深度神经网络可以学到语音信号中各种信息间的非线性关系,解决了传统语音处理方法难以解决的问题,已经成为当前智能语音处理的重要技术手段。