1.4.1 语音处理的传统应用领域
语音处理的传统应用领域主要包括语音压缩编码、语音识别、说话人识别、语音合成、语音增强等。
1. 语音压缩编码
语音压缩编码的目的是实现语音信号数字化,是语音处理最重要的一种应用,可简称为语音编码或语音压缩。语音编码的目标是用尽可能低的比特率来获得尽可能高的合成语音质量,即在保证一定的编码语音质量的前提下高效率地进行压缩编码,或者在给定编码速率的前提下尽可能地提高编码后的合成语音质量。语音编码的主要应用包括数字语音通信、数字语音存储、语音应答等。
虽然光纤通信和微波通信等系统可以提供很宽的频带,但在很多情况下仍然需要压缩语音编码速率以节省频带。一方面,压缩编码后可以在有限带宽的信道上传输多路语音,提高信道的利用率;另一方面,可以在窄带的模拟信道(如短波或卫星)上传输数字语音。通常来说,语音编码需要在保持语音的音质、降低编码速率、减少编码时延和降低算法的运算复杂度等方面进行综合考虑和折中。
语音编码通常有两种实现方式:波形编码和参数编码。波形编码以波形逼近为原则,尽可能低失真地重构语音波形。波形编码方式可以合成出质量很高的语音,但压缩效率不高。参数编码的出发点与波形编码不同,它以语音信号模型为基础,以尽可能保持语音的可懂度为原则,通过对语音信号的模型参数进行量化编码来实现。与波形编码相比,参数编码由于模型参数编码数据量较小,因此其压缩效率很高,但语音质量不如波形编码。综合波形编码和参数编码两者的优点,采用混合编码方式可以在编码效率和语音质量两方面获得较好的折中。
根据语音采样频率,语音编码可以分为窄带(电话带宽300~3400Hz)语音编码、宽带(7kHz)语音编码和20kHz的音乐带宽编码。窄带语音编码的采样频率通常为8kHz,一般应用于语音通信中;宽带语音编码的采样频率通常为16kHz,一般用于要求更高音质的应用中,如会议电视;而20kHz带宽主要适用于音乐数字化,采样频率高达44.1kHz。窄带语音编码是最重要的一类语音编码方式,在数字通信领域具有重要的应用价值,研究最深入,研究成果也最多。
经过几十年的研究与发展,窄带语音编码技术发展得非常迅速。自20世纪70年代推出64Kbit/s PCM语音编码国际标准以来,已相继有32Kbit/s ADPCM、16Kbit/s LD-CELP、8Kbit/s CS-ACELP等国际标准推出。地区性或行业性的标准也有不少,如用于移动通信系统中的语音编码,美国国防部制定的军用4.8Kbit/s CELP和2.4Kbit/s MELP语音编码标准等,目前编码速率在2.4Kbit/s以上时,所合成的语音质量已得到认可,并已广泛应用。实现窄带语音编码(特别是中低速率)的设备通常称为声码器(Vocoder),在需要进行加密传输数字语音的应用场合,声码器具有不可替代的作用。
2. 语音识别
语音识别的作用是将语音转换成相应的文字或符号等书面信息,也就是让计算机听懂人说话。语音识别可以有许多分类方法。例如,根据语音识别对象来划分,可以分为孤立词识别、连续语音识别等;根据词汇量来划分,可以分为小词汇量(100个词以下)语音识别、中词汇量(100~500个词)语音识别、大词汇量(500个词以上)语音识别以及连续语音识别等;根据对说话人的要求来划分,可以分为特定说话人(speaker dependent)语音识别、多说话人语音识别和非特定说话人(speaker independent)语音识别等。语音识别是语音处理研究领域的重点和难点技术。
虽然从原理上看,实现语音识别并不困难,但在实际实现时会遇到很多困难。例如,发音的多变性,如不同人发同一个音、同一个人在不同的条件下发同一个音等,会导致不同的发音参数;发音的模糊性,在实际的连续语音流中,语音声学变量与音素变量之间不存在一一对应关系;语音流中变化多端的音变现象,这些音变对人类的听觉系统来说很容易辨认,但机器识别起来却很不容易;语音环境的变化与恶化,会使得语音识别算法难以自适应跟踪。
语音识别的应用很广,如语音录入、语音翻译、声音控制、机器人语音交互等,将语音识别与语音合成结合起来还可以实现极低比特率的语音通信系统。
近年来,随着机器学习技术在语音识别中的应用,语音识别系统已在多种场合得到成功应用。目前研究的重点是进一步提高语音识别系统的环境适应性,提高机器人人机交互、实时语音翻译等场合中语音识别的性能。
3. 说话人识别
说话人识别的作用是根据语音辨别说话人,说话人识别有时也称为“声纹识别”。说话人识别并不关注语音信号中的语义内容,而是希望从语音信号中提取出说话人的个性特征,即根据语音判别说话人是谁。语音信号既包含说话人的语言信息,同时也包含说话人本身的特征信息。每个人的发音器官都有自己的特征,说话时也都有自己的特殊语言习惯。在分析语音信号时,可以提取说话人的个性特征,进而识别说话人是谁。在进行语音识别时,要消除说话人的个性特征,以免影响识别的准确率;而在研究说话人识别时,则要专门研究说话人的个性特征,从语音信号中分析和提取个性特征,去除不含个性特征的语音信息。
说话人识别通常可分为说话人确认和说话人辨认两种类型。说话人确认是确认说话人的身份,说话人说一句或几句测试语句,算法从测试语句中提取说话人的特征参数,并与存储的特定语音的参数进行比较,最后给出“是与否”的判断。说话人辨认是要辨认待识别的说话人来自若干人中的哪一位,要将待识语音与每个说话人的语音个性特征进行比较,找出距离最近的语音所对应的说话人。从语音信号处理的角度来看,两者基本上是相同的,都需要确定选用的参数和计算距离的准则。说话人确认需要确定“是与否”的门限,说话人辨认需要与待识语音比较它们各自的距离。比较的方法与识别语音的方法相类似。参数的选择原则,一是要能反映说话人的个性,二是要兼顾识别率和复杂程度。比较简单的特征参数是基音和能量,也可以用LPC参数、共振峰、MFCC参数等,也有用语谱图来识别的,称为“声纹”。
提高说话人识别准确率受制于很多因素。语音是动态变化的,与说话人所处的环境、说话时的情绪和身体状况关系很大。一个人在不同时间、不同情况下说同一句话,差异不一定比不同人小,不像“指纹”是静态的、绝对的。还有一些识别难度更大,但更有实际价值的领域,如:①用通过电话信道的语音进行“说话人识别”,由于电话频带窄、有失真、噪声大,不同信道条件各异,识别十分困难,但这方面的研究具有重要的实际价值;②在“辨认”说话人时,语句往往不能规定,在没有指定语句条件下的识别也较困难。必须有更多的样本用作训练和测试,以降低误识率。这类无指定测试语句的说话人识别称为“与文本无关”的说话人识别,而在有指定语句条件下进行的识别称为“与文本有关”的说话人识别。
4. 语音合成
语音合成的目的是将存储在计算机中的文字或符号变成声音,即让计算机说话。语音合成是语音识别的逆过程。
最简单的语音合成应当是语音响应系统,其实现技术比较简单。在计算机内建立一个语音库,将可能用到的单字、词组或一些句子的声音信号编码后存入计算机,当输入所要的单字、词组或句子代码时,就能调出对应的数码信号,并转换成声音。
规则的文字-语音合成系统是将文字转换成语音,让计算机模仿人来朗读文本。系统具有以下作用:有一个存储基本语音单元的音库;当用各种方式输入文字信息时,计算机能将文字内容按照语言规则,转换成由基本音元组成的序列;按说话时声音单元(简称“音元”)连接的规则控制音元序列,输出连续自然的声音。这种系统也称为“文本-语音转换”(TTS)系统。建立音库时对语音单元的选择是一个很重要的问题。因为一种语言的音素通常只有几十个,采用音素作为音元可以降低存储容量,但用音素合成语音非常复杂,而且自然度较差。因此一般认为,汉语中采用音节作为音元比较合适,因为汉语中一个音节就是一个字的音,汉语中只有412个无调音节,形成音库比较适中。也可以用单字和词组作为音元,但一个字不能只存一种发音,因为汉语中有多音字,字的发音与上下文有关,只有存储与上下文关联的几种发音,使用时按上下文关系调用,合成的语音才能比较自然,这就要求有很大的存储容量。系统中的“规则”有两层含义:一是文字变语言,如“。”要置换成“句号”;二是要按照复杂的语音规则和上下文的关系决定音调、语气、重音、音长、停顿、过渡等,组成发音控制参数序列。
要使TTS系统合成出高质量的语音,不仅要掌握语音信号的数字处理技术,而且要有语言学知识的支撑。
更高层次的合成是“按概念或意向到语音的合成”。要将“想法、意向”组成语言并变成声音,就如大脑形成说话内容并控制发声器官产生声音一样。
5. 语音增强
在实际的应用环境中,语音都会不同程度地受到环境噪声的干扰。语音增强就是对带噪语音进行处理,以降低噪声对语音的影响,改善听觉效果。有些语音编码和语音识别系统在无噪声或噪声很小的环境中性能很好,但当环境噪声增大或变化时,性能可能急剧下降。因此,尽可能降低噪声影响,改善听觉效果,是语音编码和语音识别等系统必须解决的问题。
实际语音遇到的噪声干扰可能有以下几类:①周期性噪声,如电气干扰、发动机旋转引起的干扰等,这类干扰在频域上表现为一些离散的窄峰;②脉冲噪声,如电火花、放电产生的噪声干扰,这类干扰在时域上表现为突然出现的窄脉冲;③宽带噪声,这是指高斯噪声或白噪声一类的噪声,其特点是频带宽,几乎覆盖整个语音频带;④语音干扰,如话筒中同时进入多个人的声音,或者在传输时遇到串音引起的语音噪声。
对于上述不同类型的噪声,采用的语音增强的方法也是不同的。例如,周期性噪声可以用滤波的方法滤除。脉冲噪声可以通过相邻的样本值,采取内插方法去除,或者利用非线性滤波器滤除。宽带噪声是一种难以滤除的干扰,因为它与语音具有相同的频带,在消除噪声的同时将不可避免地影响语音的质量,典型的方法有谱减法、自相关相减法、最大似然估计法、自适应抵消法等。语音干扰也是很难消除的,一般可以采用以自适应技术来跟踪某个说话人特征的方法进行消除。
语音增强仍然是目前语音处理领域的研究重点,融合传统和智能处理技术的语音增强算法也在持续研究中。