智能语音处理
上QQ阅读APP看书,第一时间看更新

1.2.1 语音处理的发展

对语音信号处理的研究起源于对发声器官的模拟。1939年,美国人H·杜德利(H. Dudley)展出了一个简单的发声过程模拟系统,该模拟系统随后逐渐发展成为声道的数字模型。利用该模型可以对语音信号进行各种频谱及参数的分析,同时也可根据分析得到的频谱特征或参数变化规律合成语音信号,实现机器的语音合成。20世纪80年代以前,线性预测编码技术是语音信号处理研究领域最重要的研究成果;80年代以后,分析合成技术、矢量量化技术、隐马尔可夫模型等极大地推动了语音编码、语音识别技术发展;90年代以后,神经网络、小波分析、分形及混沌等新技术在语音处理领域的应用将语音信号处理的研究提高到了一个新的水平。

由于语音的特殊作用,人们历来十分重视对语音信号和语音通信的研究。人类社会的进步对语音通信提出了更高的要求,需要更高的语音质量和更低的数码率,从而推动了语音编码技术的发展。自动控制和计算机科学的发展又要求用语音实现人与机器的信息交互,要求机器能听懂人说话,能辨别说话人是谁,甚至还要模仿人说话,这又推动了对语音识别和语音合成技术的研究,使语音处理技术得到迅速发展。语音编码、语音识别、说话人识别、语音合成等技术的基础都是对语音信号特征的认识,都要利用数字信号处理的基本技术来分析和处理语音信号,而更深层次的发展涉及人的发音和听觉机理,与生理学、语言学甚至心理学有关。

尽管语音处理的研究已经经历了几十年的发展,并已取得许多成果,但语音处理的研究仍然蕴涵着巨大的潜力,还面临着许多理论和方法上的实际问题。例如,在语音编码技术方面,能否在极低速率或甚低速率下取得满意的语音质量?在语音增强技术方面,能否在极其恶劣的背景下获取干净的语音信号?在语音识别技术方面,能否进一步提高自然交流条件下的识别性能?在人机语音交互方面,能否进一步提高机器通过语音交流理解语义的能力?