前言
语音是人类相互交流和通信的最方便快捷的手段。如何智能高效地实现语音传输、增强、识别、合成、存储、转换或通过语音实现人机交互,是现代语音信息处理领域的重要研究课题。智能语音处理涉及人工智能、数字信号处理、语音学、语言学、生理学、计算机科学等诸多学科,是目前智能科学与技术和信号与信息处理学科中发展最为迅速的一个研究领域。
近二十年来,随着人工智能技术的快速发展,智能语音处理技术及应用取得了一系列重大进展,语音编码、语音识别、语音合成、语音增强、说话人识别等方向的研究成果不断涌现,语音理解、语音转换、语音情感分析等新应用进展顺利。同时,迅猛发展的高性能计算设备(CPU、GPU等)、高性能数字信号处理(DSP)芯片为实时地实现更高复杂度的智能语音处理算法提供了可能。目前,市场上已有不少智能语音处理的应用产品,并且还在不断推出新产品。以智能手机为代表的智能终端产品以及以人机语音交互为代表的语音应用场景给智能语音处理提出了新的要求,智能语音处理技术的应用前景和市场潜力十分巨大。
本书以作者近十年来指导博士研究生开展语音信息智能处理研究取得的成果为基础,结合主持开展的国家自然科学基金、江苏省自然科学基金和江苏省优秀青年科学基金等语音处理科研项目,并参考相关文献资料编著而成。全书系统地介绍了智能语音处理的基本理论、方法和典型应用,并介绍了研究现状和发展趋势。
本书是按照导论—基础理论—应用实践的主线展开的,系统地介绍了智能语音处理涉及的基础理论、方法、技术以及典型的智能语音处理应用。
本书共11章,可分为四个部分。
第一部分是导论,对应第1章,概要介绍了经典语音处理与智能语音处理的基本概念以及语音处理的典型应用。
第二部分是基础理论,包括第2~5章。第2章介绍了稀疏和稀疏表示、冗余字典以及压缩感知的基本原理和方法;第3章介绍了隐变量模型,包括高斯混合模型、隐马尔可夫模型和高斯过程隐变量模型等;第4章主要介绍主成分分析和非负矩阵分解两种典型的组合模型;第5章主要介绍人工神经网络和深度学习的基础知识以及深度神经网络的典型结构。
第三部分是应用实践,包括第6~10章。第6章综合利用稀疏表示、字典学习、深度学习等智能处理技术,分别介绍基于K-L展开的字典学习的语音压缩感知、基于梅尔倒谱系数重构的抗噪低速率语音编码以及基于深度自编码器的抗噪低速率语音编码这三种方案;第7章重点介绍了基于非负矩阵分解和基于深度学习的智能语音增强方法;第8章在介绍语音转换的基本原理的基础上,重点介绍了基于非负矩阵分解和基于深度神经网络的谱转换方法;第9章首先介绍了说话人识别系统的框架和模型,然后分别介绍了基于i-vector和基于深度神经网络的说话人识别方法;第10章在介绍骨导语音特性和骨导语音盲增强的基本原理的基础上,分别介绍了基于长短时记忆网络和基于均衡-生成组合谱映射的骨导语音盲增强方法。
第四部分是结束语,对应第11章,对全书进行了总结,并对智能语音处理的未来发展进行展望。
本书的内容组织结构如下图所示。
张雄伟构建了全书的内容架构,并重点编写了第1章及第11章部分内容,孙蒙编写了第4、5、8、9章,杨吉斌编写了第2、3、6、7、10章及第11章部分内容。本书编写过程中,曾理、陈栩杉博士参与了第2章的编写,孙新建博士参与了第3章的编写,陈栩杉博士参与了第4章的编写,韩伟博士参与了第5章的编写,曾理、闵刚博士参与了第6章的编写,周彬、黄建军、韩伟博士参与了第7章的编写,孙健博士和博士生苗晓孔参与了第8章的编写,吴海佳博士以及博士生李嘉康、张星昱参与了第9章的编写,曹铁勇教授和郑昌艳博士参与了第10章的编写。
全书由张雄伟、杨吉斌、孙蒙审校,张雄伟对全书进行统校。
由于作者研究范围和水平所限,疏漏和错误之处在所难免,恳请广大读者批评指正。
作者
2020年5月于陆军工程大学(南京)