更新时间:2020-06-05 16:56:54
封面
版权信息
内容简介
序1
序2
好评来袭
作者简介
前言
1 语音识别技术基础
1.1 语音识别极简史
1.2 语音识别系统架构
1.3 一些其他细节
2 Kaldi概要介绍
2.1 发展历史
2.2 设计思想
2.3 安装
2.4 一个简单的示例
2.5 示例介绍
3 数据整理
3.1 数据分集
3.2 数据预处理
3.3 输入和输出机制
3.4 常用数据表单与处理脚本
3.5 语言模型相关文件
4 经典声学建模技术
4.1 特征提取
4.2 单音子模型的训练
4.3 三音子模型训练
4.4 特征变换技术
4.5 区分性训练
5 构图和解码
5.1 N元文法语言模型
5.2 加权有限状态转录机
5.3 用WFST表示语言模型
5.4 状态图的构建
5.5 图的结构优化
5.6 最终状态图的生成
5.7 基于令牌传递的维特比搜索
5.8 SimpleDecoder源码分析
5.9 Kaldi解码器家族
5.10 带词网格生成的解码
5.11 用语言模型重打分提升识别率
6 深度学习声学建模技术
6.1 基于神经网络的声学模型
6.2 神经网络在Kaldi中的实现
6.3 神经网络模型训练
6.4 神经网络的区分性训练
6.5 与其他深度学习框架的结合
7 关键词搜索与语音唤醒
7.1 关键词搜索技术介绍
7.2 语音检索
7.3 语音唤醒
8 说话人识别
8.1 概述
8.2 基于i-vector和PLDA的说话人识别技术
8.3 基于深度学习的说话人识别技术
8.4 语种识别
9 语音识别应用实践
9.1 语音识别基本应用
9.2 话音检测模块
9.3 模型的适应
9.4 解码器的选择及扩展
附录A 术语列表
附录B 常见问题解答
参考文献
书评