基于递归神经网络的语音识别快速解码算法
基于递归神经网络的语音识别快速解码算法
基于递归神经网络的语音识别快速解码算法
4
2017 年 4 月 Journal of Electronics & Information Technology Apr. 2017
基于递归神经网络的语音识别快速解码算法
①② *①② ① ①②③
张 舸 张鹏远 潘接林 颜永红
①
(中国科学院声学研究所语言声学与内容理解重点实验室 北京 100190)
②
(中国科学院大学 北京 100190)
③
(中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室 乌鲁木齐 830011)
表 1 帧同步系统和帧异步系统的性能
表2 2-帧跳帧系统的性能
相对帧同步系统 相对帧同步系统
字错误率(%) 实时率
的精度损失(%) 的时间开销(%)
2-帧跳帧系统,参数不变 35.2 0.258 17.30 59.2
2-帧跳帧系统,语言模型权重因子和剪
33.7 0.218 12.30 50.0
枝宽度减半
2-帧跳帧系统,跨单状态 HMM,语言
31.1 0.219 3.67 50.2
模型权重因子和剪枝宽度减半
第4期 张 舸等: 基于递归神经网络的语音识别快速解码算法 935
表 3 n-帧跳帧系统的性能
表 4 n-帧可变帧率系统的性能
表 5 采用和不采用帧序列近似的精度比较(%)
表 6 前馈神经网络用于帧同步系统、帧异步系统和跳帧系统的性能
Georg. Multiframe deep neural networks for acoustic introduction to hidden Markov models[J]. IEEE ASSP
modeling[C]. 2013 IEEE International Conference on Magazine, 1986, 3(1): 4-16. doi: 10.1109/MASSP.1986.
Acoustics, Speech and Signal Processing (ICASSP), 1165342
Vancouver, Canada, 2013: 7582-7585. [16] YOUNG Steve, EVERMANN Gunnar, GALES Mark, et al.
[11] MOORE Darren, DINES John, DOSS Mathew Magimai, et The HTK Book Vol. 2[M]. Cambridge, Entropic Cambridge
al. Juicer: A Weighted Finite-State Transducer Speech Research Laboratory, 1997: 59-210.
Decoder[M]. Berlin, Heidelberg, Springer, 2006: 285-296. [17] ZHANG Qingqing, SOONG Frank, QIAN Yao, et, al.
[12] YOUNG S J, RUSSELL N H, and THORNTON J H S. Token Improved modeling for F0 generation and V/U decision in
passing: A simple conceptual model for connected speech HMM-based TTS[C]. 2010 IEEE International Conference on
recognition systems[R]. CUED/F-INFENG/TR38, Acoustics Speech and Signal Processing (ICASSP), Dallas,
Engineering Department, Cambridge University, 1989. USA, 2010: 4606-4609.
[13] NOLDEN David, SCHLÜTER Ralf, and NEY Hermann.
Extended search space pruning in LVCSR[C]. 2012 IEEE 张 舸: 男,1991 年生,博士生,研究方向为语音识别.
International Conference on Acoustics, Speech and Signal 张鹏远: 男,1978 年生,研究员,研究方向为大词表非特定人连
Processing (ICASSP), Kyoto, Japan, 2012: 4429-4432. 续语音识别、关键词检索、声学模型、鲁棒语音识别等.
[14] 郭宇弘. 基于加权有限状态转换机的语音识别系统研究[D]. 潘接林: 男,1965 年生,研究员,博士生导师,研究方向为大词
[博士论文], 中国科学院大学, 2013: 1-20. 表非特定人连续语音识别、语音分析、声学模型、环境
GUO Yuhong. Automatic speech recognition system based on 噪声、快速搜索算法等.
weighted finite-state transducers[D]. [Ph.D. dissertation], 颜永红: 男,1967 年生,研究员、博士生导师,研究方向为大词
University of Chinese Academy of Sciences, 2013: 1-20. 表非特定人连续语音识别、语音信号前端处理、多媒体
[15] RABINER Lawrence R and JUANG Biinghwang. An 数据检索、言语生成与听觉感知等.