语音识别技术分析：语音变成文字其实没有那么神秘-2

分析测试百科网 > 行业资讯 > 技术原理

语音识别技术分析：语音变成文字其实没有那么神秘-2

2020.10.26

　　那每帧音素对应哪个状态呢？有个容易想到的办法，看某帧对应哪个状态的概率最大，那这帧就属于哪个状态。比如下面的示意图，这帧对应 S3 状态的概率最大，因此就让这帧属于 S3 状态。

语音识别技术分析：语音变成文字其实没有那么神秘

　　那这些用到的概率从哪里读取呢？有个叫“声学模型”的东西，里面存了一大堆参数，通过这些参数，就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做“训练”，需要使用巨大数量的语音数据，训练的方法比较繁琐，这里不讲。

　　但这样做有一个问题：每一帧都会得到一个状态号，最后整个语音就会得到一堆乱七八糟的状态号，相邻两帧间的状态号基本都不相同。假设语音有 1000 帧，每帧对应 1 个状态，每 3 个状态组合成一个音素，那么大概会组合成300个音素，但这段语音其实根本没有这么多音素。如果真这么做，得到的状态号可能根本无法组合成音素。实际上，相邻帧的状态应该大多数都是相同的才合理，因为每帧很短。

　　解决这个问题的常用方法就是使用隐马尔可夫模型（Hidden Markov Model，HMM）。这东西听起来好像很高深的样子，实际上用起来很简单：

　　第一步，构建一个状态网络。

　　第二步，从状态网络中寻找与声音最匹配的路径。

　　这样就把结果限制在预先设定的网络中，避免了刚才说到的问题，当然也带来一个局限，比如你设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径，那么不管说些什么，识别出的结果必然是这两个句子中的一句。

　　那如果想识别任意文本呢？把这个网络搭得足够大，包含任意文本的路径就可以了。但这个网络越大，想要达到比较好的识别准确率就越难。所以要根据实际任务的需求，合理选择网络大小和结构。

　　搭建状态网络，是由单词级网络展开成音素网络，再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径，语音对应这条路径的概率最大，这称之为“解码”。路径搜索的算法是一种动态规划剪枝的算法，称之为 Viterbi 算法，用于寻找全局最优路径。

语音识别技术分析：语音变成文字其实没有那么神秘

　　这里所说的累积概率，由三部分构成，分别是：

　　观察概率：每帧和每个状态对应的概率

　　转移概率：每个状态转移到自身或转移到下个状态的概率

　　语言概率：根据语言统计规律得到的概率

　　其中，前两种概率从声学模型中获取，最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的，可以利用某门语言本身的统计规律来帮助提升识别正确率。语言模型很重要，如果不使用语言模型，当状态网络较大时，识别出的结果基本是一团乱麻。

　　这样基本上语音识别过程就完成了。

　　以上介绍的是传统的基于 HMM 的语音识别。事实上，HMM 的内涵绝不是上面所说的“无非是个状态网络”那么简单。以上的文字只是想让大家容易理解，并不追求严谨。

互联网

喜欢作者我要约稿

喜欢作者

打赏方式

语音识别技术分析：语音变成文字其实没有那么神秘-2

周锦帆