我目前正在尝试创建和训练一个神经网络,以使用 MFCC 执行简单的语音分类。
目前,我为每个样本使用 26 个系数,总共 5 个不同的类别 - 这些是具有不同音节数的五个不同单词。
虽然每个样本都有 2 秒长,但我不确定如何处理用户可以非常慢或非常快地发音的情况。例如,在 1 秒内说出的单词“电视”产生的系数与在 2 秒内说出的单词产生的系数不同。
任何关于如何解决这个问题的建议将不胜感激!
我目前正在尝试创建和训练一个神经网络,以使用 MFCC 执行简单的语音分类。
简单的神经网络不具有输入长度不变性,并且不允许分析时间序列。
对于时间序列的分类(例如一系列 MFCC 帧),您可以使用具有时间不变性的分类器。例如,您可以使用与隐马尔可夫模型 (ANN-HMM) 相结合的神经网络、与隐马尔可夫模型 (GMM-HMM) 的高斯混合模型 (GMM-HMM) 或循环神经网络 (RNN)。 RNN 的 Matlab 实现是here http://de.mathworks.com/help/nnet/ref/layrecnet.html。 Theano 实现也是可用的 https://github.com/gwtaylor/theano-rnn。您可以在 Google 中找到这些结构的详细描述。
语音识别实现起来并不简单,最好使用现有的软件,例如CMUS狮身人面像 http://cmusphinx.sourceforge.net
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)