我正在寻找一种算法来确定实时音频输入是否与 144 个给定(且完全不同的)音素对之一匹配。
最好是完成这项工作的最低级别。
我正在为 iPhone / iPad 开发激进/实验性音乐培训软件。
我的音乐系统包含 12 个辅音音素和 12 个元音音素,已证明here http://toneme.org。这就产生了 144 个可能的音素对。学生必须唱出正确的音素对“laa duu bee”等以响应视觉刺激。
我对此做了很多研究,看起来我最好的选择可能是使用 iOS Sphinx 包装器之一(iPhone 应用程序 › 添加语音识别? https://stackoverflow.com/questions/942312/iphone-app-add-voice-recognition是我找到的最好的信息来源)。但是,我不知道如何调整这样的包,任何具有使用这些技术之一经验的人都可以给出所需步骤的基本概要吗?
用户是否需要接受培训?我本以为不会,因为与数千个单词的完整语言模型和更大、更微妙的音素基础相比,这是一项非常基本的任务。然而,让用户训练 12 个音素对是可以接受的(不理想):{辅音1+元音1,辅音2+元音2,...,辅音12+元音12 }。满144太累赘了。
有没有更简单的方法?我觉得使用功能齐全的连续语音识别器就像使用大锤来破解坚果。使用最少的技术来解决问题会更加优雅。
所以我真的在寻找任何可以识别音素的开源软件。
PS我需要一个几乎实时运行的解决方案。因此,即使他们正在唱这个音符,它首先会闪烁以说明它拾取了所唱的音素对,然后它会发光以说明他们是否正在唱正确的音符音高
如果您正在寻找手机级开源识别器,那么我会推荐HTK http://htk.eng.cam.ac.uk/。该工具以 HTK 书籍的形式提供了非常好的文档。它还包含一整章致力于构建电话级实时语音识别器。从上面的问题陈述来看,在我看来,您也许可以将该示例重新修改为您自己的解决方案。可能的陷阱:
由于你想做一个手机级别的识别器,训练手机模型所需的数据会非常多。此外,您的训练数据库应该在电话分布方面保持平衡。
构建一个独立于说话者的系统需要来自多个说话者的数据。还有很多。
由于这是开源的,您还应该检查许可信息以获取有关发送代码的任何其他详细信息。一个不错的选择是使用手机录音机,然后将记录的波形通过数据通道发送到服务器进行识别,这与谷歌的做法非常相似。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)