看来微软提供了相当多的语音识别产品,我想知道它们之间的区别。
-
有微软语音API,或 SAPI。但不知何故微软认知服务语音API有相同的名字。
-
现在,Azure 上的 Microsoft 认知服务提供了语音服务API and 必应语音 API。我假设对于语音转文本,两个 API 是相同的。
-
然后还有系统语音识别(或桌面 SAPI),微软语音识别(或服务器 SAPI)和Windows.Media.Speech.Recognition. Here and here对三者之间的区别有一些解释。但我的猜测是它们是基于 HMM 的旧语音识别模型,又名不是神经网络模型,并且这三个模型都可以在没有互联网连接的情况下离线使用,对吗?
-
对于 Azure 语音服务和 bing 语音 API,它们是更高级的语音模型,对吗?但我认为无法在我的本地计算机上离线使用它们,因为它们都需要订阅验证。 (尽管 Bing API 似乎有一个C# 桌面库..)
本质上我想要一个offline我的对话数据(每次录音 5-10 分钟)进行语音到文本转录的模型,它可以识别多说话者并输出时间戳(或时间编码输出)。我现在对所有的选择有点困惑。如果有人能给我解释一下,我将不胜感激,非常感谢!
这是一个困难的问题 - 也是它如此困难的部分原因:我们(微软)似乎呈现了一个关于“语音”和“语音 api”的不连贯的故事。虽然我在微软工作,但以下是我对此的看法。我尝试对我的团队正在计划的内容(认知服务语音 - 客户端 SDK)提供一些见解,但我无法预测不久的将来的所有方面。
微软很早就认识到语音是一种重要的媒介,因此微软在其产品中启用语音有着广泛而悠久的历史。有非常好的语音解决方案(具有本地识别)可用,您列出了其中的一些。
我们正在努力统一这一点,并为您提供一个可以在 Microsoft 找到最先进的语音解决方案的地方。这是“微软语音服务”(https://learn.microsoft.com/de-de/azure/cognitive-services/speech-service/) - 目前处于预览状态。
在服务方面,它将把我们主要的语音技术(例如语音转文本、文本转语音、意图、翻译(以及未来的服务))整合到一起。语音和语言模型不断改进和更新。我们正在为此服务开发客户端 SDK。随着时间的推移(今年晚些时候),该 SDK 将在所有主要操作系统(Windows、Linux、Android、iOS)上可用,并支持主要编程语言。我们将继续增强/改进 SDK 的平台和语言支持。
这种在线服务和客户端 SDK 的组合将于今年晚些时候退出预览状态。
我们理解对拥有本地识别能力的渴望。在我们的第一个 SDK 版本中,它不会“开箱即用”(它也不属于当前预览版)。 SDK 的目标之一是平台和语言之间的对等(功能和 API)。这需要做很多工作。离线不是现在的一部分,我无法在这里做出任何预测,无论是功能还是时间轴......
因此,从我的角度来看,新的语音服务和 SDK 是前进的方向。目标是在所有平台上提供统一的 API,轻松访问所有 Microsoft 语音服务。它需要订阅密钥,它要求您已“连接”。我们正在努力让服务器和客户端在今年晚些时候脱离预览状态。
希望这可以帮助 ...
Wolfgang
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)