Microsoft Speech 产品/平台之间的差异

2023-11-23

看来微软提供了相当多的语音识别产品,我想知道它们之间的区别。

  • 微软语音API,或 SAPI。但不知何故微软认知服务语音API有相同的名字。

  • 现在,Azure 上的 Microsoft 认知服务提供了语音服务API and 必应语音 API。我假设对于语音转文本,两个 API 是相同的。

  • 然后还有系统语音识别(或桌面 SAPI),微软语音识别(或服务器 SAPI)和Windows.Media.Speech.Recognition. Here and here对三者之间的区别有一些解释。但我的猜测是它们是基于 HMM 的旧语音识别模型,又名不是神经网络模型,并且这三个模型都可以在没有互联网连接的情况下离线使用,对吗?

  • 对于 Azure 语音服务和 bing 语音 API,它们是更高级的语音模型,对吗?但我认为无法在我的本地计算机上离线使用它们,因为它们都需要订阅验证。 (尽管 Bing API 似乎有一个C# 桌面库..)

本质上我想要一个offline我的对话数据(每次录音 5-10 分钟)进行语音到文本转录的模型,它可以识别多说话者并输出时间戳(或时间编码输出)。我现在对所有的选择有点困惑。如果有人能给我解释一下,我将不胜感激,非常感谢!


这是一个困难的问题 - 也是它如此困难的部分原因:我们(微软)似乎呈现了一个关于“语音”和“语音 api”的不连贯的故事。虽然我在微软工作,但以下是我对此的看法。我尝试对我的团队正在计划的内容(认知服务语音 - 客户端 SDK)提供一些见解,但我无法预测不久的将来的所有方面。

微软很早就认识到语音是一种重要的媒介,因此微软在其产品中启用语音有着广泛而悠久的历史。有非常好的语音解决方案(具有本地识别)可用,您列出了其中的一些。

我们正在努力统一这一点,并为您提供一个可以在 Microsoft 找到最先进的语音解决方案的地方。这是“微软语音服务”(https://learn.microsoft.com/de-de/azure/cognitive-services/speech-service/) - 目前处于预览状态。

在服务方面,它将把我们主要的语音技术(例如语音转文本、文本转语音、意图、翻译(以及未来的服务))整合到一起。语音和语言模型不断改进和更新。我们正在为此服务开发客户端 SDK。随着时间的推移(今年晚些时候),该 SDK 将在所有主要操作系统(Windows、Linux、Android、iOS)上可用,并支持主要编程语言。我们将继续增强/改进 SDK 的平台和语言支持。

这种在线服务和客户端 SDK 的组合将于今年晚些时候退出预览状态。

我们理解对拥有本地识别能力的渴望。在我们的第一个 SDK 版本中,它不会“开箱即用”(它也不属于当前预览版)。 SDK 的目标之一是平台和语言之间的对等(功能和 API)。这需要做很多工作。离线不是现在的一部分,我无法在这里做出任何预测,无论是功能还是时间轴......

因此,从我的角度来看,新的语音服务和 SDK 是前进的方向。目标是在所有平台上提供统一的 API,轻松访问所有 Microsoft 语音服务。它需要订阅密钥,它要求您已“连接”。我们正在努力让服务器和客户端在今年晚些时候脱离预览状态。

希望这可以帮助 ...

Wolfgang

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Microsoft Speech 产品/平台之间的差异 的相关文章

随机推荐

  • 使用 RegEx 查找两个 XML 标记之间的所有内容

    In RegEx 我想找到标签以及两者之间的所有内容XML tags 如下所示
  • 类型错误:firebase.storage 不是函数

    下列的this例如 我不断收到错误 TypeError firebase storage is not a function 从我的代码中的这一行 var storageRef firebase storage ref 当我只是尝试从存储指
  • 源文件中的 Swift 编辑器占位符

    您好 遇到快速错误 源文件中的 Swift 编辑器占位符 问题 这是我的代码 public func collectionView collectionView UICollectionView cellForItemAt indexPat
  • JPA/Hibernate 连接恒定值

    我试图在连接语句中使用常量值连接到同一个表中的不同实体 在 SQL 中 我会做这样的事情 SELECT FROM owner o JOIN types t on t owner id o id AND t type A THIS IS WH
  • Web API 以 XML 形式返回 OAuth 令牌

    使用具有单个用户帐户的默认 Visual Studio 2013 Web API 项目模板 并使用 application xml 的 Accept 标头发布到 token 端点 服务器仍然以 JSON 形式返回响应 access toke
  • 打开简历错误:(-215) scn == 3 ||函数 cvtColor 中的 scn == 4

    我目前使用的是 Ubuntu 14 04 使用 python 2 7 和 cv2 当我运行这段代码时 import numpy as np import cv2 img cv2 imread 2015 05 27 191152 jpg 0
  • C/C++ 中字符 ('a') 的大小

    C 和 C 中字符的大小是多少 据我所知 C 和 C 中 char 的大小都是 1 个字节 In C include
  • SQL Server:从列到行

    寻找优雅的 或任何 解决方案将列转换为行 这是一个示例 我有一个具有以下架构的表 ID EntityID Indicator1 Indicator2 Indicator3 Indicator150 这是我想要得到的结果 ID EntityI
  • WPF 按钮内的按钮点击问题

    我的 WPF 项目具有以下结构 非常简化 Button newProduct new Button Grid newGrid new Grid Button modify new Button Button remove new Butto
  • 修复 - System.Net.WebException:远程服务器返回错误:(500) 语法错误,命令无法识别

    我创建了 FTP 代码来传输文件 这段代码工作正常 只是有时会导致错误 500 确切的错误是 Error System Reflection TargetInvocationException Exception has been thro
  • Backbone.js PushStates:Internet Explorer 的后备功能不起作用

    我的网站刚刚在 Backbone js 中实现了推送状态 整个网站在 IE 下都崩溃了 我应该如何为 IE 创建后备 我想要实现的目标 主要网址 http mydomain com explore 另一个网址 http mydomain c
  • 通过 JavaScript 动态添加的元素上的 CSS 转换 [重复]

    这个问题在这里已经有答案了 我用这样的方式创建一个元素 var dynamic gallery document createElement li 现在我给它分配一个类 它给出了元素样式a height 0 transition durat
  • 如何将工作项从一个组织移动到另一个组织

    我们在一个项目中有许多工作项 现在 我们的 DevOps 中有另一个组织 我们希望将所有现有的工作项从旧组织 项目 移动到新组织 如何才能做到这一点 我见过人之前讨论过这个 还有一些评论说 我们使用excel 但没有关于如何实际执行此操作的
  • 如何在部署过程中自动分发所需状态配置自定义资源?

    我正在努力利用 Microsoft 的 DSC 资源工具包 特别是 XWebAdministration 至少对于初学者而言 我对 DSC 比较熟悉 所以不用担心脚本的实际功能 它做了它应该做的事情 或者至少我很确定它做了 问题是 当我从编
  • cron 作业可以每“x”秒运行一次吗

    我有一个 cron 作业设置 最小值为 60 秒 我希望程序能够以秒为间隔运行 即无论我将其设置为 60 秒以后 例如 我希望 cron 作业每 65 秒运行一次 或每 63 秒运行一次 或每 160 秒运行一次 等等 这可能吗 或者 cr
  • 在 Python 中构建最小的插件架构

    我有一个用 Python 编写的应用程序 由相当技术性的受众 科学家 使用 我正在寻找一种使用户可扩展应用程序的好方法 即脚本 插件架构 我在找东西极轻 大多数脚本或插件不会由第三方开发和分发并安装 而是由用户在几分钟内创建以自动执行重复任
  • MessageDigest NoSuchAlgorithmException

    我想用MessageDigest获取 MD5 哈希值 但出现错误 import java security MessageDigest public class dn public static void main String args
  • WPF内存泄漏

    我有一个简单的 wpf 应用程序 在主窗口中 我有堆栈面板和 2 个按钮 第一个按钮添加 100 个我的用户控件 没有任何数据绑定 事件 位图 第二个按钮从面板中删除所有控件并调用 GC Collect 并且存在一些问题 1 当我第一次点击
  • 在单元测试中等待 Platform.RunLater

    我有一个表示类 存储 XYChart Series 对象并通过观察模型来更新它 系列更新是通过使用 Platform runLater 完成的 我想对其进行单元测试 确保 runLater 中的命令正确执行 如何告诉单元测试等待 runLa
  • Microsoft Speech 产品/平台之间的差异

    看来微软提供了相当多的语音识别产品 我想知道它们之间的区别 有微软语音API 或 SAPI 但不知何故微软认知服务语音API有相同的名字 现在 Azure 上的 Microsoft 认知服务提供了语音服务API and 必应语音 API 我