Microsoft Speech 产品/平台之间的差异

2023-11-23

看来微软提供了相当多的语音识别产品，我想知道它们之间的区别。

有微软语音API，或 SAPI。但不知何故微软认知服务语音API有相同的名字。
现在，Azure 上的 Microsoft 认知服务提供了语音服务API and 必应语音 API。我假设对于语音转文本，两个 API 是相同的。
然后还有系统语音识别（或桌面 SAPI），微软语音识别（或服务器 SAPI）和Windows.Media.Speech.Recognition. Here and here对三者之间的区别有一些解释。但我的猜测是它们是基于 HMM 的旧语音识别模型，又名不是神经网络模型，并且这三个模型都可以在没有互联网连接的情况下离线使用，对吗？
对于 Azure 语音服务和 bing 语音 API，它们是更高级的语音模型，对吗？但我认为无法在我的本地计算机上离线使用它们，因为它们都需要订阅验证。（尽管 Bing API 似乎有一个C# 桌面库..)

本质上我想要一个offline我的对话数据（每次录音 5-10 分钟）进行语音到文本转录的模型，它可以识别多说话者并输出时间戳（或时间编码输出）。我现在对所有的选择有点困惑。如果有人能给我解释一下，我将不胜感激，非常感谢！

这是一个困难的问题 - 也是它如此困难的部分原因：我们（微软）似乎呈现了一个关于“语音”和“语音 api”的不连贯的故事。虽然我在微软工作，但以下是我对此的看法。我尝试对我的团队正在计划的内容（认知服务语音 - 客户端 SDK）提供一些见解，但我无法预测不久的将来的所有方面。

微软很早就认识到语音是一种重要的媒介，因此微软在其产品中启用语音有着广泛而悠久的历史。有非常好的语音解决方案（具有本地识别）可用，您列出了其中的一些。

我们正在努力统一这一点，并为您提供一个可以在 Microsoft 找到最先进的语音解决方案的地方。这是“微软语音服务”（https://learn.microsoft.com/de-de/azure/cognitive-services/speech-service/) - 目前处于预览状态。

在服务方面，它将把我们主要的语音技术（例如语音转文本、文本转语音、意图、翻译（以及未来的服务））整合到一起。语音和语言模型不断改进和更新。我们正在为此服务开发客户端 SDK。随着时间的推移（今年晚些时候），该 SDK 将在所有主要操作系统（Windows、Linux、Android、iOS）上可用，并支持主要编程语言。我们将继续增强/改进 SDK 的平台和语言支持。

这种在线服务和客户端 SDK 的组合将于今年晚些时候退出预览状态。

我们理解对拥有本地识别能力的渴望。在我们的第一个 SDK 版本中，它不会“开箱即用”（它也不属于当前预览版）。 SDK 的目标之一是平台和语言之间的对等（功能和 API）。这需要做很多工作。离线不是现在的一部分，我无法在这里做出任何预测，无论是功能还是时间轴......

因此，从我的角度来看，新的语音服务和 SDK 是前进的方向。目标是在所有平台上提供统一的 API，轻松访问所有 Microsoft 语音服务。它需要订阅密钥，它要求您已“连接”。我们正在努力让服务器和客户端在今年晚些时候脱离预览状态。

希望这可以帮助 ...

Wolfgang

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Microsoft Speech 产品/平台之间的差异的相关文章

Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
如何防止用户控件表单在 C# 中处理键盘输入（箭头键）

我的用户控件包含其他可以选择的控件我想实现使用箭头键导航子控件的方法问题是家长控制拦截箭头键并使用它来滚动其视图什么是我想避免的事情我想自己解决控制内容的导航问题我如何控制由箭头键引起的标准行为提前致谢 MTH 这通常是通过重写
如何在发布期间复制未版本化的测试资源：执行？

我的问题与 Maven 在发布时不会复制未跟踪的资源 https stackoverflow com questions 10378708 maven doesnt copy untracked resources while releas
如何确定所有角度2分量都已渲染？

当所有 Angular2 组件完成渲染时是否会触发一个角度事件 For jQuery 我们可以用 function 然而对于 Angular2 当domready事件被触发 html 只包含角度组件标签每个组件完成渲染后 domrea
TIFF 元数据的最大大小是多少？

TIFF 文件元数据的单个字段中可以合并的元数据数量是否有最大限制我想在 ImageDescription 字段中存储大文本最多几 MB 没有具体的最大限制ImageDescription但是整个 TIFF 文件存在最大文件大小该最
Redis如何存储关联数组？设置、散列还是列表？

我对 Redis 的所有可用存储选项有点困惑我想做一些简单的事情并且不想过度设计它我正在与phpredis and Redis v2 8 6 我有一个需要存储的简单关联数组我还需要能够通过其键检索项目并循环遍历所有项目 a arra
PHPUnit 和 Zend Framework assertRedirectTo() 问题

我在创建的测试中遇到了 assertRedirectTo 问题下面是我使用的代码 public function testLoggedInIndexAction this gt dispatch this gt assertControl
如何使用asm.js进行测试和开发？

最近我读到asm js规范看起来很酷但是是否有任何环境工具来开发和测试这个工具这还只是处于规范阶段吗您可以尝试使用 emscripten 和 ASM JS 1 并从侧分支在 firefox 构建中运行它有关 asm js 的链接
从超立方体图像中获取文本的确切位置

使用 tesseract 中的 GetHOCRText 0 方法我能够检索 html 中的文本并在 webview 中呈现 html 时我能够获取文本但图像中文本的位置与输出不同任何想法都非常有帮助 tesseract gt Se
Vue.js[vuex] 如何从突变中调度？

我有一个要应用于 json 对象的过滤器列表我的突变看起来像这样 const mutations setStars state payload state stars payload this dispatch filter setRev
CSS溢出文本显示在几行中，没有断字

我有一些长文本显示在 div 中该 div 具有固定的宽度和高度我希望文本显示在几行上作为 div 高度并且句子单词不会中断一行中的单词前缀和下一行中的继续此外我想在末尾添加省略号最后一句话 CSS white space n
节拍匹配算法

我最近开始尝试创建一个移动应用程序 iOS Android 它将自动击败比赛 http en wikipedia org wiki Beatmatching http en wikipedia org wiki Beatmatching 两
Spring Boot @ConfigurationProperties 不从环境中检索属性

我正在使用 Spring Boot 1 2 1 并尝试创建一个 ConfigurationProperties带有验证的bean 如下所示 package com sampleapp import java net URL import j
循环内的异步性

我正在使用 jQuery getJSON 用于从一组实用程序的给定 URL 检索数据的 API 我真的很想找到一种为每个实用程序重用代码完全相同的方法由于循环的执行与 ajax 调用无关因此我无法找到保留循环值的方法我知道这个描述
使用 xpath 和 vtd-xml 以字符串形式获取元素的子节点和文本

这是我的 XML 的一部分
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2
升级到 Rails 6 时是否有一种编程方法可以检测 Zeitwerk::NameError？

我目前正在将旧的 Rails 应用程序迁移到 Rails 6 好像项目中有些文件和里面定义的类不一致运行应用程序测试时我没有看到此错误但部署后我收到如下错误 Zeitwerk NameError expected file app my
如何在react-highcharts中使用图表工具提示格式化程序？

如何使用图表工具提示格式化程序我正在使用高图表的反应包装器我有这样的配置 const CHART CONFIG tooltip formatter tooltip gt var s b this x b each this points
强制 Listview 不重复使用视图（复选框）

我做了一个定制Listview 没有覆盖getView 方法 Listview 中的每个项目都具有以下布局联系布局 xml

随机推荐

使用 RegEx 查找两个 XML 标记之间的所有内容

In RegEx 我想找到标签以及两者之间的所有内容XML tags 如下所示
类型错误：firebase.storage 不是函数

下列的this例如我不断收到错误 TypeError firebase storage is not a function 从我的代码中的这一行 var storageRef firebase storage ref 当我只是尝试从存储指
源文件中的 Swift 编辑器占位符

您好遇到快速错误源文件中的 Swift 编辑器占位符问题这是我的代码 public func collectionView collectionView UICollectionView cellForItemAt indexPat
JPA/Hibernate 连接恒定值

我试图在连接语句中使用常量值连接到同一个表中的不同实体在 SQL 中我会做这样的事情 SELECT FROM owner o JOIN types t on t owner id o id AND t type A THIS IS WH
Web API 以 XML 形式返回 OAuth 令牌

使用具有单个用户帐户的默认 Visual Studio 2013 Web API 项目模板并使用 application xml 的 Accept 标头发布到 token 端点服务器仍然以 JSON 形式返回响应 access toke
打开简历错误：(-215) scn == 3 ||函数 cvtColor 中的 scn == 4

我目前使用的是 Ubuntu 14 04 使用 python 2 7 和 cv2 当我运行这段代码时 import numpy as np import cv2 img cv2 imread 2015 05 27 191152 jpg 0
C/C++ 中字符 ('a') 的大小

C 和 C 中字符的大小是多少据我所知 C 和 C 中 char 的大小都是 1 个字节 In C include
SQL Server：从列到行

寻找优雅的或任何解决方案将列转换为行这是一个示例我有一个具有以下架构的表 ID EntityID Indicator1 Indicator2 Indicator3 Indicator150 这是我想要得到的结果 ID EntityI
WPF 按钮内的按钮点击问题

我的 WPF 项目具有以下结构非常简化 Button newProduct new Button Grid newGrid new Grid Button modify new Button Button remove new Butto
修复 - System.Net.WebException：远程服务器返回错误：(500) 语法错误，命令无法识别

我创建了 FTP 代码来传输文件这段代码工作正常只是有时会导致错误 500 确切的错误是 Error System Reflection TargetInvocationException Exception has been thro
Backbone.js PushStates：Internet Explorer 的后备功能不起作用

我的网站刚刚在 Backbone js 中实现了推送状态整个网站在 IE 下都崩溃了我应该如何为 IE 创建后备我想要实现的目标主要网址 http mydomain com explore 另一个网址 http mydomain c
通过 JavaScript 动态添加的元素上的 CSS 转换 [重复]

这个问题在这里已经有答案了我用这样的方式创建一个元素 var dynamic gallery document createElement li 现在我给它分配一个类它给出了元素样式a height 0 transition durat
如何将工作项从一个组织移动到另一个组织

我们在一个项目中有许多工作项现在我们的 DevOps 中有另一个组织我们希望将所有现有的工作项从旧组织项目移动到新组织如何才能做到这一点我见过人之前讨论过这个还有一些评论说我们使用excel 但没有关于如何实际执行此操作的
如何在部署过程中自动分发所需状态配置自定义资源？

我正在努力利用 Microsoft 的 DSC 资源工具包特别是 XWebAdministration 至少对于初学者而言我对 DSC 比较熟悉所以不用担心脚本的实际功能它做了它应该做的事情或者至少我很确定它做了问题是当我从编
cron 作业可以每“x”秒运行一次吗

我有一个 cron 作业设置最小值为 60 秒我希望程序能够以秒为间隔运行即无论我将其设置为 60 秒以后例如我希望 cron 作业每 65 秒运行一次或每 63 秒运行一次或每 160 秒运行一次等等这可能吗或者 cr
在 Python 中构建最小的插件架构

我有一个用 Python 编写的应用程序由相当技术性的受众科学家使用我正在寻找一种使用户可扩展应用程序的好方法即脚本插件架构我在找东西极轻大多数脚本或插件不会由第三方开发和分发并安装而是由用户在几分钟内创建以自动执行重复任
MessageDigest NoSuchAlgorithmException

我想用MessageDigest获取 MD5 哈希值但出现错误 import java security MessageDigest public class dn public static void main String args
WPF内存泄漏

我有一个简单的 wpf 应用程序在主窗口中我有堆栈面板和 2 个按钮第一个按钮添加 100 个我的用户控件没有任何数据绑定事件位图第二个按钮从面板中删除所有控件并调用 GC Collect 并且存在一些问题 1 当我第一次点击
在单元测试中等待 Platform.RunLater

我有一个表示类存储 XYChart Series 对象并通过观察模型来更新它系列更新是通过使用 Platform runLater 完成的我想对其进行单元测试确保 runLater 中的命令正确执行如何告诉单元测试等待 runLa
Microsoft Speech 产品/平台之间的差异

看来微软提供了相当多的语音识别产品我想知道它们之间的区别有微软语音API 或 SAPI 但不知何故微软认知服务语音API有相同的名字现在 Azure 上的 Microsoft 认知服务提供了语音服务API and 必应语音 API 我

Microsoft Speech 产品/平台之间的差异

Microsoft Speech 产品/平台之间的差异 的相关文章

随机推荐

热门标签

Microsoft Speech 产品/平台之间的差异的相关文章