Google Keep 如何在保存录音的同时进行语音识别？

2023-11-22

Android 的 SpeechRecognizer 显然不允许将您正在进行语音识别的输入记录到音频文件中。也就是说，要么使用 MediaRecorder（或 AudioRecord）录制语音，要么使用 SpeechRecognizer 进行语音识别，在这种情况下，音频不会录制到文件中（至少不是您可以访问的文件）；但你不能同时做这两件事。

如何在 Android 中同时实现录音和语音识别的问题已经被问过好几次了，最流行的“解决方案”是录制一个 flac 文件并使用 Google 的非官方语音 API，它允许您发送一个 flac通过 POST 请求获取文件并获取带有转录的 json 响应。http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/（过时的Android版本）https://github.com/katchsvartanian/voiceRecognition/tree/master/VoiceRecognition http://mikepultz.com/2013/07/google-speech-api-full-duplex-php-version/

这工作得很好，但有一个巨大的限制，即它不能用于长度超过 10-15 秒的文件（确切的限制尚不清楚，可能取决于文件大小或字数）。这使得它不适合我的需求。

此外，将音频文件分割成更小的文件也不是一个可能的解决方案；即使忘记在正确位置（而不是在单词中间）正确分割文件的困难，对上述 Web 服务 api 的许多连续请求将随机导致空响应（Google 表示每个请求的使用限制为 50 个）当天，但和往常一样，他们没有透露具体细节real使用限制明确限制了请求的突发）。

因此，所有这一切似乎都表明，在 Android 中获取语音转录的同时将输入记录到音频文件中是不可能的。

然而，Google Keep Android 应用程序正是这样做的。它允许你说话，将你所说的内容转录成文本，并保存文本和录音（目前还不清楚它存储在哪里，但你可以重播它）。而且它没有长度限制。

所以问题是：有人知道谷歌是如何保存它的吗？我想查看源代码，但似乎不可用，是吗？

我在进行语音识别时嗅探了 Google Keep 发送和接收的数据包，它绝对不使用上面提到的语音 api。所有流量都是 TLS，（从外部看）它看起来与使用 SpeechRecognizer 时几乎相同。

那么是否存在一种方法可以将麦克风输入流“拆分”（即复制或多路复用）为两个流，并将其中一个输入到 SpeechRecognizer，另一个输入到 MediaRecorder？

Google Keep 推出RecognizerIntent具有某些未记录的额外内容，并期望生成的意图包含录制音频的 URI。如果RecognizerIntent由 Google 语音搜索提供服务，然后一切顺利，Keep 即可获取音频。

See 记录/保存来自语音识别意图的音频了解更多信息以及以与 Keep（可能）相同的方式调用识别器的代码示例。

请注意，此行为不是 Android 的一部分。这只是当前两个闭源谷歌应用程序如何相互通信的未记录方式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Google Keep 如何在保存录音的同时进行语音识别？的相关文章

Android Studio 3.0 Canary 9 - 无法解析包

我在 Android Studio 3 0 Canary 9 中遇到几个错误这些错误是无法解析 android 软件包下面列出了一些错误我刚刚安装了 SDK 的所有额外软件包但仍然收到 gradle 构建错误 Error 82 1
类型容器“Android 依赖项”引用不存在的库 android-support-v7-appcompat/bin/android-support-v7-appcompat.jar

我在尝试在我的项目中使用 Action Bar Compat 支持库时遇到了某种错误我不知道出了什么问题因为我已按照此链接中的说明进行操作 gt http developer android com tools support libr
Android - 从资产中解析巨大（超大）JSON 文件的最佳方法

我正在尝试从资产文件夹中解析一些巨大的 JSON 文件我如何加载并添加到 RecyclerView 我想知道解析这种大文件大约 6MB 的最佳方法是什么以及您是否知道可以帮助我处理此文件的良好 API 我建议您使用GSON lib h
在 ViewPager Fragments 中使用 Master/Detail 模板（下载链接）

工作代码 https github com lukeallison ViewPagerMasterDetail https github com lukeallison ViewPagerMasterDetail Android 主详细流
java.lang.NoClassDefFoundError：org.apache.batik.dom.svg.SVGDOMImplementation

我在链接到我的 Android LibGDX 项目的 Apache Batik 库时遇到了奇怪的问题但让我们从头开始在 IntelliJ Idea 中我有一个项目其中包含三个模块 Main Android 和 Desktop 我强调的
当文本输入聚焦在 React Native for Android 的底部工作表上时，视图移出屏幕

我正在使用图书馆 https github com osdnk react native reanimated bottom sheet https github com osdnk react native reanimated bott
Adobe 是否为其 PDF 阅读器提供 Android SDK 或 API？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我希望能够在我们的应用程序内的视图中显示本地 PDF 文件在 Android 4 03 下的平板电脑上运行目前我们将 Adob eR
Android 模拟器插件无法初始化后端 EGL 显示

我在 Cloudbees 上设置了 Jenkins 作业并且可以在那里成功签出并编译我的 Android 项目现在我想在 android 模拟器中运行一些 JUnit 测试并添加 Android 模拟器插件我将显示模拟器窗口选项设
在 java 类和 android 活动之间传输时音频不清晰

我有一个android活动它连接到一个java类并以套接字的形式向它发送数据包该类接收声音数据包并将它们扔到 PC 扬声器该代码运行良好但在 PC 扬声器中播放声音时会出现持续的抖动中断安卓活动 public class Sen
使用 Android 发送 HTTP Post 请求

我一直在尝试从 SO 和其他网站上的大量示例中学习但我无法弄清楚为什么我编写的示例不起作用我正在构建一个小型概念验证应用程序它可以识别语音并将其文本作为 POST 请求发送到 node js 服务器我已确认语音识别有效并且服务
无法访问 com.google.android.gms.internal.zzbfm 的 zzbfm 类文件未找到

我正在将我的 Android 应用程序项目从GCM to FCM 为此我使用 Android Studio 中的 Firebase 助手工具并遵循 Google 开发人员指南中的说明一切都很顺利并将我的应用程序代码更改为FCM根据助
无法展开 RemoteViews - 错误通知

最近我收到越来越多的用户收到 RemoteServiceException 错误的报告我每次给出的堆栈跟踪如下 android app RemoteServiceException Bad notification posted fro
我想实现下面的布局，按钮应该在屏幕底部，当惰性列被填充时，按钮不应该出去

顶部有惰性列惰性列下方有输入电话号码布局并从电话簿布局添加联系人我希望当未添加联系人时此布局位于顶部当我添加大量联系人时输入电话号码并添加电话簿布局中的联系人会随着惰性列滚动并移出屏幕我不让他们走出屏幕当接触较多时它们必须粘在底
尝试在 ubuntu 中编译 android 内核时出错

我正在尝试从源代码编译 Android 内核并且我已经下载了所有正确的软件包来执行此操作但由于某种原因我收到此错误 arm linux androideabi gcc error unrecognized command line op
字符串数组文本格式化

我有这个字符串 String text Address 1 Street nr 45 Address 2 Street nr 67 Address 3 Street nr 56 n Phone number 000000000 稍后将被使用
Android访问远程SQL数据库

我可以直接从 Android 程序访问远程 SQL 数据库在网络服务器上吗即简单地打开包含所有必需参数的连接然后执行 SQL 查询这是一个私人程序不对公众开放仅在指定的手机上可用因此我不担心第三方获得数据库访问权限如果是这
.isProviderEnabled(LocationManager.NETWORK_PROVIDER) 在 Android 中始终为 true

我不知道为什么但我的变量isNetowrkEnabled总是返回 true 我的设备上是否启用互联网并不重要这是我的GPSTracker class public class GPSTracker extends Service imp
如何将 google+ 登录集成到我的 Android 应用程序中？

大家好实际上我需要通过我的应用程序从 google 登录人们现在我阅读了 google 上的文档其中指出要允许用户登录请将 Google Sign In 集成到您的应用中初始化 GoogleApiClient 对象时请求 PL
Crashlytics 出现 Android Studio 构建错误

我正在尝试将 CrashLytics 与 Android Studio 和 gradle 一起使用但出现一个令人困惑的错误 java lang NoSuchMethodError 我的 build gradle 是 buildscript
节拍匹配算法

我最近开始尝试创建一个移动应用程序 iOS Android 它将自动击败比赛 http en wikipedia org wiki Beatmatching http en wikipedia org wiki Beatmatching 两

随机推荐

在 Julia 中检索 RNG 种子

在 Julia 中全局 RNG 的种子可以设置为 srand SEED 我如何检索全局 RNG 的种子或当前状态例如稍后再来一次目标是在任何给定时间点获取 RNG 的状态并在不同的会话中重新创建它而无需知道初始种子或同时发生的对
关于linux设备驱动中的register_chrdev_region()的问题

我正在学习如何注册内核模块register chrdev region dev t from unsigned count const char name 我注意到无论有没有这个函数我的内核模块都按预期工作我用于测试的代码 first
如何使用 IIS 7.5 更改可以在表单中发布的字段数量？

我们的网络应用程序的管理部分中的某些表单遇到了问题有少数表单包含大量字段范围可以从一个输入字段到数百个我们发现随着这些表单的增长在发布表单时服务器会抛出 500 个错误经过测试我发现服务器可以处理包含 100 个字段的表单
单个单元格的计数器增量

这篇文章源于我的问题将单元定义扩展到单元框架标签我一直在玩CounterIncrements我没有得到我所期望的正如西蒙在对我提到的帖子的回答中所做的那样我们首先生产一个计数器 CellPrint Cell Setting the c
使用 CASE WHEN 在 postgresql 中创建数据透视表的正确方法

我正在尝试在 postgresql 中创建一个数据透视表类型视图并且已经快到了这是基本查询 select acc2tax node acc tax node name tax node rank from tax node acc2ta
如何让 Valgrind 调试器单步执行程序

早上好我正在尝试使用 Valgrind 调试器单步调试程序我的 valgrind 命令行是valgrind tool memcheck leak check full db enable yes MatchUpAcurate exe 我
防止控制台应用程序在未从现有终端调用时关闭？

这类问题有很多变体然而我特别寻求一种方法来防止 Python 中的控制台应用程序在未从终端或其他控制台因为它可能在 Windows 上调用调用时关闭可能发生这种情况的一个示例是双击 py来自 Windows 资源管理器的文件通
使用实体框架的 System.OutOfMemoryException？

我正在尝试使用实体框架保存数十万条记录保存数十万条记录后我收到以下错误系统内存不足异常 My code foreach BibContent objbibcontents in lstBibContent db BibContents
通过 Python3 使用 Selenium 和 WebDriver 切换选项卡时出现“NoSuchWindowException：没有这样的窗口：窗口已关闭”

我有一个表单当我单击它时会在新选项卡中打开当我尝试导航到该新选项卡时我不断收到 NoSuchWindowException 代码非常简单 myframe 是新选项卡中的框架信息最终将插入其中我应该等待其他事情吗 from sele
使用 C# 设置 CPU 的关联性

我已经用 C 创建了一个窗口应用程序现在我想设置该应用程序的 CPU 亲和力我可能有 2 个处理器 4 个处理器 8 个处理器或可能超过 8 个处理器我想使用接口的输入来设置 cpu 关联性我怎样才能做到这一点如何使用Enviro
Spark 中的循环分区是如何工作的？

我很难理解 Spark 中的循环分区考虑以下示例我将大小为 3 的 Seq 分成 3 个分区 val df Seq 0 1 2 toDF repartition 3 df explain Physical Plan Exchange R
如何以每条记录都与“上一条”记录连接的方式自连接表？

我有一个 MS SQL 表其中包含具有以下列的股票数据 Id Symbol Date Open High Low Close 我想自行加入该表这样我就可以获得每天的百分比变化Close 我必须创建一个查询该查询将以每条记录还包含上一个
有人有使用 scipy.stats.distributions 的示例代码吗？

我正在努力弄清楚如何使用 scipy distributions 包并想知道是否有人可以为我发布一些示例代码它似乎可以满足我需要的一切我只是不知道如何使用它我需要生成两种分布一种是对数正态分布一种是泊松分布我知道每个的方差和
Ruby String.encode 仍然给出“UTF-8 中的无效字节序列”

在 IRB 中我正在尝试以下操作 1 9 3p194 001 gt foo xBF encode utf 8 invalid gt replace undef gt replace gt xBF 1 9 3p194 002 gt foo
NodeJS JSON.stringify 非常长的对象数组错误“字符串长度无效”

我有一个很长的对象数组大小约为 100 000 个项目就在将其写入文件之前我将数据传递到 JSON stringify 我收到此错误 JSON stringify RangeError Invalid string length 如何
如何在视图文件夹中包含 js.erb 文件

我有一个与视图一起使用的 JavaScript 文件里面需要有 Ruby 代码我需要做render在 Ruby 中所以我知道我不能将 JavaScript 文件放入资产管道中我可以将它放在与 html erb file 如何包含 J
蓝牙 LE 外围设备在与蓝牙 LE 中央设备连接时停止广告

我想开发像蓝牙 LE 外围设备这样的应用程序它会在与蓝牙 LE 中央设备连接时停止广告并限制与多个蓝牙 LE 中央设备连接的蓝牙 LE 外围设备一台蓝牙 LE 外围设备一次仅与一台蓝牙 LE 中心连接成功连接蓝牙 LE 外围设备和蓝
Rhino Mocks 上的模拟和存根有什么区别？

我对此还没有玩够通常使用模拟但我想知道这两者之间有什么区别以及何时在 Rhino Mocks 上使用其中之一 Update 我还在中找到了我的问题的答案阿延德的话存根和模拟之间的区别您可以在本文中获得这些术语的实际定义模拟不是存根
如何使用给定模式 tail -f 最新日志文件

我使用一些日志系统它每小时创建一个日志文件如下所示 SoftwareLog 2010 08 01 08 SoftwareLog 2010 08 01 09 SoftwareLog 2010 08 01 10 我试图跟踪最新的日志文件给出
Google Keep 如何在保存录音的同时进行语音识别？

Android 的 SpeechRecognizer 显然不允许将您正在进行语音识别的输入记录到音频文件中也就是说要么使用 MediaRecorder 或 AudioRecord 录制语音要么使用 SpeechRecognizer 进

Google Keep 如何在保存录音的同时进行语音识别？

Google Keep 如何在保存录音的同时进行语音识别？ 的相关文章

随机推荐

热门标签

Google Keep 如何在保存录音的同时进行语音识别？的相关文章