Node.js 上的文本到音频文件

2024-02-15

我正在寻找一种优化的合法方法来从 NodeJS 上的文本创建音频文件。

现在我看到了 5 个变体：

1) 向谷歌翻译文本到语音 API 的简单 hhtp 请求。这种变体不好，因为每个请求都需要生成令牌例如'传统知识：729008.879154' 如果没有这个，它可能会失败。除此之外，这个选项是“非法的”。

2) 从“控制台浏览器”向谷歌翻译文本到语音 api 的 http 请求 -木偶师 https://github.com/GoogleChrome/puppeteer

有没有办法生成正确的令牌密钥以使此请求“合法”？

3）在puppeteer中使用Web Speech Api获取二进制数据并将其保存到文件？或者有没有办法使用 Chromium/Chrome 源代码？

4）在带有nodejs的机器上使用任何其他技术/语言库，并使用js作为解释器来调用该技术/程序中的命令。有任何想法吗？

5）有没有支持不同语言的免费公共API（dream api）？

任何建议将不胜感激。

一种可能的方法是包装 eSpeak 命令行工具（Windows 和 Linux）http://espeak.sourceforge.net/ http://espeak.sourceforge.net/。然后您可以使用 Node.js 进行包装。

const { exec } = require('child_process');

var outputFile = process.argv[2] || "output.wav";
var voice = process.argv[3] || "en-uk-north";
var text = process.argv[4] || "hello there buddy";
var command = `espeak.exe -v ${voice} -w ${outputFile} "${text}"`;

exec(command, (err, stdout, stderr) => {
  if (err) {
    console.log("Error occurred: ", err);
    return;
  }
});

这会产生相当低质量的输出。

我还使用了 Bing Speech API，输出非常好，我创建了一个 Node.js 示例。您需要注册一个 API 密钥，但这非常简单（您可以https://azure.microsoft.com/en-us/try/cognitive-services/ https://azure.microsoft.com/en-us/try/cognitive-services/并选择“语音”）。

const key = 'your api key here';

function synthesizeSpeech(apiKey)
{
    const fs = require('fs');
    const request = require('request');
    const xmlbuilder = require('xmlbuilder');
    const text = process.argv[2] || "The fault, dear Brutus, is not in our stars, But in ourselves, that we are underlings.";
    const outputFile = process.argv[3] || "speech.wav";

    var ssml_doc = xmlbuilder.create('speak')
        .att('version', '1.0')
        .att('xml:lang', 'en-au')
        .ele('voice')
        .att('xml:lang', 'en-au')
        .att('xml:gender', 'Female')
        .att('name', 'Microsoft Server Speech Text to Speech Voice (en-AU, HayleyRUS)')
        .txt(text)
        .end();
    var post_speak_data = ssml_doc.toString();

    console.log('Synthesizing speech: ', text);
    request.post({
        url: 'https://api.cognitive.microsoft.com/sts/v1.0/issueToken',
        headers: {
            'Ocp-Apim-Subscription-Key' : apiKey
        }
    }, function (err, resp, access_token) {
        if (err || resp.statusCode != 200) {
            console.log(err, resp.body);
        } else {
            try {
                request.post({
                    url: 'https://speech.platform.bing.com/synthesize',
                    body: post_speak_data,
                    headers: {
                        'content-type' : 'application/ssml+xml',
                        'X-Microsoft-OutputFormat' : 'riff-16khz-16bit-mono-pcm',
                        'Authorization': 'Bearer ' + access_token,
                        'X-Search-AppId': '9FCF779F0EFB4E8E8D293EEC544221E9',
                        'X-Search-ClientID': '0A13B7717D0349E683C00A6AEA9E8B6D',
                        'User-Agent': 'Node.js-Demo'
                    },
                    encoding: null
                }, function (err, resp, data) {
                    if (err || resp.statusCode != 200) {
                        console.log(err, resp.body);
                    } else {
                        try {
                            console.log('Saving output to file: ', outputFile);
                            fs.writeFileSync(outputFile, data);
                        } catch (e) {
                            console.log(e.message);
                        }
                    }
                });
            } catch (e) {
                console.log(e.message);
            }
        }
    });
}

synthesizeSpeech(key);

另请查看此处的 MARY 项目：http://mary.dfki.de/ http://mary.dfki.de/，这是一个可以安装的开源服务器，语音输出非常好，可以从node.js调用服务器。

如果您安装 Mary Speech 引擎（非常简单）：

"use strict";

const fs = require('fs');
const request = require('request');
const text = process.argv[2] || "The fault, dear Brutus, is not in our stars, But in ourselves, that we are underlings.";
const outputFile = process.argv[3] || "speech_mary_output.wav";

const options = {
    url: `http://localhost:59125/process?INPUT_TEXT=${text}!&INPUT_TYPE=TEXT&OUTPUT_TYPE=AUDIO&AUDIO=WAVE_FILE&LOCALE=en_US&VOICE=cmu-slt-hsmm`,
    encoding: null // Binary data.
}

console.log('Synthesizing speech (using Mary engine): ', text);
console.log('Calling: ', options.url);
request.get(options, function (err, resp, data) {
    if (err || resp.statusCode != 200) {
        console.log(err, resp.body);
    } else {
        try {
            console.log(`Saving output to file: ${outputFile}, length: ${data.length} byte(s)`);
            fs.writeFileSync(outputFile, data, { encoding: 'binary'});
        } catch (e) {
            console.log(e.message);
        }
    }
});

这将为您合成语音。无需 API 密钥！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Node.js 上的文本到音频文件的相关文章

Eslint errorring 导入没有扩展名的 jsx

我正在尝试在 es6 中导入 jsx 文件而不需要 jsx 扩展名 import LoginErrorDialog from LoginErrorDialogView Not import LoginErrorDialog from Log
为什么 iife 在一个简单的例子中不起作用？

我不明白为什么函数表达式调用不起作用并抛出错误你能给我解释一下吗 var a function x alert x function a 1 谢谢大家任务比我想象的要容易得多这是因为 JS 将 IIFE 解析为函数的参数调用这样做时
如何修改每个JSON对象javascript

我想修改里面的每个 JSON 值cooldown object cooldown user 1 This user2 0 This 在 Javascript 中使用 for 语句我研究了好几个小时只找到了内部的 blocks Edit
Three.js：缩放几何图形后错误的 BoundingBox

在我的场景中我有一个简单的立方体 var test new THREE Mesh new THREE CubeGeometry 10 10 10 new THREE MeshBasicMaterial scene add test 该立方
IE从哪个版本开始支持Object.create(null)？

您可以通过多种方式在 JavaScript 中创建对象 creates an object which makes the Object prototype of data var data1 new Object Object liter
使用 JavaScript 禁用第三方 cookie

我正在努力根据所有在欧盟运营的公司的数据保护规则实施新的 Cookie 政策合规性根据该规则用户在使用任何网站时必须能够拒绝接受除必需的 Cookie 之外的所有内容在我客户的网站中我可以看到正在存储以下第三方 cookie ga
如何更改 Google Maps v3 API for Directions 中的开始和结束标记图像

我使用 DirectionsRender 绘制了一条路线但我不知道如何用我自己的标记替换通用的 Google 标记我知道并在正常的谷歌地图情况下使用它但发现很难用开始和结束的方向标记来做到这一点如果这是一个愚蠢的问题感谢您的任何建
如何将内联 JavaScript 与 Express/Node.js 中动态生成的内容分开？

对于具有几年 Web 开发经验但没有找到答案的人来说这是一个有点菜鸟的问题程序员堆栈交换 or Google 我决定在这里问一下我在用Express网络框架Node js 但这个问题并不特定于任何 Web 框架或编程语言以下是从数据库
有没有办法使用 Rspec/Capybara/Selenium 将 javascript console.errors 打印到终端？

当我运行 rspec 时是否可以让 capybara selenium 向 rspec 报告任何 javascript console errors 和其他异常我有一大堆测试失败但当我手动测试它时我的应用程序正在运行如果不知道仅在
如何将函数附加到弹出窗口关闭事件（Twitter Bootstrap）

我做了一些搜索但我只能认为我可以将事件附加到导致其关闭的按钮 https stackoverflow com questions 13205103 attach event handler to button in twitter boo
调整图像大小并将画布旋转 90 度

这里有很多关于在 js 上使用画布旋转图像的主题我阅读了其中的大部分内容但无法找到解决我的问题的方法我正在接收任何分辨率的图像来自上传组件我将其大小调整为 1024x768 如下所示 var canvas document cre
如何制作没有 ng-repeat 的模板并使用 Angular-drag-and-drop-lists 将数据传递到 $scope？

我想用角度拖放列表 https github com marceljuenemann angular drag and drop lists使用我自己的网格模板到所见即所得编辑器如何构建我自己的 HTML 模板而不需要ng repeat因
Javascript split 不是一个函数

嘿朋友们我正在使用 javascript sdk 通过 jQuery facebook 多朋友选择器在用户朋友墙上发布信息但是我收到此错误friendId split 不是函数这是我的代码 function recommendToFr
页面上使用 HTML Editor Extender 进行回发会导致 IE11 中出现 JavaScript 错误

我已将 HTML 编辑器扩展程序添加到我正在处理的页面中现在每当我在页面上发回帖子时都会收到以下 Javascript 错误 JavaScript 运行时错误参数无效之后什么也没有发生这在 IE10 或更低版本以及我所知道的所有其
如何使用 crypto-js 解密 AES ECB

我正在尝试将加密数据从 flash 客户端发送到服务器端的 javascript 在 asp 中作为 jscript 运行有几个 javascript Aes 库但它们实际上没有文档记录我正在尝试使用 crypto js 但无法让代
使用 Mongoose 无法找到按 ObjectId 搜索的文档

Campaign find client id req param client id error campaigns gt if error response error error message else for campaign i
Javascript Replace() 和 $1 问题

我正在尝试创建一个脚本来搜索文本中的模式并在它找到的字符串周围包裹一个标签 shop attributes td each function this html function i html return html replace E 0
从 FileReader 设置背景图像样式

我正在寻找一种解决方案允许我从文件上传输入中获取文件并通过设置 document body style backgroundImage 来预览它以下代码用于在 Image 元素中显示预览 function setImage id tar
在 CKEditor 中设置字体大小和字体系列

我正在使用 ckeditor 我想问一下这个插件如何设置font family和font size 我尝试过使用 CKEDITOR config font defaultLabel Arial CKEDITOR config fontSiz
Jquery - 选择选项后如何获取选项的特定数据类型？

我将直接跳到标记然后解释我想要做什么 HTML 选择选项

随机推荐

XSL if else 条件

我有一个要求我想要 if else 语句来检查节点是否具有属性或仅具有字符串例如 1 个节点有0 File s found另一个具有诸如
在 Kubernetes 中找不到持久卷声明

目前我尝试实施持续量在我的 yaml 文件中我在互联网上阅读了很多文档但我不明白为什么当我进入仪表板窗格时会出现此消息未找到持久卷声明 karaf conf pod yaml apiVersion v1 kind Pod metada
Linux 中 SVN 存储库目录放在哪里？

我正在 Ubuntu Linux 上设置一个新的 SVN 服务器放置存储库的好地方最佳实践在哪里我应该创建一个新用户吗服务器将通过 http 访问因此无需创建用户帐户等与 svn 的情况一样提前谢谢了我喜欢把东西放在下面
Python 访问 JSON 对象中的数据

所以我在我的脚本中这样做 import json info json loads get info print info 哪个输出 richard richard desktop projects hello python python m
将 libpq.5.dylib 复制到 /usr/lib/libpq.5.dylib

我无法在 R 中加载包因为该文件libpq 5 dylib不在 usr lib libpq 5 dylib 它是在 usr local Cellar libpq 13 0 lib libpq 5 dylib 我尝试了这一行 sudo ln
iframe 的内容文档

对于 iframe 甚至旧的 frame 元素 contentDocument 到底代表什么它相当于 html 元素还是 body 元素它有什么用所有浏览器都支持此属性吗 w3 org http www w3 org TR 2003
开头括号中的正则表达式

我有一个正则表达式试图按专业划分问题假设我有以下正则表达式 P
AngularJS：用户身份验证后重新加载 ng-include （或解决问题的更好方法）

我真的只是在学习 Angular 我正在尝试创建一个基于身份验证限制内容访问的应用程序我的身份验证部分正在工作也使用 Laravel PHP 框架但我在根据身份验证状态重新加载某些内容时遇到问题即在身份验证成功后最初我想做的
html 中表单布局的最佳实践——表格还是流程？

在 html 中布局表单的最佳实践是什么特别是当您有一组带有标签的字段和可能的错误指示器时我能做的最好的事情就是使用表格但这在面向 CSS 的布局设计中效果不佳例如 table tr td Name td td td tr tabl
Docker：“未找到 npm”

我正在尝试容器化 ASP NET Core 和 Angular 应用程序但遇到了一些麻烦我收到这些错误 gt internal load build definition from Dockerfile 0 4s gt gt trans
AlertDialog 中的 Flutter NumberPicker 无法正常工作

当我使用 NumberPicker 选择新值时它总是跳回之前的值而不是当前选择的值我在 AlertDialog 中使用 NumberPicker 并使用 pickValue 函数调用 NumberPicker void pickVal
上传并播放音频文件JS

我有一个 HTML 音频标签和一个 HTML 文件输入标签如下所示我希望用户使用上传文件按钮从计算机中选择一首歌曲然后使用音频标签播放它
安装错误：ftheader.h：没有这样的文件或目录

当我尝试构建 matplotlib 1 3 1 时出现以下 freetype 标头错误可能是找不到 ftheader h 关于如何解决这个问题有什么想法吗注意我刚刚按照中提到的说明安装了 Freetype 2 5 0 1自由类型安装
崩溃 CGDataProviderCreateWithCopyOfData：vm_copy 失败：状态 1

我遇到崩溃并出现以下错误 CGDataProviderCreateWithCopyOfData vm copy 失败状态 1 我有多个问题您可以提供帮助 vm copy failed 中状态 1 代表什么仅当我在数据复制的内部 for
从 PHP 子类访问受保护的方法

我可以使用至少两种基本方法来访问受保护的子类的类方法 parent myMethod this gt myMethod 如果我不需要在子类中重写它在这种情况下我必须这样做 function myMethod parent myMethod
jQuery 中的remove() 和detach() 之间的区别[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
ImageView 不保持最大高度和宽度

我将图像加载到ImageView using setImageURI selectedImageUri 从用户的照片库中检索我有图像视图限制大小 android maxHeight 150dp android minHeight 150d
卸载 NuGet 包时出现问题

我正在尝试卸载 NuGet 安装的一些软件包根据文档描述here http docs nuget org docs start here managing nuget packages using the dialog 我应该看到一个卸载
Tesseract OCR Android tessdata 目录未找到

我目前正在使用 OCR 开发 Android 应用程序并且已经达到了调用 BaseAPI init 方法的程度我不断收到错误消息指出该目录必须包含 tessdata 作为子文件夹我已检查文件目录是否包含其中包含训练数据文件的文件夹
Node.js 上的文本到音频文件

我正在寻找一种优化的合法方法来从 NodeJS 上的文本创建音频文件现在我看到了 5 个变体 1 向谷歌翻译文本到语音 API 的简单 hhtp 请求这种变体不好因为每个请求都需要生成令牌例如传统知识 729008 879154

Node.js 上的文本到音频文件

Node.js 上的文本到音频文件 的相关文章

随机推荐

热门标签

Node.js 上的文本到音频文件的相关文章