将神经网络应用于可变长度语音片段的 MFCC

2023-12-21

我目前正在尝试创建和训练一个神经网络，以使用 MFCC 执行简单的语音分类。

目前，我为每个样本使用 26 个系数，总共 5 个不同的类别 - 这些是具有不同音节数的五个不同单词。

虽然每个样本都有 2 秒长，但我不确定如何处理用户可以非常慢或非常快地发音的情况。例如，在 1 秒内说出的单词“电视”产生的系数与在 2 秒内说出的单词产生的系数不同。

任何关于如何解决这个问题的建议将不胜感激！

我目前正在尝试创建和训练一个神经网络，以使用 MFCC 执行简单的语音分类。

简单的神经网络不具有输入长度不变性，并且不允许分析时间序列。

对于时间序列的分类（例如一系列 MFCC 帧），您可以使用具有时间不变性的分类器。例如，您可以使用与隐马尔可夫模型 (ANN-HMM) 相结合的神经网络、与隐马尔可夫模型 (GMM-HMM) 的高斯混合模型 (GMM-HMM) 或循环神经网络 (RNN)。 RNN 的 Matlab 实现是here http://de.mathworks.com/help/nnet/ref/layrecnet.html。 Theano 实现也是可用的 https://github.com/gwtaylor/theano-rnn。您可以在 Google 中找到这些结构的详细描述。

语音识别实现起来并不简单，最好使用现有的软件，例如CMUS狮身人面像 http://cmusphinx.sourceforge.net

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将神经网络应用于可变长度语音片段的 MFCC 的相关文章

句柄类和值类的区别

我有一些 C 背景想使用 Matlab 中的类句柄和值类有什么区别我知道如果我想定义一个带有重载运算符例如和的矩阵类我会使用值类然而有时当我选择一个手柄类时事情似乎只对我有用 MathWorks 提供了一些有关其用途的
使用 R 上的反向传播神经网络模型生成预测会为所有观察返回相同的值

我正在尝试使用经过训练的反向传播神经网络在新数据集上使用神经网络包来生成预测我使用了计算函数但最终所有观察结果都得到相同的值我做错了什么 the data Var1 lt runif 50 0 100 sqrt data lt d
为什么旋转 3D 点云后顶点法线会翻转？

我有两个人脸 3D 点云样本蓝色点云表示目标面红色点云表示模板下图显示目标面和模板面在不同方向上对齐目标面大致沿 x 轴模板面大致沿 y 轴 Figure 1 The region around the nose is displ
什么是 ANN 中的纪元以及它如何转换为 MATLAB 中的代码？

我试图理解并可视化训练人工神经网络的时代到底是什么我们有一个包含约 7000 个产品的训练集其中有 10 个特征输入这些产品必须根据这 10 个输入分为 7 个类别我们的 ANN 有 10 个输入这些输入进入由 10 个神经
如何在没有安装Visual Studio的另一台机器上使用Visual Studio生成的dll？

我已经在 Visual Studio 2012 中生成了动态库我想在另一台机器上使用该库但我不想在远程机器上安装 Visual Studio 我有 mex 库和 dll 我想运行一个使用这两个库的脚本当我运行脚本时出现以下错误缺少
多输出回归问题的多重损失

所以我试图训练一个 CNN 模型来预测 4 个实值输出回归问题我尝试使用均方误差作为损失函数我的问题是我是否将输出层分支为 4 个不同的输出层其中有 4 个不同的输出层由于最后一层的权重是单独更新的 loss 4 MSE 确实可以使
使用 Keras 时，验证集中未见的类别会出现错误

我有由数值变量和分类变量组成的数据分类变量有很多类别因此我使用嵌入来表示这些类别我的模型是一个简单的神经网络我知道当你定义嵌入层时你需要通过input dim number of categories 1为了解释训练中看不见的类别
池化与随时间池化

我从概念上理解最大总和池中发生的情况作为 CNN 层操作但我看到这个术语随时间变化的最大池或随时间变化的总和池例如用于句子分类的卷积神经网络 https arxiv org pdf 1408 5882 pdfYoon Kim
括号中的波形符字符

在 MATLAB 中以下代码执行什么操作 m func returning matrix 波浪号运算符的作用是什么在 Matlab 中这意味着不要将函数中相应的输出参数分配到赋值的右侧因此如果func returning mat
如何找到平面和 3d 矩阵之间的交平面

如果我有一堆图像并且尺寸如下 size M 256 256 124 我有 3 个点它们的坐标是 coor a 100 100 124 coor b 256 156 0 coor c 156 256 0 如何创建 M 与这 3 个点定义的平
如何使用 MATLAB 的 substruct 函数创建表示使用“end”的引用的结构？

我想使用substruct http www mathworks com help matlab ref substruct html函数创建一个结构体以供使用subsref 目的是使用索引字符串subsref而不是通常的符号因为我正在
理解高斯混合模型的概念

我试图通过阅读在线资源来理解 GMM 我已经使用 K 均值实现了聚类并且正在了解 GMM 与 K 均值的比较以下是我的理解如有错误请指出 GMM 类似于 KNN 在这两种情况下都实现了聚类但在 GMM 中每个簇都有自己独立的均值和
在matlab中绘制给定区域内（两个圆之间）的向量场

我想在 Matlab 中绘制下面的向量场 u cos x x 0 y y 0 v sin x x 0 y y 0 我可以在网格中轻松完成例如 x 和 y 方向从 2 到 2 x 0 2 y 0 1 x y meshgrid 2 0 2 2
Matlab 的 imresize 函数中用于插值的算法是什么？

我正在使用 Matlab Octaveimresize 对给定的二维数组重新采样的函数我想了解如何使用特定的插值算法imresize works 我在Windows上使用八度 e g A 1 2 3 4 是一个二维数组然后我使用命令 b
检测数据集中线性行为的算法

我已经发布了一个关于对数据集的一部分进行多项式拟合的算法 https stackoverflow com q 17595932 2320757前一段时间收到一些建议去做我想做的事但我现在面临另一个问题我尝试应用答案中建议的想法我的目标
将一个列表（n 元组或列表）与另一个列表（也可以是数组）缩放的惯用 F# 方法是什么？

Given let weights 0 5 0 4 0 3 let X 2 3 4 7 3 2 5 3 6 我想要的是 wX 0 5 2 3 4 0 4 7 3 2 0 3 5 3 6 我想知道一种使用列表和数组来执行此操作的优雅方法欢迎
如何在MATLAB中显示由三个矩阵表示的图像？

我有 3 个相同大小的 2D 矩阵假设 200 行和 300 列每个矩阵代表三种基本颜色红色绿色和蓝色之一的值矩阵的值可以在 0 到 255 之间现在我想组合这些矩阵以将它们显示为彩色图像 200 x 300 像素我怎样
Keras CNN 回归模型损失低，准确度为 0

我在 keras 中遇到这个 NN 回归模型的问题我正在研究一个汽车数据集以根据 13 个维度预测价格简而言之我已将其读取为 pandas 数据帧将数值转换为浮点数缩放值然后对分类值使用 one hot 编码这创建了很多新列
正确使用 fft2 和 fftshift 进行着色形状

我正在尝试从 Trucco Verri 文本 3d 计算机视觉入门技术中看到的着色算法重新创建经典形状但我很难理解 matlab 中的 fft 函数本质上我需要使用可积性约束来获取图像的深度 Z 我不确定在这种情况下何时使用 fft
Matlab Builder JA - 将 Matlab 编译成 Java jar - 免费版本？

请记住我对 Matlab 一无所知 Matlab Builder JA 允许开发人员构建 Matlab 应用程序并将其导出到 Java jar 中太棒了我只需要生成一个 jar 然后就可以从其他 java 代码中使用它有谁知道单罐包

随机推荐

如何删除 RichTextBox 中的间距？

question https stackoverflow com questions 22086131 error cannot convert lambda expression to type 22086615 noredirect 1
WebView.flingScroll() 的作用是什么？

此链接是我可以在以下位置找到的所有文档flingScroll vx vy http developer android com reference android webkit WebView html flingScroll 28int
如何在 Excel 2007 VBA 中以编程方式冻结 Excel 工作表的顶行？

我希望通过 VBA 以编程方式冻结 Excel 工作表的顶行最终目标是产生与View gt Freeze Panes gt Freeze Top RowExcel 2007 中的命令以便冻结工作表的顶行用户即使在滚动数据时也可以看到工
org.hibernate.InstantiationException：实体没有默认构造函数：：principal.Cliente

我遇到这个错误 Exception in thread main org hibernate InstantiationException No default constructor for entity principal Client
Docker Compose + Postgres：公开端口

我目前正在尝试将 Docker 用于我的新 Django Postgres 项目我在 Mac 上工作通常使用 Postico 快速连接到我的数据库我曾经这样连接我使用官方 Docker 文档来设置 docker compose 我现
调用 setValue 时，Extjs ComboBox 未选择正确的值

我有以下代码 Part of a larger form xtype combo id enroller valueNotFoundText not found triggerAction all mode local fieldLabel
为什么虚拟继承即使不涉及虚函数也需要一个vtable？

我读过这个问题 C 虚拟类继承对象大小问题 https stackoverflow com questions 57481249 c virtual class inheritance object size issue 并且想知道为什么虚
如何在Vue中重置CSS动画

我有一个这样的列表 var v new Vue el app data list 1 2 3 4 5 6 7 8 9 10 methods activateClass event event target classList remove
Android 应用程序操作不适用于语音命令

我正在尝试在我的 Android 应用程序中实现应用程序操作和切片用于实现我正在使用应用程序操作测试工具测试该功能当我在工具中点击运行时切片会立即加载但切片无法与语音命令一起使用是否可以使用语音命令启动切片我已经在 P
使用属性名称动态访问 Objective-C 属性

我知道对象属性的字符串名称我将如何使用字符串获取和设置该属性虽然 weichsel 是正确的但还有更好的方法 Use anObject valueForKey propertyName and anObject setValue va
webrtc-conferencing-1v3-connectionFactory.dispose()-崩溃

我正在尝试创建一个 1v3 或 4v4 会议无论你怎么称呼它 Android 应用程序我已经使用 webrtc 和 socket io 成功将 4 个人连接在一起但是当我断开其中一个用户的连接时我遇到了 webrtc 本机崩溃 Fa
如何优化 mach_msg_trap

我知道这个问题以前曾被问过但没有人就如何解决它给出任何有用的答案我有一个使用 box2d 物理引擎的 cocos2d ios 应用程序我对其进行了性能测试 CPU 将 5 6 的时间花在 mach msg trap 上从我从其他问题
在 SQL 中将行转换为列

Table A ID COLA A value1 B value1 C value1 表B ID DETAIL ID COL X COL Y A 0 foo foo A 1 bar bar B 0 foo foo 我的预期结果是这样的 ID
如何在充气布局内充气具有相同 id 的布局的多个实例

我有一个带有许多嵌套 LinearLayout 和 TextViews 的 LinearLayout 我的主要活动是主 LinearLayout 的膨胀然后我从服务器加载数据并根据收到的数据在占位符中添加多个布局 LinearLay
提交后如何保留表单中的字段值？

提交表单后字段值似乎被设置回空我正在做一些表单验证如果表单无效我将让它显示错误列表中的错误消息但我希望保留字段值有没有办法做到这一点这是我验证表单的观点 app route booking methods GET POST d
通过提供 sys 路径来使用包

我发现了这个链接 Python 在本地使用库而不是安装它 https stackoverflow com questions 9059699 python use a library locally instead of installin
const_cast VS 可变？有什么区别吗？

据我了解 mutable取消constness一个变量的 Class A void foo const m a 5 mutable int m a 但是也const cast void print char str cout lt lt s
.Net Framework 4.0 安装程序是否包含 .Net Framework 3.5？

针对 Net Framework 3 5 编译的 Net 组件是否可以在仅安装 Net Framework 4 0 的系统上运行或者换句话说 Net Framework 4 0 安装程序是否包含 Net Framework 3 5 NET
如何让游戏忽略Unity3D中UI按钮的点击？

我有一个用户界面Button using UnityEngine UI 然而点击Button似乎是点击浏览到场景中在我的例子中单击导航网格如何解决这个问题呢我一直在使用典型的 Unity3D 代码来让用户投入游戏例如 if Inp
将神经网络应用于可变长度语音片段的 MFCC

我目前正在尝试创建和训练一个神经网络以使用 MFCC 执行简单的语音分类目前我为每个样本使用 26 个系数总共 5 个不同的类别这些是具有不同音节数的五个不同单词虽然每个样本都有 2 秒长但我不确定如何处理用户可以非常慢或非常

将神经网络应用于可变长度语音片段的 MFCC

将神经网络应用于可变长度语音片段的 MFCC 的相关文章

随机推荐

热门标签