声音克隆项目实现

2023-05-16

声音克隆

原理介绍

第一个模块:收到说话人音频,然后转成这样一个低维表征向量speaker embedding,(这个向量富含说话信息)实现方式:
由于是无监督学习,使用聚类算法每个人说的所有话能够聚类到一起,
使用损失函数GE2E分开,假设有n个人,每人m个语句,xi,j表示提取的特征,先对xi,j进行LSTM网络输出结果,然后正则化,
使用余弦距离计算距离,然后比较出一个相似矩阵定义相似点,使用softmax损失函数,将损失叠加,实现分类

第二个模块:是一个编码器解码器模型,主要任务就是文本和上一步的声音向量转化成mel频谱图,因为我们一般的音频文件特征很难提取,一般用频谱图做中间人,
频谱图用的就是傅里叶变换,
编码器编码器将字符序列转换为解码器消耗以预测频谱图的隐藏特征表示
就是先把文本转化为char embendding,通过3个卷积层的堆叠,bn层[18]和relu激活
将卷积输出传递到单个双向LSTM以产生编码特征
中间还有个attention,将编码特征转化为定长向量(128维)
然后就是解码器,解码器模块是一个自回归RNN,用来预测mel频谱图,一次一帧,
上一步预测出的频谱帧首先被传入一个每层由256个隐藏ReLU单元组成的双层全连接的“pre-net”
pre-net的输出和attention的结果使用concat函数拼接一起进入lstm层,
LSTM的输出再次和注意力上下文向量拼接在一起,然后经过一个线性变换投影来预测目标频谱帧
目标频谱帧经过一个5层卷积的“post-net”来预测一个残差叠加到卷积前的频谱帧上,
损失函数用的MSE(均方)

下一个模块:就是把mel频谱图转化为音频
使用wavenet,将波形waveform当作一个联合概率 ,使用因果卷积建模,

代码链接:github搜索mockingbird或者点击GitHub - babysor/MockingBird: 🚀AI拟声: 5秒内克隆您的声音并生成任意语音内容 Clone a voice in 5 seconds to generate arbitrary speech in real-time

考虑到github访问慢,下面是码云的链接:mygit: 源自github上的mockingbird项目,下载下来用于学习

实现过程:可以在b站搜索mockingbird,里面有详细视频介绍

实验结果:

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

声音克隆项目实现 的相关文章

  • 颜色的单位

    直观的颜色单位 在css可以直接使用颜色的单词来表示不同的颜色 xff0c 比如 xff0c red xff0c blus xff0c green RGB值 rgb是red xff0c green xff0c blue三元色 光的三元色 通
  • 关于14寸1080p屏幕笔记本Win10系统缩放建议

    这几天买了个新的1080p笔记本屏幕换上之后明显感觉比之前的768p好太多了 xff0c 无论是清晰度还是颜色上都更胜一筹 xff0c 但我开始纠结这个缩放问题了 xff0c 复现下我内心的os吧 选择100 缩放的好处与坏处 好处 同屏显
  • 解决虚拟机CentOS8无法上网的问题

    周五安装的虚拟机 xff0c 然后一直不能上网 xff0c 我查阅了好多资料 xff0c 试了好几次都没用 xff0c 今天终于把它搞好了 记录一下 一 1 首先保证虚拟机的网络适配器为NAT模式 2 设置虚拟机的 编辑 gt 虚拟网络编辑
  • tensorflow2 中tensor转为numpy

    tensorflow2 中tensor转为numpy 第一种使用with import tensorflow as tf Test span class token operator 61 span tf span class token
  • HTML5基础知识(全面)

    1 熟记各大主流浏览器内核版本面试常问哦 浏览器名称内核opera欧朋最初是自己的Presto内核 xff0c 后谷歌Webkit 到BlinkFirefox火狐Gecko内核俗称Firefox内核Chrome谷歌统称为Chromium或B
  • Java错题集(十六)

    目录 在第16行插入哪段代码可以获得一个Point对象的坐标 下面说法正确的是 xff1f xff08 xff09 如果此类已编译并运行 xff0c 则哪两个语句正确 xff1f true false null sizeof goto sy
  • 树莓派4b利用官方软件安装系统

    目录 资源准备一 安装系统1 格式化TF卡2 安装系统 二 连接启动1 连接2 登陆3 开启vnc 总结 资源准备 硬件 xff1a 树莓派4b板子 8G以上TF卡 读卡器 软件 xff1a 官方安装软件 xff1a Raspberry P
  • 解决树莓派4b开启VNC报错无法正确显示桌面

    开启vnc报错 原因 xff1a 由于分辨率太小 xff0c 无法显示 解决办法 xff1a 在终端输入以下内容 sudo raspi config 选择Display Options进入 选择VNC Resolution 选择除第一个分辨
  • js中数组内删除指定对象

    先上代码 xff01 span class token comment 因我使用的是xm select组件 xff0c 所以自带change xff08 即新变化的对象 xff09 和arr xff08 选中的所有对象 xff09 span
  • 【JDK1.8 新特性】Lambda表达式

    1 什么是Lambda表达式 xff1f Lambda 是一个匿名函数 xff0c 我们可以把 Lambda 表达式理解为是一段可以传递的代码 xff08 将代码像数据一样进行传递 xff09 使用它可以写出更简洁 更灵活的代码 作为一种更
  • 封装axios请求

    1 引入所需模块 引入axios模块 import axios from 39 axios 39 使用qs模块 xff0c 进行文件序列号化操作 import qs from 39 qs 39 2 判断当前环境 环境变量 let baseU
  • Matlab的Gpu加速(CUDA cudnn)

    多CUDA版本的切换 xff0c 及Matlab版本对应的CUDA版本 学习笔记 Matlab的Gpu加速 安装CUDA和cudnn时 xff0c 踩了不少坑 xff0c 总结如下几个经验 xff1a 1 显卡驱动的版本与CUDA是一对多的
  • win10添加新硬盘

    win10添加新硬盘 前言 前言 小白指导 xff0c 白到不能再白了 xff01 xff01 xff01 直接上图 关于文件系统介绍 文件系统是系统对文件的存放排列方式 xff0c 不同格式的文件系统关系到数据是如何在磁盘进行存储 xff
  • idea2020创建maven javaweb项目并运行 示例

    idea2020创建maven javaweb项目并运行 一 项目的创建二 pom xml简单介绍三 添加tomcat插件以方便运行项目1 在pom xml文件里加入以下配置 四 创建servlet并 运行项目1 创建Java文件夹并在文件
  • C++实现算法服务的一些经验总结

    文章目录 一 算法模型调用的几种方式二 python算法服务的优缺点三 C 43 43 算法服务的优缺点四 C 43 43 算法服务的几种实现方式五 C 43 43 基于http的算法服务实现思路六 记录调用 xff1a 日志 数据库七 性
  • Java中使用jedis操作redis(使用maven)

    jedis的使用 前言一 简单使用示例1 快速入门2 操作五种数据格式 二 jedis连接池 xff1a jedisPool1 示例2 jedies详细配置 三 创建连接池工具类1 jedis properties2 JediesPoolU
  • maven中使用jdbc

    用到的有数据库连接池 JDBCTemplate 一 首先导入jar包 lt mysql驱动 xff0c 使用对应版本jar包依赖 gt lt dependency gt lt groupId gt mysql lt groupId gt l
  • 解决风扇狂转不止的好方法

    这两天风扇狂转不止 xff0c 真让我头疼 xff0c 现在弄好了 安装一个软件 软件官网 我的是thinkpade580 xff0c 对其他电脑生不生效我不清楚 xff08 但可以一试 xff09 下载后直接安装即可 有个地方实时显示着温
  • 安装hadoop3.x版本踩坑

    报错 xff1a ERROR Attempting to operate on hdfs namenode as root ERROR but there is no HDFS NAMENODE USER defined Aborting
  • 报错:Description: No bean of type ‘org.apache.shiro.realm.Realm‘ found

    springboot整合shiro的时候出现了报错 报错信息 xff1a Description No bean of type 39 org apache shiro realm Realm 39 found Action Please

随机推荐

  • 计算机网络课后习题概略

    计算机网络 课后习题 第一章 概述 1 01 计算机网络可以向用户提供哪些服务 xff1f 服务功能或作用数据传输网络间个计算机之间互相进行信息的传递 资源共享进入网络的用户可以对网络中的数据 软件和硬件实现共享 分布处理功能通过网络可以把
  • Kittle案例(Excel输入,生成记录,生成随机数,获取系统信息,排序记录,去除重复记录,替换NULL值)

    一 Excel输入 1 创建转换 将要处理的文件保存到Excel表中 xff0c 然后打开kettle创建一个转换并命名 xff0c 拖入 Excel输入 控件 2 配置Excel输入控件 浏览导入Excel文件 单击 浏览 B 按钮 xf
  • 第七章 数据加载

    一 全量加载 从技术角度来说 xff0c 全量加载比增量加载的操作要简单很多 xff0c 即只需要在数据加载之前 xff0c 将目标数据表进行清空 xff0c 再将源数据表中的数据全部加载到目标表中 案例实现 xff1a 数据装备 xff1
  • 第八章 综合案例——构建DVD租赁商店数据仓库(1)

    一 加载日期数据至日期维度表 操作介绍 xff1a 下面通过Kettle工具加载日期数据至dim date日期维度表 1 打开Kettle工具 xff0c 创建转换 使用Kettle工具 xff0c 创建一个转换load dim date
  • 第八章 综合案例——构建DVD租赁商店数据仓库(2)

    一 加载用户数据至用户维度表 操作介绍 xff1a 通过Kettle工具加载用户数据至用户维度表dim customer 1 打开Kettle工具 xff0c 创建转换load dim customer 使用Kettle工具 xff0c 创
  • C++与python交互库-pybind11的返回值策略 return_value_policy

    pybind11的返回值策略 return value policy 一 返回值策略的必要性二 一个导致crash的例子三 所有的返回值策略的探讨四 补充说明 一 返回值策略的必要性 C 43 43 和python使用根本上就不一样的内存管
  • 第八章 综合案例——构建DVD租赁商店数据仓库(3)

    一 加载演员数据至演员维度表 操作介绍 xff1a 通过Kettle工具加载演员数据至演员维度表dim actor 1 打开Kettle工具 xff0c 创建转换 使用Kettle工具 xff0c 创建一个转换load dim actor
  • 树莓派4b安装python库

    树莓派4b安装python库 树莓派安装好系统后自带的有python2和python3 xff0c 默认是使用python2 xff0c 可以打开树莓派查看 xff1a 输入python 查看默认的python版本 xff1a 我原来默认是
  • SONIC+P4

    SONIC简介 背景 微软于2015年先后发表了SAI和SONIC SONIC产业日益繁荣 xff0c 已超过六十家 创新 SONiC使用了大量现有的开源技术 xff1a Docker Redis Quagga和LLDPD以及自动化配置工具
  • 6.ROS&PX4--Pixhawk无人机+A1激光雷达SLAM部署

    6 ROS amp PX4 无人机A1激光雷达SLAM部署 一 常见2D SLAM算法 Gmapping Hector SLAM Cartographer Gmapping 基于粒子滤波的2D激光雷达SLAM xff0c 构建二维栅格地图
  • Codeblock提示: Can‘t find compiler executable in your configured search path‘s for GNU GCC无法找到编译器

    can t find compiler executable in your configured search path s for GUN GCC Complier的应对办法 今天使用codeblocks 点击Settings Comp
  • Hexo系列 | Hexo安装、启动

    目录 前言 一 Hexo是什么 二 安装node js 三 安装Git 四 检查是否安装成功 五 Hexo安装 启动 前言 用Hexo框架搭建个人博客 xff0c 记录搭建过程 个人博客效果 一 Hexo是什么 Hexo官网 Hexo 是一
  • 【python】python语法糖

    python 语法糖 1 什么是语法糖 x1f36c 语法糖是由编程语言提供的一种可以让我们写出来的代码在不影响语句执行的功能的条件下 xff0c 能够让我们的代码看起来更简洁和美观的一种语法 很多人刚开始接触语法糖的时候 xff0c 总会
  • 因装了python3.6版本导致ubuntu下terminal无法打开

    参考stack overflow xff1a https stackoverflow com questions 61144232 updated to python 3 8 terminal wont open fixed but det
  • E: 无法下载 https://mirrors.tuna.tsinghua.edu.cn/kali/dists/kali-rolling/main/Contents-amd64.gz 文件尺寸不符

    本人是新手 这个问题困扰了我很久 在网上也查了很久 答案千篇一律 我写下我的解决方法 希望对你有帮助 问题 E 无法下载 https mirrors tuna tsinghua edu cn kali dists kali rolling
  • 软件工程知识点总结

    1 软件的本质 1 1 软件是什么 xff1a 软件是能够完成预定功能和性能 xff0c 并对相应数据进行加工的程序和描述程序操作的文档 1 2 软件的特点 软件是设计开发的 xff0c 而不是传统意义上生产制造的软件不会 磨损 虽然整个工
  • C++ lambda表达式如何理解?编译器做了什么

    lambda表达式在C 43 43 11中引入 xff0c 用lambda表达式表示匿名函数非常方便 xff0c 语法很简单 xff0c 而且可以使代码更紧凑 xff0c 更易于阅读 一个例子 xff1a span class token
  • mysql主从复制&读写分离

    文章目录 本文内容前言1 MySQL主从复制1 1 介绍1 2 搭建1 2 1 准备工作1 2 2 主库配置1 2 3 从库配置 1 3 测试 2 读写分离案例2 1 背景介绍2 2 ShardingJDBC介绍2 3 数据库环境2 4 初
  • 输出所有质数

    1 实验目的 了解数字 布尔值 字符串 列表 元组 字典 集合等Python常用的变量类型 熟练掌握运算符 内置函数的用法 熟练掌握元素常用方法 切片和列表推导式 2 实验内容 xff08 一 xff09 输出所有质数 输入一个整数 xff
  • 声音克隆项目实现

    声音克隆 原理介绍 第一个模块 xff1a 收到说话人音频 xff0c 然后转成这样一个低维表征向量speaker embedding xff0c xff08 这个向量富含说话信息 xff09 实现方式 xff1a 由于是无监督学习 xff