五、训练自己的语音

news/2024/7/21 4:19:24 标签: nlp, ai, 语音识别, 图像处理
aidu_pl">

五、训练自己的语音
还是使用Bark模型,制作自己的语音格式npz文件,上传后指定该语音播放即可。
1、语音数据npz格式介绍
    提供的数据为.npz 格式,这是 Python 中用于存储数组和数据的文件格式。数据包含三个数组:semantic_prompt、coarse_prompt 和 fine_prompt。
    semantic_prompt 数组包含由 BERT 分词器从 Hugging Face 生成的一系列分词 ID。这些标记对文本输入进行编码,并用作生成音频输出的输入。这个数组的形状是 (n,),其中 n 是输入文本中的标记数。
    coarse_prompt 数组是文本到语音管道的中间输出,包含由 Facebook 的 EnCodec 编解码器的前两个代码簿生成的令牌 ID。此步骤将语义标记转换为更适合后续步骤的不同表示。这个数组的形状是 (2, m),其中 m 是经过 EnCodec Codec 转换后的 token 数量。
    fine_prompt 数组是流水线的进一步处理输出,包含来自 EnCodec 编解码器的 8 个码本。这些码本代表标记化的最后阶段,生成的标记用于生成音频输出。这个数组的形状是 (8, p),其中 p 是经过 EnCodec Codec 进一步处理后的标记数。
    总体而言,这些数组代表将文本输入转换为合成音频输出的文本到语音管道的不同阶段。semantic_prompt 数组表示输入文本,而 coarse_prompt 和 fine_prompt 分别表示标记化的中间和最后阶段。
2、在线克隆
打开这个地址:https://huggingface.co/spaces/fffiloni/clone-voice-for-bark
打开麦克风录制,并输入名称,最后下载npz文件即可;
如果要使用脚本创建,详以下步骤


http://www.niftyadmin.cn/n/409706.html

相关文章

C语言数组应用举例

【示例1】求一个整型数组中的最大值和最小值。 #include<stdio.h> int main() {int i,max,min,a[10]{0}; for(i1;i<9;i) scanf(“%d”,&a[i]); /从控制台获取用户输入并赋值给数组元素/ maxa[0];mina[0]; /假设a[0]是最大值也是最小值/ for(i1;i<9;i) {if(a[i]…

驱动开发:内核封装WFP防火墙入门

WFP框架是微软推出来替代TDIHOOK传输层驱动接口网络通信的方案&#xff0c;其默认被设计为分层结构&#xff0c;该框架分别提供了用户态与内核态相同的AIP函数&#xff0c;在两种模式下均可以开发防火墙产品&#xff0c;以下代码我实现了一个简单的驱动过滤防火墙。 WFP 框架分…

Eigen中用于特征值分解的几个类的介绍

本文参考于 https://eigen.tuxfamily.org/dox/group__TopicLinearAlgebraDecompositions.html 很多场合我们需要去计算矩阵的特征值与特征向量&#xff0c;但是Eigen中有好几个计算特征值与特征向量的方法&#xff0c;这些方法到底该选哪个呢&#xff1f;这篇文章就带着大家来…

JS 能改变this指向的方法

JavaScript中的this关键字非常重要&#xff0c;它用于引用当前函数所属的对象。但是&#xff0c;有时候我们需要在不同的上下文中使用相同的函数&#xff0c;这就需要改变this指向。在JavaScript中&#xff0c;有几种方法可以实现这一目标。 1.call方法 call方法是JS中最基本…

Web基本概念

一、前言 World Wide Web的简称&#xff0c;是一个由许多互相链接的超文本组成的系统&#xff0c;通过互联网访问 &#xff08;为用户提供信息&#xff09; 静态网页 仅适用于不能经常更改内容的网页&#xff1b; 动态网页 网络编程技术创建的页面&#xff1b;通过在传统的静态…

win系统将脚手架的软链接指向本地脚手架

先了解一下脚手架研发、发布、安装、调试发大致流程&#xff1a; 本地研发&#xff0c;具体研发过程略当前目录下登录npm npm login发布脚手架 npm publish安装脚手架 npm i -g xxxx&#xff08;win系统会在系统盘的nodejs文件夹下自动添加脚手架执行命令和执行文件&#xff0…

20道常考Python面试题大总结,让你轻松拿下大厂offer

关于Python的面试经验 一般来说&#xff0c;面试官会根据求职者在简历中填写的技术及相关细节来出面试题。 一位拿了大厂技术岗Special Offer的网友分享了他总结的面试经验。当时&#xff0c;面试官根据他在简历中所写的技术&#xff0c;面试题出的范围大致如下&#xff1a; …

【Spring】Bean 的作用域和生命周期

&#x1f389;&#x1f389;&#x1f389;点进来你就是我的人了博主主页&#xff1a;&#x1f648;&#x1f648;&#x1f648;戳一戳,欢迎大佬指点! 欢迎志同道合的朋友一起加油喔&#x1f93a;&#x1f93a;&#x1f93a; 目录 Bean作用域问题引入 Bean的作用域 1. 单例作…