【AI 孙燕姿

推荐

半抹灯花 11个月前 2024/02/06 ©著作权读给你听

文章标签 AI 孙燕 专栏分类人工智能 阅读数2718 评论数0 点赞数0 收藏数0

导读：最近视频网站音乐区up主掀了“AI孙燕姿”的风潮。这种使用AI技术提取某位歌手的音色再用其替换另一位歌手音色的方..

最近视频网站音乐区up主掀了“AI孙燕姿”的风潮。这种使用AI技术提取某位歌手的音色再用其替换另一位歌手音色的方式可以实现接近歌手本人翻唱的逼真效果。除孙燕姿外面对周杰伦、陶喆、陈奕迅、王菲等众多具有独特嗓音的歌手歌迷纷纷奔向“AI点唱机”——这个可以生成任何希望被翻唱歌曲的“神器” 让众多粉丝一偿“直接点歌偶像”的心愿。当然以此为基础也诞生了很多有意思的开源应用方案如无需学习其他伪音技巧即可实现实时男女声音互换等等。作者将使用 RVC 模型和入梦工具带大家实现以下几个功能

音乐干声分离背景音 BGM 与人声干声的分离训练个人音色模型作为模仿其他干声素材的音色数据男女换声伪音基于异性干声素材进行实时转化声音为异性声音AI 唱歌仅作基础的模拟演唱仍需进行调音等等操作才可以达到完美音色融合不同音色的特征融合出一个全新的音色
文章目录现实案例说明注意事项音色推理流程素材干声分离音色训练音色融合入梦工具实现男女伪音实时无技巧转化总结一下现实案例说明

在进行教学前我们先假设这样一个场景现有素材男声音色A 女声音色B 女声音色C的朗读素材C 男唱歌状态下的音色D 女声音色C的唱歌素材E 我们根据以上介绍的功能进行整合可以做到以下案例

案例一将女声C的朗读素材进行干声分离再用男声音色A朗读女声音色C的朗读素材C。案例二可以用女声B的音色去朗读女声C的朗读素材。案例三甚至能够进行小延迟 0.1s 的实时音色转换比如将使用男声音色A的声音去讲可以实时转化为女声音色B的声音实现无技巧完成男女伪声转换。案例四利用音色D的声音去演唱音色C的唱歌素材实现类似AI孙燕姿的功能。案例五拿女音色B和C的素材进行融合出一个新的音色F案例六音色A从来没有说过外语英语、日语等等但需要现在马上说一段外语音频

效果可参考出处【rvc教程】AI变声/AI音色训练-哔哩哔哩极为逼真值得尝试。当然我也只是作为分享。
在此感谢三位UP主花儿不哭/唯有如梦/干易/掉脑袋切切_bling 的视频
下载资源链接: https://pan.baidu.com/s/1ySNG08WXAM01BcBGAncw7w?pwd gerh
2023.8.24 链接已更新。
文件目录如下

文件目录
划重点

注意事项性能要求建议20系N卡以上显存在 8g 以上性能越高越好模型文件目录要求全英文、无中文、待处理音频、单音色素材独立一个文件夹启动模型时命令行界面不能关闭否则模型停止运行下文中提到的所有命令行都使用时不能关闭注意音色版权问题不做违法勾当技术无罪请勿滥用音色、音频素材质量好坏不仅仅体现在音源质量音色训练干声素材更在意有无噪声气泡音、混响者等不佳是否贴合模仿场景唱歌音色对应唱歌音频转换等等是否音频变调范围较少等等音色推理流程

什么是音色推理呢其实就是实现案例一二的过程也就是推理音色A到音色B 再应用到声音素材上的过程。我们将使用 RVC 模型的一建训练包步骤如下

启动 RVC web 界面双击打开 RVC-beta_5\RVC-beta\go-web.bat等待启动启动成功命令行效果如下
命令行

web界面

界面参数说明推理音色推理结果成品的实际音色待处理音频推理结果成品的实际音频内容支持绝大部分音频格式index 路径推理音色相符合的特征文件 index 结尾变调(整数, 半音数量, 升八度12降八度-12) 男女音调差距较大男转女推荐 12key, 女转男推荐-12key, 如果音域爆炸导致音色失真也可以自己调整到合适音域.刷新音色列表和索引路径加载新的推理音色和 index 文件训练出新音色就需要重新加载卸载音色去除加载进的音色以节省显存音高提取算法输入歌声可用pm提速,harvest低音好但巨慢无比选定对应参数数据按照界面参数选择推理音色、待处理音频、index 路径、变调等等最基本的参数也就是说其他参数保持默认的参数也能使用有能力、有需求的再自行微调点击转换即可进行音色推理了。
转换结果效果如下
音色推理结果

点击播放按钮即可在线播放转换后的音频右键点击即可下载结果音频或者改变播放速度。最好是先听听效果再下载毕竟不一定效果合适可能需要调整参数。
这就是音色推理的全流程也是整个模型训练性能要求最低的一个部分之一如果你连默认的音色都无法正常推理成功的话音色训练部分建议在性能更强的电脑上进行。素材干声分离

素材干声分离也就是分离人声和背景音这一部分不一定需要本模型一键训练包来完成只是为了获得更好的干声素材而做的预处理操作有其他现成更简单的工具也可以使用。话扯远了接下来就说说怎么进行素材的干声分离步骤如下

启动 RVC 模型的一建训练包和推理模型的启动方法一致切换到干声分离界面如下
素材干声分离界面

界面参数说明待处理音频路径待处理音频的文件夹路径注意不是文件路径这也是为什么每个待处理音频都要独立放置到一个文件夹的原因因为太多文件训练时间过长。按需选择分离模型 HP2 人声只有背景音和人声类型、HP5人声带有背景音和人声叠加等等效果类型指定人声输出目录默认 RVC-beta\opt指定乐器文件夹背景音文件夹默认 RVC-beta\opt 填写好对应参数信息之后点击转换即可完成素材干声分离。最终效果如下
素材干声分离结果

输出信息为 success 即为干声分离成功如果报错就需要检查音频和电脑的硬件问题了。音色训练

音色训练其实就是利用经过预处理或者本身音源素质良好的干声素材进行训练提取对应的音色特征进而模拟其音色特征再生成对应的音色包这个过程中当然可以尝试通过微调参数实现更好的音色特征提取但篇幅有限本文只介绍最简单最直接的音色训练教程。步骤如下

准备好 3 分钟以上、50 分钟以内的优质干声素材建议在3到7分钟之间效果就很不错了做好训练时长等待的准备启动训练模型切换到训练模块如下
训练界面

界面参数说明实验名即将训练出来的音色包名称目标采样率干声素材采集样本占比按性能需求更改默认 40k 就有不错的效果了模型是否带音高指导如果是唱歌类型的干声素材必须选择 true 反之选或不选都可以版本建议使用 V1 V2 仍存在部分 Bug提取音高和处理数据所使用的 CPU 进程数默认为 16 可根据性能瓶颈自行更改最少为 2训练文件夹路径所要训练的干声素材文件夹路径注意是文件夹路径同一个文件夹里面只能包含一个人的音色干声素材显卡信息启动后会自动读取本机显卡信息多张显卡可输入卡号指定训练用显卡音高提取算法输入歌声可用pm提速,高质量语音但CPU差可用dio提速,harvest质量更好但慢保存频率每训练 n 轮保存一次音色特征数据建议以 20 为保存频率可根据性能瓶颈自行更改总训练轮数不得小于保存频率数总训练轮数按性能瓶颈来建议 200 轮即可干声素材优秀可选择 50 轮即可普通人听不出来的最高可达 1000 轮轮数越高性能要求越大时间越长过高也会过拟合不建议太高。每张显卡的 back_size 按默认即可会在读取显卡信息后自动选择如果自行指定训练显卡可根据性能瓶颈自行选择是否仅保存最新的ckpt文件以节省硬盘空间选择是的话只有最后一轮的训练特征数据反之按保存频率保存音色文件是否缓存所有训练集至显存. 10min以下小数据可缓存以加速训练, 大数据缓存会炸显存也加不了多少速度是否在每次保存时间点将最终小模型保存至weights文件夹选择是即可填好以上界面参数数据点击一键训练即可慢慢等待结果出现建议只运行该模型
ckpt 处显示 success 结尾有个 2333333 即为成功
训练结果命令行

训练结果音色文件夹 weights 文件夹
音色文件夹

训练音色特征结果 logs 文件夹
音色特征数据

如果没有迁移训练和微调参数需求的话可仅保存 index 和 npy 文件连同前文的 pth 文件就可以构成一个完整的音色包文件。可分享音色包文件示例如下

利用这个音色包文件就可以进行前文的音色推理了也就能够实现案例一、二、四、七包含唱歌类型的模拟以及说一段自己不会的外语音频也是可以实现的同时实现唱歌素材的模拟不就可以得到 AI 孙燕姿的干声素材再利用之前干声分离出的背景音进行调整就可以基本实现AI孙燕姿啦只要我们拥有训练所得、分享获得孙燕姿的唱歌音色包以及对应优质的唱歌干声素材当然还需要进一步的调音、编曲等待操作让它更像更完美。

音色融合

音色融合就是基于前文提到的音色训练出来的音色包进行融合音色当然同一性别的音色融合效果会好一点通过音色融合我们就可以创造出一个全新的音色包当然也可以利用此操作减少音色爆音的几率比如 A音色音色好但容易爆音 B音色不太好但胜在稳定就可以用高权重的A模型融合低权重的B模型融合出来的音色就能拥有两个的优点但权重比例得自行调整达到一个比较好的平衡基于融合后的音色就可以做出不一样的音源素材。步骤如下

启动模型切换到 ckpt 部分
ckpt界面

界面参数说明

A、B模型路径 A、B模型文件路径就是需要进行融合的两个音色模型的 pth 文件路径A 模型权重融合哪个音源特征更多的数值化表达也就是融合结果音色更像哪个音色保存的模型名称此次融合结果音色的名称

其他参数自行调整简单地调整以上数据就能实现音色融合

点击融合输出结果为 success 即可。音色包会在 weight 出现并且不会有对应的 index 和 npy 文件生成但可用高权重的音色模型训练出来的结果文件。
音色融合
这我们就能实现案例五的效果了你可以使用融合后的音色继续“炼丹” 直到满意为止。

入梦工具实现男女伪音实时无技巧转化

男女伪音也就是男女声音实时互换的操作实现类似于变声器的效果部分游戏、陪玩也有在使用。步骤如下

启动模型和入梦工具双击 RVC-beta_5\RVC-beta\go-realtime-gui.bat 和 RVC\RVC入梦小工具\RVC入梦小工具.exe
GUI 界面如下
模型GUI界面

模型运行命令行界面如下
模型命令行
入梦工具界面如下

安装入梦工具驱动点击入梦工具虚拟 MME 一直下一步即可安装驱动
驱动安装

点击系统音频配置扬声器和麦克风

录制设备配置成入梦工具为默认使用设备
配置录制设备

播放设备不用修改使用电脑默认设置就行需要修改入梦扬声器的属性配置中的采样频率和位深度与电脑默认设置的设备对应属性一致再更改入梦麦克风的侦听属性为侦听此设备即可。不过建议为耳机类型的扬声器公放类型会被录制设备读取产生回音出现杂音。
修改属性一
默认设备属性

修改属性二
修改属性三

配置模型音频输入输出设备输入设备设置为电脑默认麦克风即可输出设备设置为入梦扬声器实际播放声音为电脑默认音频输出设备如下
音频输入输出设备设置

模型 GUI 界面加载模型参数说明

载入 Hubert 模型不会默认读取模型需要自行载入双击按钮打开文件夹选中 RVC-beta_5\RVC-beta\hubert_base.pt 即可。选择 pth 文件双击按钮打开文件夹自行选中音色包内的 pth 文件即可选择 index 文件双击按钮打开文件夹自行选中对应音色包内的 index 文件即可选择 npy 文件双击按钮打开文件夹自行选中对应音色包内的 npy 文件即可

模型 GUI 界面常规设置及其性能设置参数说明

响应阈值麦克风读取响应速度自行调整不爆音即可数据越低实时延迟越小音调设置男女音调差距较大男转女推荐 12key, 女转男推荐-12key, 如果音域爆炸导致音色失真也可以自己调整到合适音域。index rate 0.3 到 0.5即可特征提取相关参数采样长度推理时间采样长度自行调整不含过多电子音即可数值越低延迟越低建议为 1 即可淡入淡入长度保持默认即可除非有一些奇怪的尾音额外推理长度推理长度高一点声音可能会好一些但延迟高自行调整输入输出降噪如果录音环境存在一定噪声可勾选

选择完其他设置点击开始转化即可实现实时转换音色的效果注意推理时间正常变化才是正常运行。

如果需要切换音色的话就必须停止音频转换再重新修改加载模型部分的参数。

如果是游戏使用、录制时使用就必须把对应软件的麦克风设置为入梦麦克风注意检查一下

本章节解决了案例三的男女伪音转换效果这也将引起我们的警觉。

总结一下

AI 语音技术的进步已经带来了许多令人兴奋的结果而 RVC 则是其中的一个重要发展方向。RVC 可以让使用者将一个人的声音样本複制并转移到另一个人身上并可实现即时语音转换。以下是 RVC 可能带来的一些结果

更自然的语音转换 RVC 技术可以让语音转换更加自然、逼真。这种技术可以学习一个人的语音特徵包括音调、节奏和语速等并将这些特徵应用到其他人的语音中使其听起来更加自然。音频和影片后期制作 RVC 技术还可以用于音频和影片后期制作。例如在电影和电视剧中演员的声音可能需要进行修剪或处理 RVC 技术可以帮助制作人员快速、高效地完成这些任务。音乐创作 RVC 技术可以用于音乐创作例如合成电子音乐或增强现有音乐。使用这种技术音乐家可以从其他艺术家的声音中获得灵感并将其应用到自己的创作中。

虽然这技术对于娱乐、语音合成等方面有著极大的应用价值。然而这种技术也引发了许多道德等问题例如滥用、欺骗、侵犯隐私等问题需要你我共同关注使用该技术时也要特别注意这些问题请小心别踩线。

引导关注

【AI 孙燕姿 | AI 音色克隆】RVC 使用图文教程:无难度男女换声（伪音）、 AI 孙燕姿
根据本文，可以很简单实现：音乐干声分离：背景音（BGM）与人声（干声）的分离；训练个人音色模型：作为模仿其他干声素材的音色数据；男女换声（伪音）：基于异性干声素材，进行实时转化声音为异性声音；AI 唱歌：仅作基础的模拟演唱，仍需进行调音等等操作，才可以达到完美；音色融合：不同音色的特征融合出一个全新的音色复制链接
您可以按照以下步骤在Linux上安装RVC（Ruby vSphere Console）：1. 首先，确保您的系统已安装Ruby和Ruby Gems。您可以通过在终端运行以下命令来检查它们的版本： ``` ruby -v gem -v ```2. 接下来，安装RVC的依赖项。在终端中运行以下命令： ``` gem install rvc ```3. 安装完成后，您可以使用以下命令启动RVC： ``` rvc ```4. 您将会看到一个RVC提示符。输入vCenter主机的连接信息，例如： ``` rvc user @ vcenter-hostname or vcenter-ip ``` 其中，` user `是您的vCenter用户名，` vcenter-hostname `是vCenter主机的主机名，` vcenter-ip `是vCenter主机的IP地址。5. 输入密码以完成连接。安装完成后，您就可以在RVC中执行各种vSphere操作和监控。您可以参考引用中提供的链接，了解更多关于如何使用RVC监控vSAN的信息。 span >
建议收藏，最全ChatGPT 中文调教指南：提供各个领域的角色提示词（prompts）及使用技巧，当然也有不正经指南

15239
【AI 孙燕姿 | AI 音色克隆】RVC 使用图文教程:无难度男女换声（伪音）、 AI 孙燕姿

10390
【AI 孙燕姿 | AI 音色克隆】RVC 使用图文教程:无难度男女换声（伪音）、 AI 孙燕姿 2301_76929027: 请问RVC出现这种问题该怎么办Error creating song: Can t get source for function fused_add_tanh_sigmoid_multiply at 0x00000272B83605E0 . TorchScript requires source access in order to carry out compilation, make sure original .py files are available.

Spring Controller 基本认识及应用 SpringBoot代码生成: 免费：用户输入数据库表信息（即ER图，包括任意多个一对一、一对多、多对多关系），即可： 1. 生成后端标准SpringBoot Controller（控制器）源代码，包括增删改查、分页、排序以及Blob支持，并且覆盖所有库表以及关系结构。用户解压后即可运行程序。 2. 生成前端完整的Vue（或Angular）增删改查源代码，可以调用上述后端接口。用户解压后即可调用。 3. 同时生成前端、后端单元测试并能100%通过。官网（spring-mybatis.top）。

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

更多文章请关注《万象专栏》

转载请注明出处：https://www.wanxiangsucai.com/read/cv182609

话题推荐： #AI# #孙燕#

打赏
0 赞
收藏
评论
举报

下一篇：人工智能技术及其赋能的含义解析

模板

HTML模板

织梦模板

帝国模板

discuz模板

PHPWind

Wordpress

源码

CMS源码

PHP源码

ASP源码

GO源码

python源码

整站源码

特效代码

幻灯片代码

菜单导航

客服代码

素材

图标

元素

背景

ppt

字体

动图

模板

模板

海报

插画

UI

网页

淘宝

图库

高清壁纸

手机壁纸

万象图床

【AI 孙燕姿

【AI 孙燕姿

相关文章