相关调研

在线工具

  • (要钱)Covers.AICovers.AI 提供了一个简单的流程,选择歌曲和AI声音模型后即可生成翻唱,适合没有技术背景的用户。
  • (麻烦,开规则不让用,开全局又卡)TopMediai AITopMediai AI Song Cover 允许用户从7000多个AI模型中选择,上传歌曲或YouTube链接后生成高质量翻唱,支持合唱和二重唱。
  • (普通用户每天3次,而且不稳定)Musicfy AIMusicfy AI 提供使用版权免费声音和自定义AI模型的功能,适合音乐家和内容创作者探索独特的声音风格。
  • (巨难下载)ReplayReplay

开源项目

操作技术栈

找原始训练素材音频

下载视频(bilidown)

拿主播XDD为例,一般只能拿到直播时候的视频,这里我推荐从b站下载别人的录播,比较方便。这里我推荐使用bilidown下载,可以单独保存音频。
图片

截取音频的人声(剪映/AU)

因为我们只需要获得想要训练的人物的人声即可,所以我选择使用剪映,将需要的人声都剪出来。
一般来说4/5min人声即可,但是如果想要得到更好的效果,可以选择10min以上。
图片

uvr5处理歌曲/训练集

uvr5简介以及简单操作指南

图片

uvr5进阶指南

⭐什么模型适合我(重点)⭐
(知乎大佬总结的)
图片

  • 不管什么类型的音轨分离人声,我的建议首选Kim Vocal 1或者2,分离得不好再按照图中所示。
  • 并不是分离得越多越好,当你认为现在的音轨符合你要求,就可以结束了。分离得越多,失真机率跟着上升
  • VR UVR-DeNoise不仅有降噪,还可以识别较重的呼吸声(一些特殊音效识别可以自己上手测试)。
  • 提取音乐中的副歌人声:点击【扳手图标】→Additional Settings→Vocal Splitter Options→按图中所示选择→再次分离音轨后,此时带vocal名称的便是副歌
    进阶版(乐器类):
  • VR:序号17 Wind_inst是指提取音轨中的木管部分(不是风声!),现阶段AI还未完全学透,所以过于复杂的音轨分离需要降低期待值
  • MDX:里面有3个MDX23C模型,是团队最近培训的AI模型,融合了Github很多人的意见,属于AI中计算力最厉害的一批,但电脑如果没有GPU的话分离的时间会很漫长。如果会科学上网的话,建议来Google Colab,速度快很多。参数设置:bigShifts:11;overlap_instvoc:8;overlap_vitlarge:8;要点voc_ft checked,虽然会花时间,但分离出来的音轨会更好;weight_vocft to 1;其他设置默认
  • Demucs:最新版5.6出了v4 | htdemucs_6s,多了吉他和钢琴音轨,还不错
  • Demucs:如果是复制了我的model文件夹,会多出一个drumsep,这是外网的一位老哥自己训练的AI模型,他在讨论区分享出来,主要用于架子鼓声的分离。因为主创团队还未为其写stems,所以显示仍然只有vocal,other,bass,drum。vocal:嗵鼓; other:吊镲&踩镲; bass:小鼓;drum:低音大鼓/底鼓
  • Ensemble Mode(合奏模式)通过选择ensemble algorithm中的Spec,来调节CPU/GPU处理速度和产出质量,Max质量好速度慢,Min速度快质量良。比如只提取乐器就Vocals/Instrumental 选Min/Max,如果不知道怎么选就两个average

UVR5 不同处理方法的模型推荐

MDX-Net 模型推荐

  • (通常只选择一次这个模型)MDX23C-InstVoc HQ: 提供极高质量的人声/伴奏分离,适合大多数商业音乐。
  • UVR-MDX-NET-Inst_Main: 专为提取纯伴奏优化,对于流行音乐效果尤佳。
  • UVR-MDX-NET-Voc_Main: 专为提取人声优化,能有效保留人声细节。
  • MDX-B: 平衡型模型,处理速度较快且音质不错,适合初次尝试。
  • Kim_Vocal_1: 针对亚洲流行音乐优化,对于中/日/韩语歌曲效果出色。

VR Architecture 模型推荐

  • 6_HP-Karaoke-UVR: 有效去除人声中的和声。
  • VR-DeEchoDeReverb: 能有效去除人声中的回声和混响,适合处理现场录音。
  • 3Band-HighEnd: 对高频分离效果出色,适合处理含有高音乐器的音乐。
  • 5-UVR: 全频段分离效果均衡,是VR架构下的通用选择。

Demucs 模型推荐

  • Demucs_HT: 四轨分离效果出色,可同时分离人声、鼓、贝斯和其他乐器。
  • Demucs_6S: 六轨分离模型,增加了吉他和钢琴轨道,适合更复杂的音乐分解。
  • Demucs_2S: 双轨(人声/伴奏)分离的轻量级模型,处理速度快,适合简单分离任务。
  • UVR_Demucs_Model_1: 针对UVR优化的Demucs模型,平衡了速度和质量。

Ensemble Mode 模型组合推荐

  • MDX-Net + VR: 结合MDX-Net的音色保真度和VR的细节处理能力,适合要求极高的专业分离。
  • Demucs + MDX-Net: 利用Demucs的多轨分离和MDX-Net的人声分离优势,适合制作多轨混音项目。
  • 多个MDX-Net变体: 使用不同参数训练的MDX-Net模型组合,能在不同频段达到最佳效果。

Audio Tools 模型/工具推荐

  • Noise Reduction: 有效降低背景噪音,适合清理录音或旧音频文件。
  • Pitch Shifter: 提供高质量的音高调整,适合创作变调效果。
  • Time Stretcher: 在保持音高的情况下改变速度,适合节奏调整。
  • Normalization Tool: 标准化音频电平,使多个音频片段保持一致的响度。
    每种处理方法都有其特定的应用场景,建议根据您的具体需求选择合适的模型,并通过小样本测试找到最适合您音频材料的选项。

参考教程

音频切分(slicer)

slicer简单使用指南

图片
参数说明(来源官网),图中的参数值均为默认值

  • Threshold(阈值):以 dB(分贝)表示的 RMS 阈值。所有 RMS 值都低于此阈值的区域将被视为静音。如果音频有噪音,增加此值。
  • Minimum Length(最小长度):以默认值 5000(毫秒为单位)为例,简单来说就是切割后的每个音频片段都不少于 5 秒。
  • Minimum Interval(最小间距):以默认值 300(毫秒为单位)为例,简单来说就是少于 0.3 秒的静音不会被切割丢掉,超过 0.3 秒的静音部分才丢掉。如果音频仅包含短暂的中断,请将此值设置得更小。此值越小,此应用程序可能生成的切片音频剪辑就越多。请注意,此值必须小于 minimum length 且大于 hop size。
  • Hop Size(跳跃步长):每个 RMS 帧的长度(说白了就是精度),以毫秒为单位。增加此值将提高切片的精度,但会降低处理速度。默认值为 10。
  • Maximum Silence Length(最大静音长度):在切片音频周围保持的最大静音长度,以毫秒为单位。根据需要调整此值。请注意,设置此值并不意味着切片音频中的静音部分具有完全给定的长度。如上所述,该算法将搜索要切片的最佳位置。默认值为 1000。

参考教程

训练模型(RVC)

  1. 找4-5min的训练素材
  2. uvr5处理的到pure人声
  3. 音频切分(slicer)
    图片

参考教程

  1. https://v.douyin.com/i5kVUyY1/
  2. https://v.douyin.com/i5kVF8VB/
  3. https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI