so-vits-svc4声音推理后,原音频人声与训练的人声重合,什么原因?如何生成纯粹的目标人声?

我在云服务器上用so-vits-svc4训练了一个声音模型,一般一万步时就差不多了,我想效果更好一些,训练集准备了合计三个半小时左右的目标人声,并且训练了将近五万步,这时我的模型效果应该非常好了,但是我在进行声音推理时,生成的音频听起来是两个人同时说话,声音大的是我拿来推理的音频人声,还有一个声音小的是我模型训练出来的目标人声。

我现在想到的可能原因是:
1、训练集中的三个半小时虽然人声单独分离出来了,但是因为数量庞大,有一部分时间中含有除了目标以外的人声。
2、推理用的音频人声是男声,模型训练出来的是女声。
3、训练时间太久,以至于训练效果太好,将训练集中的目标以外人声中的男声也加强训练到了。

我的训练操作过程应该是没问题,推理操作过程也应该是没问题的。

请问有知道这是什么原因得吗?有没有解决办法?

可能有几个原因导致推理时生成的音频中同时包含了两个人说话的声音:

  1. 训练集中含有除目标人声以外的其他人声:即使训练集中的人声已经被单独分离出来,但如果其中还包含其他人的声音,模型可能会学习到这些额外的声音特征,并在推理时将其加入到生成的音频中。为了解决这个问题,您可以尝试使用更纯净、只包含目标人声的训练集。

  2. 推理用的音频与模型训练出来的目标人声不匹配:如果推理时使用了与模型训练时不同性别或不同类型(如儿童、老年人等)的音频作为输入,模型可能无法正确处理这种情况。确保在推理时使用与模型训练时相似类型和性别的音频可以改善结果。

  3. 过度拟合:如果模型在训练过程中过度拟合了训练集,即过于适应了训练数据中特定样本或特征,可能会导致在推理时生成不符合预期的结果。为了解决这个问题,您可以尝试增加正则化技术(如dropout)或减少训练步数。

解决办法可能包括:

  • 重新准备一个更纯净、只包含目标人声的训练集。
  • 确保在推理时使用与模型训练时相似类型和性别的音频作为输入。
  • 调整模型架构和超参数,以避免过度拟合。
  • 尝试使用其他方法或技术来提高分离效果,例如引入语义信息或利用深度学习中其他相关领域(如语音增强、语音识别等)的技术。

有人吗

训练时间过长也可能导致模型对训练数据中的其他声音进行了过拟合,从而在推理时生成了不正确的声音。
增加训练集大小:如果可能的话,尝试增加训练数据的数量和多样性,这有助于模型更好地学习目标人声的特征,减少对其他声音的过拟合。
调整模型参数:尝试调整模型的超参数,如学习率、批量大小、训练轮次等,以优化模型的性能