关于开源项目Wav2Lip唇音同步预训练模型的问题

GitTub开源项目Wav2Lip,作者提供的预训练模型泛化能力很差，测试合成效果与作者提供的ＭＯＤE差距很大，研究了很久发现应该是与作者的预训练模型素材有关。
本人白，是否可以自建一个预训练模型，针对特定的人物素材进行预训练，实现对特定人物视频实时合成？
工作难度和所需时间成本大吗？有愿代劳的童鞋吗，重酬厚报-😄

你自己有迁移学习的数据集吗？就是你的特定人物的标注数据，标注格式和Wav2Lip用的数据集格式一致吗？没有数据集的话基本上没人做。

另外这几个模型你都试了吗？下面的参数调整呢？