清华大学Difftalk复现问题

有人成功复现清华大学的这篇paper吗:DiffTalk: Crafting Diffusion Models for Generalized Talking Head Synthesis
作者给了完整的训练代码,但是没有给任何数据的预处理程序,我按照作者论文中的要求进行音频和图片特征的预处理,但是训练出来的结果嘴部是一直抖动的,然后我怀疑是音频特征的问题,又去作者的主页找到了另一篇预处理程序一致的论文,参考它进行音频特征的提取,但是结果依旧不好,有成功复现的朋友们可以交流交流吗

你把文件发给我给你处理一下