清华大学Difftalk复现问题

有人成功复现清华大学的这篇paper吗：DiffTalk: Crafting Diffusion Models for Generalized Talking Head Synthesis
作者给了完整的训练代码，但是没有给任何数据的预处理程序，我按照作者论文中的要求进行音频和图片特征的预处理，但是训练出来的结果嘴部是一直抖动的，然后我怀疑是音频特征的问题，又去作者的主页找到了另一篇预处理程序一致的论文，参考它进行音频特征的提取，但是结果依旧不好，有成功复现的朋友们可以交流交流吗

你把文件发给我给你处理一下