GAN预训练模型的问题

img

在服务器上跑transgan,打算用论文里的生成器是transformer,判别器是autogan的模型,但是一直达不到论文里的指标,于是在github上问了作者。按照作者的意思是先训练autogan,然后用它的预训练模型,再把生成器换成transformer,但是这两个模型权重传播不一样,肯定不能简单地换,实验了也确实如此。现在作者一直没回复我,用transgan和autogan原来超参这两个模型都是收敛的,但是结合在一起就不收敛了。现在就是不知道作者的回复到底是啥意思?

楼主在用判别器为autogan的时候加载了预训练模型吗?加载完预训练模型,有没有让训练时判别器autogan部分不训练,只反向传播生成器transformer部分的loss?无论gan怎么变,都逃不出KL散度,如果判别器已经well train了,那么实际上完全可以控制判别器不进行训练,只收敛生成器的损失就好,说白了就是让还没怎么训练的transformer拟合autogan搜索出来的判别器模型的分布。

这个你只能是继续问作者了,别人不清楚论文的前因没办法回答你