Vision Transformer从头训练

我们现在在尝试不依靠pretained模型,从头开始在ImageNet上训练Vision Transformer。我们的目标是用一台GPU训练,尽可能接近原论文的结果。已经尝试了gradient accumulation的办法,将train batch从4096改为64*64,效果并不理想,请问有没有其它在不改变网络结构的前提下,能够有效提升ViT在ImageNet上训练效果的方法呢?

您可以尝试使用更大的批量大小,优化网络参数(例如学习率),使用更多的epoch训练,以及调整超参数和类别权重,以优化网络参数。此外,你还可以使用更多的数据增强和数据采样技术,以提高模型的准确性。