Vision Transformer从头训练

我们现在在尝试不依靠pretained模型，从头开始在ImageNet上训练Vision Transformer。我们的目标是用一台GPU训练，尽可能接近原论文的结果。已经尝试了gradient accumulation的办法，将train batch从4096改为64*64，效果并不理想，请问有没有其它在不改变网络结构的前提下，能够有效提升ViT在ImageNet上训练效果的方法呢？

您可以尝试使用更大的批量大小，优化网络参数（例如学习率），使用更多的epoch训练，以及调整超参数和类别权重，以优化网络参数。此外，你还可以使用更多的数据增强和数据采样技术，以提高模型的准确性。

关于该问题，我找了一篇非常好的博客，你可以看看是否有帮助，链接：Vision Transformer 阅读笔记