swin transformer作为backbone

想用swin transformer作为视频任务的backbone，但是swin transformer似乎受输入图像尺寸的限制，那么我训练的时候使用的img_size为384，测试的时候也只能为这个大小了。

预训练的swin transformer模型遇到一个新的图像大小会出现不适配的情况

swin transformer作为backbone后如何解决不同图像大小输入的问题，难道只要crop或者resize这个办法吗？