想用swin transformer作为视频任务的backbone,但是swin transformer似乎受输入图像尺寸的限制,那么我训练的时候使用的img_size为384,测试的时候也只能为这个大小了。
预训练的swin transformer模型遇到一个新的图像大小会出现不适配的情况
swin transformer作为backbone后如何解决不同图像大小输入的问题,难道只要crop或者resize这个办法吗?