在写毕业论文的时候,阅读文献发现transformer的一系列视觉任务上超越了传统的cnn网络。于是便想将swin transformer作为主干网络,但是自己的数据集不是很大感觉不能发挥其全局建模的优势,如果只是比较小数据集的话shift ViT的也证明的自主意好像作用不大,用shift的操作就可以替换甚至有更好的效果。于是呢我便想将swin V2的掩码自监督引入。缓解这个数据集较小的问题。但是仔细思考之后感觉单纯的套用可能不一定能够超越传统模型不知道大家有没有做过对比能不能提一点意见。当然作为初学者我的提问可能存在一定不足,请见谅。
提供一篇实例【基于SwinTransformer的目标检测训练模型学习总结】,以期望对你有所帮助:https://www.bbsmax.com/A/kjdwEVbwJN/