风格迁移中,利用CNN和Transformer网络处理图像,图像经过CNN(encoder)处理后传输到Transformer,处理后再经过decoder输出。数据在卷积和Transformer之间是怎么变换的?