视频特征(主要)和文本特征怎么做融合,除了简单拼接还有什么更好的办法,关于这方面有没有什么效果好的文献。
https://www.bilibili.com/video/BV1Vd4y1v77v/?spm_id_from=333.999.0.0&vd_source=145b0308ef7fee4449f12e1adb7b9de2可以看看这个多模态串讲的视频希望能帮到你。