大语言模型的文体编码器,有不同的维度,我想知道具体有哪些维度。我想知道具体有哪些维度?有哪些层?
【相关推荐】
FLAVA在文本部分多处理就相对简单,作者采取常见的Masked Language Modeling,对一部分masked token进行预测,和其他方法对区别在于,FLAVA没有采用BERT之类纯文本语言模型的结构,而是和图片编码器一样,使用了ViT的结构,不过因为是不同的模态,自然采用了不同的模型参数。