CLIP TEXT ENCODER有12层,768个维度。

大语言模型的文体编码器,有不同的维度,我想知道具体有哪些维度。我想知道具体有哪些维度?有哪些层?

【相关推荐】



  • 这篇博客: 吊打 CLIP 平均10个点,Meta 多模态通用模型 FLAVA真香啊中的 文本编码器(Text Encoder) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

    FLAVA在文本部分多处理就相对简单,作者采取常见的Masked Language Modeling,对一部分masked token进行预测,和其他方法对区别在于,FLAVA没有采用BERT之类纯文本语言模型的结构,而是和图片编码器一样,使用了ViT的结构,不过因为是不同的模态,自然采用了不同的模型参数。


如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^