CLIP TEXT ENCODER有12层，768个维度。

大语言模型的文体编码器，有不同的维度，我想知道具体有哪些维度。我想知道具体有哪些维度？有哪些层？

【相关推荐】

这篇博客: 吊打 CLIP 平均10个点，Meta 多模态通用模型 FLAVA真香啊中的 文本编码器(Text Encoder) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
FLAVA在文本部分多处理就相对简单，作者采取常见的Masked Language Modeling，对一部分masked token进行预测，和其他方法对区别在于，FLAVA没有采用BERT之类纯文本语言模型的结构，而是和图片编码器一样，使用了ViT的结构，不过因为是不同的模态，自然采用了不同的模型参数。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^