文本多分类，有什么模型可以推荐一下吗

数据集，其实就是coco数据集的节选：

第一行，文本包含了woman，所以是1类。像后面的man, boy, girl都是1类。1类就是people类。
第二行，包含了men，所以有1类；horse，所以是19类。19类就是horse类。
以此类推

有什么好的模型可以推荐一下吗。我尝试过BertForSequenceClassification，用huggingface的提供的transformers预训练模型，num_classes=19。并且这个模型太大了，有400多MB，要求模型要在100MB以内。

你只是要找出文字属于哪个集合，需要什么模型，连人工智能都不需要
直接遍历一下文字属于哪个集合就完了
这种规则非常明确的任务，循环是最快的办法
人工智能适合规则明确但异常复杂，或者人类也根本没掌握具体的规则的情况下才适用
比如让人工智能下棋，棋类游戏规则明确，但每个局面想要硬编码几乎是不可能的；
而人脸识别什么的，更是人自己都没能力抽象出到底有多少个细节

文本分类可以试一试朴素贝叶斯

你这个是多标签分类（一个句子有多个类型），网上案例很多，比如：https://github.com/hellonlp/classifier_multi_label_textcnn