文本多分类,有什么模型可以推荐一下吗

数据集,其实就是coco数据集的节选:

img

第一行,文本包含了woman,所以是1类。像后面的man, boy, girl都是1类。1类就是people类。
第二行,包含了men,所以有1类;horse,所以是19类。19类就是horse类。
以此类推

有什么好的模型可以推荐一下吗。我尝试过BertForSequenceClassification,用huggingface的提供的transformers预训练模型,num_classes=19。并且这个模型太大了,有400多MB,要求模型要在100MB以内。

你只是要找出文字属于哪个集合,需要什么模型,连人工智能都不需要
直接遍历一下文字属于哪个集合就完了
这种规则非常明确的任务,循环是最快的办法
人工智能适合规则明确但异常复杂,或者人类也根本没掌握具体的规则的情况下才适用
比如让人工智能下棋,棋类游戏规则明确,但每个局面想要硬编码几乎是不可能的;
而人脸识别什么的,更是人自己都没能力抽象出到底有多少个细节

文本分类可以试一试朴素贝叶斯

你这个是多标签分类(一个句子有多个类型),网上案例很多,比如:https://github.com/hellonlp/classifier_multi_label_textcnn