比如多标签分类,识别图像中的动物:猫、狗、兔子、老虎等等
而我的训练集中的大部分图像只包含了一种动物,有少数图像包含了多种动物,
那我用这个数据集做多标签分类是否可行?
1、训练集中大部分图像只包含一种动物,只要整个训练集能较好的覆盖所要分类的动物种类,就可以进行分类。
如果大部分图像都是某一种动物——猫,而其它种类动物的样本都很少,则训练效果不好。
如果虽然每张图片中包含一种动物,但各种动物,猫,狗,兔子 的样本数量都不少,那就没问题。
2、少数图像包含了多种动物,有几种处理方式:
(1)把包含多种动物的图片设为单独一类,进行学习和分类;这样的学习效果最好。
(2)把包含多种动物的图片,裁剪后作为单独样本,分别标识为对应的动物分类。这样的分类效果最好,但如果遇到多种动物的图片还是会识别错误。
多标签分类任务指的是一条数据可能有一个或者多个标签,因此你的数据集应该是可行的。
遇到题主这种情况,是可以直接进行多标签分类的。但若追求高精度,可以对数据集进行一定的预处理:
1.若包含多种动物的图像对应的标签只有一个,可根据对应label对图像进行裁剪,裁去无关冗余背景;
2.也可能同一张包含猫狗兔子的image,数据集中重复出现三次,且三张images的label都不同,则可根据分别的label进行裁剪;
3.若仅极少数图像包含多种动物,可直接剔除这一部分数据