目前的数据集分布如下,我想要进行长尾数据的图片识别。
现有的方法都是用的公开数据集,其中训练集不平衡,测试集是平衡的。
但是我自己的数据应该怎么划分才能比较合理呢?我想要一个平衡的测试集,但是最少的类只有11张图,难道测试集每个类都只取低于11张图吗?感觉不合理,但是取多了有些类的数量没法满足。求一个合适的方案,谢谢!
另外我发现一些论文中使用的iNaturalist18_val是每个类只有3张图,不过它有8142个类,我只有12个类,那我的数据划分测试集时也可以这么少吗?
不平衡训练集可以扩充
不知道你这个问题是否已经解决, 如果还没有解决的话: