对于一个有1.7w张图片的数据集,训练集和测试集的比例设置多少比较好?单纯的增加训练集的比例能否提高最后的精度,比如将训练集比例提高到0.9,会有什么结果?
单纯的增加训练集 理论上因为泛化性更强了,更多情况下测试结果会有提高,实际场景中一般8:2 、 9:1都有的,这种一般都可以 自己调控的 训练时候可以都运行下,还有交叉验证啥的 只有去跑模型对比才知道
比较常见的比例是 ,train:val:test = 8:1:1
你的数据集总数为 1.7w 张,如果这个是固定的,只改变 train,val,test 的图片数量,并不能真正的提高模型的精度
对于数据这块儿的研究,推荐你看下这篇论文: Big Transfer (BiT): General Visual Representation Learning