回答:1、验证集和测试集不需要扩充,数据扩充指针对训练集。
2、比例指的是对原始数据划分的比例,不考虑增强后的。
3、首先要明白做数据增强的意义,是为了利用现有训练集的数据,通过增强变换获得更丰富的信息,从而在测试集(验证机)上获得更好的泛化能力;
4、如果先做增强再进行数据集的划分,那么会出现信息泄露的问题,导致同一张图片增强后的多张图片分别出现在训练集和测试集(验证集),那么由于在训练集里见过相似度很高的图片,测试(验证)的准确率就会很高,这时的测试准确率结果是不可靠的。
这个没有绝对标准,因为验证集不参与权重更新,所以它不需要太多,也不需要对它进行增强。验证集,通常可以是整个数据集的十分之一,如果数据量很大,这个比例也可以更小。你按照7:3的比例划分也没有问题。