比如我要对一个模型训练100轮,在第50轮的时候,模型的准确率已经达到90%,之后50轮的训练如果减少数据集的数量,模型的准确率会下降吗?
感谢专家们的解答!
我觉得有可能会,局部最优。
肯定会,模型每一轮的学习都会更新参数,减少数据集相当于改变了特征分布,对后续的训练肯定不会有正面影响。比如,你前50轮的测试已经很好,但是由于你后续的数据量太少,可能会导致模型学习的不够充分,出现过拟合现象,甚至loss mean上升都有可能。不过具体还要实验一下,我还没接触这么做过的。
可能会,如果你减少的训练集数据中特征没有和测试集有交叉,正确率应该是不变的,如果有交叉估计会减少
不一定会的,可能模型准确率到后面可能在其中几轮中会出现波动,可能从97.56到97.77然后又变回 97.56,也可能一直升到最后100。
邀请了,我就说一下吧。这个跟你保留的 50% 和原数据集是不是同分布 以及 你50轮是否已经收敛有关。 同分布你减少的话就只是相当于减少一半batch 而已
会影响的,建议在算力允许的情况下尽可能调大batch size,这样或许能弥补减少数据集所带来的影响。但是一般是不建议减少数据集的,除非你的数据集里面有脏数据,脏数据会干扰训练的结果。