因为数据集使用时,一般要分为训练集、验证集和测试集。个人认为使用K-mean算法时,数据集越大越精确。如果是同一个数据集,训练集、验证集和测试集的比例关系发生了变化,尤其是测试集占比发生较大变化,是不是应该重新用K-mean求取锚框?
训练的时候就只用训练集和验证集,验证集是不参与梯度下降过程,只用于监测loss,调整超参测试集更不可以用于训练,否则测试集最后都会被拟合进去参数,导致评价不准
一般来说只要训练和验证集就可以了。数据越多的确越好,但是你还得防止过拟合。