请问用K-mean算法求取锚框时,数据集是用整个数据集(训练、验证和检测)还是用训练集和验证集一起?

因为数据集使用时,一般要分为训练集、验证集和测试集。个人认为使用K-mean算法时,数据集越大越精确。如果是同一个数据集,训练集、验证集和测试集的比例关系发生了变化,尤其是测试集占比发生较大变化,是不是应该重新用K-mean求取锚框?

训练的时候就只用训练集和验证集,验证集是不参与梯度下降过程,只用于监测loss,调整超参
测试集更不可以用于训练,否则测试集最后都会被拟合进去参数,导致评价不准

一般来说只要训练和验证集就可以了。数据越多的确越好,但是你还得防止过拟合。