本人初学机器学习,有一个问题始终想不明白,请各位指点。
分类是一种有监督的机器学习方法,有监督就意味着数据是带有标签的。既然数据是有标签的,为什么不直接通过标签去判断数据类别?反而非经周折训练一个分类器去预测类标签?
特别是在数据流挖掘中,有监督情况下,训练一个分类器,然后对不断到达的数据进行分类预测,再把分类器预测的标签和真实标签做对比,进而调整分类器,提高分类器的精度。
所以我一直想不明白,在所有数据标签完全已知的情况下,为什么还要通过特征预测标签。
训练数据集里的数据当然是有标签的,但是需要预测的数据它的标签类型是不确定的,就需要你去预测它的类型,所以需要训练数据集,通过比对预测结果和真实的结果来不断优化模型。