想问下一份数据集,训练集和测试集标准化和做pca这两种情况下需要分开处理还是同时处理?
如果pca同时处理的话,测试集不就消失了吗?
求详细一点的讲解
一般来说训练集验证集和验证集和测试集标准化啥的都是需要的吧,训练集除了一些特殊的数据增强和其他两个不一样,验证集和测试集更注重于实际应用,只会做一滤波处理,大小变换之类的,不会有数据增强的东西在里面的。当然,归一化或者标准化啥的那是要一致的,不一致的话会导致结果的偏差
另外,你如果只有训练集和测试集,那么你的测试集就相当于验证集了。
理论上是需要同时处理的,题主这里的PCA相当于预处理,PCA的原理是它旨在寻找一个高维空间到低维空间的映射矩阵或映射关系,即不是原来特征的提取,而是对特征的一种线性组合,所以会改变结构。如果是非结构化数据,图像或者文字,在PCA / LDA或者逆文档后,向量已经改变了,而结构化数据,那改变的就是特征。以结构化数据为例,比如说贷款违约的自变量有30个,对训练集进行PCA,发现前20个特征的贡献度已经达到90%,那20个特征的模型理论上可以验证测试集30特征的,但实际不会这么做,很容易出现问题。
您好,我是有问必答小助手,您的问题已经有小伙伴帮您解答,感谢您对有问必答的支持与关注!