数据归一化对相关系数r方的影响

发现一个非常奇怪的问题,因为跑模型的时候同时用到了自定义的r方函数,和sklearn里的r2 score,按理来说这两个的计算值应该差不多,但是发现当没有进行数据归一化或者只归一化了输入,这两个方法计算的r2有很大差别,想了一天也不明白为什么

img

看看是不是有数据样本不均衡的问题。

参考GPT和自己的思路:

首先,数据归一化可以使得数据的单位一致,对于使用距离来度量相似度的算法(如KNN)有明显的效果提高,但是对于其他算法来说可能并不是必须的。其次,对于相关系数r方的计算,数据归一化并不会改变它的数学定义和计算公式,因此两个计算方法的结果应该是一致的。

可能的原因有以下几点:

  1. 数据归一化的处理方式不同,比如使用了不同的标准化方法、数据划分的方式等等,导致计算结果不同。建议对两种处理方式进行比较,看看是否存在差异。

  2. 数据归一化对模型的训练产生了影响,比如数据取值范围发生了改变,导致模型的输出结果有所不同。建议比较归一化前后模型的评估指标,看是否发生了明显的变化。

  3. 可能存在一定程度的数值误差,导致计算结果不同。可以尝试使用更高精度的浮点数运算库,或者重新检查计算过程中的数据输入和输出,看看是否存在误差。

希望以上信息可以帮助您找到解决问题的方向。