皮尔逊相关系数达到0.88,但是RMSE超过1,怎么办?

训练了个深度神经网络模型,训练数据有八万多个,测试数据有七千多个,预测的结果和真实结果之间的皮尔逊相关系数达到0.88,但是RMSE却大于1,这种情况怎么办?说明什么?

可能的原因:

  1. 数据集具有高峰值或离群值,这会导致RMSE的较大值。
  2. 模型预测与真实值之间存在非线性关系,而RMSE在非线性数据集上表现不佳。
  3. 样本总体有偏差,例如验证数据没有覆盖足够多的样本。
    可以使用其他指标(如 MAE 或 MAPE)作为补充,以更全面地评估模型的性能。也可以进一步分析数据集的特征并尝试消除离群值或处理非线性关系。
  • 你可以参考下这篇文章:算法效果评估:均方根误差(RMSE)/ 标准误差
  • 除此之外, 这篇博客: 回归模型几个度量参数概念比较中的 RMSE(均方根误差) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
  • 均方误差的平方根。RMSE越小,模型拟合程度越好。

    RMSE = √Σ(y^i–yi)2/n‾\overline{Σ(ŷ_i – y_i)^2 / n }Σ(y^iyi)2/n

    • Σ 求和符号
    • n 样本大小
    • ŷi 为第i个观测记录的预测值
    • yi 为第i个观测记录的观测值

    我们看公式几乎一样,RMSE就是MSE的平方根。

  • 以下回答由chatgpt基于相关博客总结生成:

    根据参考资料可以看出,RMSE是表示模型预测值和真实值之间的偏差程度,通常情况下越小表示模型拟合程度越好,但是当数据中存在离群点时,RMSE指标会变得很差。

    在这种情况下,可以考虑以下几种优化模型的方法:

    1.数据预处理 可以采用数据截断过滤噪声点的方法,比如通过正态分布检测、聚类检测等,具体可参考离群点检测等方法,来过滤掉噪声点,从而提高模型的准确性。

    2.寻找更合适的评价指标 可以使用MAPE指标来衡量模型的准确度。MAPE指标将每个点的误差都进行了归一化,具有更好的鲁棒性。

    3.调整模型参数 可以通过调整模型的参数来最小化RMSE指标。例如,在神经网络中可以调整学习率、网络结构等参数,通过反复训练和验证来找到最佳的参数组合。

    4.使用其他指标 除了RMSE,还可以使用其他指标来评估模型的准确度,例如平均绝对误差(MAE)、平均绝对百分比误差(MAPE)等,不同指标适用于不同的场景,可以根据具体情况选择合适的指标。

    最后,需要注意的是,RMSE指标不能直接代表模型的性能,需要结合实际情况综合评估。