对于线性回归,怎么能够有效获取异常值的位置,并将此处的值进行修正,达到预处理的目的
不知道你这个问题是否已经解决, 如果还没有解决的话:箱线图
:箱线图可以有效地展示数据分布的情况,同时可以识别出数据集中的异常值。在箱线图中,异常值通常被定义为低于下四分位数1.5倍IQR或高于上四分位数1.5倍IQR的数据点。散点图
:散点图可以显示两个变量之间的关系,同时也可以显示异常值。可以将散点图上的点按照横轴或纵轴排序,然后找到距离其他点较远的点,即为异常值。统计学方法
:可以使用统计学方法,例如Z-score或IQR等,来判断数据是否存在异常值。Z-score是通过计算每个数据点与平均值之间的距离来判断是否为异常值,IQR是通过计算数据集的四分位距来判断是否为异常值。