通过逻辑回归所求得变量前参数的实际意义是解释变量对分类结果影响的权重吗?

img

Q1:逻辑回归中,通过梯度下降求得各解释变量前的系数w(及上图红框中的参数)的最佳值,其实际意义可以理解成是解释变量的权重吗?
例如:研究一个地区家庭平均收入、年龄中位数与是否贫困之间的关系。
是否就是通过逻辑回归,求得变量前系数,就可以得到各个变量对贫困指标评价的贡献值。这个系数(即w)可以理解成是解释变量对被解释变量影响程度的权重吗?

我尝试将模型跑了一次后,得到的参数如下图:

img

看起来,系数间差异太大了,然后我用sklearn中standardscaler又预处理了一次数据后,结果如下:

img

Q2:利用standardscaler将数据标准化的思路是正确的吗?如何根据数据情况,选择数据标准化的方式,是minmaxscaler还是standardscaler?

Q3:标准化后的权重依然是一个大于1的数,所以如果我想用百分比表示权重,是通过各个权重和权重和之间的比吗?

Q4:以上分析的思路正确吗?

感谢。

你这一下有四个问题:
Q1: 要理解逻辑回归,你需要先理解线性回归解决的问题是什么(y=Wx+b),然后理解逻辑回归解决了线性回归解决不了的什么问题,可以看我的博客
https://vector.blog.csdn.net/article/details/129718706
https://vector.blog.csdn.net/article/details/129742965

Q2: standardscaler 是使得输入数据归一化到正太分布范围。minmaxscaler就是归一化到0-1范围。
StandardScaler和MinMaxScaler是常用的数据标准化方法。
StandardScaler将数据缩放到均值为0,标准差为1的分布上,公式为:
$$ z = \frac{x-\mu}{\sigma} $$
其中,$x$是原始数据,$\mu$是均值,$\sigma$是标准差。这种方法对于数据分布没有明显边界的情况比较适用,但是对于存在边界的数据集,则不是最优的选择。
MinMaxScaler将数据缩放到[0, 1]的范围内,公式为:
$$ z = \frac{x-x_{min}}{x_{max}-x_{min}} $$
其中,$x_{min}$是数据集中的最小值,$x_{max}$是数据集中的最大值。这种方法适用于数据分布有明显边界的情况,但是可能会受到极端值的影响。
因此,当数据集没有明显的边界时,建议使用StandardScaler进行标准化;如果数据集存在明确的边界,建议使用MinMaxScaler进行标准化。

Q3: 参考2

Q4: 你的学习方法很对,就是要问30个问题,都搞明白。