在数据挖掘中, 有对数据进行归一化处理,比如StandardNormalization, 这种归一化处理的
好处是对异常的离散数值有很好的效果, 而numpy.log 可以对一些离散的异常数值有这种处理,
经过这种log处理后,得到的直方图更接近高斯分布, 我的问题是:
1. 我在网上看到一些大数据挖掘方面的资料,利用LogisticRegressor, 并没有对数据进行
归一化处理, 这种归一化是否不一定必须的 ?
2. 如果采用了 StandardNormalization 这种归一化处理,是否也相当于采用了Log处理的效果,而且数值被限定在更小的范围之内?
3. 数据挖掘中,如果用到 LogisticRegressor这种算法,是否直接对那些离散值直接进行StandardNormalization处理,不用采用Log处理?
(1)是不是必须的要看你的算法。比如说你用了sigmoid之类的激活函数来实现非线性,如果你的数据偏离原点很远,那么就学不起来。就需要归一化。总之,和你的机器学习的算法有关,有的的确差异不大。
(2)不是,标准归一化是将数据按照正态分布处理,均值为0,方差为1,不是指数归一化。
(3)逻辑回归用StandardNormalization就可以了,最好使用修正正切(ReLU)之类的非线性函数。