机器学习随机森林分类依据

有没有人了解随机森林原理,它是依据什么进行分类的啊?当进行分类任务时,新的输入样本进入,“让森林中的每一棵决策树分别进行判断和分类”(决策树是依据什么来进行判断和分类啊),每个决策树会得到一个自己的分类结果,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。

随机森林是一种基于决策树的集成学习算法,它的分类依据是基于特征的划分。随机森林中的每个决策树都采用不同的随机样本和随机特征子集,来构建多颗决策树,避免单棵决策树过拟合或者欠拟合。对于输入样本,随机森林中的每个决策树都会以不同的方式根据这些随机的样本和特征子集进行分类,最终将得到多个分类结果。在随机森林中,所有决策树的分类结果会被汇总起来,方法是对所有分类结果求平均值(回归问题)或者选取票数最高的结果(分类问题)作为最终的输出。
在随机森林中,每棵决策树都是基于不同的随机样本和特征子集构建的,因此每棵决策树所选择的特征都是不同的,这也使得在多棵决策树的协同下,随机森林具有更好的鲁棒性和泛化能力。

当估计回归模型的参数,可得到参数的方差为Cov(β^)=σ2(XTX)−1Cov(\hat\beta) =\sigma^2(X^TX)^{-1}Cov(β^)=σ2(XTX)1,为了方便讨论,我们假定
y^=β^1x1+β^2x2记L11=∑i=1nxi12,L12=∑i=1nxi1xi2,L22=∑i=1nxi22\hat y=\hat\beta_1 x_1+\hat\beta_2x_2 \\ 记L_{11} = \sum_{i=1}^{n} {x_{i1}^2} , L_{12} = \sum_{i=1}^{n} {x_{i1}x_{i2}},L_{22} = \sum_{i=1}^{n} {x_{i2}^2}y^=β^1x1+β^2x2L11=i=1nxi12,L12=i=1nxi1xi2,L22=i=1nxi22
那么,x1x_1x1x2x_2x2之间的相关系数为r12=L12L11L22r_{12} = \frac{L_{12}}{\sqrt{L_{11}L_{22}}}r12=L11L22L12
推理可得var(β^1)=σ2(1−r122)L12var(\hat\beta_1)=\frac{\sigma^2}{(1-r_{12}^2)L_{12}}var(β^1)=(1r122)L12σ2
由明显可以看出,当x1,x2相关性越高,即r12越接近1,var(β^1)x_1,x_2相关性越高,即r_{12}越接近1,var(\hat\beta_1)x1,x2r121var(β^1)越大。
当参数的方差很大时,尽管参数还是无偏估计,但是它可能会导致回归的参数结果混乱,特别是估计系数的符号可能与预期的恰恰相反。此外,当我们的样本发生变化时,较大的方差也就意味了参数也会随着样本的变化而剧烈变化,从而使自变量的可解释性变差。所以,多重共线性使我们的参数变得不具备可解释性。