机器学习随机森林分类依据

有没有人了解随机森林原理，它是依据什么进行分类的啊？当进行分类任务时，新的输入样本进入，“让森林中的每一棵决策树分别进行判断和分类”（决策树是依据什么来进行判断和分类啊），每个决策树会得到一个自己的分类结果，决策树的分类结果中哪一个分类最多，那么随机森林就会把这个结果当做最终的结果。

随机森林是一种基于决策树的集成学习算法，它的分类依据是基于特征的划分。随机森林中的每个决策树都采用不同的随机样本和随机特征子集，来构建多颗决策树，避免单棵决策树过拟合或者欠拟合。对于输入样本，随机森林中的每个决策树都会以不同的方式根据这些随机的样本和特征子集进行分类，最终将得到多个分类结果。在随机森林中，所有决策树的分类结果会被汇总起来，方法是对所有分类结果求平均值（回归问题）或者选取票数最高的结果（分类问题）作为最终的输出。
在随机森林中，每棵决策树都是基于不同的随机样本和特征子集构建的，因此每棵决策树所选择的特征都是不同的，这也使得在多棵决策树的协同下，随机森林具有更好的鲁棒性和泛化能力。

你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7732996
这篇博客也不错, 你可以看下机器学习案例：运营商客户流失的数据分析 #数据去重#数据分组整合#缺失值处理#相关性分析#样本平衡#决策树、随机森林、逻辑回归
除此之外, 这篇博客: 如何正确衡量线性回归模型中变量的重要性中的 为什么多重共线性会导致参数估计失败 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

当估计回归模型的参数，可得到参数的方差为Cov(β^)=σ2(XTX)−1Cov(\hat\beta) =\sigma^2(X^TX)^{-1}Cov(β^)=σ2(XTX)−1，为了方便讨论，我们假定
y^=β^1x1+β^2x2记L11=∑i=1nxi12,L12=∑i=1nxi1xi2,L22=∑i=1nxi22\hat y=\hat\beta_1 x_1+\hat\beta_2x_2 \\ 记L_{11} = \sum_{i=1}^{n} {x_{i1}^2} , L_{12} = \sum_{i=1}^{n} {x_{i1}x_{i2}},L_{22} = \sum_{i=1}^{n} {x_{i2}^2}y^=β^1x1+β^2x2记L11=i=1∑nxi12,L12=i=1∑nxi1xi2,L22=i=1∑nxi22
那么，x1x_1x1和x2x_2x2之间的相关系数为r12=L12L11L22r_{12} = \frac{L_{12}}{\sqrt{L_{11}L_{22}}}r12=L11L22L12
推理可得var(β^1)=σ2(1−r122)L12var(\hat\beta_1)=\frac{\sigma^2}{(1-r_{12}^2)L_{12}}var(β^1)=(1−r122)L12σ2
由明显可以看出，当x1,x2相关性越高，即r12越接近1，var(β^1)x_1,x_2相关性越高，即r_{12}越接近1，var(\hat\beta_1)x1,x2相关性越高，即r12越接近1，var(β^1)越大。
当参数的方差很大时，尽管参数还是无偏估计，但是它可能会导致回归的参数结果混乱，特别是估计系数的符号可能与预期的恰恰相反。此外，当我们的样本发生变化时，较大的方差也就意味了参数也会随着样本的变化而剧烈变化，从而使自变量的可解释性变差。所以，多重共线性使我们的参数变得不具备可解释性。

您还可以看一下陈槐老师的零基础新手入门软件测试必知必会课程中的优秀软件测试工程师具备哪些专业技术能力小节, 巩固相关知识点