关于#机器学习#的问题：xgboost 使用reg:linear进行回归预测后，是否可以获得相关的回归方程(语言-python)

xgboost 使用reg:linear进行回归预测后，是否可以获得相关的回归方程。

这篇博客: 【机器学习与算法】python手写算法：xgboost源码复现中的 1、目标函数：linear 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

目标函数：1/2 *（y_hat - y） ** 2
一阶导数（grad）：y_hat - y
二阶导数（hess）：1

#INPUT
X = df[[x for x in df.columns if x!='y']]
Y = df['y']
xgb = XGB(n_estimators=2, max_depth=2, reg_lambda=1, min_child_weight=1, objective='linear')
xgb.fit(X,Y)

#OUTPUT：
fitting tree 1...
tree 1 fit done!
fitting tree 2...
tree 2 fit done!
{1: {('V2', 0.166474): {('left', -0.46125265392781317): {('V4', 0.30840057): {('left', -0.4622741764080765): None, ('right', 0.25): None}}, ('right', -0.32500000000000001): {('V3', 0.07025362056365991): {('left', -0.36363636363636365): None, ('right', 0.083333333333333329): None}}}}, 2: {('V2', 0.166474): {('left', -0.41514992294866337): {('V4', 0.30840057): {('left', -0.41609588460960778): None, ('right', 0.23749999999999999): None}}, ('right', -0.29296717171717179): {('V3', 0.07025362056365991): {('left', -0.32793388429752085): None, ('right', 0.076388888888888909): None}}}}}

这里我们指定训练一个两棵树，每棵树深度为2的XGBooster，L2正则项系数指定为1，min_child_weight指定为1，其它用默认参数。
OUTPUT中以json串的形式输出了这两颗树的结构及叶子权重，不太方便看，我们把第一课树重画成树结构，如下图：
在这里插入图片描述
接下来我们来调用一下xgboost包，在同样的数据集上，设定同样的参数，来训练一下，并通过自带的plot_tree函数画出它的第一棵树来对比一下：

from xgboost import XGBClassifier as xx
clf = xx(n_estimators=2, max_depth=2, objective = 'reg:linear',min_child_weight=1, learning_rate=0.1)
clf.fit(X,Y)

from xgboost import plot_tree
import matplotlib.pyplot as plt
import os
os.environ["PATH"] += os.pathsep + 'D:/Program Files/graphviz/bin/'
plot_tree(clf, num_trees=0)
fig = plt.gcf()
fig.set_size_inches(100, 50)
plt.show()

在这里插入图片描述
嗯，一个是分裂点有点有点差异，这是因为我们的程序里直接选取了变量里面的原值作为分裂点；而xgboost包里计算了相邻两个值的中间值，但分出来的样本数量是一样的；二是每个叶子节点的权重都小了10倍，这是因为xgboost画树的时候，把learning_rate也给乘上去了，我们设定的learning_rate就是0.1。
再来对比一下predict的结果：

#python代码结果
#INPUT：
xgb.predict_raw(X).head()
#OUTUT：
0    0.412163
1    0.412163
2    0.412163
3    0.412163
4    0.412163
dtype: float64

#xgboost包结果：
#INPUT:
y_p2 = clf.predict_proba(X)
y_p2[:5]
#OUTPUT：
array([[ 0.58783698,  0.41216299],
       [ 0.58783698,  0.41216299],
       [ 0.58783698,  0.41216299],
       [ 0.58783698,  0.41216299],
       [ 0.58783698,  0.41216299]], dtype=float32)

嗯，也是一样的。