在读研究生,正在写论文阶段,选取了stacking集成算法用于舆情风险评估,指标选好了。不懂得怎么处理数据,知网的论文看得云里雾里,很多只展示结果,没有过程,有人带带我吗?盼回复
不知道你这个问题是否已经解决, 如果还没有解决的话:
图片来自西瓜书
第一行训练集D有m项,其实就是将训练集划分为m份
过程中1-3行代表将T个一级模型用训练集的全部训练得到训练好的模型h
过程中第七行代表着对于每一个小的训练集都用所有的一级模型h预测。得到的预测结果z(it)在并入D’中得到新的集合
过程11行代表将新的集合作为二级模型h’的训练集得到训练好的模型。
这么做的原理西瓜书中有不赘述。直接上代码