为啥我用随机森林模型预测时,把数据集放在在一个表格通过train_test_split划分预测的测试集效果特别好,而把训练集跟测试集分为两个表格预测测试集效果很差
这是必然的,你分两个表会有数据分布上的差异,模型在训练的时候当然没办法准确学习测试集信息
不知道你这个问题是否已经解决, 如果还没有解决的话:X_tr, X_test, lab_tr, lab_test = train_test_split(X_train, labels_train,test_size=0.3, random_state = 123)
参数 | 含义 |
---|---|
X_train | 整体数据 |
labels_train | 整体数据 label |
test_size | 测试数据所占比例 |
random_state | 随机分配种子,设置一样的种子可以使得两次得到一样的结果 |
X_tr | 训练数据集 |
X_test | 测试数据集 |
lab_tr | 训练 label |
lab_test | 测试 label |