为啥用模型预测时，把数据集放在在一个表格通过train_test_split划分预测的测试集效果特别好，而把训练集跟测试集分为两个表格预测测试集效果很差

为啥我用随机森林模型预测时，把数据集放在在一个表格通过train_test_split划分预测的测试集效果特别好，而把训练集跟测试集分为两个表格预测测试集效果很差

这是必然的，你分两个表会有数据分布上的差异，模型在训练的时候当然没办法准确学习测试集信息

不知道你这个问题是否已经解决, 如果还没有解决的话:

除此之外, 这篇博客: 使用train_test_split划分训练数据集、测试数据集中的 3. 函数使用 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

X_tr, X_test, lab_tr, lab_test = train_test_split(X_train, labels_train,test_size=0.3, random_state = 123)

参数	含义
X_train	整体数据
labels_train	整体数据 label
test_size	测试数据所占比例
random_state	随机分配种子，设置一样的种子可以使得两次得到一样的结果
X_tr	训练数据集
X_test	测试数据集
lab_tr	训练 label
lab_test	测试 label

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^