为啥用模型预测时,把数据集放在在一个表格通过train_test_split划分预测的测试集效果特别好,而把训练集跟测试集分为两个表格预测测试集效果很差

为啥我用随机森林模型预测时,把数据集放在在一个表格通过train_test_split划分预测的测试集效果特别好,而把训练集跟测试集分为两个表格预测测试集效果很差

这是必然的,你分两个表会有数据分布上的差异,模型在训练的时候当然没办法准确学习测试集信息

不知道你这个问题是否已经解决, 如果还没有解决的话:
  • 给你找了一篇非常好的博客,你可以看看是否有帮助,链接:使用train_test_split划分训练集、验证集、测试集
  • 除此之外, 这篇博客: 使用train_test_split划分训练数据集、测试数据集中的 3. 函数使用 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:
    X_tr, X_test, lab_tr, lab_test = train_test_split(X_train, labels_train,test_size=0.3, random_state = 123)
    
    参数含义
    X_train整体数据
    labels_train整体数据 label
    test_size测试数据所占比例
    random_state随机分配种子,设置一样的种子可以使得两次得到一样的结果
    X_tr训练数据集
    X_test测试数据集
    lab_tr训练 label
    lab_test测试 label

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^