训练集和验证集组间差异

请问做logistic死亡预测模型,纳入数据共8万,按7:3分为训练集和验证集,两组之间进行卡方检验,p值小于0.05,还可以继续做吗?

  • 这篇文章:种群数量变化模型logistic模型的种群数量函数 也许能够解决你的问题,你可以看下
  • 除此之外, 这篇博客: 机器学习 利用Logistic回归解决审计风险分类问题中的  3.4.3 改进后随机梯度上升测试结果 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
  • 迭代500次的结果:

    迭代1000次的结果:

     就上述四个结果来看,全批量随机梯度上升的错误率最小,未改进随机梯度上升算法错误率最高,达到37.8%,但是这两这10次迭代结果一致,无法确定它的变化,而改进后随机梯度上升算法迭代1000次的错误率很接近第一种,同时它的错误率是在不断变化调整的,所以改进后的随机梯度上升算法很较为理想的,但是它的运行速度也是最慢的,这可能与赋给它的迭代次数和数据集有关。

  • 您还可以看一下 CSDN就业班老师的第三章:Logistic回归模型课程中的 牛顿法小节, 巩固相关知识点
  • 以下回答由chatgpt基于相关博客总结生成:

    针对这个问题,可以考虑以下几个方向进行处理:

    1. 数据预处理:在数据预处理阶段,可以考虑对训练集和验证集进行归一化或标准化处理,以统一数据分布,减少两组数据之间差异的影响。

    2. 特征选择:在特征选择阶段,可以使用稳定性选择等方法来选取与预测目标相关性较强的特征,减少不相关特征对模型的干扰。

    3. 模型选择:在模型选择阶段,可以考虑使用支持向量机、决策树等对非线性的数据进行建模,同时对不同的模型进行评估和比较,找到最适合该数据集的模型。

    4. 重采样方法:对于存在严重样本不平衡问题的数据集,可以使用重采样方法(如欠采样、过采样等)来平衡训练集和验证集之间的差异。

    综上,针对训练集和验证集之间的差异问题,我们可以采取多种方法进行处理,具体的方法选择需要根据数据集的具体情况来决定。