请问做logistic死亡预测模型,纳入数据共8万,按7:3分为训练集和验证集,两组之间进行卡方检验,p值小于0.05,还可以继续做吗?
迭代500次的结果:
迭代1000次的结果:
就上述四个结果来看,全批量随机梯度上升的错误率最小,未改进随机梯度上升算法错误率最高,达到37.8%,但是这两这10次迭代结果一致,无法确定它的变化,而改进后随机梯度上升算法迭代1000次的错误率很接近第一种,同时它的错误率是在不断变化调整的,所以改进后的随机梯度上升算法很较为理想的,但是它的运行速度也是最慢的,这可能与赋给它的迭代次数和数据集有关。
针对这个问题,可以考虑以下几个方向进行处理:
数据预处理:在数据预处理阶段,可以考虑对训练集和验证集进行归一化或标准化处理,以统一数据分布,减少两组数据之间差异的影响。
特征选择:在特征选择阶段,可以使用稳定性选择等方法来选取与预测目标相关性较强的特征,减少不相关特征对模型的干扰。
模型选择:在模型选择阶段,可以考虑使用支持向量机、决策树等对非线性的数据进行建模,同时对不同的模型进行评估和比较,找到最适合该数据集的模型。
重采样方法:对于存在严重样本不平衡问题的数据集,可以使用重采样方法(如欠采样、过采样等)来平衡训练集和验证集之间的差异。
综上,针对训练集和验证集之间的差异问题,我们可以采取多种方法进行处理,具体的方法选择需要根据数据集的具体情况来决定。