数据挖掘与机器学习题目是汽车贷款违约预测,已经做了很多了但是最后弄不出来了
假设你实现了线性回归去预测房价,
但是你测试发现hθ(x)在新的房价测试集上,表现出很大的误差,此时你会怎么做?
对于这种情况,大部分人会选择以下方法去改进他的学习算法:
1、获得更多的训练样本
2、尝试减少特征变量
3、尝试增加特征变量
4、尝试增加多项式特征(如x12;x22;x1x2等等)
5、减小λ
6、增加λ
上面这些确实是解决学习算法不能很好的应用到新数据集中的问题的方法,但是,如果没有一定思路的乱用上面的方法,那也许你在该方法上花了很多时间,但学习算法仍然没有改进。例如,有的人发现自己的学习算法在新的数据集上表现很差,他就不管三七二十一,直接花大把的时间去收集样本数据,他想当然的认为,自己学习算法效果不好,是因为训练样本太少,但是也许你的学习算法执行效果不好,根本不是训练样本个数的问题,那么你花费再多的时间在收集训练样本上,都将是徒劳的!因此我们应该有一定章法的评估自己的学习算法,以及学习算法执行效果不理想的原因,再根据分析的原因进而选择合适的方法来改进学习算法。