数据挖掘中,利用机器学习算法解决二分类问题,数据样本分布极不平衡:好样本和坏样本之间的比率高达500:1,请问采用什么机器学习算法和数据采样方法,或者两者的可以解决这样的数据极不平衡问题?
两个办法,一个是通过复制的方式扩展坏样本,凑到和好样本一样多一个是修改损失函数,将坏样本识别为好样本(漏报)的权重远远大于误报(好样本识别为坏样本)的权重