随机森林与过拟合问题

面对数据样本不均衡,即处于某个类别的量太少,该怎么解决,我用的随机森林分类

重采样,或者其他样本下采样,又或者训练时调整该类别的class_weight

样本均衡

1.如果数据不难找,就在网上开源数据库找相同类别的数据来补充数据。
2.可以尝试复制原数据再加入一些噪声来模拟和补充数据,跑一下模型,看看效果怎样,不过我之前试过,通常效果不会太好。
3.还有可以试一试GAN网络生成假数据,不过这个方法我没有试过。