小样本不平衡数据的机器学习实现

针对只有三四百例的样本,并且正样本和负样本比例不平衡,约为4:1,还能进行机器学习吗?如果进行机器学习,大概应该采用什么特殊方法呢?

比例不平衡,可以通过插值增加负样本,或者编写损失函数,给负样本预测错误更高的惩罚项

可以,这个也不算样本特别不平衡,实际上样本不平衡对于模型最终的影响,要训练过才知道。如果这个不平衡确实对结果影响剪发,那么可以特别针对于样本较少的类别进行扩增,简单一点就是单纯的复制。

不知道你这个问题是否已经解决, 如果还没有解决的话:
  • 这有个类似的问题, 你可以参考下: https://ask.csdn.net/questions/7409059
  • 这篇博客你也可以参考下:【机器学习基础】样本类别不平衡的解决办法
  • 除此之外, 这篇博客: 人工智能基础中的 5.协方差可以用来计算两个变量之间的相关性,或者说计算两维样本数据中两个维度之间的相关性。基于计算所得的协方差值,可以来判断样本数据中两维变量之间是否存在关联关系。下面哪一个说法是不正确的(  C  ) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

    A.当协方差值小于0 时,则两个变量线性负相关

    B.当协方差值等于0 时,则两个变量线性不相关

    C.当协方差值等于0 时,则两个变量线性正相关

    D.当协方差值大于0 时,则两个变量线性正相关

    等于0时无关。

  • 您还可以看一下 王而川老师的机器学习算法之线性模型视频教学课程中的 线性模型的基本形式小节, 巩固相关知识点

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^