深度学习中,如何处理某个非常重要的特征数据,比如我假设在数据集足够大的情况下,要辨别古画的真伪,然后在画的某个角落里面出现一行小字:“这是假的”,或者其他类似这种可以颠覆其他所有数据的决定性特征。还有比如语义训练中,一大串的话,最后加上一句“前面说的都是假的”等可以颠覆整个语句的。
可以使用数据增强的方法:通过(手动)增加数据集中这些特殊特征的出现频率,可以使模型更好地处理这些特征。但需要注意,过于依赖这些特征可能导致模型的过拟合。
最简单的办法就是增加拥有决定性因素的数据数量,哪怕是copy成很多分,这种基本的办法就是通过增加数据的权重来影响模型的效果
特征选择:可以通过特征选择的方式,仅选择对预测目标有较大贡献的特征。对于上述古画的例子,可以通过特征选择的方式,仅选择与画的真伪有关的特征进行建模,而将包含“这是假的”字样的特征删除或者降低其权重。
弱化特征:对于一些特别强的特征,可以通过减少其权重的方式来降低其对模型的影响。在训练模型时,可以增加一个正则化项,将包含决定性特征的权重进行惩罚,使模型更加关注其他特征。
多模型集成:可以建立多个模型,其中一些模型不包括决定性特征,将其他特征作为输入。通过多模型集成的方式,可以降低决定性特征对整个模型的影响。
可以考虑采用机器学习中的 集成学习的思想
感谢各位老哥们的回答! 也是我问题没描述清楚,上面都是打的比喻,特征是未知的不清楚有多少种可能性,不过确实给了我一些启发,谢了。