有没有哪位给解释解释什么叫做“选择取值较多的特征”。信息增益比和信息增益都有啥特点啊?


根据上面这个算式,如果我此时引入了A4(极端点想,没有分到样本),前面的分母是不是从5/15(三分之一)变成了四分之一,此时条件熵就变小了,信息增益=熵-条件熵,我的信息增益就变大了,那我引入a5,a6,前面分母就变成了五分之一,六分之一。特征取值越多是不是信息增益就越大。所以才引入了信息增益比来平衡这个现象。或者你也可以这么理解,信息增益是信息不确定性减少的程度,如果一个特征它的取值很多,是不是意味着我非常了解这个特征,就比如明天的天气有多云,晴天,下雨,下暴风雪 和 只有晴天和雨天相比是不是感觉信息确定了很多,所以信息增益也会越大。