统计学习方法--决策树

有没有哪位给解释解释什么叫做“选择取值较多的特征”。信息增益比和信息增益都有啥特点啊？

根据上面这个算式，如果我此时引入了A4（极端点想，没有分到样本），前面的分母是不是从5/15（三分之一）变成了四分之一，此时条件熵就变小了，信息增益=熵-条件熵，我的信息增益就变大了，那我引入a5,a6，前面分母就变成了五分之一，六分之一。特征取值越多是不是信息增益就越大。所以才引入了信息增益比来平衡这个现象。或者你也可以这么理解，信息增益是信息不确定性减少的程度，如果一个特征它的取值很多，是不是意味着我非常了解这个特征，就比如明天的天气有多云，晴天，下雨，下暴风雪和只有晴天和雨天相比是不是感觉信息确定了很多，所以信息增益也会越大。