机器学习中关于互信息和信息增益的关系

最近看 数学之美 上面 互信息 的公式是
I(X;Y)=H(X)-H(X|Y)
又看到 统计学习方法 上有一个 信息增益 的公式
G(D,A)=H(D)-H(D|A)
这不是一样吗?难道互信息就是信息增益?
还是说G(D,A)里面的这个D指的是系统总的熵?而互信息是两个变量的关系?
想不明白,大神请明示。

在决策树里面那个信息增益就是互信息