怎么样去理解李航《统计学习方法》中的“条件熵”,“经验熵”和“经验条件熵”。在图片中数据估计又是什么意思?按说公式中的Pi不是有数据集就已经确定了吗?为什么还要说熵和条件熵由数据估计(特别是极大似然估计)给出呢?