在已经知道频繁项集的情况下,怎样计算出提升度

每一行对应一个事务,每列对应一个项,项用二元变量表示
知道支持度的情况下怎样计算出提升度,按照公式算了即便不对

img

引用 皆我百晓生 小程序回复内容作答:
提升度是用于衡量两个项之间的相关性程度,并判断某个项在另一个项出现的情况下是不是更加频繁。给定频繁项集A和项B,提升度(lift)被定义为P(B|A)/P(B),其中P(B|A)表示条件概率,表示在A出现的情况下B出现的概率,P(B)表示B的支持度。

假设我们已经知道频繁项集A和B的支持度,以下是计算提升度的步骤:

  1. 计算条件概率P(B|A):将A和B同时出现的次数除以A的出现次数。

  2. 计算支持度P(B):计算项B出现的次数除以总的事务数。

  3. 计算提升度lift:将步骤1中计算的条件概率除以步骤2中计算的支持度。

提升度的值可以用来判断两个项之间的相关性。如果提升度大于1,则表示两个项之间是正相关的,即A的出现会增加B的出现的概率;如果提升度等于1,则表示两个项之间是独立的,即A的出现不会影响B的出现的概率;如果提升度小于1,则表示两个项之间是负相关的,即A的出现会减少B的出现的概率。

需要注意的是,提升度的计算仅适用于频繁项集。如果A或B不是频繁项集,则提升度无意义。提升度的计算可以帮助我们理解数据中的相关性,从而做出更好的数据分析和决策。