学做网站设计,莲花网站建设,免费网页制作软件手机版,什么公司可以做网站关联规则的几个概念#xff1a;
关联规则是形如 X - Y 的蕴含式#xff0c;表示通过 X 可以推导出 Y#xff0c;X称为关联规则的左部#xff08;Left Hand Side#xff0c;LHS#xff09;#xff0c;Y 称为关联规则的右部#xff08;Right Hand Side#xff0c;R…关联规则的几个概念
关联规则是形如 X - Y 的蕴含式表示通过 X 可以推导出 YX称为关联规则的左部Left Hand SideLHSY 称为关联规则的右部Right Hand SideRHS。
关联规则有两个指标分别是支持度Support和置信度Confidence。关联规则A - B 的支持度support P(AB)指的是事件 A 和事件 B 同时发生的概率。置信度confidence P(B|A) P(AB) / P(A)指的是发生事件A的基础上发生事件B的概率。比如如果尿布-啤酒关联规则的支持度为 30%置信度60%那么就表示所有的商品交易中30% 交易同时购买了尿布和啤酒在购买尿布的交易中60% 的交易同时购买了啤酒。
关联规则分析需要从基础数据中挖掘出支持度和置信度都超过一定阈值的关联规则以便在决策中应用。同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。
挖掘关联规则的主流算法为 Apriori 算法。它的基本思想是在数据集中找出同时出现概率符合预定义Pre-defined支持度的频繁项集而后从以上频繁项集中找出符合预定义置信度的关联规则。
原理 如果某个项集是频繁的那么它的所有子集也是频繁的。它的逆否命题是如果一个项集是非频繁的那么它的所有超集也是频繁的。
在上图中已知阴影项集{商品2商品3}是非频繁的。利用这个基础知识我们可以知道项集 {商品0商品2商品3}{商品1商品2商品3} 以及 {商品0商品1商品2商品3} 也是非频繁的因为它们是 {商品2商品3} 的超集。于是在计算过程中一旦计算出 {商品2商品3} 的支持度知道它是非频繁的后就可以紧接着排除它的超集节省了计算工作量。