百度权重查询网站,药剂学教学网站的建设,怎么用电脑做网站虚拟空间,便利的菏泽网站建设适用场合 Apriori算法包含两部分内容#xff1a;1#xff0c;发现频繁项集 2#xff0c;挖掘关联规则。 通俗地解释一下#xff0c;就是这个意思#xff1a;1.发现哪些项目常常同时出现 2.挖掘这些常常出现的项目是否存在“如果A那么B”的关系。 举个例子#xff1a;网店…适用场合 Apriori算法包含两部分内容1发现频繁项集 2挖掘关联规则。 通俗地解释一下就是这个意思1.发现哪些项目常常同时出现 2.挖掘这些常常出现的项目是否存在“如果A那么B”的关系。 举个例子网店购物订单常常会出现这样一种情况那就是某几种物品常常一起买。比如锅和铲子、手机和手机壳等就会常常出现在同一个订单中因此挖掘出哪些项目常常同时出现就是1中的问题。再进一步对于这些常常出现的频繁项集如果能挖掘出“若A则B”的更强关系那就更好了。比如买了手机的常常会再买个手机壳但是反过来不成立。 发现频繁项集 发现频繁项集最直观的想法就是想办法对所有的项目进行全组合也就是产生2n种然后对这些不同的种类挨个计算出现最频繁的组合。但是这种方法的搜索空间太大速度非常慢。Apriori定理可以很大程度上缩小搜索空间其内容是任一频繁项集的所有非空子集也必须是频繁的也就是说任何一个非频繁项集的超集一定也是非频繁项集。这样就可以直接删除所有包含非频繁项集的集合很大程度上减少了搜索空间。 转载了一张图非常明晰地说明了其中的道理 图片来源http://www.jianshu.com/p/00103435ef89 挖掘关联规则 挖掘关联规则是以频繁项集为基础的。假设我们已经找到了几个频繁项集现在要找到其中是否蕴含“若A则B”的因果关系。 要想计算是否存在因果关系很直观的想法就是计算条件概率P(B|A)看看在A条件下B的概率是否足够高。 术语 假设项集有AB。 有了上述的铺垫现在引入术语定义 支持度(support)P(AB)A和B同时出现概率。越大越频繁。 置信度(confidence)P(B|A)条件概率。越大说明因果越强。 提升度(lift)P(B|A)/P(B)有A这个条件和没有A这个条件时B出现的概率之比。 实现 转载于:https://www.cnblogs.com/chengyuanqi/p/7352807.html