新网站建设信息,cpa免费视频,小程序开发 与网站开发区别,中国摄影在线网站程一舰数据技术处我们常说我们生活在信息时代#xff0c;实际上#xff0c;我们更多的还是生活在数据时代。因为从过去到现在累积了大量的数据#xff0c;对数据的挖掘和分析也仅是从最近几年大数据和人工智能技术的发展而兴起。我们对现有数据价值的利用还远低于数据本身拥… 程一舰数据技术处 我们常说我们生活在信息时代实际上我们更多的还是生活在数据时代。因为从过去到现在累积了大量的数据对数据的挖掘和分析也仅是从最近几年大数据和人工智能技术的发展而兴起。我们对现有数据价值的利用还远低于数据本身拥有的价值。随着数据在党的十九届四中全会中与劳动、资本、土地、知识、技术、管理等一起被列为生产要素数据价值的挖掘将会越来越深入。数据挖掘在《Data Mining》一书中的解释就是从大量数据中挖掘有趣模式和知识的过程。既然未来已来我们就要顺应时代发展掌握必备技能。 在前面我们介绍了一种简单的挖掘商品关联性算法。今天要介绍的是更高效的FP-Growth算法(FP指的是Frequent Pattern)它可以用到搜索词提醒常用词挖掘强关联性商品商品推荐等领域上。挖掘商品关联系或者词语之间的关联性需要做的事是构造各种商品组合然后分析出这种组合是否是高频率出现。Apriori算法每产生一种组合都要遍历一次数据库来判断当前组合是否是高频记录这个在大量数据面前是很耗时间。一、原理介绍与Apriori算法相比FP-Growth算法更进一步通过将交易数据巧妙的构建出一颗FP树然后在FP树中递归的对频繁项进行挖掘。FP-Growth算法仅仅需要两次扫描数据库第一次是统计每个商品的频次用于剔除不满足最低支持度的商品然后排序得到FreqItems。第二次扫描数据库构建FP树。还是以之前Apriori的例子来一步步的详细分析FP树的构建和频繁项的递归挖掘。首先找出频繁1项集支持度为50%ID集合{1235}所以在剔除ID4和6后对每条订单的商品序列按照商品出现的频率进行重新排序得到如下然后构建FP-Tree如果我们想获取谁的频繁模式只需要找到该节点并上溯寻找到所有节点即可举个例子找到2的频繁项集候选集可以得到两个个路径根据这个FP-Tree挖掘频繁模式就是通过递归的获取节点的子树的过程。子树构建方式如下新建一个新的FP树然后遍历树中所有的待挖掘节点往上找直到root节点然后把当前路径上的非根节点添加到subTree中每个节点的频次为当前遍历节点的频次。我们以2节点为例找到2节点的路径{2,1,3}和{2,3}每个路径的频率等于该路径中2节点的频率因此2-1-332-31然后我们构建新的subTree所以根据指出度为50%我们可以得到{2},{2,3},{2,3,1}都是频繁模式例如{2,1,3}总共出现3次3/50.6 60% 大于我们要求的支持度50%{2}和{2,3}都出现4次其他的依次类推二、验证我们通过Spark的MLlib中提供的数据挖掘算法FP-Growth来验证一下我们的结果通过结果可以看出我们的计算是对的三、适用场景除了跟Apriori算法一样用来进行一些关联商品推荐FP-Tree还可以用于这样的场景输入一个单词或者单词的一部分推断出你可能要搜索的查询词项比如在百度输入“xxx大学”开始查询时会出现诸如“xxx大学为什么还不放假”之类的推荐结果。FP-Growth又称为FP-增长算法它比Apriori算法要快它基于Apriori构建但在完成相同任务时采用了一些不同的技术。不同于Apriori算法的”产生测试”这里的任务是将数据集存储在一个特定的称做FP树的结构之后发现频繁项集或者频繁项对即常在一块出现的元素项的集合FP树,这种做法是的算法的执行速度要快于Apriori通常性能要好两个数量级以上。四、总结数据挖掘中关于关联规则或者频繁模式挖掘类的算法也是我们日常生活中经常用到的算法。数据挖掘还有很多有趣的算法 这些算法能让我们更好的从数据从挖掘价值信息。同时大数据平台也将一如既往的为各种数据挖掘类应用提供算力支持为我行金融科技发展打造坚持的大数据平台支撑。