湛江网站建设制作价格,海外网络推广外包,网站分布,搜索引擎营销的特点有关注上方“数据挖掘工程师”#xff0c;选择星标#xff0c;关键时间#xff0c;第一时间送达#xff01;作者 | 雪山飞猪链接 | https://www.cnblogs.com/chenqionghe/p/12301905.html编辑 | 深度学习这件小事本文仅作技术交流#xff0c;如有侵权#xff0c;请联系删除… 关注上方“数据挖掘工程师”选择星标关键时间第一时间送达作者 | 雪山飞猪链接 | https://www.cnblogs.com/chenqionghe/p/12301905.html编辑 | 深度学习这件小事本文仅作技术交流如有侵权请联系删除 算法分类连接分析PageRank关联分析Apriori分类算法C4.5朴素贝叶斯SVMKNNAdaboostCART聚类算法K-MeansEM 一、PageRank当一篇论文被引用的次数越多证明这篇论文的影响力越大。一个网页的入链越多入链越优质网页的质量越高原理网页影响力阻尼影响力所有入链集合页面的加权影响力之和一个网页的影响力所有入链的页面的加权影响力之和一个网页对其他网页的影响力贡献为自身影响力/出链数量用户并不都是按照跳转链接的方式来上网还有其他的方式比如直接输入网址访问所以需要设定阻尼因子代表了用户按照跳转链接来上网的概率比喻说明1、微博一个人的微博粉丝数不一定等于他的实际影响力还需要看粉丝的质量如何。如果是僵尸粉没什么用但如果是很多大V或者明星关注影响力很高。2、店铺的经营顾客比较多的店铺质量比较好但是要看看顾客是不是托。3、兴趣在感兴趣的人或事身上投入了相对多的时间对其相关的人事物也会投入一定的时间。那个人或事被关注的越多它的影响力/受众也就越大。关于阻尼因子1、通过你的邻居的影响力来评判你的影响力但是如果不能通过邻居来访问你并不代表你没有影响力因为可以直接访问你所以引入阻尼因子的概念2、海洋除了有河流流经还有雨水但是下雨是随机的3、提出阻尼系数还是为了解决某些网站明明存在大量出链(入链)但是影响力却非常大的情形。出链例子hao123导航网页出链极多入链极少入链例子百度谷歌等搜索引擎入链极多出链极少。 二、Apriori(关联分析)关联关系挖掘从消费者交易记录中发掘商品与商品之间的关联关系原理1.支持度某个商品组合出现的次数与总次数之间的比例5次购买4次买了牛奶牛奶的支持度为4/50.85次购买3次买了牛奶面包牛奶面包的支持度为3/50.62.置信度购买了商品A有多大概率购买商品BA发生的情况下B发生的概率是多少买了4次牛奶其中2次买了啤酒(牛奶-啤酒)的置信度为2/40.5买了3次啤酒其中2次买了牛奶(啤酒-牛奶)的置信度为2/3-0.673.提升度衡量商品A的出现对商品B的出现 概率提升的程度提升度(A-B)置信度(A-B)/支持度(B)提升度1有提升提升度1无变化提升度1下降4.频繁项集项集可以是单个商品也可以是商品组合频繁项集是支持度大于最小支持度(Min Support)的项集计算过程1、从K1开始筛选频繁项集。2、在结果中组合K1项集再次筛选3、循环12步。直到找不到结果为止K-1项集的结果就是最终结果。扩展FP-Growth 算法Apriori 算法需要多次扫描数据库性能低下不适合大数据量FP-growth算法通过构建 FP 树的数据结构将数据存储在 FP 树中只需要在构建 FP 树时扫描数据库两次后续处理就不需要再访问数据库了。比喻说明啤酒和尿不湿摆在一起销售沃尔玛通过数据分析发现美国有婴儿的家庭中一般是母亲在家照顾孩子父亲去超市买尿不湿。父亲在购买尿不湿时常常会顺便搭配几瓶啤酒来犒劳自己于是超市尝试推出了将啤酒和尿不湿摆在一起的促销手段这个举措居然使尿不湿和啤酒的销量都大幅增加。 三、AdaBoost原理简单的说多个弱分类器训练成为一个强分类器。将一系列的弱分类器以不同的权重比组合作为最终分类选择计算过程1、初始化基础权重2、奖权重矩阵通过已的分类器计算错误率选择错误率最低的为最优分类器3、通过分类器权重公式减少正确样本分布增加错误样本分布得到新的权重矩阵和当前k轮的分类器权重4、将新的权重矩阵带入上面的步骤2和3重新计算权重矩阵5、迭代N轮记录每一轮的最终分类器权重得到强分类器比喻说明1、利用错题提升学习效率做正确的题下次少做点反正都会了做错的题下次多做点集中在错题上随着学习的深入做错的题会越来越少2、合理跨界提高盈利苹果公司软硬结合占据了大部分的手机市场利润两个领域的知识结合起来产生新收益 四、C4.5(决策树)决策就是对于一个问题有多个答案选择答案的过程就是决策。C4.5算法是用于产生决策树的算法主要用于分类C4.5使用信息增益率做计算(ID3算法使用信息增益做计算)原理C4.5选择最有效地方式对样本集进行分裂分裂规则是分析所有属性的信息增益率信息增益率越大意味着这个特征分类的能力越强我们就要优先选择这个特征做分类比喻说明挑西瓜拿到一个西瓜先判断它的纹路如果很模糊就认为这不是好瓜如果它清晰就认为它是一个好瓜如果它稍稍模糊就考虑它的密度密度大于某个值就认为它是好瓜否则就是坏瓜。 五、CART(决策树)CARTClassification And Regression Tree中文叫分类回归树即可以做分类也可以做回归。什么是分类树、回归树分类树处理离散数据也就是数据种类有限的数据输出的是样本的类别 。回归树可以对连续型的数值进行预测输出的是一个数值数值在某个区间内都有取值的可能。回归问题和分类问题的本质一样都是针对一个输入做出一个输出预测其区别在于输出变量的类型原理CART分类树与C4.5算法类似只是属性选择的指标是基尼系数。基尼系数反应了样本的不确定度基尼系数越小说明样本之间的差异性小不确定程度低。分类是一个不确定度降低的过程CART在构造分类树的时候会选择基尼系数最小的属性作为属性的划分。CART 回归树采用均方误差或绝对值误差为标准选取均方误差或绝对值误差最小的特征比喻说明分类预测明天是阴、晴还是雨回归预测明天的气温是多少度 六、朴素贝叶斯(条件概率)朴素贝叶斯是一种简单有效的常用分类算法计算未知物体出现的条件下各个类别出现的概率取概率最大的分类原理假设输入的不同特征之间是独立的基于概率论原理通过先验概率P(A)、P(B)和条件概率推算出后概率出P(A|B)P(A)先验概率即在B事件发生之前对A事件概率的一个判断。P(B|A)条件概率事件 B 在另外一个事件 A 已经发生条件下的发生概率P(A|B)后验概率即在B事件发生之后对A事件概率的重新评估。比喻说明给病人分类症状职业疾病打喷嚏护士感冒打喷嚏农夫过敏头痛建筑工人脑震荡头痛建筑工人感冒打喷嚏教师感冒头痛教师脑震荡给定一个新病人是一个打喷嚏的建筑工人计算他患感冒的概率 七、SVMSVMSupport Vector Machine中文名为支持向量机是常见的一种分类方法最初是为二分类问题设计的在机器学习中SVM 是有监督的学习模型。什么是有监督学习和无监督学习 有监督学习即在已有类别标签的情况下将样本数据进行分类。无监督学习即在无类别标签的情况下样本数据根据一定的方法进行分类即聚类分类好的类别需要进一步分析后从而得知每个类别的特点。原理找到具有最小间隔的样本点然后拟合出一个到这些样本点距离和最大的线段/平面。硬间隔数据是线性分布的情况直接给出分类软间隔允许一定量的样本分类错误。核函数非线性分布的数据映射为线性分布的数据。比喻说明1.分隔桌上一堆红球和篮球用一根线将桌上的红球和蓝球分成两部分2.分隔箱子里一堆红球和篮球用一个平面将箱子里的红球和蓝球分成两部分 八、KNN(聚类)机器学习算法中最基础、最简单的算法之一既能分类也能回归通过测量不同特征值之间的距离来进行分类。原理计算待分类物体与其他物体之间的距离对于K个最近的邻居所占数量最多的类别预测为该分类对象的类别计算步骤1、根据场景选取距离计算方式计算待分类物体与其他物体之间的距离2、统计距离最近的K个邻居3、对于K个最近的邻居所占数量最多的类别预测为该分类对象的类别比喻说明近朱者赤近墨者黑 九、K-Means(聚类)K-means是一个聚类算法是无监督学习生成指定K个类把每个对象分配给距离最近的聚类中心原理1.随机选取K个点为分类中心点2.将每个点分配到最近的类这样形成了K个类3.重新计算每个类的中心点。比如都属于同一个类别里面有10个点那么新的中心点就是这10个点的中心点一种简单的方式就是取平均值。比喻说明1.选老大大家随机选K个老大谁离得近就是那个队列的人(计算距离距离近的人聚合在一起)随着时间的推移老大的位置在变化(根据算法重新计算中心点)直到选出真正的中心老大(重复直到准确率最高)2.Kmeans和Knn的区别Kmeans开班选老大风水轮流转直到选出最佳中心老大Knn小弟加队伍离那个班相对近就是那个班的 十、EM(聚类)EM 的英文是 Expectation Maximization所以 EM 算法也叫最大期望算法也是聚类算法的一种。EM和K-Means的区别EM是计算概率KMeans是计算距离。EM属于软聚类同一样本可能属于多个类别而K-Means属于硬聚类一个样本只能属于一个类别。所以前者能够发现一些隐藏的数据。原理先估计一个大概率的可能参数然后再根据数据不断地进行调整直到找到最终的确认参数比喻说明菜称重。很少有人用称对菜进行称重再计算一半的分量进行平分。大部分人的方法是1、先分一部分到碟子 A 中再把剩余的分到碟子 B 中2、观察碟子 A 和 B 里的菜是否一样多哪个多就匀一些到少的那个碟子里3、然后再观察碟子 A 和 B 里的是否一样多重复下去直到份量不发生变化为止。到这里10大算法都已经说完了其实一般来说常用算法都已经被封装到库中了只要new出相应的模型即可。- end -推荐阅读7个免费的PDF文献资源网站再也不用为搜索文献发愁了机器学习丨15个最流行的GitHub机器学习项目SQL | 开发人员必学的几点 SQL 优化点Hive SQL50道练习题Hive使用必知必会系列天秀GitHub 硬核项目动漫生成器让照片秒变手绘日漫风SQL | 数据分析面试必备SQL语句语法?关注数据挖掘工程