昆明做网站需要多少钱,直播源码,学设计的个人网页设计作品欣赏,泉州哪家网站建设公司好《看见到洞见》系列文章汇聚、分享的是绿盟科技创新中心对于数据分析在安全领域应用的技战术思考与经验#xff0c;力求由浅入深层次递进#xff0c;实战到方法论双线剖析。此文为系列文章之引子第二篇#xff0c;深入浅出的对常用的数据分析和机器学习的算法进行介绍。在上… 《看见到洞见》系列文章汇聚、分享的是绿盟科技创新中心对于数据分析在安全领域应用的技战术思考与经验力求由浅入深层次递进实战到方法论双线剖析。此文为系列文章之引子第二篇深入浅出的对常用的数据分析和机器学习的算法进行介绍。在上一篇中我们介绍了几种常用的监督学习方法。在本篇中我们介绍无监督学习方法中的聚类方法。聚类是在高维度的未标注数据中寻找特征的一系列方法。其思想是按照某个特定标准如距离准则把一个数据集分割成不同的类或簇使得同一个簇内的数据对象的相似性尽可能大同时不在同一个簇中的数据对象的差异性也尽可能的大。即聚类后同一类的数据尽可能聚集到一起不同数据尽量分离。由于聚类算法不需要有标签的数据所以聚类算法在很多领域得到了广泛的应用如模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等。本篇将介绍K-means聚类层次聚类和DBSCAN聚类三种聚类算法。文章目录 K-means聚类层次聚类算法DBSCANK-means聚类K-means聚类算法是一种应用非常广泛的聚类方法是一种划分聚类方法。其基本思想为给定一个包含n个对象的数据集K-means聚类算法可以构建数据的k个划分每个划分就是一个簇并且满足 1、每个簇至少包含一个对象。 2、每个对象必须属于并且仅属于一个簇。K-means算法的流程如图 1所示。当结果簇是密集的而且簇和簇之间的区别比较明显时K-means的效果较好。对于大数据集K-means是相对可伸缩的和高效的它的复杂度是O(nkt)其中n是对象的个数k是簇的数目t是迭代的次数。K-means的最大问题是要求先给出k的个数。k的选择一般基于经验值和多次实验结果。对于不同的数据集k的取值没有可借鉴性。另外K-means对孤立数据点是敏感的少量噪声数据就能对平均值造成极大的影响。层次聚类算法与K-means算法不同层次聚类算法不再产生单一聚类而是产生一个聚类层次也就是说产生一棵层次树。层次聚类算法最多包含n步其中n是数据集中对象的数量。每一步执行的操作就是在前面步骤的聚类基础上生成新聚类。层次聚类算法的流程如图 2所示。1、将每个对象归为一类, 共得到n类每类仅包含一个对象。类与类之间的距离就是它们所包含的对象之间的距离。2、找到最接近的两个类并合并成一类于是总的类数少了一个。3、重新计算新的类与所有旧类之间的距离。4、重复第2步和第3步直到最后合并成一个类为止此类包含了n个对象。由于这种聚类算法迭代合并所有分类所以这种层次聚类称为“凝聚”法。也有一种“划分”层次聚类法与“凝聚”相反它先将所有对象放在同一类中并不断划分成更小的类划分法一般很少使用。DBSCANDensity-Based Spatial Clustering of Applications with Noise具有噪声的基于密度的聚类方法DBSCAN是一种基于密度的空间聚类算法。该算法将具有足够密度的区域划分为簇并能够在具有噪声的空间数据库中发现任意形状的簇。DBSCAN算法基于一个事实一个聚类可以由其中的任何核心对象唯一确定。等价可以表述为任一满足核心对象条件的数据对象p数据集D中所有从p密度可达的数据对象o所组成的集合构成了一个完整的聚类C且p属于C。算法流程可以描述为扫描整个数据集找到任意一个核心点对该核心点进行扩充。扩充的方法是寻找从该核心点出发的所有密度相连的数据点注意是密度相连。遍历该核心点的邻域内的所有核心点因为边界点是无法扩充的寻找与这些数据点密度相连的点直到没有可以扩充的数据点为止。最后聚类成的簇的边界节点都是非核心数据点。之后就是重新扫描数据集不包括之前寻找到的簇中的任何数据点寻找没有被聚类的核心点再重复上面的步骤对该核心点进行扩充直到数据集中没有新的核心点为止。数据集中没有包含在任何簇中的数据点就构成异常点。DBSCAN算法的显著优点是聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类。与K-means算法比较DBSCAN算法不需要输入要划分的聚类个数。但是由于它直接对整个数据库进行操作且进行聚类时使用了一个全局性的表征密度的参数因此也具有两个比较明显的弱点 1、当数据量增大时要求较大的内存支持I/O消耗也很大。 2、当空间聚类的密度不均匀、聚类间距差相差很大时聚类质量较差。小结本篇介绍了无监督学习的聚类算法中常用到的三种方法。至此机器学习算法方面的介绍也暂告一段落。转自网站绿盟科技博客网站链接http://blog.nsfocus.net/文章链接http://blog.nsfocus.net/machine-learning-algorithm2/版权归原作者所有转载仅供学习使用不用于任何商业用途如有侵权请留言联系删除感谢合作。数据与算法之美用数据解决不可能长按扫码关注