为啥网站打开速度慢,备案域名怎么弄,静态网站培训,移动端网站设计规范系列文章目录
第一章 【机器学习】初识机器学习
第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)
第三章 【机器学习】【监督学习】- 支持向量机 (SVM)
第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)
第五章【机器学习】【监督学习】- 决策树…
系列文章目录
第一章 【机器学习】初识机器学习
第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)
第三章 【机器学习】【监督学习】- 支持向量机 (SVM)
第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)
第五章【机器学习】【监督学习】- 决策树 (Decision Trees)
第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)
第七章 【机器学习】【监督学习】-神经网络 (Neural Networks)
第八章【机器学习】【监督学习】-卷积神经网络 (CNN)
第九章【机器学习】【监督学习】-循环神经网络 (RNN)
第十章【机器学习】【监督学习】-线性回归
第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)
第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)
十三、【机器学习】【监督学习】- Lasso回归 (Least Absolute Shrinkage and Selection Operator)
十四、【机器学习】【监督学习】- 弹性网回归 (Elastic Net Regression)
十五、【机器学习】【监督学习】- 神经网络回归
十六、【机器学习】【监督学习】- 支持向量回归 (SVR)
十七、【机器学习】【非监督学习】- K-均值 (K-Means)
十八、【机器学习】【非监督学习】- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)十九、【机器学习】【非监督学习】- 层次聚类 (Hierarchical Clustering)二十、【机器学习】【非监督学习】- 均值漂移 (Mean Shift) 目录
系列文章目录
一、非监督学习
一、定义
二、训练流程
三、基本算法分类 二、谱聚类 (Spectral Clustering)
一、定义
二、基本概念
三、训练过程
步骤 1: 构建相似性图
步骤 2: 计算度矩阵和拉普拉斯矩阵
步骤 3: 特征分解
步骤 4: 数据点映射
步骤 5: 聚类
步骤 6: 映射回原始空间
步骤 7: 评估和优化
四、特点
五、适用场景
六、扩展
三、总结 一、非监督学习
一、定义 非监督学习是一种机器学习方法它处理的是没有标签的数据集。与监督学习不同非监督学习算法不需要知道数据的正确分类或目标值。它的目标是通过数据内部的结构和模式来推断出有意义的信息如数据的分布、聚类、降维或异常检测等。
二、训练流程 非监督学习的训练流程通常包含以下几个步骤 数据准备收集和预处理数据可能包括数据清洗、缺失值处理、数据标准化或归一化等。 模型选择根据问题的性质选择合适的非监督学习算法。 参数初始化初始化模型的参数这一步对于某些算法至关重要如K-means聚类。 模型训练使用无标签数据训练模型寻找数据中的结构或模式。这一过程可能涉及到迭代优化直到满足某个停止准则如收敛或达到预定的迭代次数。 结果评估评估模型的结果这通常比监督学习更具有挑战性因为没有明确的“正确答案”。评估可能基于内在指标如聚类的紧凑度和分离度或外在指标如与已知分类的比较。 应用模型使用训练好的模型对新数据进行分析或预测如对新数据进行聚类或降维。
三、基本算法分类 非监督学习算法可以大致分为以下几类 聚类算法用于将数据点分组到不同的簇中常见的算法有K-means、层次聚类、DBSCAN、Gaussian Mixture Models等。 降维算法用于减少数据的维度同时尽可能保留数据的结构信息常见的算法有PCA主成分分析、t-SNEt-分布随机邻域嵌入、自编码器等。 关联规则学习用于发现数据集中项之间的关系如Apriori算法和Eclat算法。 异常检测算法用于识别数据集中的异常点或离群点如Isolation Forest、Local Outlier Factor等。 自组织映射SOM一种神经网络模型用于数据可视化和聚类可以将高维数据映射到低维空间中。 生成模型如变分自编码器VAE和生成对抗网络GAN它们可以生成类似训练数据的新样本。 非监督学习在很多场景中都有广泛应用如客户细分、图像识别、自然语言处理、生物信息学和推荐系统等。由于其灵活性和在处理大量未标注数据时的优势非监督学习是数据科学和人工智能领域的重要组成部分。 二、谱聚类 (Spectral Clustering)
一、定义 谱聚类是一种基于图论和线性代数的聚类方法它通过构建一个图来表示数据点之间的关系并利用图的拉普拉斯矩阵的谱性质来进行聚类。谱聚类在处理非凸和非球形数据分布时表现出色能够有效地捕捉数据的内在结构尤其是在高维空间中。
二、基本概念 谱聚类的基本思想是将聚类问题转换为图的最优划分问题。数据集中的每个样本点被看作图中的一个顶点而样本点之间的相似性则通过图中的边来表示。谱聚类的关键在于构建一个合适的相似性矩阵并利用拉普拉斯矩阵的特征分解来寻找最优的划分方案。
三、训练过程
谱聚类是一种基于图论的聚类方法其核心是通过构建图和分析图的拉普拉斯矩阵来揭示数据的内在结构。以下是谱聚类算法的详细训练过程
步骤 1: 构建相似性图 选择相似性度量首先你需要选择一种度量数据点之间相似性的方法。常见的方法是使用高斯核函数或固定半径邻域。 对于高斯核函数相似性 (,)可以定义为 其中 和 是数据集中的两个点σ是带宽参数控制着相似性衰减的速度。 构建邻接矩阵基于相似性度量创建邻接矩阵 A其中 (,)(,)如果 i 和 j 是邻居否则为 0。
步骤 2: 计算度矩阵和拉普拉斯矩阵 度矩阵计算度矩阵 它是一个对角矩阵其中 (,) 是第 个节点的度即 拉普拉斯矩阵使用度矩阵和邻接矩阵来构建拉普拉斯矩阵 L。常见的拉普拉斯矩阵定义有两种未标准化的 −和标准化的 。
步骤 3: 特征分解
求解特征向量对拉普拉斯矩阵 L进行特征分解找到 个最小的非零特征值对应的特征向量。这些特征向量通常组成一个矩阵 。
步骤 4: 数据点映射
映射到特征空间将数据点映射到由特征向量组成的 -维空间中形成矩阵 。
步骤 5: 聚类
执行聚类算法在新的 -维空间中使用 k-means 或其他聚类算法对数据点进行聚类。这一步骤将数据点分组到 个簇中。
步骤 6: 映射回原始空间
结果映射将聚类结果映射回原始数据空间得到最终的聚类结果。
步骤 7: 评估和优化 评估聚类质量使用适当的评估指标如轮廓系数、互信息或归一化互信息来衡量聚类的质量。 参数调优根据评估结果可能需要返回并调整相似性度量的参数如 或聚类数目 以获得更好的聚类效果。
四、特点
非参数化谱聚类不需要提前确定聚类的形状适用于各种形状和分布的数据集。全局最优理论上谱聚类能够找到全局最优的聚类结果尽管实际应用中可能受到数值稳定性和计算资源的限制。计算效率尽管谱聚类需要计算特征分解但在适当的优化下其计算效率仍可接受尤其是对于稀疏图。
五、适用场景
图像分割谱聚类能够有效地处理图像数据将其分割为多个连通区域。社交网络分析可用于分析社交网络中的社区结构。生物信息学在基因表达数据分析中用于识别不同的基因表达模式。计算机视觉在物体识别和场景理解中用于特征聚类和分类。
六、扩展
谱聚类有许多变体和扩展包括但不限于
随机游走谱聚类使用随机游走矩阵而非标准化的拉普拉斯矩阵。核谱聚类通过核函数将数据投影到高维空间再进行谱聚类。多视图谱聚类处理具有多个数据源或视角的问题如多模态数据的聚类。半监督和主动学习下的谱聚类利用少量标注数据来指导聚类过程提高聚类精度。
三、总结 聚类的一个关键优势是它能够处理复杂的数据分布即使数据不是凸形或球形分布也能找到有意义的聚类。然而它也存在一些挑战比如需要选择合适的相似性度量和参数以及在大规模数据集上可能面临的计算效率问题。在实际应用中可能还需要考虑如何有效地存储和处理大型的邻接矩阵和拉普拉斯矩阵。