做网站烧钱,滕州助企网站建设,什么是h5设计,如何查看网站域名解析上篇文章中我们主要总结了非线性的降维技术#xff0c;本文我们来总结一下常见的线性降维技术。
1、Principal Component Analysis (PCA)
Principal Component Analysis (PCA) 是一种常用的降维技术#xff0c;用于将高维数据集转换为低维表示#xff0c;同时保留数据集的…上篇文章中我们主要总结了非线性的降维技术本文我们来总结一下常见的线性降维技术。
1、Principal Component Analysis (PCA)
Principal Component Analysis (PCA) 是一种常用的降维技术用于将高维数据集转换为低维表示同时保留数据集的主要特征。PCA 的目标是通过找到数据中最大方差的方向主成分将数据投影到这些方向上从而实现降维。 PCA 的主要思想是通过线性变换将原始数据映射到一个新的坐标系下使得在新的坐标系下数据的方差最大化。这些新的坐标轴称为主成分它们是原始特征的线性组合。通过保留最大方差的主成分可以保留数据中最重要的信息而丢弃方差较小的主成分可以达到降维的效果。
PCA 的步骤如下
标准化数据对原始数据进行标准化处理使得每个特征的均值为 0方差为 1。计算协方差矩阵计算标准化后的数据的协方差矩阵。计算特征值和特征向量对协方差矩阵进行特征值分解得到特征值和对应的特征向量。选择主成分按照特征值的大小选择前 k 个特征向量作为主成分其中 k 是降维后的维度。投影数据将原始数据投影到选定的主成分上得到降维后的数据集。
PCA 可以用于数据可视化、去除噪音、减少计算量等。然而需要注意的是PCA 假设数据是线性可分的因此在应用 PCA 之前需要对数据进行一定的预处理和理解。
2、Factor Analysis (FA)
Factor Analysis (FA) 是一种统计方法用于探索观察到的变量之间的潜在结构或因素。它试图找到能够解释观察到的变量之间共同变异的潜在因素并将这些变量归纳为较少数量的无关变量。 FA 和 PCA 有些相似但也有一些重要的区别
目标PCA 旨在找到最大方差的方向而 FA 旨在找到潜在的变量因素这些变量能够解释观察到的变量之间的共同变异。假设PCA 假设观察到的变量是观察到的原始特征而 FA 假设观察到的变量是潜在因素的线性组合和随机误差的总和。解释性PCA 往往更直接因为它的主成分是原始特征的线性组合。而 FA 的因素可能不太容易解释因为它们是观察到的变量的线性组合而非原始特征。旋转在 FA 中因素通常会进行旋转以使它们更易于解释。
FA 在许多领域都有应用包括心理学、社会科学、市场研究等。它可用于简化数据集、识别潜在结构、减少测量误差等。但是需要谨慎选择适当的因素数目和因素旋转方法以确保结果的可解释性和有效性。
3、Linear Discriminant AnalysisLDA
线性判别分析Linear Discriminant AnalysisLDA是一种用于降维和特征提取的监督学习技术。它与主成分分析PCA不同因为它不仅考虑了数据的方差结构还考虑了数据的类别信息。LDA 旨在找到一个投影方向最大化不同类别之间的距离类间散布同时最小化同一类别内部的距离类内散布。 LDA 的主要步骤如下
计算类别的均值向量对于每个类别计算该类别下所有样本的均值向量。计算类内散布矩阵Within-class scatter matrix对于每个类别计算该类别下所有样本与其均值向量之间的散布矩阵并将它们求和。计算类间散布矩阵Between-class scatter matrix计算所有类别的均值向量与总体均值向量之间的散布矩阵。计算特征值和特征向量对于矩阵的逆矩阵乘以类间散布矩阵得到的矩阵进行特征值分解得到特征值和特征向量。选择投影方向选择特征值最大的前 k 个特征向量作为投影方向其中 k 是降维后的维度。投影数据将原始数据投影到选定的投影方向上得到降维后的数据。
LDA 的优点在于它考虑了数据的类别信息因此生成的投影能更好地区分不同类别之间的差异。它在模式识别、人脸识别、语音识别等领域中有着广泛的应用。LDA 在处理多类别和类别不平衡的情况下可能会遇到一些问题需要特别注意。
4、Eigendecomposition
Eigendecomposition特征值分解是一种用于对方阵进行分解的数学技术。它将一个方阵分解为一组特征向量和特征值的乘积形式。特征向量表示了在转换中不改变方向的方向而特征值表示了在转换中沿着这些方向的缩放比例。 给定一个方阵 A其特征值分解表示为 其中Q是由 A 的特征向量组成的矩阵Λ是对角矩阵其对角线上的元素是 A的特征值。
特征值分解有许多应用包括主成分分析PCA、特征脸识别、谱聚类等。在PCA中特征值分解用于找到数据协方差矩阵的特征向量从而找到数据的主成分。在谱聚类中特征值分解用于找到相似性图的特征向量从而进行聚类。特征脸识别利用了特征值分解来识别人脸图像中的重要特征。
虽然特征值分解在许多应用中非常有用但并非所有的方阵都能进行特征值分解。例如奇异矩阵singular matrix或非方阵就不能进行特征值分解。特征值分解在大型矩阵计算上可能是非常耗时的。
5、Singular value decomposition (SVD)
奇异值分解Singular Value DecompositionSVD是一种用于矩阵分解的重要技术。它将一个矩阵分解为三个矩阵的乘积形式这三个矩阵分别是一个正交矩阵、一个对角矩阵和另一个正交矩阵的转置。
给定一个 m × n 的矩阵 AA其奇异值分解表示为 其中U 是一个 m × m 的正交矩阵称为左奇异向量矩阵Σ 是一个 m × n 的对角矩阵其对角线上的元素称为奇异值VT 是一个 n × n 的正交矩阵的转置称为右奇异向量矩阵。
奇异值分解具有广泛的应用包括数据压缩、降维、矩阵逆求解、推荐系统等。在降维中只保留奇异值较大的项可以实现对数据的有效压缩和表示。在推荐系统中通过奇异值分解可以对用户和项目之间的关系进行建模从而提供个性化的推荐。
奇异值分解还可以用于矩阵逆求解特别是对于奇异矩阵。通过保留奇异值较大的项可以近似求解逆矩阵从而避免了对奇异矩阵求逆的问题。
6、Truncated Singular Value Decomposition (TSVD)
截断奇异值分解Truncated Singular Value DecompositionTSVD是奇异值分解SVD的一种变体它在计算中只保留最重要的奇异值和对应的奇异向量从而实现数据的降维和压缩。
给定一个 m × n 的矩阵 AA其截断奇异值分解表示为 其中Uk 是一个 m × k 的正交矩阵Σk 是一个 k × k 的对角矩阵VkT 是一个 k × n 的正交矩阵的转置这些矩阵对应于保留最重要的 k 个奇异值和对应的奇异向量。
TSVD 的主要优点在于它可以通过保留最重要的奇异值和奇异向量来实现数据的降维和压缩从而减少了存储和计算成本。这在处理大规模数据集时尤其有用因为可以显著减少所需的存储空间和计算时间。
TSVD 在许多领域都有应用包括图像处理、信号处理、推荐系统等。在这些应用中TSVD 可以用于降低数据的维度、去除噪声、提取关键特征等。
7、Non-Negative Matrix Factorization (NMF)
Non-Negative Matrix Factorization (NMF) 是一种用于数据分解和降维的技术其特点是分解得到的矩阵和向量都是非负的。这使得 NMF 在许多应用中都很有用特别是在文本挖掘、图像处理和推荐系统等领域。
给定一个非负矩阵 VVNMF 将其分解为两个非负矩阵 WW 和 HH 的乘积形式 其中W 是一个 m × k 的非负矩阵称为基矩阵basis matrix或者特征矩阵feature matrixH 是一个 k × n 的非负矩阵称为系数矩阵coefficient matrix。这里的 k 是降维后的维度。
NMF 的优点在于它能够得到具有物理含义的分解结果因为所有的元素都是非负的。这使得 NMF 在文本挖掘中能够发现潜在的主题而在图像处理中能够提取出图像的特征。此外NMF 还具有数据降维的功能可以减少数据的维度和存储空间。
NMF 的应用包括文本主题建模、图像分割与压缩、音频信号处理、推荐系统等。在这些领域中NMF 被广泛应用于数据分析和特征提取以及信息检索和分类等任务中。
总结
线性降维技术是一类用于将高维数据集映射到低维空间的技术其核心思想是通过线性变换来保留数据集的主要特征。这些线性降维技术在不同的应用场景中有其独特的优势和适用性可以根据数据的性质和任务的要求选择合适的方法。例如PCA适用于无监督的数据降维而LDA适用于监督学习任务。
结合前一篇文章我们介绍了10种非线性降维技术核7种线性降维技术下面我们来做个总结
**线性降维技术**基于线性变换将数据映射到低维空间适用于线性可分的数据集例如数据点分布在一个线性子空间上的情况因为其算法简单所以计算效率高易于理解和实现通常不能捕捉数据中的非线性结构可能会导致信息丢失。
**非线性降维技术**通过非线性变换将数据映射到低维空间适用于非线性结构的数据集例如数据点分布在流形上的情况能够更好地保留数据中的非线性结构和局部关系提供更好的可视化效果计算复杂度较高通常需要更多的计算资源和时间。
如果数据是线性可分的或者计算资源有限可以选择线性降维技术。而如果数据包含复杂的非线性结构或者需要更好的可视化效果可以考虑使用非线性降维技术。在实践中也可以尝试不同的方法并根据实际效果来选择最合适的降维技术。
https://avoid.overfit.cn/post/8e5b22f48f3e4b68afc9e30e6d7c329e