当前位置: 首页 > news >正文

网站建设用户登录源码企业网站导航菜单

网站建设用户登录源码,企业网站导航菜单,wordpress上传中文文件,抖音营销降维概述 维数灾难 维数灾难(Curse of Dimensionality)#xff1a;通常是指在涉及到向量的计算的问题中#xff0c;随着维数的增加#xff0c;计算量呈指数倍增长的一种现象。在很多机器学习问题中#xff0c;训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这…降维概述 维数灾难 维数灾难(Curse of Dimensionality)通常是指在涉及到向量的计算的问题中随着维数的增加计算量呈指数倍增长的一种现象。在很多机器学习问题中训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话不仅会让训练非常缓慢还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。 维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。在机器学习的建模过程中通常指的是随着特征数量的增多计算量会变得很大如特征达到上亿维的话在进行计算的时候是算不出来的。有的时候维度太大也会导致机器学习性能的下降并不是特征维度越大越好模型的性能会随着特征的增加先上升后下降。 降维 降维(Dimensionality Reduction)是将训练数据中的样本(实例)从高维空间转换到低维空间该过程与信息论中有损压缩概念密切相关。同时要明白的不存在完全无损的降维。有很多种算法可以完成对原始数据的降维在这些方法中降维是通过对原始数据的线性变换实现的。 为什么要降维 高维数据增加了运算的难度 高维使得学习算法的泛化能力变弱例如在最近邻分类器中样本复杂度随着维度成指数增长维度越高算法的搜索难度和成本就越大。 降维能够增加数据的可读性利于发掘数据的有意义的结构降维的作用 1.减少冗余特征降低数据维度 假设我们有两个特征 1:长度用厘米表示的身高2是用英寸表示的身高。 这两个分开的特征1和2实际上表示的内容相同这样其实可以减少数据到一维只有一个特征表示身高就够了。 很多特征具有线性关系具有线性关系的特征很多都是冗余的特征去掉冗余特征对机器学习的计算结果不会有影响。 2.数据可视化 t-distributed Stochastic Neighbor Embedding(t-SNE) t-SNETSNE将数据点之间的相似度转换为概率。原始空间中的相似度由高斯联合概率表示嵌入空间的相似度由“学生t分布”表示。虽然IsomapLLE和variants等数据降维和可视化方法更适合展开单个连续的低维的manifold。但如果要准确的可视化样本间的相似度关系如对于下图所示的S曲线不同颜色的图像表示不同类别的数据t-SNE表现更好。因为t-SNE主要是关注数据的局部结构 降维的优缺点 降维的优点 • 通过减少特征的维数数据集存储所需的空间也相应减少减少了特征维数所需的计算训练时间 • 数据集特征的降维有助于快速可视化数据 • 通过处理多重共线性消除冗余特征。降维的缺点 • 由于降维可能会丢失一些数据 • 在主成分分析(PCA)降维技术中有时需要考虑多少主成分是难以确定的往往使用经验法则 SVD(奇异值分解) **奇异值分解 (Singular Value Decomposition以下简称 SVD)**是在机器学习领域广泛应用的算法它不光可以用于降维算法中的特征分解还可以用于推荐系统以及自然语言处理等领域。是很多机器学习算法的基石。 SVD可以将一个矩阵 分解为三个矩阵的乘积 一个正交矩阵 (orthogonal matrix) 一个对角矩阵 (diagonal matrix) 一个正交矩阵的转置。 假设矩阵 是一个 × 的矩阵通过SVD是对矩阵进行分解那么我们定义矩阵 的 SVD 为 符号定义 T 111T ⋯ T 其中是一个 × 的矩阵每个特征向量叫做 的左奇异向量。 是一个 × 的矩阵除了主对角线上的元素以外全为 0主对角线上的每个元素都称为奇异值 。 是一个 × 的矩阵每个特征向量叫做 的右奇异向量。 和 都是酉矩阵即满足:T , T 。 为矩阵的秩(rank)。 SVD求解 矩阵求解 方阵T为 × 的一个方阵那么我们就可以进行特征分解得到的特 征值和特征向量满足下式 可以得到矩阵T的 个特征值和对应的 个特征向量了。 将T的所有特征向量组成一个 × 的矩阵就是我们 公式里面的 矩阵了。 一般我们将中的每个特征向量叫做 的左奇异向量。 注意T (VT)(VT)T (T)UT 上式证明使用了T , T 。可以看出的T特征向量组成的矩阵就是我们 SVD 中的 矩阵。 矩阵求解 如果我们将 的转置和 做矩阵乘法那么会得到 × 的一个方阵T。既然T是方阵那么我们就可以进行特征分解得到的特征值和特征向量满足下式 这样我们就可以得到矩阵T的 个特征值和对应的个特征向量了。 将T的所有特征向量组成一个 × 的矩阵就是我们 SVD 公式里面的 矩阵了。一般我们将 中的每个特征向量叫做 的右奇异向量。 注意T (VT)T (VT)V(T)VT 上式证明使用了UTU , T 。可以看出的T特征向量组成的矩阵就是我们 SVD 中的 V矩阵。 SVD计算案例 SVD分解可以将一个矩阵进行分解对角矩阵对角线上的特征值递减存放而且奇异值的减少特别的快在很多情况下前 10%甚至 1%的奇异值的和就占了全部的奇异值之和的 99%以上的比例。 也就是说对于奇异值它跟我们特征分解中的特征值类似我们也可以用最大的 个的奇异值和对应的左右奇异向量来近似描述矩阵。 PCA(主成分分析) 主成分分析Principal Component Analysis,PCA是一种降维方法通过将一个大的特征集转换成一个较小的特征集这个特征集仍然包含了原始数据中的大部分信息从而降低了原始数据的维数。 减少一个数据集的特征数量自然是以牺牲准确性为代价的但降维的诀窍是用一点准确性换取简单性。因为更小的数据集更容易探索和可视化并且对于机器学习算法来说分析数据会更快、更容易而不需要处理额外的特征。 如何得到这些包含最大差异性的主成分方向呢? 通过计算数据矩阵的协方差矩阵 然后得到协方差矩阵的特征值特征向量 选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。 这样就可以将数据矩阵转换到新的空间当中实现数据特征的降维。 PCA的算法两种实现方法 (1) 基于SVD分解协方差矩阵实现PCA算法 PCA 减少维到维 设有条维数据将原始数据按列组成行列矩阵 第一步是均值归一化。我们需要计算出所有特征的均值然后令 − 。为均值。如果特征是在不同的数量级上我们还需要将其除以标准差 2。 第二步是计算协方差矩阵covariance matrix 第三步是计算协方差矩阵的特征向量eigenvectors,可以利用奇异值分解(SVD)来求解。 (2) 基于特征值分解协方差矩阵实现PCA算法 背景知识 (1) 特征值与特征向量 如果一个向量是矩阵的特征向量将一定可以表示成下面的形式 其中是特征向量对应的特征值一个矩阵的一组特征向量是一组正交向量。 (2)特征值分解矩阵 对于矩阵 有一组特征向量 将这组向量进行正交化单位化就能得到一组正交单位向量。特征值分解就是将矩阵分解为如下式 −1 其中是矩阵的特征向量组成的矩阵 则是一个对角阵对角线上的元素就是特征值。 备注对于正交矩阵有−1 T PCA的算法案例 PCA算法优缺点 PCA算法优点 1.仅仅需要以方差衡量信息量,不受数据集以外的因素影响 2.各主成分之间正交,可消除原始数据成分间的相互影响的因素 3.计算方法简单,主要运算时特征值分解,易于实现 4.它是无监督学习,完全无参数限制的PCA算法缺点 1.主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强 2.方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响
http://www.zqtcl.cn/news/199143/

相关文章:

  • 怎样做公司网站介绍网站百度排名优化
  • 广州网站建设工作室招聘wordpress在哪里设置编辑器
  • 苏州网站建设功能大宗交易平台软件
  • 无域名网站 能否被百度品牌营销优化
  • 做爰全过程免费的网站视频做网站视频背景
  • 网站布局设计分析特点手机网站设计欣赏网站
  • 建设网站对服务器有什么要求灌南县规划局网站一品嘉苑规划建设
  • 常平镇仿做网站wordpress教程 菜单
  • 大气的企业网站做网站服务怎么赚钱
  • 如何用网站做淘宝客网易企业邮箱怎么修改密码
  • 白酒网站设计wordpress增加网址大全
  • 网站上图片可以做商业作品吗成都十大景观设计公司
  • 自助建站网站哪个好2017织梦网站怎么做seo
  • 佛山新网站建设咨询做业精灵官方网站
  • 大庆网站设计费用asp网站仿制
  • 革吉网站建设网页游戏中心大全
  • 好的网站特点京东物流网站建设特点
  • 昆明企业自助建站系统网站建设技术交流
  • 卖网站模板网站哪家做的比较好
  • 舟山网站网站建设视频网站建设应该注意什么
  • 网站建设 思维导图免费flash网站源码
  • 提供零基础网站建设教学公司wordpress悬浮下拉
  • 做网站代码难么南京市建设监理协会网站
  • 网站维护 静态页面正规企业展厅设计公司
  • 网站分享图片怎么做东莞网站优化关键词费用
  • 做摄影网站的目的域名注册和网站设计服务
  • 手表网站设计免费常州百度推广优化
  • 网站开发找聚脑网视频直播源码
  • 提供免费服务器的网站南沙电子商务网站建设
  • 厦门网站建设开发公司企业网站设计源代码