当前位置: 首页 > news >正文

深圳网站建设V芯ee8888e永州高端网站建设

深圳网站建设V芯ee8888e,永州高端网站建设,网站开发的实训周,apache搭建wordpress【深度学习#xff1a;t-SNE 】T 分布随机邻域嵌入 降低数据维度的目标什么是PCA和t-SNE#xff0c;两者有什么区别或相似之处#xff1f;主成分分析#xff08;PCA#xff09;t-分布式随机邻域嵌入#xff08;t-SNE#xff09; 在 MNIST 数据集上实现 PCA 和 t-SNE结论… 【深度学习t-SNE 】T 分布随机邻域嵌入 降低数据维度的目标什么是PCA和t-SNE两者有什么区别或相似之处主成分分析PCAt-分布式随机邻域嵌入t-SNE 在 MNIST 数据集上实现 PCA 和 t-SNE结论 了解 t-SNE 的基本原理、与 PCA 的区别以及如何在 MNIST 数据集上应用 t-SNE 在本文中您将了解到 t-SNE 与 PCA主成分分析的区别简单易懂地解释 t-SNE 的工作原理了解 t-SNE 可用的不同参数在 MNIST 上应用 t-SNE 和 PCA 如果数据集中有数百个特征或数据点而您想在二维或三维空间中表示它们该怎么办 在保留数据集中最多信息的同时降低数据集维度的两种常用技术是 主成分分析PCA分布式随机邻域嵌入t-SNE 降低数据维度的目标 在低维表示中尽可能多地保留高维数据中存在的数据的重要结构或信息。在较低维度上提高数据的可解释性最大限度地减少由于降维而导致的数据信息丢失 什么是PCA和t-SNE两者有什么区别或相似之处 PCA 和 t-SNE 都是无监督降维技术。这两种技术都用于将高维数据可视化到低维空间。 主成分分析PCA 一种用于特征提取和可视化的无监督确定性算法应用线性降维技术其重点是在低维空间中保持不同点之间的距离。通过使用特征值保留数据中的方差将原始数据转换为新数据。PCA 影响异常值。 t-分布式随机邻域嵌入t-SNE 一种无监督的随机算法仅用于可视化应用非线性降维技术其重点是在低维空间中保持非常相似的数据点靠近。使用学生 t 分布来计算低维空间中两点之间的相似度从而保留数据的局部结构。t-SNE 使用重尾 Student-t 分布而不是高斯分布来计算低维空间中两点之间的相似度这有助于解决拥挤和优化问题。异常值不会影响 t-SNE T 分布式随机邻域嵌入 (t-SNE) 是一种用于可视化的无监督机器学习算法由 Laurens van der Maaten 和 Geoffrey Hinton 开发。 t-SNE 如何运作 步骤 1查找高维空间中邻近点之间的成对相似度。 t-SNE 将数据点 xᵢ 和 xⱼ 之间的高维欧氏距离转换为条件概率 P(j|i)。 高维空间中的数据作者提供的图片 xᵢ 会根据以点 xᵢ 为中心的高斯分布下的概率密度比例选择 xⱼ 作为其邻居。 σi 是以数据点习为中心的高斯方差 一对点的概率密度与其相似度成正比。对于附近的数据点p(j|i) 将相对较高而对于相距较远的点p(j|i) 将很小。 对高维空间中的条件概率进行对称化得到高维空间中最终的相似度。 条件概率通过对两个概率求平均值来实现对称如下所示。 对称条件概率 步骤2根据高维空间中点的成对相似度将高维空间中的每个点映射到低维映射。 低维地图将是 2 维或 3 维地图 yᵢ 和 yⱼ 是高维数据点 xᵢ 和 xⱼ 的低维对应项。 我们计算类似于以点 yᵢ 为中心的高斯分布下的 P(j]i) 的条件概率 q(j|i)然后对概率进行对称化。 步骤 3使用基于 Kullback-Leibler 散度KL 散度的梯度下降找到一个低维数据表示以最小化 Pᵢⱼ 和 qᵢⱼ 之间的不匹配 Pᵢ 表示点 xᵢ 在所有其他数据点上的条件概率分布。 Qᵢ 表示给定地图点 yᵢ 的所有其他地图点的条件概率分布 t-SNE 使用梯度下降优化低维空间中的点。 为什么使用 KL 散度 当我们最小化 KL 散度时它使得 qᵢⱼ 在物理上与 Pᵢⱼ 相同因此高维空间中的数据结构将与低维空间中的数据结构相似。 基于KL散度方程 如果 Pᵢⱼ 很大那么我们需要很大的 qᵢⱼ 值来表示具有更高相似度的局部点。如果 Pᵢⱼ 很小那么我们需要较小的 qᵢⱼ 值来表示相距较远的局部点。 步骤 4使用 Student-t 分布计算低维空间中两点之间的相似度。 t-SNE 使用具有一个自由度的重尾 Student-t 分布来计算低维空间中两点之间的相似度而不是高斯分布。 T-分布创建了低维空间中点的概率分布这有助于减少拥挤问题。 如何在数据集上应用 t-SNE 在用 python 编写代码之前我们先了解一下可以使用的 TSNE 的一些关键参数 n_components嵌入空间的维度这是我们希望将高维数据转换为的较低维度。对于二维空间默认值为 2。 Perplexity困惑度与 t-SNE 算法中使用的最近邻居的数量有关。更大的数据集通常需要更大的困惑度。困惑度的值可以在 5 到 50 之间。默认值为 30。 n_iter优化的最大迭代次数。应至少为 250默认值为 1000 Learning_ratet-SNE 的学习率通常在 [10.0, 1000.0] 范围内默认值为 200.0。 在 MNIST 数据集上实现 PCA 和 t-SNE 我们将使用 sklearn.decomposition.PCA 应用 PCA并在 MNIST 数据集上使用 sklearn.manifold.TSNE 实现 t-SNE。 加载 MNIST 数据 导入所需的库 import time import numpy as np import pandas as pd获取 MNIST 训练和测试数据并检查训练数据的形状 (X_train, y_train) , (X_test, y_test) mnist.load_data() X_train.shape创建一个包含多个图像和图像中的像素数的数组并将 X_train 数据复制到 X X np.zeros((X_train.shape[0], 784)) for i in range(X_train.shape[0]):X[i] X_train[i].flatten()打乱数据集取出 10% 的 MNIST 训练数据并将其存储在数据框中。 X pd.DataFrame(X) Y pd.DataFrame(y_train) X X.sample(frac0.1, random_state10).reset_index(dropTrue) Y Y.sample(frac0.1, random_state10).reset_index(dropTrue) df X数据准备好后我们可以应用PCA和t-SNE。 在 MNIST 数据集上应用 PCA 使用 sklearn.decomposition 中的 PCA 库应用 PCA。 from sklearn.decomposition import PCA time_start time.time() pca PCA(n_components2) pca_results pca.fit_transform(df.values) print (PCA done! Time elapsed: {} seconds.format(time.time()-time_start))PCA 生成两个维度主成分 1 和主成分 2。将两个 PCA 成分与标签一起添加到数据框中。 pca_df pd.DataFrame(data pca_results, columns [pca_1, pca_2]) pca_df[label] Y仅在可视化时才需要该标签。 绘制 PCA 结果 fig plt.figure(figsize (8,8)) ax fig.add_subplot(1,1,1) ax.set_xlabel(Principal Component 1, fontsize 15) ax.set_ylabel(Principal Component 2, fontsize 15) ax.set_title(2 component PCA, fontsize 20) targets [0,1,2,3,4,5,6,7,8,9] colors[yellow, black, cyan, green, blue, red, brown,crimson, gold, indigo] for target, color in zip(targets,colors):indicesToKeep pca_df[label] targetax.scatter(pca_df.loc[indicesToKeep, pca_1], pca_df.loc[indicesToKeep, pca_2], c color, s 50) ax.legend(targets) ax.grid()在 MNIST 数据集上应用 t-SNE 导入 t-SNE 和可视化所需的库 import time from sklearn.manifold import TSNE import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D import seaborn as sns import matplotlib.patheffects as PathEffects %matplotlib inline首先使用默认参数创建 TSNE 实例然后将高维图像输入数据拟合到嵌入空间中并使用 fit_transform 返回转换后的输出。 图像数据的维度应为 (n_samples, n_features) 形状 time_start time.time() tsne TSNE(random0) tsne_results tsne.fit_transform(df.values) print (t-SNE done! Time elapsed: {} seconds.format(time.time()-time_start))将标签添加到数据框中并且仅在绘图期间使用它来标记集群以进行可视化。 df[label] Y数据可视化功能 def plot_scatter(x, colors):# choose a color palette with seaborn.num_classes len(np.unique(colors))palette np.array(sns.color_palette(hls, num_classes))print(palette)# create a scatter plot.f plt.figure(figsize(8, 8))ax plt.subplot(aspectequal)sc ax.scatter(x[:,0], x[:,1], cpalette[colors.astype(np.int)], cmapplt.cm.get_cmap(Paired))plt.xlim(-25, 25)plt.ylim(-25, 25)ax.axis(off)ax.axis(tight) # add the labels for each digit corresponding to the labeltxts [] for i in range(num_classes): # Position of each label at median of data points. xtext, ytext np.median(x[colors i, :], axis0)txt ax.text(xtext, ytext, str(i), fontsize24)txt.set_path_effects([PathEffects.Stroke(linewidth5, foregroundw),PathEffects.Normal()])txts.append(txt) return f, ax, sc, txts可视化 MNIST 数据集的 -SNE 结果 plot_scatter( tsne_results, df[label])尝试使用不同的参数值并观察不同的绘图 不同困惑值的可视化 n_iter 不同值的可视化 我们可以看到从 t-SNE 图生成的聚类比使用 PCA 生成的聚类更加明确。 PCA 是确定性的而 t-SNE 不是确定性的并且是随机的。t-SNE 尝试仅映射局部邻居而 PCA 只是我们初始协方差矩阵的对角旋转特征向量表示并保留全局属性 结论 PCA和t-SNE是两种常见的降维方法它们使用不同的技术将高维数据降维为可以可视化的低维数据。
http://www.zqtcl.cn/news/920755/

相关文章:

  • 公司网站建设哪里实惠网页设计作业百度网盘
  • 如何seo网站挣钱不同企业的网络营销网站
  • 自己做网站有什么用网站怎样设计网址
  • 做任务的网站有那些wordpress链接在哪里
  • 免费建站模板网站招聘网站哪个好
  • 网站建站推广是啥意思高端网站建设浩森宇特
  • 长治电子商务网站建设中国建设银行总行官方网站
  • 整站营销系统厚街镇网站仿做
  • 舆情分析网站wordpress文章聚合
  • 中国建设银行网站在哪上市cpa自己做网站
  • 网站建设服务支持jquery插件 wordpress
  • 最有效的100个营销方法seo工作室
  • wordpress o2o主题嘉兴网站优化联系方式
  • 网站建设最基础的是什么网站怎么做架构
  • 网站底部怎么修改网站服务器是干什么的
  • 网络营销是营销的网络化吗广州推广seo
  • 茌平做网站推广网站刷链接怎么做的
  • 东莞网站优化推广Wordpress的根目录在哪
  • 备案的网站建设书是什么意思跨境电商代运营公司十强
  • 网站建设的功能要求wordpress typo3
  • 深圳网站平台前程无忧招聘网
  • 个人业余做网站怎么弄wordpress子主题修改
  • 深圳营销型网站建设优化做虚拟币网站需要什么手续
  • 青海市建设局网站西安网站seo推广
  • 广元做网站的公司合肥市建设网
  • 如何做网站不被查如何做网站内部优化
  • 网站建设用什么框架好做网站需要用到哪些开发软件
  • 网站建设工程师待遇wordpress 工具插件
  • 网站怎样做反向链接中国新闻社邮箱
  • 专业的外贸网站建设wordpress后台编辑