招远做网站,杂粮网站建设的必要性,阳江网红人物,网站建设第一步怎么弄简介
研究了最初用于图像生成的去噪扩散模型(DDM)的表示学习能力 解构DDM#xff0c;逐步将其转变为经典的去噪自动编码器(DAE) 探索现代ddm的各个组成部分如何影响自监督表征学习
结论#xff1a; 只有很少的现代组件对于学习良好的表示是至关重要的#xff0c;而其他许多…简介
研究了最初用于图像生成的去噪扩散模型(DDM)的表示学习能力 解构DDM逐步将其转变为经典的去噪自动编码器(DAE) 探索现代ddm的各个组成部分如何影响自监督表征学习
结论 只有很少的现代组件对于学习良好的表示是至关重要的而其他许多组件则是不必要的 DDM的表示能力主要是由去噪驱动的过程获得的而不是扩散驱动的过程 成果一种高度简化的方法并且在很大程度上类似于经典的DAE——l-DAE 通过主成分基(即V)将输入图像投影到隐空间中在隐空间中加入噪声并通过逆主成分基将带噪声的隐投影回图像空间
上图(中间底部)显示了在潜在空间中添加噪声的示例图像
将这个有噪声的图像作为网络的输入可以应用一个标准的ViT网络它直接对图像进行操作就好像没有tokenizer一样
背景
Denoising Diffusion Models (DDM) 实现了令人印象深刻的图像生成质量特别是对于高分辨率、逼真的图像对于理解视觉内容似乎具有很强的识别表征
t时间步的噪声图像为 ϵ ∼ N ( 0 , I ) \epsilon \sim N(0,I) ϵ∼N(0,I), γ t 2 σ t 2 1 \gamma^2_t \sigma^2_t1 γt2σt21
网络预测噪声拟合增加的噪声
实验过程
noise
去掉DDM的分类条件
假设直接对模型进行类标签的调节可以减少模型对与类标签相关的信息编码的需求。移除类条件可以迫使模型学习更多的语义采用线性衰减噪声噪声
实验结果 结论自监督学习绩效与生成质量无关
Tokenizer
更换Tokenizer分别为Convolutional VAE、Patch-wise VAE、Patch-wise AE和Patch-wise PCA
结论标记器的潜在维数是DDM在自监督学习中发挥作用的关键
卷积VAE标记器既不是必要的也不是有利的;相反所有基于补丁的标记器其中每个补丁都是独立编码的彼此之间的表现相似并且始终优于Conv VAE变体。此外KL正则化项是不必要的因为AE和PCA变体都能很好地工作结论高分辨率、基于像素的ddm不如自监督学习。
Autoencoders
不同与DDM预测噪声经典DAE直接预测清晰图像 λ t γ t 2 / σ t 2 \lambda_t \gamma^2_t / \sigma^2_t λtγt2/σt2实验设置 λ t γ t 2 \lambda_t\gamma^2_t λtγt2效果更好
去掉输入缩放 设置 γ t 1 \gamma_t1 γt1, σ t \sigma_t σt是0到 2 \sqrt{2} 2 的线性变化 λ t 1 / ( 1 σ t 2 ) \lambda_t1/(1\sigma^2_t) λt1/(1σt2) 结论不需要按 γ t \gamma_t γt缩放数据3
用逆PCA对图像空间进行操作
通过主成分基(即V)将输入图像投影到隐空间中在隐空间中加入噪声并通过逆主成分基将带噪声的隐投影回图像空间将这个有噪声的图像作为网络的输入可以应用一个标准的ViT网络它直接对图像进行操作就好像没有tokenizer一样
结论用逆主成分分析对图像空间进行处理可以获得与对潜在空间进行处理相似的结果
预测原始图像l-DAE
PCA对于任何降维d都是有损编码器
当让网络预测原始图像时引入的“噪声”包括两部分:(i)加性高斯噪声其固有维数为d; (ii) PCA重构误差其固有维数为D - d (d为768)
使用干净的原始图像 x 0 x_0 x0和网络预测网( x t x_t xt)可以计算投影到完整PCA空间上的残差 r ≜ V ( x 0 − n e t ( x t ) ) r \triangleq V(x_0-net(x_t)) r≜V(x0−net(xt))V是表示完整PCA基的D乘D矩阵
损失函数为 i 表示向量 r 的第 i 维当 i≤d 时每维权重 w i w_i wi 为1当d i≤d时每维权重 w i w_i wi 为0.1 w i w_i wi 降低了PCA重构误差损失的权重 单层噪声 设置 σ 1 / 3 \sigma\sqrt{1/3} σ1/3 指标下降为61.5%下降了三个点
结论 使用多级噪声类似于DAE中的一种数据增强形式:它是有益的但不是促成因素 DDM的表示能力主要是通过去噪驱动过程获得的而不是扩散驱动过程
总结 可视化可以帮助更好地理解l-DAE如何学习良好的表示
l-DAE它在很大程度上类似于经典DAE可以在自监督学习中表现得很有竞争力。关键分量是加有噪声的低维潜在空间。