雅安市住房和城乡建设局网站,餐饮设计公司网站,手机与pc网站同步模板,怎么做外国网站一、说明 我目睹了关于 Vision Transformer 的争论#xff0c;讨论它们如何与 CNN 一样好或更好。我想知道我们是否也同样争论菠萝比西瓜好#xff01;或者马比海豚更好#xff1f;其中许多讨论往往缺乏具体性#xff0c;有时可能会歪曲上下文。 作为背景#xff0c;在快速… 一、说明 我目睹了关于 Vision Transformer 的争论讨论它们如何与 CNN 一样好或更好。我想知道我们是否也同样争论菠萝比西瓜好或者马比海豚更好其中许多讨论往往缺乏具体性有时可能会歪曲上下文。 作为背景在快速发展的深度学习领域有两种架构在图像“分类”任务中脱颖而出卷积神经网络ConvNets和视觉变换器ViTs。虽然从业者经常交替使用它们进行分类但它们的数学基础是不同的。 在本文中我深入研究了这些架构的数学原理阐明了它们在分类方面的功能等效性以及生成任务中的差异。我还提供了关于预算如何根据具体情况趋同或不同的数学比较。 二、深入探讨非生成功能等价 2.1. 层次特征空间 卷积网络 给定输入I和滤波器 { Fk }卷积定义为 堆叠这些卷积 其中σ是激活函数bk是偏置项。 维特 代币进行自我关注 整个序列演变为 两种架构都基于其输入逐层构建对分层模式进行建模。 2.2. 注入非线性 卷积网络 ReLU常用 维特 GELU 在变形金刚中很典型 这些非线性确保模型可以捕获复杂的模式。 2.3. 分类参数化的效率 卷积网络 由于权重共享 维特 尽管它们随序列长度呈二次方增长但像 Linformer 这样的线性近似 两者都描绘了特征空间形成稳健的决策边界。 到目前为止我们了解到虽然 ConvNet 和 Vision Transformer 具有不同的数学基础但它们在分类任务中表现出显着的功能等效性。他们捕获分层模式并对其进行有效分类的方法使它们成为从业者的首选。 三、非生成式培训预算它们的协调点 在非生成任务主要是分类中两种架构的训练预算表现出显着的相似性。让我们从数学上探讨一下这个问题。 3.1. 计算复杂度 卷积网络 卷积层的计算成本为 其中K是滤波器大小M × N是特征图大小。 维特 对于自我关注 其中L是序列长度N是特征维度。 在实践中对于大规模数据集和深度网络这些复杂性往往会收敛特别是在使用 Linformer 或 Performer 等高效转换器变体时。 3.2. 内存占用 卷积网络 由于权重共享所需的内存为 其中D_in 和D_out 是输入和输出深度。 维特 内存成本为 同样通过有效的变体和优化内存占用量可以与大规模分类任务紧密结合。 正如我们所看到的从数学上来说ConvNet 和 Vision Transformer 在大规模分类任务的非生成任务的训练预算方面是趋同的。 四、生成任务分歧 4.1. 空间相干性 卷积网络 它们本质上保持空间连贯性 维特 ViT 需要位置嵌入 虽然 ConvNet 生成自然平滑的图像但 ViT 可能需要添加约束。 4.2. 顺序数据生成 卷积网络 在 PixelCNN 等架构中 维特 Transformer 自然地处理序列 ViT 在自然生成序列方面具有优势而 ConvNet 需要特定的设计。 4.3.潜在空间动力学 卷积网络 在 VAE 结构中 维特 更丰富的潜在空间的潜力 ViT 可能由于其自注意力机制而捕获复杂的潜在空间而 ConvNet 可能需要更复杂的设计。 正如我们所看到的当冒险进入生成领域时他们固有的偏见明显地表现出来。 五、生成预算情景出现差异的地方 当谈到生成任务时ConvNet 和 ViT 的训练预算开始出现显着差异。 5.1. 空间连贯性和连续性 卷积网络 固有的空间结构确保了局部相干的输出。因此获得高质量图像可能需要更少的训练迭代 其中ϵ_conv是 ConvNet 的收敛速度。 维特 ViT 缺乏固有的空间偏差可能需要额外的训练迭代来确保生成图像的局部一致性 由于缺乏空间先验ϵ_vit通常小于ϵ_conv 。 5.2. 潜在空间探索 卷积网络 对 VAE 等生成模型中潜在空间的探索是直接的 其中Z是潜在空间的维数。 维特 考虑到自注意力机制ViT 可能会对潜在空间表现出更丰富的探索但计算成本可能更高这会在顺序依赖性中得到抵消 5.3. 顺序依赖 卷积网络 尽管具有适应性但卷积网络本质上并不是顺序的。因此建模顺序依赖关系可能需要更复杂的设计和可能更长的训练这是 ViT 在生成用例上击败 ConvNet 的地方 其中τ是序列长度δ_conv是迭代因子。 维特 鉴于 ViT 起源于 NLP它可以自然地处理序列从而有可能减少所需的训练迭代 其中δ_vit通常小于δ_conv 。 在生成场景中情况发生了巨大的变化。具有空间先验的 ConvNet 可能在图像生成方面具有优势而具有全局注意力的 ViT 可能更适合文本或多模态域生成等任务且预算可能较少。同样这在很大程度上取决于使用环境和数据集大小。背景很重要。 希望这种数学深入研究能够提供一个视角来理解两种架构的优势和挑战指导研究人员根据领域和上下文选择不同的任务。