企业网站建设实训建议,珠海住房和建设局网站,互联网营销师证书有用吗,东莞网站建设seo动学学深度学习pytorch 参考地址#xff1a;https://zh.d2l.ai/ 文章目录动学学深度学习pytorch1-第07章-现代卷积神经网络1. AlexNet1.1 AlexNet 的核心贡献是什么#xff1f;1.2 AlexNet 与 LeNet 的主要区别有哪些#xff1f;1.3 为什么 AlexNet 需要 GPU 训练#xff1…动学学深度学习pytorch 参考地址https://zh.d2l.ai/ 文章目录动学学深度学习pytorch1-第07章-现代卷积神经网络1. AlexNet1.1 AlexNet 的核心贡献是什么1.2 AlexNet 与 LeNet 的主要区别有哪些1.3 为什么 AlexNet 需要 GPU 训练2. VGG2.1 VGG 的核心设计思想是什么2.2 VGG-11 的架构如何定义2.3 为什么 VGG 计算量大于 AlexNet3. NiNNetwork in Network3.1 NiN 如何解决全连接层的问题3.2 NiN 的核心模块是什么3.3 NiN 的参数量为何显著减少4. GoogLeNetInception4.1 Inception 块的设计动机是什么4.2 Inception 块如何降低计算复杂度4.3 GoogLeNet 的架构特点5. 批量规范化BatchNorm5.1 批量规范化的作用是什么5.2 批量规范化的计算流程5.3 为什么批量规范化能正则化6. ResNet残差网络6.1 残差块如何解决深层网络退化问题6.2 ResNet-18 的架构特点6.3 为什么残差连接有效7. DenseNet稠密连接网络7.1 DenseNet 与 ResNet 的核心区别7.2 DenseNet 的关键模块7.3 为什么 DenseNet 参数更少1-第07章-现代卷积神经网络
1. AlexNet
1.1 AlexNet 的核心贡献是什么
AlexNet 首次在大规模视觉竞赛中证明学习到的特征可以超越手工设计的特征标志着深度学习在计算机视觉领域的重大突破。
1.2 AlexNet 与 LeNet 的主要区别有哪些
深度更深8 层 vs LeNet 的 5 层激活函数使用 ReLU 而非 Sigmoid参数规模卷积通道数是 LeNet 的 10 倍全连接层参数量达 1GB正则化使用 Dropout 和大量数据增强翻转、裁切、变色
1.3 为什么 AlexNet 需要 GPU 训练
计算需求大规模矩阵乘法和卷积操作312 TFLOPS vs CPU 的 1 TFLOPS内存需求早期 GPU 显存有限3GB GTX580需双 GPU 并行设计
2. VGG
2.1 VGG 的核心设计思想是什么
通过重复使用统一的 VGG块3×3 卷积 ReLU 2×2 最大池化构建深层网络强调“更深更窄”的卷积比“更浅更宽”更有效。
2.2 VGG-11 的架构如何定义
conv_arch ((1,64), (1,128), (2,256), (2,512), (2,512)) # (卷积层数, 输出通道数)2.3 为什么 VGG 计算量大于 AlexNet
更深的卷积层8 层 vs 5 层更大的全连接层输入25088 vs 6400
3. NiNNetwork in Network
3.1 NiN 如何解决全连接层的问题
用 1×1 卷积层 替代全连接层实现逐像素的 MLP保留空间结构的同时减少参数量。
3.2 NiN 的核心模块是什么
NiN块1 个 3×3 卷积 2 个 1×1 卷积逐像素 MLP 最后用 全局平均池化层 替代全连接层输出。
3.3 NiN 的参数量为何显著减少
取消全连接层后参数量从 AlexNet 的 1GB 降至 NiN 的 10MBFashion-MNIST 示例。
4. GoogLeNetInception
4.1 Inception 块的设计动机是什么
通过 多尺度并行路径1×1、3×3、5×5 卷积 3×3 池化高效提取图像特征解决“多大卷积核最合适”的问题。
4.2 Inception 块如何降低计算复杂度
1×1 卷积降维在 3×3 和 5×5 卷积前减少通道数如 192→96通道合并四条路径输出在通道维度拼接。
4.3 GoogLeNet 的架构特点
9 个 Inception 块堆叠全局平均池化层替代全连接层参数量仅为 AlexNet 的 1/126M vs 60M
5. 批量规范化BatchNorm
5.1 批量规范化的作用是什么
通过规范化中间层输入减均值除方差加速收敛减少对初始化和学习率的敏感性同时具有正则化效果。
5.2 批量规范化的计算流程
BN(x) γ * (x - μ_B) / sqrt(σ²_B ε) βμ_B 和 σ²_B当前批次的均值和方差γ 和 β可学习的缩放和偏移参数
5.3 为什么批量规范化能正则化
训练中引入的批次统计噪声μ_B 和 σ²_B 的随机性相当于隐式正则化类似于 Dropout 的效果。
6. ResNet残差网络
6.1 残差块如何解决深层网络退化问题
通过 跳跃连接Skip Connection使网络能够学习 残差映射 F(x) H(x) - x而非直接拟合 H(x)确保新增层至少不劣于原网络。
6.2 ResNet-18 的架构特点
4 个残差模块每个含 2 个残差块通道数逐模块翻倍64→128→256→512全局平均池化层输出512→10
6.3 为什么残差连接有效
数学保证嵌套函数类 F ⊆ F’新增层可退化为恒等映射梯度传播跳跃连接缓解梯度消失支持训练 152 层网络。
7. DenseNet稠密连接网络
7.1 DenseNet 与 ResNet 的核心区别
连接方式ResNet 是 相加x F(x)DenseNet 是 通道拼接[x, F(x)]特征复用每一层接收前面所有层的特征图作为输入。
7.2 DenseNet 的关键模块
稠密块DenseBlock每层输出通道数为增长率如 32输入通道数线性增长增长率 × 层数。过渡层Transition Layer1×1 卷积降维 2×2 平均池化降采样。
7.3 为什么 DenseNet 参数更少
特征复用减少冗余参数过渡层控制通道数如 1024→512增长率32远小于 ResNet 的通道增量256→512。