自己做的小网站,云优化网站建设,建设银行网上银行网站进入不了,网络运营专员主要做什么工作论文地址#xff1a;https://arxiv.org/abs/1512.03385
摘要
重新定义了网络的学习方式
让网络直接学习输入信息与输出信息的差异(即残差)
比赛第一名1 介绍
不同级别的特征可以通过网络堆叠的方式来进行丰富
梯度爆炸、梯度消失解决办法#xff1a;1.网络参数的初始标准化… 论文地址https://arxiv.org/abs/1512.03385
摘要
重新定义了网络的学习方式
让网络直接学习输入信息与输出信息的差异(即残差)
比赛第一名1 介绍
不同级别的特征可以通过网络堆叠的方式来进行丰富
梯度爆炸、梯度消失解决办法1.网络参数的初始标准化2.网络中间层的标准化(BN)
退化的解决办法:残差模块shortcut可以跳过一层或者多次来进行实现恒等映射且没有增加额外的参数也没有增加计算的复杂度ResNet复杂度比VGG-16要低2 相关工作 residual representations:shortcut connections:不带门功能3 深度残差学习
3.1 残差学习残差函数 F(x)H(x)-x很难将非线性的层训练成恒等映射但是在残差的框架下如果恒等映射是最优的结果那么网络只需要让新增加的非线性层的权重变为0即可达到拟合恒等映射的目的。在实际的例子中恒等映射或许不是最优的结果但是却有助于解决训练退化的问题。(至少不会变差)3.2 shortcut实现identity mapping yF(x,{Wi})x解决x和F(x)维度不一样的问题:yF(x,{Wi})Ws*x (这种方法叫投影映射,会带来额外的参数和计算量)3.3 网络结构 普通网络残差网络维度增加(A) 新增的维度用0代替(zero-padding)(B) 线性投影(通过1x1卷积实现会带来额外的参数和计算量)尺寸不一致使用stridr2的卷积来让他们统一。(下采样的一种会带来额外的参数和计算量)3.4 部署 在卷积和激活之间添加了BN(方差偏移)SGD优化器mini-batch size256learning rate0.1( The learning rate starts from 0.1 and is divided by 10 when the error plateaus)momentum0.9没有使用dropout(与BN不兼容)4 实验
4.1 ImageNet分类 训练集128万验证集5万测试10万普通网络观测到训练退化的问题34层网络比18层网络有更高的训练误差这种退化现象不太可能是由梯度消失引起的因为BN的使用所以前向传播的过程中不会出现0方差的问题因为BN的使用反向传播的过程中所展示出现的梯度也是健康的猜测是由于更深的普通网络就是有指数级的更低的收敛速度。(有待验证)残差网络18层 34层对应增加的维度使用0进行填充(方案A)所以相对于普通网络没有增加新的参数发现32层残差网络展示了相当低的训练误差并且可以泛化到验证集说明残差网络结构可以解决退化问题恒等映射VS投影映射投影映射并不能在本质上解决退化的问题而且引入了新的参数。所以为了减少内存使用时间的复杂度和模型的大小选择主要使用恒等映射(parameter-free)维度增加时使用0进行填充。更深的瓶颈结构无参数的恒等映射对应瓶颈结构来说尤其重要轻量化。50层残差结构101层和152层残差结构和其他先进的方法比4.2 CIFAR-10数据集测试和分析 层响应分析开发大于1000层的网络4.3 在PASCAL和MS coco上的目标检测 在其他的识别任务上也有很好的泛化能力。比赛第一名