长沙高端网站制作公司,毕业设计某网站开发的开题报告范文,太月星网站建设程序开发,怎样做 云知梦 网站所谓多层感知器#xff0c;其实就是具有一个或多个隐藏层#xff08;hidden layer#xff09;的全连接前馈神经网络#xff0c;如图所示#xff0c;在最重要的求取损失关于权重的偏导数的过程上#xff0c;跟之前的 Logistic Regression 和 Softmax Regression 一样… 所谓多层感知器其实就是具有一个或多个隐藏层hidden layer的全连接前馈神经网络如图所示在最重要的求取损失关于权重的偏导数的过程上跟之前的 Logistic Regression 和 Softmax Regression 一样仍然是使用链式法则进行求导。 为了将感知器、Logistic Regression 和 Adaline 看作是单层神经网络习惯上我们把输入层作为第 0 层把第一个隐藏层作为第 1 层以此类推。在符号上也是如此a2(1)a_2^{(1)}a2(1) 表示第 1 层的第 2 个神经元即第一个隐藏层的第 2 个神经元。 单层神经网络模型的损失函数是凸函数而在多层神经网络模型下就不是了凸函数会存在很多的局部极小值点所以需要进行多次不同的权重初始化以防止损失陷入局部极小值点。 Sigmoid 激活函数 MSE 损失函数的组合虽然在形式上很好Sigmoid 函数的导数抵消了负对数似然函数导数的分母但是 Sigmoid 函数 σ(z)\sigma (z)σ(z) 当输入 z 很小时其输出也会很小这就造成了梯度消失的问题。 但是在 MLP 中只有隐藏层还不够还需要加上非线性的激活函数才能解决异或问题。Logistic Regression 是无隐藏层 非线性激活函数线性 MLP 是有隐藏层 线性激活函数它们都是只能产生线性决策边界的。 在非线性激活函数中Sigmoid 和 Tanh及其变种都是 S 型曲线而 Tanh 与 Sigmoid 相比优势在于其过零点、零点附近的曲线更陡峭梯度大、可以同时产生正负值避免了梯度消失 ReLU 及其变种当 ReLU 函数的输入小于 0 时斜率也为 0相当于神经元“死亡”如果太多神经元“死亡”就会影响训练但也可以看作是一种剪枝或者正则化方法避免过拟合。Leaky ReLU 的 α 是超参数需要人为设定而PReLU 中的 α 是通过训练得到的。 在 Smooth Adversarial Training 这篇论文中作者比较了不同激活函数的性能与鲁棒性。 代码示例 1 是 Sigmoid 均方损失代码示例 2 是 Softmax 交叉熵损失后者的性能更好可能是因为前面提到过的Sigmoid MSE 的组合会留下 σ(z)(1−σ(z))\sigma (z) (1 - \sigma (z))σ(z)(1−σ(z)) 这是两个小数的乘积值会越来越小导致梯度消失。 虽然已经有论文证明单层神经网络可以逼近任意函数但不代表它是可行的。使用深度学习而不是宽度学习好处是能用更少的神经元参数得到相同的学习能力而后面的层受到前面层的限制也可以避免过拟合但是层数多会造成梯度消失和梯度爆炸的问题。