建设网站企业注册人员,怎么把底部的wordpress,如何建设手机版网站,青龙县建设局网站激活函数总结#xff08;十一#xff09;#xff1a;激活函数补充 1 引言2 激活函数2.1 Absolute激活函数2.2 Bipolar激活函数2.3 Bipolar Sigmoid激活函数 3. 总结 1 引言
在前面的文章中已经介绍了介绍了一系列激活函数 (Sigmoid、Tanh、ReLU、Leaky ReLU、PReLU、Swish、… 激活函数总结十一激活函数补充 1 引言2 激活函数2.1 Absolute激活函数2.2 Bipolar激活函数2.3 Bipolar Sigmoid激活函数 3. 总结 1 引言
在前面的文章中已经介绍了介绍了一系列激活函数 (Sigmoid、Tanh、ReLU、Leaky ReLU、PReLU、Swish、ELU、SELU、GELU、Softmax、Softplus、Mish、Maxout、HardSigmoid、HardTanh、Hardswish、HardShrink、SoftShrink、TanhShrink、RReLU、CELU、ReLU6、GLU、SwiGLU、GTU、Bilinear、ReGLU、GEGLU、Softmin、Softmax2d、Logsoftmax、Identity、LogSigmoid、Bent Identity)。在这篇文章中会接着上文提到的众多激活函数继续进行介绍给大家带来更多不常见的激活函数的介绍。这里放一张激活函数的机理图
最后对于文章中没有提及到的激活函数大家可以通过评论指出作者会在后续的文章中进行添加补充。
2 激活函数
2.1 Absolute激活函数
Absolute绝对值激活函数是一种基于绝对值的非线性激活函数它将输入值映射到其绝对值上。该函数在输入从负向正变化的过程中保持连续性。在输入为负时绝对值激活函数输出与输入值相同的正值在输入为正时输出仍然是输入值。其数学表达式和数学图像分别如下所示 A b s o l u t e ( x ) ∣ x ∣ Absolute(x) |x| Absolute(x)∣x∣ 优点
无梯度消失问题 绝对值激活函数在所有输入范围内的梯度都为常数1或-1因此不存在类似于Sigmoid或Tanh等函数那样的梯度消失问题。这意味着在训练过程中梯度可以更容易地传播特别是在深层神经网络中。线性性质绝对值激活函数是一个分段线性函数其输出在不同的区间内是线性的。这可以在某些问题中提供适度的非线性性质对于某些任务可能是有用的。稳定性 绝对值激活函数对于输入中的大幅度变化有一定的鲁棒性因为它总是返回非负的输出避免了负数的抑制性影响。
缺点
缺乏灵活性绝对值激活函数是非常简单的线性函数它没有类似于Sigmoid、ReLU等激活函数引入的非线性特性。这可能限制了其在某些复杂任务上的表现能力。信息损失 由于绝对值激活函数直接舍弃了输入的符号信息它可能无法区分正负值对任务的影响这可能导致在某些情况下丢失有用的信息。非可导连续绝对值激活函数在0处不可微分表现出导数不连续的状况。
这个激活函数十分简单也因其简单的性质现在很少使用。。。
2.2 Bipolar激活函数
Bipolar激活函数是一种特殊的激活函数它是Threshold函数的一个变种。它的数学表达式如下和数学图像分别如下所示 B i p o l a r ( x ) { 1 i f x t h r e s h o l d − 1 i f x t h r e s h o l d Bipolar(x)\left\{ \begin{matrix} \quad \quad \quad 1 \quad \quad \quad if \quad x threshold \\ \quad \quad \quad -1 \quad \quad \quad if \quad x threshold \quad \end{matrix} \right. Bipolar(x){1ifxthreshold−1ifxthreshold 优点
简单性 阈值激活函数非常简单仅基于阈值对输入进行二进制判定因此计算效率高。稳定性 在一些特定的应用中阈值激活函数可能会表现出稳定性不易受到梯度爆炸等问题的影响。双极性输出范围在-1到1之间这可以使其在处理输入数据的正负关系时表现更好。
缺点
缺乏表达能力阈值激活函数非常限制了神经网络的表达能力它只能输出两种值0和1无法适应更复杂的数据模式。这使得神经网络很难从数据中学习到更高层次的特征表示。梯度消失阈值激活函数在大部分输入范围内的导数都为0这导致在反向传播时梯度会很快消失使得网络很难学习。这个问题也在Sigmoid激活函数中存在因此它们通常不作为主要的激活函数选择。不可导性阈值激活函数在阈值处是不可导的这使得它无法直接应用于使用梯度下降等基于梯度的优化算法进行训练。这会导致训练过程不稳定并可能需要使用一些近似的方法来处理。
Bipolar同Threshold是一致的因其特性导致很难在网络结构中使用。。。
2.3 Bipolar Sigmoid激活函数
论文链接Mansor, Mohd Asyraf, and Saratha Sathasivam. “Activation function comparison in neural-symbolic integration.” In AIP Conference Proceedings, vol. 1750, no. 1, p. 020013. AIP Publishing LLC, 2016.
Bipolar Sigmoid激活函数是一种特殊的激活函数它是Sigmoid函数的一个变种。它的数学表达式如下和数学图像分别如下所示 B i p o l a r S i g m o i d ( x ) 2 / ( 1 e x p ( − x ) ) − 1 Bipolar Sigmoid(x) 2 / (1 exp(-x)) - 1 BipolarSigmoid(x)2/(1exp(−x))−1
优点
双极性输出 Bipolar Sigmoid的输出范围在-1到1之间这可以使其在处理输入数据的正负关系时表现更好。它适用于处理具有双极性性质的数据例如一些情感分析任务中的正面和负面情感。连续可微性 与标准的Sigmoid函数一样Bipolar Sigmoid也是连续可微的。这对于使用梯度下降等优化方法进行训练和反向传播是至关重要的因为它们要求激活函数是可微的。非线性特性 Bipolar Sigmoid是非线性的激活函数它可以引入一定的非线性表达能力有助于神经网络模型捕获复杂的数据关系。
缺点
饱和问题 Bipolar Sigmoid激活函数在输入远离0的时候输出会饱和即梯度趋近于0。这可能导致训练时的梯度消失问题特别是在深层网络中。计算复杂性 与标准的Sigmoid函数一样Bipolar Sigmoid的计算开销也较大因为它涉及到指数运算。这可能会在网络训练中导致较慢的收敛速度。
虽然Bipolar Sigmoid 在理论上具有比Sigmoid更好的效果但是结合Sigmoid系列整体的激活函数而言这是微不足道的因此Bipolar Sigmoid作为Sigmoid系列激活函数的一员也是很少使用的一类激活函数。。。。
3. 总结
到此使用 激活函数总结十一 已经介绍完毕了 如果有什么疑问欢迎在评论区提出对于共性问题可能会后续添加到文章介绍中。如果存在没有提及的激活函数也可以在评论区提出后续会对其进行添加
如果觉得这篇文章对你有用记得点赞、收藏并分享给你的小伙伴们哦。