当前位置：首页 > news >正文

诸暨网站制作有哪些公司网站模板免费

news 2025/11/15 4:10:58

诸暨网站制作有哪些公司,网站模板免费,wordpress列表页不显示图片,免费加盟无需店面文章目录 3.4 一个简化的SSM结构3.5 选择机制的性质3.5.1 和门控机制的联系3.5.2 选择机制的解释 3.6 额外的模型细节A 讨论#xff1a;选择机制C 选择SSM的机制 Mamba论文第一部分 Mamba:选择状态空间模型的线性时间序列建模(一) 3.4 一个简化的SSM结构如同结构SSM#… 文章目录 3.4 一个简化的SSM结构3.5 选择机制的性质3.5.1 和门控机制的联系3.5.2 选择机制的解释 3.6 额外的模型细节A 讨论选择机制C 选择SSM的机制 Mamba论文第一部分 Mamba:选择状态空间模型的线性时间序列建模(一) 3.4 一个简化的SSM结构如同结构SSM选择SSM是单独序列变换可以灵活地整合进神经网络。H3结构式最知名SSM结构地基础其通常包括受线性注意力启发的和MLP交替地块。我们通过结合这两个组件到一个来简化这个结构均匀地堆叠。这受到了门控注意力单元的启发GAU和为注意力做的事情相似。这个结构包括扩展模型维度 D D D通过一个可控的扩展因子 E E E。对于每个块参数 3 E D 3ED 3ED的大部分都在线性映射 2 E D 2 2ED^2 2ED2对于输入映射 E D 2 ED^2 ED2对于输出映射而内部的SSM贡献很少。相比起来SSM参数 Δ , B , C \Delta,\textbf B,\textbf C Δ,B,C和矩阵 A \textbf A A的参数少很多。我们复制这个块插入标准的归一化和残差连接来建立Mamba结构。我们一般固定 E 2 E 2 E2在我们的实验中使用两层块的堆叠来匹配Transformer插入多头注意力和MLP块的参数量。我们使用SiLU/Swish激活函数激活以使门控MLP变为流行的SwiGLU变体。最后我们额外使用了一个可选归一化层我们选择层归一化受RetNet在相似位置归一化使用的启发。我们的简化块设计结合了H3块H3是大多数SSM结构的基础有现代神经网络中无处不在的MLP块。我们简单重复这两个块而不是两个块交错。和H3相比Mamba用激活函数替代了第一个乘法门。相比于MLP块Mamba在主干添加了一个SSM。对于 σ \sigma σ我们使用SiLU/Swish激活。 3.5 选择机制的性质选择机制是一个广泛的概念可以以不同的方式应用例如在更传统的RNN和CNN在不同的参数例如算法2中的 A \textbf A A或者使用不同的变换 s ( x ) s(x) s(x) 3.5.1 和门控机制的联系我们着重指出最重要的联系RNN的经典门控机制是我们SSM选择机制的一个实例。我们注意到RNN门控和连续时间系统的离散化间的关系被很好的建立。事实上Theorem 1是对ZOH离散化和输入相关门的推广的改进证明见附录C。更广泛的SSM中的 Δ \Delta Δ可以被看作在RNN门控机制中扮演了一个普遍的角色。和之前工作保持一致我们采取SSM的离散化是启发式门控机制的原则基础。 Theorem 1 当 N 1 , A − 1 , B 1 , S Δ L i n e a r ( x ) N 1, \textbf A -1, \textbf B 1, S_\Delta Linear(x) N1,A−1,B1,SΔLinear(x)和 τ Δ s o f t p l u s \tau_\Delta softplus τΔsoftplus 则选择SSM递归有这样的形式 g t σ ( L i n e a r ( x t ) ) h t ( 1 − g t ) h t − 1 g t x t g_t \sigma(Linear(x_t)) \\ h_t (1-g_t)h_{t-1}g_tx_t gtσ(Linear(xt))ht(1−gt)ht−1gtxt 如在部分3.2提到的我们特别选择这样的 S Δ , τ Δ S_\Delta,\tau_\Delta SΔ,τΔ就处于这个联系。特别是注意如果一个给定输入 x t x_t xt应该被完全忽略如在合成任务中需要所有 D D D个通道应该忽略它因此在用 Δ \Delta Δ重复/广播之前我们把输入之前映射到1维。 3.5.2 选择机制的解释我们详细阐述了选择的两种特殊机制效应。可变间距选择性允许过滤掉可能发生在感兴趣的输入间的不相关的噪声标记。在选择性复制任务中得到验证但是普遍存在于常见数据模态中特别是离散数据。例如语言中的填词um。这个属性提升因为模型可以机械地过滤掉任何特定的输入 x t x_t xt 例如在门控RNN中当 g t → 0 g_t\rightarrow0 gt→0。过滤内容在很多序列模型中经常被观察到更长的内容并没有提升。尽管有更多的内容应该让表现更好这一原理。一个解释是很多序列模型不能在必要时有效地忽略不相关的内容。一个直觉的例子是全局卷积和其他通常的LTI模型。另一方面选择模型可以简单在任何时刻重置它们的状态来移除无关的历史因此它们的性能原则上随着上下文长度的增加而单调性提高边界重设置在多条不相关序列缝在一起的时候Transformer可以保持它们分开通过实例化不同的注意力掩膜而LTI模型将会混合这些序列之间的信息。选择性SSM可以在边界重置他们的状态例如 Δ t → ∞ \Delta_t\rightarrow \infin Δt→∞或者 g t → 1 g_t\rightarrow 1 gt→1这些情况将会人为的打包文件以硬件利用率或者自然地强化学习中episode边界发生。 Δ \Delta Δ的解释通常 Δ \Delta Δ控制关注遗忘或者关注多少在当前的输入 x t x_t xt的平衡。它推广了RNN门例如Theorem1中的 g t g_t gt,理论上一个大的 Δ \Delta Δ重置状态 h h h并关注在当前的输入 x x x而小的 Δ \Delta Δ保持状态并且忽略当前输入。SSM可以被解释为一个连续西永被时间步长 Δ \Delta Δ离散化在这个背景下一个直觉是大 Δ → ∞ \Delta\rightarrow\infin Δ→∞表示了系统关注于当前输入更长时间因此“选择”它并忘掉它的当前状态当一个小 Δ → 0 \Delta\rightarrow 0 Δ→0代表一个被遗忘的瞬态输入。 A A A的解释我们指出尽管参数 A A A也可以是选择性的它根本上通过它和 Δ \Delta Δ的交互影响模型通过 A ‾ e x p ( Δ A ) \overline {\textbf A} exp(\Delta \textbf A) Aexp(ΔA)。因此 Δ \Delta Δ的选择性对于确保 ( A ‾ , B ‾ ) (\overline{\textbf A},\overline{\textbf{B}}) (A,B)已经足够而且是提升的主要来源。我们假设使 A \textbf A A选择性替代 Δ \Delta Δ或者附加会有相似的效果我们出于简便省略。 B B B和 C C C的解释如在部分3.1讨论的一样选择性最重要的属性是过滤掉我们不相关的信息以使一个序列模型的内容可以被压缩到哟个有效的状态。在一个SSM中微调 B \textbf B B和 C \textbf C C成为选择性的允许细粒度控制什么时候一个输入 x t x_t xt到状态 h t h_t ht或者状态到输出 y t y_t yt。这可以被解释为允许模型分别基于内容输入和上下文隐藏状态来调节循环动态。 3.6 额外的模型细节实数 vs 复数很多前面的SSM在他们的状态 h h h中使用复数对于很多任务中需要的高表现力来说是必要的。然而在经验上观察到完全的实数SSM运作得也不错可能更好在某些情形下。我们使用实数值作为默认除了一个任务意外表现得很好我们假设复数-实数权衡与数据模态中连续-离散谱有关对于连续模态如语音视频来说复数有用对于离散例如文本DNA则无用。初始化大多数前面的SSM也要求特别的初始化特别是对于复数值情况在一些情况如低数据状态有帮助。我们对于复数情况的默认初始化时S4D-Lin对于实数来说时S4D-Real基于HIPPO理论。相应定义 A \textbf A A中第 n n n个元素为 − 1 / 2 n i -1/2ni −1/2ni和 − ( n 1 ) -(n1) −(n1)。然而我们认为很多初始化可以工作良好特别是在大数据和实数SSM情况。 Δ \Delta Δ的参数化我们定义 Δ \Delta Δ的选择调整为 s Δ B r o a d c a s t D ( L i n e a r 1 ( x ) ) s_\Delta Broadcast_D(Linear_1(x)) sΔBroadcastD(Linear1(x)),受3.5部分 Δ \Delta Δ的部分启发。我们观察到可以从维度1推广到更大的维度 R R R。我们将其设置为 D D D的小分数与块中的主要线性投影相比其使用可忽略数量的参数。我们还注意到广播操作可以被视为另一个线性投影初始化为特殊的模式’1’和‘0’。如果这个映射是可学习的将导致一个替代的 s Δ ( x ) L i n e a r D ( L i n e a r R ( x ) ) s_\Delta(x) Linear_D(Linear_R(x)) sΔ(x)LinearD(LinearR(x))可以看作一个低秩映射。在我们的实验中参照之前SSM的工作 Δ \Delta Δ参数可以被看作一个偏差项初始化为 τ Δ − 1 ( U n i f o r m [ 0.001 , 0.1 ] ) \tau_\Delta^{-1}(Uniform[0.001,0.1]) τΔ−1(Uniform[0.001,0.1]) A 讨论选择机制我们的选择机制受到门控、超网络和数据依赖等概念的启发并与之相关。它也可以被视为与“快速权重”有关后者将经典RNN与线性注意力机制联系起来。然而我们认为这是一个值得澄清的独特概念。门控门控起源于参考RNN例如LSTM和GRU的门控机制或者Theorem 1的门控等式。这可以被解释为控制是否让一个输入进入一个RNN隐藏状态的特别机制。特别是这会影响信号沿着时间的传输和输入沿着序列长度方向交互。然而此后门控的概念在流行使用中被放款简单地表示任何乘法相互作用通常带有激活函数。例如神经网络结构中元素间的乘法部分现在通常被称为门控结构尽管与原始RNN有非常不同的意义。因此我们认为RNN门控的原始概念相比流行的乘法门控实际上有很大的语义不同超网络超网络用来指那些自身参数由更小网络产生的神经网络。原始的想法是狭义的用法定义一个大的RNN其参数由一个小的 R N N RNN RNN生成。数据依赖和超网络相似数据依赖可以指任何概念-一些模型参数依赖于数据例子GLU 激活为了解释这些概念考虑一个简单的对角线性层 y D x y Dx yDx其中 D D D是一个对角权重参数。现在设定 D D D是由自身通过一个 x x x的线性变换而来由一个可选的非线性 D σ ( W x ) D \sigma(Wx) Dσ(Wx)因为它是对角的乘法变成元素积 y σ ( W x ) ∘ x y \sigma(Wx)\circ x yσ(Wx)∘x这是一个相当琐碎的转换但它在技术上满足了门控的常见含义(因为它有“乘法”分支)超网络因为参数 D D D是由另一个层产生的和数据依赖因为 D D D取决于数据 x x x然而这实际上简单定义了一个GLU函数简单到通常仅仅被看作一个激活函数而不是一个有意义的层。选择因此虽然选择机制可以被视为架构门控、超网络或数据依赖性等思想的特例但大量其他结构也可以——基本上是任何具有乘法运算的结构也包括标准注意力机制但我们认为这样没有信息量。相反我们认为它与传统RNN的门控机制最为密切相关这是一种特殊情况也有通过变量依赖输入离散化参数 Δ \Delta Δ与SSM连接的。我们还避开了“选通”一词而倾向于选择以澄清前者的过度使用。更狭义地说我们使用选择来指代模型的机制作用以选择或忽略输入并促进沿序列长度的数据交互。除了选择性SSM和门控RNN之外其他例子可能包括依赖于输入的卷积甚至注意力 C 选择SSM的机制 Theorem 1的证明考虑一个 N 1 , A − 1 , B 1 , s Δ L i n e a r ( x ) , τ Δ s o f t p l u s N 1, A -1, B 1, s_\Delta Linear(x), \tau_\Delta softplus N1,A−1,B1,sΔLinear(x),τΔsoftplus的选择SSM 相应的连续时间SSM是 h ( t ) − h ( t ) x ( t ) h(t) -h(t) x(t) h(t)−h(t)x(t) 也被称为一个漏积分器。离散步长是 Δ t τ Δ ( P a r a m e t e r s Δ ( x t ) ) s o f t p l u s ( P a r a m e t e r L i n e a r ( x t ) ) s o f t p l u s ( L i n e a r ( x t ) ) \Delta_t \tau_\Delta(Parameter s_\Delta(x_t)) \\softplus(ParameterLinear(x_t)) \\softplus(Linear(x_t)) ΔtτΔ(ParametersΔ(xt))softplus(ParameterLinear(xt))softplus(Linear(xt)) 我们观察到这个参数也可以被看作一个可学习的偏差变成一个线性映射。现在应用零阶保持离散形式 A ‾ t e x p ( Δ A ) 1 1 e x p ( L i n e a r ( x t ) ) σ ( − L i n e a r ( x t ) ) 1 − σ ( L i n e a r ( x t ) ) \overline{A}_t exp(\Delta A) \frac{1}{1exp(Linear(x_t))} \sigma(-Linear(x_t))\\ 1-\sigma(Linear(x_t)) Atexp(ΔA)1exp(Linear(xt))1σ(−Linear(xt))1−σ(Linear(xt)) B ‾ t ( Δ A ) − 1 ( e x p ( Δ A ) − I ) ⋅ Δ B − ( e x p ( Δ A ) − I ) I − A ‾ σ ( L i n e a r ( x t ) ) \overline{B}_t (\Delta A)^{-1}(exp(\Delta A) - I)\cdot\Delta B-(exp(\Delta A) - I) I - \overline A \\\sigma(Linear(x_t)) Bt(ΔA)−1(exp(ΔA)−I)⋅ΔB−(exp(ΔA)−I)I−Aσ(Linear(xt)) 因此最后的离散递归是 g t σ ( L i n e a r ( x t ) ) h t ( a − g t ) h t − 1 g t x t g_t \sigma(Linear(x_t)) \\ h_t(a-g_t)h_{t-1}g_tx_t gtσ(Linear(xt))ht(a−gt)ht−1gtxt

查看全文

http://www.zqtcl.cn/news/990233/