知名seo网站优化公司,传统外贸网站的seo运用,咸阳学校网站建设价格,外贸软件的建立文章目录 分数计算训练测试 分数计算 插入式序列生成模型的概率计算逻辑#xff0c;核心是将 “生成序列 h 的过程” 拆解为一系列插入操作#xff0c;并通过步骤概率的乘积计算总概率 P ( h ∣ X ) P(h∣X) P(h∣X)。以下从 模型框架、步骤分解、概率计算 三个层面解析核心是将 “生成序列 h 的过程” 拆解为一系列插入操作并通过步骤概率的乘积计算总概率 P ( h ∣ X ) P(h∣X) P(h∣X)。以下从 模型框架、步骤分解、概率计算 三个层面解析
一、模型框架插入式生成的 “状态 - 位置” 双维度
上层生成状态 l 0 , l 1 , l 2 , l 3 l^0,l^1,l^2,l^3 l0,l1,l2,l3
代表生成过程中的阶段对应目标序列的 token l 0 l^0 l0起始状态对应BOS序列开始 l 1 l^1 l1生成c后的状态 l 2 l^2 l2生成a后的状态 l 3 l^3 l3生成t后的状态。 状态转移规则 插入目标 token如c、a、t时状态前进如 l 0 → l 1 l^0→l^1 l0→l1插入占位符 φ时状态不变如 l 1 → l 1 l^1→l^1 l1→l1。
下层位置索引 x 1 ∼ x 6 x^1∼x^6 x1∼x6
表示序列的位置坐标共 6 个位置对应图中列每个位置可插入 token 或 φ。绿色模块 h 1 ∼ h 6 h^1∼h^6 h1∼h6每个位置的特征表示用于预测插入概率。
二、步骤分解生成序列 h 的插入路径
目标序列 h ϕ c ϕ ϕ a ϕ t ϕ ϕ hϕcϕϕaϕtϕϕ hϕcϕϕaϕtϕϕ其生成过程可拆解为 9 步插入操作每一步对应一个概率
步骤插入位置当前状态插入内容概率符号含义1x1l0φp1,0(ϕ)状态l0下向位置x1插入 φ2x2l1cp2,0(c)状态l1下向位置x2插入 c3x2l1φp2,1(ϕ)状态l1下向位置x2插入 φ4x3l1φp3,1(ϕ)状态l1下向位置x3插入 φ5x4l2ap4,1(a)状态l2下向位置x4插入 a6x4l2φp4,2(ϕ)状态l2下向位置x4插入 φ7x5l2tp5,2(t)状态l2下向位置x5插入 t8x5l3φp5,3(ϕ)状态l3下向位置x5插入 φ9x6l3φp6,3(ϕ)状态l3下向位置x6插入 φ
三、概率计算链式法则的应用
生成序列 h h h 的总概率 P ( h ∣ x ) P(h∣x) P(h∣x) 是 所有插入步骤概率的乘积遵循概率的链式法则 四、核心思想为什么这样设计
灵活性允许在任意位置插入token 或 φ突破传统 “逐 token 续写” 的限制更适合文本编辑、补全、改写等任务。条件依赖每个插入步骤的概率 同时依赖 “当前生成状态 l j l^j lj” 和 “插入位置 x i x^i xi”用 p i , j ( ⋅ ) pi,j(⋅) pi,j(⋅) 精准建模这种依赖关系。可扩展性通过 “状态转移 位置插入” 的框架可轻松扩展到更长序列或更复杂的生成任务。插入式生成的概率 各步骤插入操作的概率乘积每一步的概率由 “当前生成状态” 和 “插入位置” 共同决定。 插入式生成的关键是 “允许插入 φ并让每个插入步骤的概率同时看‘生成到哪一步状态 l’和‘插在哪里位置 x’”否则模型会漏掉很多合理的生成路径并且与之前的路径是独立。 这张图围绕 插入式序列生成模型中的 “对齐分数 α i , j α_{i,j} αi,j” 展开核心是用 动态规划DP 高效计算 所有可能生成路径的概率和。以下从 定义、公式、网格逻辑、求和意义 四个维度解析 α i , j α_{i,j} αi,j 的定义 α i , j α_{i,j} αi,j: {所有对齐方式的分数之和这些对齐读取第 i i i 个位置特征如 x i x^i xi并输出第 j j j 个 token含 ϕ。
“对齐alignment”指生成序列的一条具体路径如 “插入 φ→生成 c→插入 φ→…→生成 t”。“分数”路径中各步骤的概率乘积如之前的 P ( h ∣ X ) P(h∣X) P(h∣X) 分解。
2. 递推公式 α 4 , 2 α 4 , 1 p 4 , 1 ( a ) α 3 , 2 p 3 , 2 ( ϕ ) α_{4,2}α_{4,1}p_{4,1}(a)α_{3,2}p_{3,2}(ϕ) α4,2α4,1p4,1(a)α3,2p3,2(ϕ)
公式拆解
第一项 α 4 , 1 p 4 , 1 ( a ) α_{4,1}p_{4,1}(a) α4,1p4,1(a) 从 **状态( i 4 , j 1 i4,j1 i4,j1) 转移而来代表 已读取位置 x 4 x^4 x4生成前一个 token如c之后的状态现在 生成 token a概率为$ p_{4,1}(a)$。 第二项 α 3 , 2 p 3 , 2 ( ϕ ) α_{3,2}p_{3,2}(ϕ) α3,2p3,2(ϕ) 从 **状态( i 3 , j 2 i3,j2 i3,j2) 转移而来代表 已读取位置 x 3 x^3 x3处于生成阶段 j2现在 插入占位符 ϕ概率为 p 3 , 2 ( ϕ ) p_{3,2}(ϕ) p3,2(ϕ)然后转移到 (i4,j2)。
3. 网格与路径动态规划的状态转移 网格结构
行纵轴目标 tokenc、a、t代表 生成阶段对应之前的 l j l^j lj。列横轴位置 x 1 ∼ x 6 x^1∼x^6 x1∼x6代表 读取的位置特征对应之前的 x i x^i xi。
路径与转移
虚线箭头代表 “插入 ϕ” 的转移不推进生成阶段仅移动位置。实线箭头代表 “生成 token” 的转移推进生成阶段同时移动位置。蓝色圆点状态节点 (i,j)如 α 4 , 2 α_{4,2} α4,2 对应 读取 x 4 x^4 x4、生成阶段到 a 的状态。
4. 求和的意义 ∑ h ∈ a l i g n ( Y ) P ( h ∣ X ) ∑_h∈align(Y)P(h|X) ∑h∈align(Y)P(h∣X) a l i g n ( Y ) align(Y) align(Y)所有能生成目标序列 Y Y Y如cat的**合法插入路径集合含 φ 的不同插入方式。求和因为生成 Y Y Y 可能有 多条不同的插入路径如 φ 插入的位置不同总概率是所有路径的概率之和。 α i , j α_{i,j} αi,j 的作用通过动态规划递推**避免枚举所有路径高效计算总概率每一步仅依赖前两个状态时间复杂度从指数级降为多项式级。
核心结论动态规划如何简化计算
→ 用 α i , j α_{i,j} αi,j 累积 “到达状态( i , j i,j i,j)的所有路径概率”通过递推公式生成 token 或插入 φ高效计算最终求和得到总概率。 训练 通过极大似然估计让模型参数θ尽可能提升 “所有生成真实序列Y的插入路径的总概率”梯度计算依赖链式法则分解到每个插入步骤的概率。 每个步骤概率 p i , j ( ⋅ ) p_i,j(⋅) pi,j(⋅)的梯度等于 “参数对该步骤的影响” 乘以 “该步骤对所有生成路径的总贡献”最终所有步骤的梯度累加即为总梯度。 通过 BPTT反向追溯 p 4 , 1 ( a ) p_{4,1}(a) p4,1(a) 的输入状态 l 1 l^1 l1、位置 h 4 h^4 h4再追溯 l 1 l_1 l1 的输入 l 0 l_0 l0、c直到触及模型参数 θ θ θ累加各路径的梯度贡献。 总概率 P ( Y ∣ X ) P(Y|X) P(Y∣X) 可拆分为 “包含 p 4 , 1 ( a ) p_{4,1}(a) p4,1(a) 的路径” 和 “不包含 p 4 , 1 ( a ) p_{4,1}(a) p4,1(a) 的路径” 对于 “含 p 4 , 1 ( a ) p_{4,1}(a) p4,1(a) 的路径”其概率可分解为 P ( h ∣ X ) p 4 , 1 ( a ) × o t h e r P(h|X)p_{4,1}(a)×other P(h∣X)p4,1(a)×other
“other”路径中 除 p 4 , 1 ( a ) p_{4,1}(a) p4,1(a)外其他步骤的概率乘积如 p 1 , 0 ( ϕ ) p_{1,0}(ϕ) p1,0(ϕ)⋅ p 2 , 0 ( c ) p_{2,0}(c) p2,0(c)⋅… 中不含 p 4 , 1 ( a ) p_{4,1}(a) p4,1(a) 的部分。
总概率对 p 4 , 1 ( a ) p_{4,1}(a) p4,1(a)的梯度等于 “所有含 p 4 , 1 ( a ) p_{4,1}(a) p4,1(a)的路径概率和” 除以 p 4 , 1 ( a ) p_{4,1}(a) p4,1(a)。
梯度计算通过 “分解路径、提取公共因子 p 4 , 1 ( a ) p_{4,1}(a) p4,1(a)”将复杂的路径求和转化为 “路径概率和除以该步骤概率”大幅简化了计算。 “反向累积”与 α i , j α_{i,j} αi,j正向累积路径概率对称 β i , j β_{i,j} βi,j 从 序列末尾开始向前累积路径概率。
2. 递推公式 β 4 , 2 β 4 , 3 p 4 , 2 ( t ) β 5 , 2 p 4 , 2 ( ϕ ) β_{4,2}β_{4,3}p_{4,2}(t)β_{5,2}p_{4,2}(ϕ) β4,2β4,3p4,2(t)β5,2p4,2(ϕ)
正向 a i , j a_{i,j} ai,j计算 “到达状态(i,j)的所有路径概率和”用于前向预测。反向 β i , j β_{i,j} βi,j计算 “从状态(i,j)出发到序列结束的所有路径概率和”用于反向传播或联合概率计算。协同作用结合 a i , j a_{i,j} ai,j 和 β i , j β_{i,j} βi,j可高效计算 单个步骤对总概率的贡献如之前的梯度分解避免枚举所有路径。 结合链式法则总梯度可简化为
每个步骤 p i , j ( ⋅ ) p_{i,j}(⋅) pi,j(⋅) 对总概率的梯度贡献等于 “参数对该步骤的影响” 乘以 “该步骤的前向累积概率 α” 乘以 “该步骤的反向累积概率 β”。通过正向 α α α 和反向 β β β 的 “双累积”将 “所有路径的枚举求和” 压缩为 “单步的 α ⋅ p ⋅ β α⋅p⋅β α⋅p⋅β 乘积”使梯度计算的复杂度从指数级降为线性级。 测试 由于枚举所有路径不可行解码时放弃 “全局概率和最大”转而寻找 “单条路径概率最大” 的 h h h再还原出 Y Y Y。用 近似搜索如贪心、 beam search 找局部最优路径平衡计算复杂度与生成质量。 计算的时候保存概率最大的那个即可。 模型核心特点适用场景缺点LAS依赖注意力隐式对齐建模长距离依赖离线高精度识别如语音转写不支持在线实时处理CTC独立解码显式对齐支持在线实时简单识别如关键词检测无法建模 token 依赖RNN - T依赖解码显式对齐支持在线建模依赖实时高精度识别如语音助手训练和推理复杂度较高