当前位置: 首页 > news >正文

广州网站开发债券交微企点做网站怎么样

广州网站开发债券交,微企点做网站怎么样,外贸公司年终总结,简单学生的网页代码本周又在同一方向上刷到两篇文章#xff0c;可以说#xff0c;……同学们确实卷啊#xff0c;要不卷卷开放场域的推理呢#xff1f; 这两篇都在讲#xff1a;如何巧妙的利用带有分支能力的token来提高推理性能或效率的。 第一篇叫 Beyond the 80/20 Rule: High-Entropy Mi…本周又在同一方向上刷到两篇文章可以说……同学们确实卷啊要不卷卷开放场域的推理呢 这两篇都在讲如何巧妙的利用带有分支能力的token来提高推理性能或效率的。 第一篇叫 Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning 后面简称二八定律 第二篇叫 R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing后面简称R2R 一句话总结两篇文章 两篇文章都发现了 在推理任务上一个完整的COT中只有少量的token带有【指引推理路径向左或者向右的能力】——我这里简化称为导航功能其他大部分token的确定性都比较高。 比如二八定律文中的这张图 图中的红点和红色词就是具备导航功能的token。 那怎么利用这个特性呢 二八定律选择训练的时候专攻这些有导航功能的token以提升LLM的推理能力 R2R用这个性质来加速解码→有导航功能的token用大模型来解其他token用小模型(1.5B)来解。 两篇文章的关键不同 观测角度不同 二八定律是从熵的角度来观测和判别导航token的token分布中熵top前20的就是导航token R2R是通过比较大模型LLM和小模型SLM在回答同一问题时从哪个token开始出现差异再让LLM验证从这个token开始生成的路径是否有本质区别如思路和答案的正确性。如果从这个token开始后续结果确实显著不同那么这个站在命运的十字路口的token就是导航token。 优化方向不同 二八定律从改进RLVR的训练目标出发希望直接产出一个更强的模型。 R2R 从改进投机解码的角度出发希望对同一个模型更快的产出结果。 由于这两篇文章除了【都是研究怎么利用高熵token】以外实现细节上基本没有什么交集下面还是分开介绍 关键细节 二八定律的思路 发现现象→验证现象→对症提出优化方案→Ablation验证优化点 发现的现象与分析 观察上图左侧这是Qwen3-8B在回答AIME’24和AIME’25问题时COT中token对应熵的直方图。注意这个直方图的纵轴是对数缩放的也就是说在原始Y轴上红线左侧的柱子非常高。这个图的目的是为了说明为什么选择2-8分而不是3-7分等其他分法。因为过了红线后右侧的柱子开始逐渐变短而红线左侧80%的token的分布类似于一个平台。虽然2-8分仍然是一种基于分析的直觉选择但是咋说呢作者尝试给你园了一下。 倒回来说一下这个熵具体是什么是生成位last hidden 映射回词表维度并softmax以后得到的伪概率作为 p ∈ R 1 ∗ V \mathbf{p} \in R^{1*V} p∈R1∗V即一个词表长度的向量 算出来的熵 − ∑ p i log ⁡ ( p i ) -\sum{p_i\log(p_i)} −∑pi​log(pi​) 上图右侧展示了熵较高的token对应的词这和我们的认知相似一方面属于认知行为中比较关键 验证、定义、归因等等一方面在语言表述中这些词的出现确实会给后面的子句定个调子。 另外这个红线位置的熵是0.672后面有用。 验证现象 熵的分布上有这样的特点那又能带来什么呢扰动一下看看结果 ↑上图中二八定律作者还是用AIME的24和25 数据集作为实验场扰动了COT的生成过程他用0.672作为经验阈值对熵高于这个值的token导航token 给予更高的采样温度增加不确定性对熵低于阈值的token则不作处理形成红线。蓝线则相反对熵低于0.672的token赋予更高的温度。图中红蓝两条线的交点代表了基线即没有调整采样温度的情况。 结果显示提高导航token的温度能让模型达到更高的精度但温度超过2后效果变差而对非导航token的情况则相反温度小于1时模型推理效果更好。 既然这种策略在生产时能优化模型那么在训练阶段能否利用这种性质让模型变得更强呢 ※碎碎念其实我相信作者在这个阶段应该是试过放大温度以外的方法的要是成了后面可能不会往训练推。 提出优化方案 文章的这个部分思路有些断档因为作者选择的是优化DAPO算法所以他先分析了DAPO给模型的熵带来的影响。这里先回放一下DAPO的优化目标公式。 公式里面 A A A是advantage跟GRPO一样是共享的 r r r跟PPO一样新旧模型的比值。 在RL训练前作者将原模型的token按熵的大小分成0%熵最小的组、20%、40%、60%、80%和100%熵最大的组这几组观察训练过程中 这些token的熵变化趋势。←上图展示了这个变化过程可以看到上面一行熵大小前60%的token在训练中熵还在增加而下面一行熵较高的token基本没有变化。也就是说DAPO在训练过程中对熵的影响确实是「旱的旱死涝的涝死」。既然如此猛踩油门在高熵token上加点还管用吗↓ 单独优化熵高的token能够继续拉高模型的推理能力 这就是作者给出的RL的优化目标。公式中标红的部分就是二八定律文给出的优化。 这个优化包含两个点 只优化导航token训练中不适用经验阈值来确定导航token而是由训练中的token的熵分布的前20%percentile决定的。改用一个batch训练这里必须使用batch因为计算熵分布时需要足够的数据来确保其可信度。毕竟如果只对一个QA对的16个样本中的所有token计算分布结果会有偏差。训练中使用的batch_size为512。 效果如何 跟基线比涨点了跟原版DAPO比也涨点了。 作者训练了Qwen3的三个模型8B-base、14B-base和32B-base并在AIME24数据集上进行对比。8B模型在Qwen的tech report中的指标为29.1%经过DAPO处理后为33.33%使用作者的改良版DAPO后提升至34.58%。32B模型在Qwen的tech report中的指标为81.4%经过DAPO处理后为55.83%使用改良版DAPO后提升至63.54%。尽管这种训练方法提高了32B-base的推理能力但仍不及开源的32B模型。 当然这是一篇纯方法论的论文比较一个把好数据和好方法都堆上的模型也是有点欺负人。 跟DAPO比scaler能力更强 上面两张图展示了用DAPO和改良版DAPO训练Qwen3-32B上行和Qwen3-14B下行在训练过程中的模型准确率和生成长度的变化。 可以看到作者的改良版DAPO相比原版具有更高的上限并且生成长度在训练中后期还在增加这实际上是好事因为它给test-time scaling留下了更多空间但作者没有在后续实验中讨论这一点。 随后作者将推理长度限制从20K延长到29K继续训练后32B模型的性能确实有所提升。下图黄色部分展示了在扩展长度后的模型准确率和生成长度的变化。 R2R 的方法 R2R的思路是“我有一个假想我按照这个假想试试” 他的假想是 ※1-大模型能力强小模型能力弱这两个模型的能力的差异体现到token级别的时候就是看到同样的问题生成token的不一样。↓ ※2-这些不一样的token中可能有一些是无关紧要的一个意思的不同表示方法这个在Softthinking哪篇文章展示的案例中恰恰有体现有一些token可能决定后面的发展即我们通篇在提的导航token。这种导航token无疑在解码的时候是不能错的。↓ ※3-那解码的时候怎么保证不用小模型来解导航token呢得先识别出来。 要识别导航token离线时固然可以用样本分析然后归因的方法但生产时候这个套路就玩不转了。最简单的方法就是建个模型来识别哪个是导航token。↓ ※4-在生产的时候这个模型接受小模型的last_hidden等输入并判断该token是否 就是导航token是的话用大模型解码不是的话用小模型解码。 作者画了个图来展示他整体的思路。下图中SLM就是1.5Bd大模型LLM是32B的大模型 导航token的分析 R2R的作者同样分析了token的熵不过他分析的是小模型的熵分布。他没有使用top-p不知道是不是因为小模型token熵的top-p没有大模型的对应数值有决定性价值。总之他先标记了哪些token是大小模型在相同query下不同且会引发后续推理链路大大不同用大模型评测。在上图左侧直方图中这些token用红色表示其他token的分布是灰色。 上图右侧图的展示逻辑有些复杂但结论是训练语料中出现频率越高的token其成为导航token的概率越低。 效果如何 确实快下表中各个数据集的第一列是accuracy第二列和第三列的逻辑差不多第二列显示实际计算的平均参数量包括SLM、导航token识别模型和LLM第三列显示平均参数量乘以平均长度所以第三列可以先不看。因为这个方法对实际生成长度影响不大可以参考原文表3我就不展示了。 上图显示的结论是R2R比纯用32B模型推理的准确率低一点点但比32B模型实际算的参数量小很多很多我不太理解为啥不用Flop衡量我本身对decode了解有限不瞎嘴了 两篇文章的整体评价 两篇文章的实验分析部分都有遗憾 二八定律的实验分析中缺少了test-time scale方面的比较也没有进一步展示导航token的变化趋势—— 比如哪些token会推出top20呢 R2R 文则一来没有对导航token进行展示和定性的分析这些对后续研究是有启发性的但作者没有展示二来其比较实验中的比较组也有点奇怪虽然比较了很多解码方案但是是在14B的模型下比较的虽然比了投机解码方法但是在附录里比的主要是效率。 二八定律是否能在推理以外的场景中推广需要更多的验证。 在实验分析部分二八定律文展示了在数学任务上训练的模型在代码数据集上是否也有优势——答案是肯定的。然而目前推理任务的研究主要集中在数学和代码任务上也该考虑move-on了。毕竟到了不能直接验证是否正确的场域RLVR也要改改。
http://www.zqtcl.cn/news/209601/

相关文章:

  • 哪些网站可以做详情页聊城高新区建设局网站
  • 湖南网站优化代运营山东建设厅证件查询网址
  • 以百度云做网站空间浙江外贸网站建设
  • 南通网站建设推广专家wordpress 信息流 主题
  • 网站培训机构有哪些大学生做企业网站
  • 网站培训班有哪些课程做的好的大学生旅行有哪些网站好
  • 昌江县住房和城乡建设局网站佛山建设网站制作
  • 做网站 图片 文件夹 放哪儿北京模板网站建设
  • 网站制作公司哪家正规注册工程公司名称大全
  • 佛山微信网站建设哪家好做电商讲师课程的网站
  • 泰州城乡建设网站深圳logo设计公司哪家好
  • 东阳网站建设yw81wordpress登录注册页面梅花
  • 网站备案 厦门福州企业网站开发
  • 全国中小企业网站域名注册服务机构
  • 微信网站怎么做下载附件wordpress 代码执行
  • 5050众筹网站开发福州餐饮网站建设
  • 北京国家建设部网站网站备案需要去哪里
  • 廊坊哪里能够做网站网站改版影响
  • 比较好的源码网站手机网站支付如何制作
  • 深圳做网站哪个公司好重庆工程造价信息2021
  • 做电商宠物带哪个网站最好最近一周的重大新闻
  • 做网站难度李沧网站建设电话
  • 六安建设网站网站图片最大尺寸是多少
  • 手机建网站步骤软件优速网站建设
  • 导购网站如何做免费推广用wordpress开发网站模板
  • 建立网站 英语wordpress字体加载
  • 株洲网站建设和制作wordpress 瑞课教育
  • 网站开发培训什么淘宝客网站备案
  • 提供网站制作公司用虚拟机做服务器搭建网站
  • 做煤层气的网站仅对wordpress自带主题有效