当前位置: 首页 > news >正文

网站开发师贴吧网站给篡改了要怎么做

网站开发师贴吧,网站给篡改了要怎么做,网站推广介绍,网站建设及模板使用教程前言 当下大模型的能力已经很强了#xff0c;但是将来我们想要的是能力更强的大模型#xff0c;其最好能够处理各种复杂问题也即强对齐模型。 之前大模型训练的监督信号主要来源于人类反馈#xff0c;但是如果想要训练一个强对齐模型必然就需要一个对应的强监督信号#…前言 当下大模型的能力已经很强了但是将来我们想要的是能力更强的大模型其最好能够处理各种复杂问题也即强对齐模型。 之前大模型训练的监督信号主要来源于人类反馈但是如果想要训练一个强对齐模型必然就需要一个对应的强监督信号这对于人类来说本身就很难比如之前openai 的RLHF主要聚焦对齐的是某一方面能力安全方面这个时候人类还比较好判断case(是否安全)进而反馈但是当面对各种复杂问题的时候人类也很难反馈可能需要各个领域的专家去反馈但是这显然是不现实的。 前段时间openai也意识到这个问题了其还专门成立了一个超级对齐团队来攻克这个方向并发表了他们第一阶段的工作其主要通过模拟一个弱监督强的实践来探索实现强对齐模型在理论上是否可行以及初步提出了一些可能实现的方向笔者也对其进行了解读感兴趣的小伙伴可以穿梭 穿梭门《openai最新探索超级对齐是否可行》https://zhuanlan.zhihu.com/p/673806165 今天要给大家带来的是一篇meta最新的paper其也是尝试解决这个难题具体的是让模型通过自监督的方式完成自我更新。一起来学习下吧 论文《Self-Rewarding Language Models》 论文链接: https://arxiv.org/pdf/2401.10020.pdf 背景 正如前言所说之前的训练方法主要是RLHF其利用人类标注的偏好数据训练一个reward打分model然后使用这个reward model通过强化学习PPO来更新LLM其中在PPO训练阶段reward model是不更新的。 最近有一些工作则是绕过了训练一个reward model而是直接用标注好的偏好数据去训练LLM即DPO方法。 可以看到上述两种方法都严重依赖标注好的偏好数据倘若面对复杂问题人类不能很高效的标注偏好数据的时候那么就相当于没有数据了那不论是PPO也好DPO也罢也就不能训练了。同时RLHF在PPO阶段reward model是不参与更新的被冻结住了。 基于此作者提出了训练一个自我更新的reward model而不是冻结的模型即reward model在训练LLM对齐过程中也会同步持续更新具体的做法是不再将reward model和LLM分离成不同的模型而是看成一个整体作者将这一方法命名为Self-Rewarding Language Models。 方法 Initialization 首先是需要初始化即使用指令微调数据训练一个简单的sft模型作者将这里的指令微调数据命名为IFT (Instruction Fine-Tuning)同时作者的idea是让LLM自己可以对response打分即作为Reward model具体是5分值具体能打分的这个能力如果有专门的数据能先训练一下子最好没有的话也无所谓因为经过用IFT数据微调后模型已经初步具备了打分能力后续自我更新的时候这个能力会自我提高当然如果有对应的数据更好啦作者将这个数据命名为EFT。 经过IFT和EFT数据微调也即SFT后我们后续就会基于这个初版模型进行自我更新啦 Self-Instruction Creation 这个模块具体包含三个步骤首先是Generate a new prompt即产生新的prompt具体的是通过few-shot去生成新的prompt然后每个prompt通过LLM模型的拒绝采样得到N个候选resposne最后使用同一个LLM对这些response进行打分(reward model的功能)其中打分这一步具体的实施是通过prompt engernering实现的作者也给出了模版LLM-as-a-Judge prompt Instruction Following Training 经过上面的步骤后我们就相当于有了偏好数据然后就可以更新模型了具体更新的机制也有两种一直是基于偏好数据进行DPO另一种只使用偏好得分高的数据直接进行SFT作者发现前者效果更好。 为什么前者更好呢其实也好理解说的简单点就是前者不仅仅利用了正反馈信号而且利用负监督信号这对于LLM-as-a-Judge自身的更新是有帮助的而整个算法过程又是严重依赖LLM-as-a-Judge的所以前者理论上就是会更好一些。 在进行完一轮的更新后就可以进行第二轮的更新了整个过程完全自动化。 Overall Self-Alignment Algorithm 总结一下整个过程就是相信大家一目了然不用笔者再累述啦。 效果怎么样呢 这里的SFT Baseline是只使用IFT进行微调的模型可以看到随着迭代的轮数提高效果在不断变好。 同时作者也和业界的模型做了一个整体的对比 同时作者也观察了LLM-as-a-Judge的能力在随着轮数增加而提高 不过实验这里是不是应该再加一个对比实验和传统的RLHF以及DPO方法相比带来的提升有多少这样就更好啦。 总结 作者提出了一个自我更新的流程大的方向选择还是不错的即自监督其实其中每个子流程我们都可以进一步优化或者探索比如 1Generate a new prompt部分我们可以做的更精细化一点比如使用进化学习进行生成更有难度的prompt。 2在LLM-as-a-Judge prompt部分可以针对 不同query进行不同维度的打分设计。 3我们可以看到整个过程其实就是依靠自己判断数据质量然后自己又完全信赖这个结果去更新自己相当于自己给自己打分好处就是自动化更新但是总感觉不踏实如果能结合一些第三方以合作的方式进行评估更新或许也是一个不错的选择。 4是不是可以先进行传统的RLHF或者DPO再进行自我迭代换句话说我们可以先尽力使用各种办法达到目前最好的模型性能状态然后自己实在没招了且还想进一步提高模型性能这个时候就可以试试本篇的自我更新 5等等… 感兴趣的小伙伴可以follow一下这个方向 关注 欢迎关注下期再见啦~ 知乎csdngithub微信公众号
http://www.zqtcl.cn/news/548911/

相关文章:

  • 关于实验室建设的英文网站深圳企业网站制作公司怎样
  • wordpress全站背景音乐中山网站搜索排名
  • 搭建网站的过程透明主题wordpress
  • 丰台网站建设公司电话深圳微信商城网站设计公司
  • 做淘宝要用的网站吗上海微信网站
  • 佛山高端网站制作公司wordpress 发送邮件插件
  • 类似站酷的设计类网站网站建设需要待摊吗
  • 用php做视频网站在学做网站还不知道买什么好
  • wordpress培训类网站网站建设 好
  • 网站开发需要2个月吗网站建设案例精粹
  • 网站建设项目职责营销型网站建设五大内容
  • 建设工程监理招标网站W做网站
  • 网站建设与维护教学课件网站上线前做环境部署
  • 信誉好的网站建设做网站成为首富的外国人
  • 常州网站制作市场湖北省荆门市城乡建设网站
  • 泉州网站制作运营商专业北京软件公司招聘信息查询
  • 车床加工东莞网站建设网站建设教学改进
  • 深圳专业做网站建设西安网站建设有限公司
  • wordpress 一键建站wordpress子主题style
  • 昆明设计网站怎么做网络广告
  • 2018什么做网站深圳企业网站设
  • 北京旅游外贸网站建设博客集成wordpress
  • 中国最好的建设网站哪些网站教你做系统
  • 自己做网站别人怎么看见网站建设办公
  • 凡科做网站视频网站哪家好
  • 查询网站是否正规营销策略国内外文献综述
  • 做网页用的网站wordpress用户角色权限管理
  • 怎么查网站备案的公司wordpress 无刷新评论
  • 学前心理学课程建设网站百度极速版下载
  • 佛山做营销型网站建设深圳宝安区租房