当前位置: 首页 > news >正文

仙居网站建设贴吧网页版微信聊天记录会留在电脑里吗

仙居网站建设贴吧,网页版微信聊天记录会留在电脑里吗,万网做网站如何下载模板,基于jsp的网上购物系统搞懂大模型的智能基因#xff0c;RLHF系统设计关键问答 RLHF#xff08;Reinforcement Learning with Human Feedback#xff0c;人类反馈强化学习#xff09;虽是热门概念#xff0c;并非包治百病的万用仙丹。本问答探讨RLHF的适用范围、优缺点和可能遇到的问题#xff… 搞懂大模型的智能基因RLHF系统设计关键问答 RLHFReinforcement Learning with Human Feedback人类反馈强化学习虽是热门概念并非包治百病的万用仙丹。本问答探讨RLHF的适用范围、优缺点和可能遇到的问题供RLHF系统设计者参考。 作者简介热爱跑步的恒川致力于C/C、Java、Python等多编程语言热爱跑步喜爱音乐的一位博主。 本文收录于恒川的日常汇报系列大家有兴趣的可以看一看 相关专栏C语言初阶、C语言进阶系列、恒川等大家有兴趣的可以看一看 Python零基础入门系列Java入门篇系列、docker技术篇系列、Apollo的学习录系列正在发展中喜欢Python、Java、docker的朋友们可以关注一下哦 原理与Python实战 1. RLHF是什么2. RLHF适用于哪些任务3. RLHF和其他构建奖励模型的方法相比有何优劣4. 什么样的人类反馈才是好的反馈5. RLHF算法有哪些类别各有什么优缺点6. RLHF采用人类反馈会带来哪些局限6.1 提供人类反馈的人群可能有偏见或局限性。6.2 人的决策可能没有机器决策那么高明。6.3 没有将提供反馈的人的特征引入到系统。6.4 人性可能导致数据集不完美。 7. 如何降低人类反馈带来的负面影响 1. RLHF是什么 强化学习利用奖励信号训练智能体。有些任务并没有自带能给出奖励信号的环境也没有现成的生成奖励信号的方法。为此可以搭建奖励模型来提供奖励信号。在搭建奖励模型时可以用数据驱动的机器学习方法来训练奖励模型并且由人类提供数据。我们把这样的利用人类提供的反馈数据来训练奖励模型以用于强化学习的系统称为人类反馈强化学习示意图如下。 图 人类反馈强化学习用人类反馈的数据训练奖励模型用奖励模型生成奖励信号 2. RLHF适用于哪些任务 RLHF适合于同时满足下面所有条件的任务 要解决的任务是一个强化学习任务但是没有现成的奖励信号并且奖励信号的确定方式事先不知道。为了训练强化学习智能体考虑构建奖励模型来得到奖励信号。 反例比如电动游戏有游戏得分那样的游戏程序能够给奖励信号那我们直接用游戏程序反馈即可不需要人类反馈。 反例某些系统奖励信号的确定方式是已知的比如交易系统的奖励信号可以由赚到的钱完全确定。这时直接可以用已知的数学表达式确定奖励信号不需要人工反馈。 不采用人类反馈的数据难以构建合适的奖励模型而且人类的反馈可以帮助得到合适的奖励模型并且人类来提供反馈可以在合理的代价包括成本代价、时间代价等内得到。如果用人类反馈得到数据与其他方法采集得到数据相比不具有优势那么就没有必要让人类来反馈。 3. RLHF和其他构建奖励模型的方法相比有何优劣 奖励模型可以人工指定也可以通过有监督模型、逆强化学习等机器学习方法来学习。RLHF使用机器学习方法学习奖励模型并且在学习过程中采用人类给出的反馈。 比较人工指定奖励模型与采用机器学习方法学习奖励模型的优劣这与对一般的机器学习优劣的讨论相同。机器学习方法的优点包括不需要太多领域知识、能够处理非常复杂的问题、能够处理快速大量的高维数据、能够随着数据增大提升精度等等。机器学习算法的缺陷包括其训练和使用需要数据时间空间电力等资源、模型和输出的解释型可能不好、模型可能有缺陷、覆盖范围不够或是被攻击比如大模型里的提示词注入。 比较采用人工反馈数据和采用非人工反馈数据的优劣人工反馈往往更费时费力并且不同人在不同时候的表现可能不一致并且人还会有意无意地犯错或是人类反馈的结果还不如用其他方法生成数据来的有效等等。我们在后文会详细探讨人工反馈的局限性。采用机器收集数据等非人工反馈数据则对收集的数据类型有局限性。有些数据只能靠人类收集或是用机器难以收集。这样的数据包括是主观的、人文的数据比如判断艺术作品的艺术性或是某些机器还做不了的事情比如玩一个AI暂时还不如人类的游戏。 4. 什么样的人类反馈才是好的反馈 好的反馈需要够用反馈数据可以用来学成奖励模型并且数据足够正确、量足够大、覆盖足够全面使得奖励模型足够好进而在后续的强化学习中得到令人满意的智能体。 这个部分涉及的评价指标包括对数据本身的评价指标正确性、数据量、覆盖率、一致性对奖励模型及其训练过程的评价指标、对强化学习训练过程和训练得到的智能体的评价指标。 好的反馈需要是可得的反馈。反馈需要可以在合理的时间花费和金钱花费的情况下得到并且在成本可控的同时不会引发其他风险如法律上的风险。 涉及的评价指标包括数据准备时间、数据准备涉及的人员数量、数据准备成本、是否引发其他风险的判断。 5. RLHF算法有哪些类别各有什么优缺点 RLHF算法有以下两大类用监督学习的思路训练奖励模型的RLHF、用逆强化学习的思路训练奖励模型的RLHF。 在用监督学习的思路训练奖励模型的RLHF系统中人类的反馈是奖励信号或是奖励信号的衍生量如奖励信号的排序。   直接反馈奖励信号和反馈奖励信号衍生量各有优缺点。这个优点在于获得奖励参考值后可以直接把它用作有监督学习的标签。缺点在于不同人在不同时候给出的奖励信号可能不一致甚至矛盾。反馈奖励信号的衍生量比如奖励模型输入的比较或排序。有些任务给出评价一致的奖励值有困难但是比较大小容易得多。但是没有密集程度的信息。在大量类似情况导致某部分奖励对应的样本过于密集的情况下甚至可能不收敛。   一般认为采用比较类型的反馈可以得到更好的性能中位数但是并不能得到更好的性能平均值。   在用逆强化学习的思路训练奖励模型的RLHF系统中人类的反馈并不是奖励信号而是使得奖励更大的奖励模型输入。即人类给出了较为正确的数量、文本、分类、物理动作等告诉奖励模型在这时候奖励应该比较大。这其实就是逆强化学习的思想。   这种方法与用监督学习训练奖励模型的RLHF相比其优点在于训练奖励模型的样本点不再拘泥于系统给出的需要评判的样本。因为系统给出的需要评估奖励的样本可能具有局限性因为系统没有找到最优的区间。 在系统搭建初期还可以将用户提供的参考答案用于把最初的强化学习问题转化成模仿学习问题。   这类设计还可以根据反馈的类型进一步分类一类是让人类独立给出专家意见另一类是在让人类在已有数据的基础上进行改进。让人类提供意见就类似于让人类提供模仿学习里的专家策略当然可能略有不同毕竟奖励模型的输入不只有动作。让用户在已有的参考内容上修改可以减少人类每个标注的成本但是已有的参考内容可能会干扰到人类的独立判断这个干扰可能是正面的也可能是负面的。 6. RLHF采用人类反馈会带来哪些局限 前面已经提到人类反馈可能更费时费力并且不一定能够保证准确性和一致性。除此之外下面几点会导致奖励模型不完整不正确导致后续强化学习训练得到的智能体行为不能令人满意。 6.1 提供人类反馈的人群可能有偏见或局限性。 这个问题和数理统计里的对样本进行抽样方法可能遇到的问题类型。为RLHF系统提供反馈的人群可能并不是最佳的人群。有的时候出于成本、可得性等因素会选择人力成本低的团队但是这样的团队可能在专业度不够或是有着不同的法律、道德和宗教观念包括歧视性信息。反馈人中可能有恶意者会提供有误导性的反馈。 6.2 人的决策可能没有机器决策那么高明。 在一些问题上机器可以比人做的更好比如对于象棋围棋等棋盘游戏真人就比不过人工智能程序。在一些问题上人能够处理的信息没有数据驱动的程序处理的信息全面。比如对于自动驾驶的应用人类只能根据二维画面和声音进行决策而程序能够处理连续时间内三维空间的信息。所以在理论上人类反馈的质量是不如程序的。 6.3 没有将提供反馈的人的特征引入到系统。 每个人都是独一无二的每个人有自己的成长环境、宗教信仰、道德观念、学习和工作经历、知识储备等我们不可能把每个人的所有特征都引入到系统。在这种情况下如果忽略不同的人之间在某个特征维度上的差别那么就会损失到许多有效信息导致奖励模型性能下降。 以大规模语言模型为例用户可以通过提示工程指定模型以某种特定的角色或沟通方式来沟通比如有时要求语言模型的输出文字更有礼貌更客套多奉承套有时需要输出文字内容掷地有声言之有物少客套有时要求输出文字更有创造性有时要求输出文字尊重事实更严谨有时要求输出简洁扼要有时要求输出详尽完备提供更多细节有时要求输出中立客观仅在纯自然科学范围内讨论有时要求输出多考虑人文社会的环境背景。而提供反馈数据的人的不同身份背景和沟通习惯可能正好对应于不同情况下的输出要求。这种情况下反馈人的特性就非常重要。 6.4 人性可能导致数据集不完美。 比如语言模型可能会通过拍马屁、戴高帽等行为获得高分评价但是这样的高分评价可能并没有真正解决问题有违系统设计的初衷。看似得分很高但是高得分可能是通过避免争议性话题或是拍马屁拍出来的而不是真正解决了需要解决问题没有达到系统设计的初衷。 此外人类提供反馈还有其他非技术上面的风险比如泄密等安全性风险、监管法律风险等。 7. 如何降低人类反馈带来的负面影响 针对人类反馈费时费力且可能导致奖励模型不完整不正确的问题可以在收集人类反馈数据的同时就训练奖励模型、训练智能体并全面评估奖励模型和智能体以便于尽早发现人类反馈的缺陷。发现缺陷后及时进行调整。 针对人类反馈中出现的反馈质量问题以及错误反馈可以对人类反馈进行校验和审计如引入已知奖励的校验样本来校验人类反馈的质量或为同一样本多次索取反馈并比较多次反馈的结果等。 针对反馈人的选择不当的问题可以在有效控制人力成本的基础上采用科学的方法选定提供反馈的人。可以参考数理统计里的抽样方法如分层抽样、整群抽样等使得反馈人群更加合理。 对于反馈数据中未包括反馈人特征导致奖励模型不够好的问题可以收集反馈人的特征并将这些特征用于奖励模型的训练。比如在大规模语言模型的训练中可以记录反馈人的职业背景如律师、医生等并在训练奖励模型时加以考虑。当用户要求智能体像律师一样工作时更应该利用由律师提供的数据学成的那部分奖励模型来提供奖励信号当用户要求智能体像医生一样工作时更应该利用由医生提供的数据学成的那部分奖励模型来提供奖励信号。 另外在整个系统的实施过程中可以征求专业人士意见以减小其中法律和安全风险。 本文内容摘编自《强化学习原理与Python实战》经出版方授权发布。 好书推荐 《强化学习原理与Python实战》 理论完备涵盖强化学习主干理论和常见算法带你参透ChatGPT技术要点 实战性强每章都有编程案例深度强化学习算法提供TenorFlow和PyTorch对照实现 配套丰富逐章提供知识点总结章后习题形式丰富多样。还有Gym源码解读、开发环境搭建指南、习题答案等在线资源助力自学。 ⭐京东链接https://item.jd.com/13815337.html 参考资料 肖智清。强化学习原理与Python实战。机械工业出版社。2023. P. Christiano et. al., Deep reinforcement learning from human preferences. arxiv: 1706.03741. S. Casper, et. al. Open problems and fundamental limitations of reinforcement learning from human feedback. arxiv: 2307.15217. 了解数学思想本质尽在掌握 如果这份博客对大家有帮助希望各位给恒川一个免费的点赞作为鼓励并评论收藏一下⭐谢谢大家   制作不易如果大家有什么疑问或给恒川的意见欢迎评论区留言。
http://www.zqtcl.cn/news/674672/

相关文章:

  • 网站模板 缓存商标网上开店创业计划书
  • 沧州网站建设微艾薇怎样给企业做网站
  • 如何做淘宝客的网站个人网站设计与制作代码
  • 信用门户网站建设观摩惠州专业做网站
  • wordpress打开网站前广告佛山百度推广seo服务
  • 松北建设局网站vps 用ip可以访问网站么
  • 网站图片内容免费开源crm
  • wordpress调用分类栏目wordpress文章优化
  • 建站公司上海企业官网模板下载
  • 网站建设推广话术wordpress 不显示缩略图
  • 企业电子商务网站建设和一般百拓公司做网站怎么样
  • 吉林网站建设司上海什么做网站的公司比较好
  • 吉安市建设规划局网站jsp wordpress
  • 建设银行贵金属网站微信小程序注册后怎么使用
  • 如何做律师网站河南建网站 优帮云
  • 云阳如何做网站网站建设旅游
  • 推荐一个简单的网站制作单位网站服务的建设及维护
  • tp5网站文档归档怎么做网站 信用卡支付接口
  • phpcms 企业网站网站建设中单页代码
  • 坑梓网站建设方案网络编程技术及应用
  • 电子商务网站建设 价格新媒体运营需要具备哪些能力
  • 做生存分析的网站电商网站运营建设的目标
  • 佛山 做网站邮箱官方网站注册
  • 生成flash的网站源码表白二维码制作网站
  • 定做专业营销型网站网站开发应用
  • 万盛建设局官方网站如何用群晖nas做网站
  • 建设装饰网站郑州惠济区建设局网站
  • 网站做标题有用吗网站优化多少钱
  • 婚庆设备租赁网站源码如何进行网站的建设和维护
  • 青岛做网站公wordpress文章付费阅读