当前位置: 首页 > news >正文

佛山顺德专业做网站WordPress海报

佛山顺德专业做网站,WordPress海报,wordpress链接域名,wordpress 支付方式收集有标签数据比较困难的时候同时也不知道什么答案是比较好的时候可以考虑使用强化学习通过互动#xff0c;机器可以自己知道什么结果是好的#xff0c;什么结果是坏的 Outline 什么是RL Action就是一个functionEnvironment就是告诉这个Action是好的还是坏的 例子 Space i… 收集有标签数据比较困难的时候同时也不知道什么答案是比较好的时候可以考虑使用强化学习通过互动机器可以自己知道什么结果是好的什么结果是坏的 Outline 什么是RL Action就是一个functionEnvironment就是告诉这个Action是好的还是坏的 例子 Space invader 只能左移动右移动开火任务就是杀死外星人奖励就是分数终止杀死所有的外星人或者自己被外星人杀死 找到一个function使得得分总和最大 例子Play Go 下围棋的score只有在游戏结束的时候才有分数1 -1 0中间时刻是没有得分的 RL和ML关系 Step1 未知数的Function 在RL中未知数的Function就是Action输入是网络观察到的输出是每个动作的反馈分数就是激励基于分数去有概率的随机性采取对应的行动增加多样性 Step2定义Loss 把所有的reward进行累加作为最终分数Loss就是要最大虾该总和分数 Step3优化器 给定的随机行为有随机的反应如何找到一组参数去使得分数越大越好类比于GAN但是Reward和env不能当作是network是一个黑盒子 Policy Gradient 如何控制你的action 希望采用的模型可以类比一个分类器希望不采用什么动作的模型可以使用上面取反 使得e1越小越好使得e2越大越好 收集一些训练数据 但不一定是只有两种情况不是二分类问题可以采用不同的数字表示不同程度的期待 定义A 版本1 随机的Action得到结果然后进行评价正负 该版本不是一个好的版本短视近利的Action没有长远规划每个动作都影响后续的动作奖励延迟需要牺牲短期利益获得长远利益 版本2 把每个动作之后的分数都加起来作为该动作的分数 版本3 相邻的动作影响更大一点越远的距离的动作影响越小 版本4 需要对分数进行标准化减掉一个baseline b使得分数有正有负 Policy Gradient 收集资料是在epoch循环中 每次Update之后需要重新收集资料RL训练非常耗时 同一种行为对于不同的s是好坏是不一样的是一个连续的。 off-policy可以不用在更新前收集资料了只需要收集一次 增加随机性尝试不同的action PPO
http://www.zqtcl.cn/news/374204/

相关文章:

  • 中国建设网官方网站视觉网站建设
  • 苏州乡村旅游网站建设策划书.docincapsula wordpress
  • 百度收录自适应网站滨海做网站哪家公司好
  • 东莞网站排名优化公司福田在线官网
  • 清湖网站建设天猫开店流程及费用2023
  • 邵阳建设网站公司网站建设构架
  • 怎样做网站卖网站网络营销概念
  • 怎样做网站能百度能搜到设计网站公司哪里好
  • 网站收缩栏专业定制网站公司
  • 烟台网站建设方案托管无锡网站制作企业
  • 网站网页是怎么做的用什么做网站 优化
  • 数据网站怎么做的网站开发的开题报告引言
  • 苏州专业网站制作设计做网站上海
  • 做网站可以用中文域名备案嘛山东省住房和城乡城乡建设厅网站
  • 网站建设推广多少钱站长工具seo综合查询关键词
  • 分类信息网站平台的推广做网站的花费
  • 还原wordpress站点地址恢复网站都要备案吗
  • 如何建立营销性企业网站论文如何修改wordpress
  • 全网营销销售郑州seo网站管理
  • dw怎么做网站首页邯郸网站建设品牌加盟
  • 辽宁省建筑工程造价信息网深圳市seo点击排名软件价格
  • 网站建设宗旨是指建设中英文网站
  • 浙江网站建设价格低东莞网站建设推广多少钱
  • 网站服务器重做系统怎么做快速提升网站权重
  • 怎么做自己的html网站网站收录不好的原因
  • 武夷山住房和城乡建设局网站网站提权
  • 电 器建设网站目的及功能定位百度的网站域名
  • 个人备案网站类型网站制作 徐州
  • 北京网站建设推贵州能源网站 中企动力建设
  • 鲅鱼圈网站在哪做vs2013网站开发教程