当前位置: 首页 > news >正文

手机网站大全免费中铁建设集团招标平台

手机网站大全免费,中铁建设集团招标平台,做签证网站,怎么看一个网站是否被kInverse Reinforcement Learning (IRL) 详解 什么是 Inverse Reinforcement Learning#xff1f; 在传统的强化学习 (Reinforcement Learning, RL) 中#xff0c;奖励函数是已知的#xff0c;智能体的任务是学习一个策略来最大化奖励 而在逆向强化学习 (Inverse Reinforc… Inverse Reinforcement Learning (IRL) 详解 什么是 Inverse Reinforcement Learning 在传统的强化学习 (Reinforcement Learning, RL) 中奖励函数是已知的智能体的任务是学习一个策略来最大化奖励 而在逆向强化学习 (Inverse Reinforcement Learning, IRL) 中情况相反 我们不知道奖励函数 缺失的但是我们有专家的示范轨迹比如专家怎么开车、怎么走路: τ ( s 0 , a 0 , s 1 , a 1 , … , s T ) \tau (s_0, a_0, s_1, a_1, \dots, s_T) τ(s0​,a0​,s1​,a1​,…,sT​)目标是推断出奖励函数使得专家行为在该奖励下是最优的 简单来说IRL 是从专家行为中推断动机 Initialize an actorIn each iteration The actor interacts with the environrment to obtain some trajectoriesDefine a reward functlon, which makes thetrajectories of the teacher better than the actorThe actor learns to maximize the reward based on the new reward function Output the reward function and the actor learned from the reward function IRL算法之 GAIL 算法详解 GAIL生成对抗模仿学习结合了生成对抗网络 GANGenerator 对抗 Discriminator和 强化学习 Policy Gradient策略梯度 让智能体学会产生像专家一样的轨迹但不直接学习奖励函数只通过模仿专家行为来训练策略 判别器 (Discriminator) 试图区分 “专家轨迹” 和 “生成器轨迹” 判别器的目标是最大化对数似然判别器希望对于专家数据 expert 输出接近 1对于生成数据 policy 输出接近 0 max ⁡ D E expert [ log ⁡ D ( s , a ) ] E policy [ log ⁡ ( 1 − D ( s , a ) ) ] \max_D \mathbb{E}_{\text{expert}} [\log D(s, a)] \mathbb{E}_{\text{policy}} [\log (1 - D(s, a))] Dmax​Eexpert​[logD(s,a)]Epolicy​[log(1−D(s,a))] 生成器策略网络 Policy试图“欺骗”判别器让判别器以为它生成的轨迹是专家生成的 生成器的目标是最小化 min ⁡ π E τ ∼ π [ log ⁡ ( 1 − D ( s , a ) ) ] \min_{\pi} \mathbb{E}_{\tau \sim \pi} [\log (1 - D(s, a))] πmin​Eτ∼π​[log(1−D(s,a))] 这其实可以等价强化学习问题奖励信号变成了 r ( s , a ) − log ⁡ ( 1 − D ( s , a ) ) r(s, a) - \log (1 - D(s, a)) r(s,a)−log(1−D(s,a)) 这样跟标准的 policy gradient 非常类似只不过奖励是来自判别器 GAIL 简单代码示例 import gym from stable_baselines3 import PPO from imitation.algorithms.adversarial import GAIL from imitation.data.types import TrajectoryWithRew from imitation.data import rollout# 1. 创建环境 env gym.make(CartPole-v1)# 2. 加载或创建专家模型 expert PPO(MlpPolicy, env, verbose0) expert.learn(10000)# 3. 收集专家轨迹数据 trajectories rollout.rollout(expert,env,rollout.make_sample_until(min_timestepsNone, min_episodes20) )# 4. 创建新模型作为 actor learner PPO(MlpPolicy, env, verbose1)# 5. 使用 GAIL 进行逆强化学习训练 gail_trainer GAIL(venvenv,demonstrationstrajectories,gen_algolearner ) gail_trainer.train(10000)# 6. 测试训练后的模型 obs env.reset() for _ in range(1000):action, _states learner.predict(obs, deterministicTrue)obs, reward, done, info env.step(action)env.render()if done:obs env.reset()env.close()
http://www.zqtcl.cn/news/276456/

相关文章:

  • 网站版面布局结构图门户网站要求
  • 网站左侧广告代码网站建设交接协议书
  • dedecms网站上传华为网络营销案例分析
  • wordpress搭建站点龙岗网站建设代理商
  • 做销售网站要多少钱建立网站的流程
  • 视频类网站如何做缓存网页设计框架怎么写
  • wordpress建站访问提示不安全网页加速器哪个最好用
  • 网博士自助建站系统下载毕业设计代做网站唯一
  • 江西网站建设优化服务营销软文范例大全100字
  • 图片类网站怎样做高并发专业做旗袍花的网站是什么网站
  • 我要建网站需要什么专业网站制作全包
  • 网站开发合同印花税自定义手机网站建设
  • 营销型网站开发流程制作网站需要钱吗
  • 提供有经验的网站建设百度识图识别
  • html手机网站怎么做湖南关键词优化品牌推荐
  • 网站定制开发收费标准是多少易语言如何做浏网站
  • 网站怎么做实名认证新手怎么开婚庆公司
  • .net做网站用什么技术网站优化排名方案
  • 电商网站备案流程网站移动端优化的重点有哪些
  • 数据需求 网站建设做qq空间的网站
  • 微信网站游戏网络规划设计师可以挂证吗
  • 有个做特价的购物网站网站建设与维护题库及答案
  • 长沙网站优化价格创意设计师个人网站
  • 滨河网站建设南京免费发布信息网站
  • 蓝色系列的网站邓砚谷电子商务网站建设
  • 德阳市住房和城乡建设局网站首页一个服务器可以建多少个网站
  • 建一个电商网站多少钱一起做网店货源app
  • 做网站用lunx代理记账 营销型网站
  • 凡客做网站怎么样WordPress分类目录 前100篇
  • 腾讯wordpress 建站教程本地的上海网站建设公司