当前位置: 首页 > news >正文

网站搭建用什么语言百度网站做防水补漏

网站搭建用什么语言,百度网站做防水补漏,电商设计有前途吗,网站 工作室Inverse Reinforcement Learning (IRL) 详解 什么是 Inverse Reinforcement Learning#xff1f; 在传统的强化学习 (Reinforcement Learning, RL) 中#xff0c;奖励函数是已知的#xff0c;智能体的任务是学习一个策略来最大化奖励 而在逆向强化学习 (Inverse Reinforc… Inverse Reinforcement Learning (IRL) 详解 什么是 Inverse Reinforcement Learning 在传统的强化学习 (Reinforcement Learning, RL) 中奖励函数是已知的智能体的任务是学习一个策略来最大化奖励 而在逆向强化学习 (Inverse Reinforcement Learning, IRL) 中情况相反 我们不知道奖励函数 缺失的但是我们有专家的示范轨迹比如专家怎么开车、怎么走路: τ ( s 0 , a 0 , s 1 , a 1 , … , s T ) \tau (s_0, a_0, s_1, a_1, \dots, s_T) τ(s0​,a0​,s1​,a1​,…,sT​)目标是推断出奖励函数使得专家行为在该奖励下是最优的 简单来说IRL 是从专家行为中推断动机 Initialize an actorIn each iteration The actor interacts with the environrment to obtain some trajectoriesDefine a reward functlon, which makes thetrajectories of the teacher better than the actorThe actor learns to maximize the reward based on the new reward function Output the reward function and the actor learned from the reward function IRL算法之 GAIL 算法详解 GAIL生成对抗模仿学习结合了生成对抗网络 GANGenerator 对抗 Discriminator和 强化学习 Policy Gradient策略梯度 让智能体学会产生像专家一样的轨迹但不直接学习奖励函数只通过模仿专家行为来训练策略 判别器 (Discriminator) 试图区分 “专家轨迹” 和 “生成器轨迹” 判别器的目标是最大化对数似然判别器希望对于专家数据 expert 输出接近 1对于生成数据 policy 输出接近 0 max ⁡ D E expert [ log ⁡ D ( s , a ) ] E policy [ log ⁡ ( 1 − D ( s , a ) ) ] \max_D \mathbb{E}_{\text{expert}} [\log D(s, a)] \mathbb{E}_{\text{policy}} [\log (1 - D(s, a))] Dmax​Eexpert​[logD(s,a)]Epolicy​[log(1−D(s,a))] 生成器策略网络 Policy试图“欺骗”判别器让判别器以为它生成的轨迹是专家生成的 生成器的目标是最小化 min ⁡ π E τ ∼ π [ log ⁡ ( 1 − D ( s , a ) ) ] \min_{\pi} \mathbb{E}_{\tau \sim \pi} [\log (1 - D(s, a))] πmin​Eτ∼π​[log(1−D(s,a))] 这其实可以等价强化学习问题奖励信号变成了 r ( s , a ) − log ⁡ ( 1 − D ( s , a ) ) r(s, a) - \log (1 - D(s, a)) r(s,a)−log(1−D(s,a)) 这样跟标准的 policy gradient 非常类似只不过奖励是来自判别器 GAIL 简单代码示例 import gym from stable_baselines3 import PPO from imitation.algorithms.adversarial import GAIL from imitation.data.types import TrajectoryWithRew from imitation.data import rollout# 1. 创建环境 env gym.make(CartPole-v1)# 2. 加载或创建专家模型 expert PPO(MlpPolicy, env, verbose0) expert.learn(10000)# 3. 收集专家轨迹数据 trajectories rollout.rollout(expert,env,rollout.make_sample_until(min_timestepsNone, min_episodes20) )# 4. 创建新模型作为 actor learner PPO(MlpPolicy, env, verbose1)# 5. 使用 GAIL 进行逆强化学习训练 gail_trainer GAIL(venvenv,demonstrationstrajectories,gen_algolearner ) gail_trainer.train(10000)# 6. 测试训练后的模型 obs env.reset() for _ in range(1000):action, _states learner.predict(obs, deterministicTrue)obs, reward, done, info env.step(action)env.render()if done:obs env.reset()env.close()
http://www.zqtcl.cn/news/280071/

相关文章:

  • 桂城网站制作公司wordpress 导航网站
  • 一个公司做网站需要注意什么条件网站备案 登陆
  • 百度网站介绍显示图片装修公司一般多少钱一平方
  • 网站销售如何做业绩我找伟宏篷布我做的事ko家的网站
  • 建立网站有哪些步骤?jsp网站开发详细教程
  • 网站怎么做直播功能旅游做攻略用什么网站
  • 企业外贸营销型网站如何写好软文推广
  • 免费建站的网址个人网站建设程序设计
  • 淘宝网站建设违规吗上海大公司
  • 大淘客怎么自己做网站自己开网站能赚钱吗
  • 大型门户网站开发北京网站建设管庄
  • 大连建设工程网站网站建设组织管理怎么写
  • wordpress英文站注册域名需要注意什么
  • 营销型网站的建设重点是什么深圳logo设计公司排名
  • 做网站的用什么软件呢网站排名优化服务公司
  • 网站开发完整视频网站集约化建设较好的城市
  • 网站建设和平面设计应用网站如何做
  • 自己做网站需要多少费用asa8.4 做网站映射
  • 商业网站 模板黑龙江省建设厅安全员考试
  • 网站新备案不能访问室内装修网站模板
  • 工程师报考网站wordpress设置视频图片不显示图片
  • 徐州网站建设公司排名成都住建平台
  • 用来备案企业网站国外免费外贸网站
  • 网页背景做的比较好的网站做一个企业网站价格
  • 免费制图网站县级门户网站建设的报告
  • 北京网站建设网怎么用手机做一个网站
  • 网站建设管理办法关于公司门户网站建设的议案
  • 网站开发入职转正申请书体验好的网站
  • 在线精品课程网站开发网站备案号怎么修改
  • 网站建设 风险百度热搜的含义