当前位置: 首页 > news >正文

做擦边球网站阳江招聘网收银

做擦边球网站,阳江招聘网收银,龙之向导外贸网址,网站开发讲座note 文章目录 note一、A2C算法二、A3C算法时间安排Reference 一、A2C算法 在强化学习中#xff0c;有一个智能体#xff08;agent#xff09;在某种环境中采取行动#xff0c;根据其行动的效果获得奖励。目标是学习一种策略#xff0c;即在给定的环境状态下选择最佳行动有一个智能体agent在某种环境中采取行动根据其行动的效果获得奖励。目标是学习一种策略即在给定的环境状态下选择最佳行动以最大化长期累积的奖励。 A2CAdvantage Actor-Critic Actor-Critic 框架A2C 基于 Actor-Critic 框架。在这个框架中有两个主要部分Actor 和 Critic。Actor 负责选择行动Critic 评估所选行动的好坏。简单来说Actor 是决策者而 Critic 是评价者。Advantage 概念在 A2C 中“Advantage”指的是某个行动相对于平均行动的预期效果好多少。这有助于理解某些行动为什么比其他行动更好。工作原理A2C 通过训练 Actor 和 Critic 来改善决策。Actor 根据 Critic 的评价来调整其策略而 Critic 则根据实际结果来调整其对行动好坏的评估。通俗解释可以把 A2C 想象成一个足球队其中 Actor 是球员Critic 是教练。球员Actor根据场上情况做出决策而教练Critic则评估这些决策并指导球员如何改进。 import torch import torch.optim as optim import torch.nn as nn import torch.nn.functional as F from torch.distributions import Categorical import numpy as np from multiprocessing import Process, Pipe import argparse import gym# 建立Actor和Critic网络 class ActorCritic(nn.Module): A2C网络模型包含一个Actor和Criticdef __init__(self, input_dim, output_dim, hidden_dim):super(ActorCritic, self).__init__()self.critic nn.Sequential(nn.Linear(input_dim, hidden_dim),nn.ReLU(),nn.Linear(hidden_dim, 1))self.actor nn.Sequential(nn.Linear(input_dim, hidden_dim),nn.ReLU(),nn.Linear(hidden_dim, output_dim),nn.Softmax(dim1),)def forward(self, x):value self.critic(x)probs self.actor(x)dist Categorical(probs)return dist, valueclass A2C: A2C算法def __init__(self,n_states,n_actions,cfg) - None:self.gamma cfg.gammaself.device cfg.deviceself.model ActorCritic(n_states, n_actions, cfg.hidden_size).to(self.device)self.optimizer optim.Adam(self.model.parameters())def compute_returns(self,next_value, rewards, masks):R next_valuereturns []for step in reversed(range(len(rewards))):R rewards[step] self.gamma * R * masks[step]returns.insert(0, R)return returns二、A3C算法 A3CAsynchronous Advantage Actor-Critic 异步框架A3C 在 A2C 的基础上增加了“异步”这一概念。这意味着多个智能体即多个 Actor-Critic 对同时在不同的环境副本中学习。并行学习在 A3C 中每个智能体独立地探索环境并学习。它们的学习结果会不时地汇总更新到一个全局模型中。效率和稳定性由于是并行处理A3C 可以更高效地学习并且由于多个智能体探索不同策略算法的稳定性和鲁棒性也得到提升。通俗解释A3C 就像是许多足球队同时在不同的球场上训练。每个队都有自己的球员Actor和教练Critic他们独立训练并不断向一个中央团队报告他们的进步。中央团队汇总这些信息以帮助每个队伍更好地训练。 时间安排 任务天数截止时间注意事项Task01: 马尔可夫过程、DQN算法3天1月15周一-17日周三Task02: 策略梯度算法3天1月18日周四-20周六Task03: A2C、A3C算法、JoyRL开源文档关注多进程3天1月21日周日-23日周二Task04: DDPG、TD3算法3天1月24日周三-26日周五Task05: PPO算法JoyRL代码实践(选择任一算法任一环境研究算法不同参数给实验结果带来的影响也可以用JoyRL上没有跑过的环境尝试)6天1月27日周六-2月1号周四 Reference [1] 开源内容https://linklearner.com/learn/detail/91 [2] https://github.com/datawhalechina/joyrl-book
http://www.zqtcl.cn/news/428172/

相关文章:

  • 钉钉crm客户管理系统免费seo网站推荐一下软件
  • wordpress公司网站模版怎么显示wordpress里元素的源代码
  • 泉州网站制作运营商专业wordpress评论软件
  • 网站开发是什么意思啊有没有帮人做简历的网站
  • 企业网站模板包含什么维度 网站建设
  • 个人备案做运营网站宁波建网站模板
  • 做网站需要懂什么软件合肥网站制作套餐
  • 中国建设银行官方网站纪念钞预约网上买手表哪个网站可以买到正品
  • 哪个网站做兼职可以赚钱浙江嘉兴最新事件
  • 苍南网站建设深圳百度关键字优化
  • 网站建设流程及规范是做网站设计好还是杂志美编好
  • 网站模板 登陆南昌做网站开发的公司有哪些
  • 移动网站建设是什么商丘哪里教做网站的
  • 网站建设排名的公司江东seo做关键词优化
  • 学习网站开发培训网站内链是什么
  • 中文 域名的网站用wordpress做的网站有哪些
  • 网站建设中需要注意的问题唐山自助建站模板
  • 网站建设捌金手指下拉一重庆 网站定制
  • 网站建设需求调研方法自己做网站要多少钱
  • 北流网站建设公众号开发 表格
  • 做教育类网站一般流程苏宁易购网站风格
  • 兼职网站推广如何做如何用ps做网站
  • 济南外贸网站建设软件公司网站
  • 衡阳做网站注册网站流程
  • 关于网站建设的申请报告wordpress花园网站
  • jsp网站 iis免费企业信息查询
  • 泊头市网站建设公司只有企业自己建立网站平台进行
  • 有阿里云服务器 怎么做网站找广告设计
  • 网站建设 ui设计公司素材网站源码
  • 网站响应式布局wordpress代码混乱