做擦边球网站,阳江招聘网收银,龙之向导外贸网址,网站开发讲座note 文章目录 note一、A2C算法二、A3C算法时间安排Reference 一、A2C算法 在强化学习中#xff0c;有一个智能体#xff08;agent#xff09;在某种环境中采取行动#xff0c;根据其行动的效果获得奖励。目标是学习一种策略#xff0c;即在给定的环境状态下选择最佳行动有一个智能体agent在某种环境中采取行动根据其行动的效果获得奖励。目标是学习一种策略即在给定的环境状态下选择最佳行动以最大化长期累积的奖励。 A2CAdvantage Actor-Critic
Actor-Critic 框架A2C 基于 Actor-Critic 框架。在这个框架中有两个主要部分Actor 和 Critic。Actor 负责选择行动Critic 评估所选行动的好坏。简单来说Actor 是决策者而 Critic 是评价者。Advantage 概念在 A2C 中“Advantage”指的是某个行动相对于平均行动的预期效果好多少。这有助于理解某些行动为什么比其他行动更好。工作原理A2C 通过训练 Actor 和 Critic 来改善决策。Actor 根据 Critic 的评价来调整其策略而 Critic 则根据实际结果来调整其对行动好坏的评估。通俗解释可以把 A2C 想象成一个足球队其中 Actor 是球员Critic 是教练。球员Actor根据场上情况做出决策而教练Critic则评估这些决策并指导球员如何改进。
import torch
import torch.optim as optim
import torch.nn as nn
import torch.nn.functional as F
from torch.distributions import Categorical
import numpy as np
from multiprocessing import Process, Pipe
import argparse
import gym# 建立Actor和Critic网络
class ActorCritic(nn.Module): A2C网络模型包含一个Actor和Criticdef __init__(self, input_dim, output_dim, hidden_dim):super(ActorCritic, self).__init__()self.critic nn.Sequential(nn.Linear(input_dim, hidden_dim),nn.ReLU(),nn.Linear(hidden_dim, 1))self.actor nn.Sequential(nn.Linear(input_dim, hidden_dim),nn.ReLU(),nn.Linear(hidden_dim, output_dim),nn.Softmax(dim1),)def forward(self, x):value self.critic(x)probs self.actor(x)dist Categorical(probs)return dist, valueclass A2C: A2C算法def __init__(self,n_states,n_actions,cfg) - None:self.gamma cfg.gammaself.device cfg.deviceself.model ActorCritic(n_states, n_actions, cfg.hidden_size).to(self.device)self.optimizer optim.Adam(self.model.parameters())def compute_returns(self,next_value, rewards, masks):R next_valuereturns []for step in reversed(range(len(rewards))):R rewards[step] self.gamma * R * masks[step]returns.insert(0, R)return returns二、A3C算法
A3CAsynchronous Advantage Actor-Critic
异步框架A3C 在 A2C 的基础上增加了“异步”这一概念。这意味着多个智能体即多个 Actor-Critic 对同时在不同的环境副本中学习。并行学习在 A3C 中每个智能体独立地探索环境并学习。它们的学习结果会不时地汇总更新到一个全局模型中。效率和稳定性由于是并行处理A3C 可以更高效地学习并且由于多个智能体探索不同策略算法的稳定性和鲁棒性也得到提升。通俗解释A3C 就像是许多足球队同时在不同的球场上训练。每个队都有自己的球员Actor和教练Critic他们独立训练并不断向一个中央团队报告他们的进步。中央团队汇总这些信息以帮助每个队伍更好地训练。
时间安排
任务天数截止时间注意事项Task01: 马尔可夫过程、DQN算法3天1月15周一-17日周三Task02: 策略梯度算法3天1月18日周四-20周六Task03: A2C、A3C算法、JoyRL开源文档关注多进程3天1月21日周日-23日周二Task04: DDPG、TD3算法3天1月24日周三-26日周五Task05: PPO算法JoyRL代码实践(选择任一算法任一环境研究算法不同参数给实验结果带来的影响也可以用JoyRL上没有跑过的环境尝试)6天1月27日周六-2月1号周四
Reference
[1] 开源内容https://linklearner.com/learn/detail/91 [2] https://github.com/datawhalechina/joyrl-book