当前位置: 首页 > news >正文

做的门户网站怎么绑定ip地址网站公司名称大全

做的门户网站怎么绑定ip地址,网站公司名称大全,襄阳seo营销,创做网站DQN算法的全称为#xff0c;Deep Q-Network#xff0c;即在Q-learning算法的基础上引用深度神经网络来近似动作函数 Q ( s , a ) Q(s,a) Q(s,a) 。对于传统的Q-learning#xff0c;当状态或动作数量特别大的时候#xff0c;如处理一张图片#xff0c;假设为 210 160 3 …DQN算法的全称为Deep Q-Network即在Q-learning算法的基础上引用深度神经网络来近似动作函数 Q ( s , a ) Q(s,a) Q(s,a) 。对于传统的Q-learning当状态或动作数量特别大的时候如处理一张图片假设为 210 × 160 × 3 210×160×3 210×160×3共有 25 6 ( 210 × 60 × 3 ) 256^{(210×60×3)} 256(210×60×3)种状态难以存储但可以使用参数化的函数 Q θ Q_{\theta} Qθ​ 来拟合这些数据即DQN算法。同时DQN还引用了经验回放和目标网络接下来将以此介绍。 CartPole 环境 在车杆环境中通过移动小车让小车上的杆保持垂直如果杆的倾斜度数过大或者车子偏离初始位置的距离过大或者坚持了一定的时间则结束本轮训练。该智能体的状态是四维向量每个状态是连续的但其动作是离散的动作的工作空间是2。 维度意义最小值最大值0车的位置-2.42.41车的速度-InfInf2杆的角度~ -41.8°~ 41.8°3杆尖端的速度-InfInf 标号动作0向左移动小车1向右移动小车 深度网络 我们通过神经网络将输入向量 x x x映射到输出向量 y y y通过下式表示 y f θ ( x ) yf_{\theta}(x) yfθ​(x) 神经网络可以理解为是一个函数输入输出都是向量并且拥有可以学习的参数 θ \theta θ 通过梯度下降等方法使得神经网络能够逼近任意函数当然可以用来近似动作价值函数 y ⃗ Q θ ( s ⃗ , a ⃗ ) \vec{y}Q_{\theta}(\vec{s},\vec{a}) y ​Qθ​(s ,a ) 在本环境种由于状态的每一维度的值都是连续的无法使用表格记录因此可以使用一个神经网络表示函数Q。当动作是连续无限时神经网络的输入是状态s和动作a输出一个标量表示在状态s下采取动作a能获得的价值。若动作是离散有限的除了采取动作连续情况下的做法还可以只将状态s输入到神经忘了输出每一个动作的Q值。 假设使用神经网络拟合w则每一个状态s下所有可能动作a的Q值为 Q w ( s , a ) Q_w(s,a) Qw​(s,a)我们称为Q网络 我们在Q-learning种使用下面的方式更新 Q ( s , a ) ← Q ( s , a ) α [ r γ max ⁡ a ′ ∈ A Q ( s ′ , a ′ ) − Q ( s , a ) ] Q(s,a)\leftarrow Q(s,a)\alpha\left[r\gamma\max_{a\in\mathcal{A}}Q(s,a)-Q(s,a)\right] Q(s,a)←Q(s,a)α[rγa′∈Amax​Q(s′,a′)−Q(s,a)] 即让 Q ( s , a ) Q(s,a) Q(s,a)向 r γ max ⁡ a ′ ∈ A Q ( s ′ , a ′ ) r\gamma\max_{a\in\mathcal{A}}Q(s,a) rγmaxa′∈A​Q(s′,a′)靠近那么Q网络的损失函数为均方误差的形式 ω ∗ arg ⁡ min ⁡ ω 1 2 N ∑ i 1 N [ Q ω ( s i , a i ) − ( r i γ max ⁡ a ′ Q ω ( s i ′ , a ′ ) ) ] 2 \omega^*\arg\min_{\omega}\frac{1}{2N}\sum_{i1}^{N}\left[Q_\omega\left(s_i,a_i\right)-\left(r_i\gamma\max_{a}Q_\omega\left(s_i,a\right)\right)\right]^2 ω∗argωmin​2N1​i1∑N​[Qω​(si​,ai​)−(ri​γa′max​Qω​(si′​,a′))]2 经验回访 将Q-learning过程中每次从环境中采样得到的四元组数据状态、动作、奖励、下一状态存储到回放缓冲区中之后在训练Q网络时再从回访缓冲区中随机采样若干数据进行训练。 在一般的监督学习中都是假定训练数据是独立同分布的而在强化学习中连续的采样、交互所得到的数据有很强的相关性这一时刻的状态和上一时刻的状态有关不满足独立假设。通过在回访缓冲区采样可以打破样本之间的相关性。另外每一个样本可以使用多次也适合深度学习。 目标网络 构建两个网络一个是目标网络一个是当前网络二者结构相同都用于近似Q值。在实践中每隔若干步才把每步更新的当前网络参数复制给目标网络这样做的好处是保证训练的稳定当训练的结果不好时可以不同步当前网络的值避免Q值的估计发散。 在计算期望时使用目标网络来计算 Q 期望 [ r t γ max ⁡ a ′ Q ω ˉ ( s ′ , a ′ ) ] Q_\text{期望}[r_t\gamma\max_{a^{\prime}}Q_{\bar{\omega}}(s^{\prime},a^{\prime})] Q期望​[rt​γa′max​Qωˉ​(s′,a′)] 具体流程如下所示 使用随机的网络参数 ω \omega ω初始化初始化当前网络 Q ω ( s , a ) Q_{\omega}(s,a) Qω​(s,a)复制相同的参数初始化目标网络 ω ˉ ← ω \bar{\omega}\gets \omega ωˉ←ω初始化经验回访池Rfor 序列 e 1 → E e1\to E e1→E do 获取环境初始状态 s 1 s_1 s1​for 时间步 t 1 → T 时间步t1\to T 时间步t1→T do 根据当前网络 Q ω ( s , a ) Q_{\omega}(s,a) Qω​(s,a) 以 ϵ − g r e e d y \epsilon -greedy ϵ−greedy策略选择动作 a t a_t at​执行动作 a t a_t at​获得回报 r t r_t rt​环境状态变为 s t 1 s_{t1} st1​将 ( s t , a t , r t , s t 1 ) (s_t,a_t,r_t,s_{t1}) (st​,at​,rt​,st1​)存储进回池R若R中数据足够则从R中采样N个数据 { ( s i , a i , r i , s i 1 ) } i 1 , … , N \{(s_i,a_i,r_i,s_{i1})\}_{i1,\ldots,N} {(si​,ai​,ri​,si1​)}i1,…,N​对每个数据用目标网络计算 y r i γ max ⁡ a Q ω ˉ ( s i 1 , a ) yr_i\gamma\max_aQ_{\bar{\omega}}(s_{i1},a) yri​γmaxa​Qωˉ​(si1​,a)最小化目标损失 L 1 N ∑ i ( y i − Q ω ( s i , a i ) ) 2 L\frac{1}{N}\sum_{i}(y_{i}-Q_{\omega}(s_{i},a_{i}))^{2} LN1​∑i​(yi​−Qω​(si​,ai​))2以更新当前网络 Q ω Q_{\omega} Qω​更新目标网络 end for end for import random from typing import Any import gymnasium as gym import numpy as np import collections from tqdm import tqdm import torch import torch.nn.functional as F import matplotlib.pyplot as plt import rl_utils# 首先定义经验回收池的类包括加入数据、采样数据 class ReplayBuffer:def __init__(self, capacity):# 创建一个队列先进先出self.buffercollections.deque(maxlencapacity)def add(self,state,action,reward,next_state,done):# 加入数据self.buffer.append((state,action,reward,next_state,done))def sample(self,batch_size):# 随机采样数据mini_batchrandom.sample(self.buffer,batch_size)# zip(*)取mini_batch中的每个元素即取列并返回一个元组state,action,reward,next_state,donezip(*mini_batch)return np.array(state), action, reward, np.array(next_state), donedef size(self):return len(self.buffer)# 定义一个只有一层隐藏层的Q网络 class Qnet(torch.nn.Module):def __init__(self,state_dim,hidden_dim,action_dim):super(Qnet,self).__init__()# 定义一个全连接层输入为state_dim维向量输出为hidden_dim维向量self.fc1torch.nn.Linear(state_dim,hidden_dim)# 定义一个全连接层输入为hidden_dim维向量输出为action_dim维向量self.fc2torch.nn.Linear(hidden_dim,action_dim)def forward(self,state):x F.relu(self.fc1(state))return self.fc2(x)class DQN:def __init__(self,state_dim,hidden_dim,action_dim,learning_rate,gamma,epsilon,target_update,device):self.action_dimaction_dimself.q_netQnet(state_dim,hidden_dim,action_dim).to(device)# 目标网络self.target_q_netQnet(state_dim,hidden_dim,action_dim).to(device)# 使用Adam优化器self.optimizertorch.optim.Adam(self.q_net.parameters(),lrlearning_rate)# 折扣因子self.gammagamma# 贪婪策略self.epsilonepsilon# 目标网络更新频率self.target_updatetarget_update# 计数器self.count0self.devicedevicedef take_action(self,state):# 判断是否需要贪婪策略if np.random.random()self.epsilon:actionnp.random.randint(self.action_dim)else:statetorch.tensor([state],dtypetorch.float).to(self.device)actionself.q_net(state).argmax().item()return actiondef update(self,transition_dict):states torch.tensor(transition_dict[states],dtypetorch.float).to(self.device)actions torch.tensor(transition_dict[actions]).view(-1, 1).to(self.device)rewards torch.tensor(transition_dict[rewards],dtypetorch.float).view(-1, 1).to(self.device)next_states torch.tensor(transition_dict[next_states],dtypetorch.float).to(self.device)dones torch.tensor(transition_dict[dones],dtypetorch.float).view(-1, 1).to(self.device)# Q值q_valuesself.q_net(states).gather(1,actions)# 下一个状态的最大Q值max_next_q_valuesself.target_q_net(next_states).max(1)[0].view(-1, 1)q_targetsrewardsself.gamma*max_next_q_values*(1-dones)# 反向传播更新参数dqn_losstorch.mean(F.mse_loss(q_values, q_targets)) # 均方误差损失函数self.optimizer.zero_grad()dqn_loss.backward()self.optimizer.step()if self.count % self.target_update 0:self.target_q_net.load_state_dict(self.q_net.state_dict()) # 更新目标网络self.count 1lr 2e-3 num_episodes 500 hidden_dim 128 gamma 0.98 epsilon 0.01 target_update 10 buffer_size 10000 minimal_size 500 batch_size 64 device torch.device(cuda) if torch.cuda.is_available() else torch.device(cpu)env_name CartPole-v0 env gym.make(env_name) random.seed(0) np.random.seed(0) torch.manual_seed(0) replay_buffer ReplayBuffer(buffer_size) state_dim env.observation_space.shape[0] action_dim env.action_space.n agent DQN(state_dim, hidden_dim, action_dim, lr, gamma, epsilon,target_update, device)return_list [] for i in range(10):with tqdm(totalint(num_episodes / 10), descIteration %d % i) as pbar:for i_episode in range(int(num_episodes / 10)):episode_return 0state env.reset()[0]aastate[0]print(state)done Falsewhile not done:action agent.take_action(state)next_state, reward, done,info, _ env.step(action)replay_buffer.add(state, action, reward, next_state, done)state next_stateepisode_return reward# 当buffer数据的数量超过一定值后,才进行Q网络训练if replay_buffer.size() minimal_size:b_s, b_a, b_r, b_ns, b_d replay_buffer.sample(batch_size)transition_dict {states: b_s,actions: b_a,next_states: b_ns,rewards: b_r,dones: b_d}agent.update(transition_dict)return_list.append(episode_return)if (i_episode 1) % 10 0:pbar.set_postfix({episode:%d % (num_episodes / 10 * i i_episode 1),return:%.3f % np.mean(return_list[-10:])})pbar.update(1)
http://www.zqtcl.cn/news/135535/

相关文章:

  • 西安网站群搭建php网站开发设计
  • 网站首页没收录php做的网站源代码
  • 网站搭建技术要求企业网站推广的一般策略
  • 网站建设流程行业现状安阳历史
  • 制作软件的网站装饰工程设计东莞网站建设
  • 如何不花钱开发网站搜索引擎营销原理是什么
  • 网站不能访问如何做冗余Wordpress手机短信
  • 深圳的设计网站公司新媒体网站建设
  • 网站title优化实搜网站建设
  • 淘宝网网页版官网优化系统软件
  • 公司找网站做宣传做账网页设计的岗位叫什么
  • 门户网站区别视频上传下载网站建设
  • 企业局域网组建与网站建设域名备案的网站名称
  • 广西学校论坛网站建设网站建设得花多少钱
  • 装修公司网站源代码网站建设岗位周计划
  • 有没有专门学做婴儿衣服的网站org.wordpress utils
  • 网站关键词 提醒哪个网站做视频有钱挣
  • 建设企业网站注意事项菜篮网网站开发技术
  • 怎么把图片做超链接到网站wordpress 配置模板
  • 湘潭网站seo惠州市建设厅网站
  • 广州外贸网站效果百度竞价开户需要多少钱
  • 广州做手机网站信息附近卖建筑模板市场
  • 怎么看网站开发语言信息dw网站建设视频下载
  • 做网站虚拟主机多少钱wordpress中category参数
  • 山东省建设执业师网站建设网站图片
  • 网站建设的安全可行性网站建设教学设计
  • 网站架设建设动易门户网站价格
  • 公司快速建站商城网站建设讯息
  • it公司做网站用什么软件鲁中网站
  • 制作属于自己的app教程北京和隆优化招聘