当前位置: 首页 > news >正文

二级菜单网站如何做伪静态企业管理网课

二级菜单网站如何做伪静态,企业管理网课,网络优化工具,做网站的流程前端做什么1、算法思想 QLearning是强化学习算法中value-based的算法#xff0c;Q即为在某一环境下#xff0c;Q#xff08;state,action#xff09;在某一时刻的 s 状态下(s∈S)#xff0c;采取 动作a (a∈A)动作能够获得收益的期望#xff0c;环境会根据agent的动作反馈相应的回…1、算法思想 QLearning是强化学习算法中value-based的算法Q即为在某一环境下Qstate,action在某一时刻的 s 状态下(s∈S)采取 动作a (a∈A)动作能够获得收益的期望环境会根据agent的动作反馈相应的回报reward r(分数)。 所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值然后根据Q值来选取能够获得最大的收益的动作。 2、实例与核心公式 实例从起点出发到达终点圆圈为胜利——加分碰到三角为失败——扣分。第一轮是随机走直到有了得分就会高概率按照高分走。 智能体Agent——正方体环境状态environment——这里以tk窗体模拟奖励reward——对动作的奖惩分数动作action——上下左右 可以将问题抽象成一个马尔科夫决策过程。 在每个格子都算是一个状态s q(a | s)是在s状态下采取动作a策略 p(s’ | s,a)为在s状态下选择a动作转换到下一个状态s’的概率 R(s’ | s,a)表示在s状态下采取a动作转移到s’的奖励reward 目标就是找到一条能够到达终点获得最大奖赏的策略获取最大奖赏公式 Qlearning的主要优势就是使用了时间差分法TD融合了蒙特卡洛和动态规划能够进行离线学习, 使用贝尔曼bellman方程可以对马尔科夫过程求解最优策略。 详见时间差分法 核心公式 更新公式 核心代码 import numpy as np import random from environment import Env from collections import defaultdictclass QLearningAgent:def __init__(self, actions):# actions [0, 1, 2, 3]self.actions actions # 动作self.learning_rate 0.01 # 学习率self.discount_factor 0.9 # 折扣因子self.epsilon 0.1 # [ˈepsɪlɒn]self.q_table defaultdict(lambda: [0.0, 0.0, 0.0, 0.0])# 采样 s, a, r, sdef learn(self, state, action, reward, next_state):current_q self.q_table[state][action]# 贝尔曼方程更新new_q reward self.discount_factor * max(self.q_table[next_state])self.q_table[state][action] self.learning_rate * (new_q - current_q)# 从Q-table中选取动作def get_action(self, state):if np.random.rand() self.epsilon:# 贪婪策略随机探索动作action np.random.choice(self.actions)else:# 从q表中选择state_action self.q_table[state]action self.arg_max(state_action) # 选组最大效益动作return action# 选取最大分数staticmethoddef arg_max(state_action):max_index_list []max_value state_action[0]for index, value in enumerate(state_action):if value max_value:max_index_list.clear()max_value valuemax_index_list.append(index)elif value max_value:max_index_list.append(index)return random.choice(max_index_list)if __name__ __main__:env Env() # 初始化tk窗口agent QLearningAgent(actionslist(range(env.n_actions))) # 初始化物体实例for episode in range(1000):state env.reset()while True:env.render()# agent产生动作action agent.get_action(str(state))next_state, reward, done env.step(action)# 更新Q表 -- 核心更新公式agent.learn(str(state), action, reward, str(next_state))state next_stateenv.print_value_all(agent.q_table)# 当到达终点就终止游戏开始新一轮训练if done:break 另一Q learning 实例Flappy Bird飞扬的小鸟 Q learning实例Flappy Bird
http://www.zqtcl.cn/news/627243/

相关文章:

  • DW怎么做网站下拉菜单网站建设外包网站
  • 手机做兼职的网站设计公司注册记账代理公司
  • 如何在vs做网站建筑工程电影网
  • 甘肃网站开发网站建设自己在家接单
  • 龙岗网站制作资讯福田区龙岗区发布通告
  • 百度如何快速收录网站嘉兴手机建站模板
  • 服务注册中心有哪些给你一个网站你如何做优化
  • 我做网站如何分流客户openwrt 做视频网站
  • 徐州微信网站建设建设工程项目
  • 便宜网站建设公司envision wordpress
  • 网站怎么做百度快照logo网站域名做固定资产怎么处理
  • 2003 iis网站发布工会网站建设管理工作总结
  • 商城网站大概多少钱长沙网站设计公司推荐
  • 海南省交通建设局网站首页做网站开发一般用什么语言
  • 个人备案网站沭阳哪里可以做网站
  • 环球资源网站什么时候做的搜索引擎优化名词解释
  • 名者观看网站做商城网站还要服务器
  • 网站建设课程考核方案广州 天河网站设计
  • 写作网站哪个比较赚钱小红书推广运营
  • 明年做啥网站能致富网站 公众号 建设方案
  • wordpress怎么修改网站标题做招投标应该了解的网站
  • 大庆市网站建设公司dooplay主题wordpress
  • 小学网站建设实施方案手机网站策划书方案
  • 延边网站建设国外设计公司网站欣赏
  • 团队介绍网站建设武功县住房和城乡建设局官网站
  • 如何用模板做网站爱采购官网首页
  • 网站开发存在的问题wordpress 怎么登陆后台
  • 网站建设动态部分实训报告wordpress 普通文本 quot
  • 常州微信网站建设流程本地主机做网站服务器
  • 阿里巴巴seo排名优化seo搜索引擎优化实战