当前位置: 首页 > news >正文

企业形象网站开发业务范畴检测网站开发

企业形象网站开发业务范畴,检测网站开发,17网站一起做,装饰设计收费标准2020文章目录 1.实验目的2.任务描述3.任务分析3.1 待求问题是多步决策问题否3.2 问题求解过程是一个马尔科夫决策过程3.3 状态空间S的确定3.4 动作空间A的确定3.5 状态转移概率P的确定3.6 立即回报R的确定3.7 折扣 γ \gamma γ的确定 4. 编程架构4.1 程序中有哪些对象和类4.2 环境… 文章目录 1.实验目的2.任务描述3.任务分析3.1 待求问题是多步决策问题否3.2 问题求解过程是一个马尔科夫决策过程3.3 状态空间S的确定3.4 动作空间A的确定3.5 状态转移概率P的确定3.6 立即回报R的确定3.7 折扣 γ \gamma γ的确定 4. 编程架构4.1 程序中有哪些对象和类4.2 环境类的设计4.3 智能体类的设计 1.实验目的 了解强化学习算法的基本框架掌握策略迭代算法的编程技术掌握值迭代算法的编程技术理解策略迭代与值迭代的异同 2.任务描述 有一个网格它是1个含有 n n n行 n n n列单元格的方阵方阵中的单元格 ( i , j ) (i,j) (i,j)(第 i 1 i1 i1行,第 j 1 j1 j1列, 0 ≤ i , j ≤ n − 1 0\le i,j\le n-1 0≤i,j≤n−1有宝藏有1个智能体当前所处的位置为 ( a , b ) (a,b) (a,b), 0 ≤ a , b ≤ n − 1 0\le a,b\le n-1 0≤a,b≤n−1,该智能体可上下左右移动每次只能从其当前单元格移动1步到达与当前单元格相邻的单元格若当前单元格处于方阵边缘且智能体移动时超出方阵范围则智能体只能回到当前单元格。该智能体一开始不知道宝藏的准确位置也不知道网格边界有多大它只能观测到其当前位置和当前位置是否为宝藏所在处并从上下左右移动四个行为空间中选取1个动作选取该动作后转向的下一个网格由环境决定。请你设计一套算法为该智能体找出最优移动方向序列使得该智能体能以最短的时间找到宝藏。 要求 程序运行时输入方阵行、列数 n n n、宝藏位置 ( i , j ) (i,j) (i,j)、智能体当前位置 ( a , b ) (a,b) (a,b),即可按如下格式显示出规划好最优行为序列 左→右→右→左→ ⋯ \cdots ⋯ 并以可视化的方式显示出路径。 3.任务分析 任务分析要回答以下问题 待求解的问题是多步决策问题否若不是则不宜采用强化学习算法解决若是则继续回答下述问题环境是什么环境的状态具有马尔科夫性吗是否涉及行为选择如果回答是则继续确定如下问题答案环境的状态如何表示环境的状态空间是什么智能体的行为动作如何表示智能体的行为空间是什么环境的状态转移函数如何表示环境的立即回报如何表示 3.1 待求问题是多步决策问题否 智能体每一步都需要作出行为选择向上、右、下还是向左移动因此这是一个多步决策问题。 3.2 问题求解过程是一个马尔科夫决策过程 智能体每走一步前要确定选取何种移动方向行为智能体未来的位置与当前位置有关与历史位置无关所以满足马尔科夫性。智能体每一步都需要作出行为选择因此这是一个多步决策问题。智能体在当前状态下找到宝藏就能得到1个立即回报找不到回报就为0。我们希望从当前位置位置开始尽早找到宝藏这说明找到宝藏所需的步骤越多得到的回报打的折扣越多。 故而- 上述问题可以用马尔科夫决策模型 S , A , P , R , γ S,A,P,R,\gamma S,A,P,R,γ描述 3.3 状态空间S的确定 这个环境是1个网格世界由于智能体以找到宝藏为目标而能否在智能体作出一个行为响应上下作用移动1步后找到宝藏与智能体所处位置有关因此智能体所处位置可以看做是环境的状态状态决定了其能否在下一步找到宝藏。 为此需要1个量描述该状态有两种描述方法 1用整数对 ( a , b ) (a,b) (a,b)联合描述状态ab分别对应单元格的行、列索引号 2用1个整数描述状态该整数 z z z和单元格所在的行索引号 a a a、列索引号 b b b满足如下关系 z n a b a z / / n b z − n a \begin{align*} znab\\ az//n\\ bz-na \end{align*} zab​nabz//nz−na​ / / ‾ − \underline{//}- //​−整除求商 本任务选择方法2描述状态则 S { 0 , 1 , 2 , ⋯ , n 2 − 1 } S\{0,1,2,\cdots,n^2-1\} S{0,1,2,⋯,n2−1} S t k S_tk St​k智能体当前位置为从上至下从左至右计数的第 k 1 k1 k1个单元格 3.4 动作空间A的确定 A { 0 , 1 , 2 , 3 } A\{0,1,2,3\} A{0,1,2,3}0~3依次表示向上、向右、向下、向左移动1步 3.5 状态转移概率P的确定 在给定状态s和行为a下状态转移到其他每个状态包括自身的概率都是确定的只有1个为1其他为0。 例如当单元格当前位置处于方阵中间时采取动作A[0]转移到上方相邻单元格的概率就是1转移到其他相邻单元格的概率就是0采取其他动作转到下一个状态的概率情况都类似当单元格当前位置处于方阵边缘时如左边缘时向左移动后续状态将保持为原先状态。 综上所述状态转移概率可以通过一个函数实现。 3.6 立即回报R的确定 很显然只要某个状态不是最终状态宝藏所在处立即回报都可以设为0反之立即回报设为1也可以把宝藏所在处状态设为0其他位置对应的状态立即回报设为-1。总之要确保当智能体找到宝藏时获得的立即回报值高于未找到宝藏时状态的立即回报而且只要没有找到宝藏立即回报都应该是一样的。 本实验中当智能体所处位置不是宝藏所在处立即回报设为-1反之设为0。 3.7 折扣 γ \gamma γ的确定 本实验设 γ 1 \gamma 1 γ1。 问题设为1表示未来回报都不打折这样能评估越早找到宝藏越好这一要求吗 答案可以。 证明 假设从当前时间步 t t t(当前时间步的立即回报不算开始到第 K K K步找到宝藏则累积回报为 G t ∑ k 0 K − 1 γ k R t k 1 G_t\sum_{k0}^{K-1}\gamma^kR_{tk1} Gt​k0∑K−1​γkRtk1​ 将 γ 1 , R t m { − 1 0 m K 0 m K \gamma 1,R_{tm}\begin{cases} -1\quad 0mK\\ 0 \quad mK \end{cases} γ1,Rtm​{−10mK0mK​代入上式得 G t R t 1 ⋯ R t K 1 − K G_tR_{t1}\cdotsR_{tK}1-K Gt​Rt1​⋯RtK​1−K 可见找到宝藏的时间越长即K越大累积回报 G t G_t Gt​越小因此当立即回报按照上式取值,且 γ 1 \gamma 1 γ1时能累积回报能反映越早找到宝藏越好的需求。 思考若 R t m { 0 0 m K 1 m K R_{tm}\begin{cases} 0\quad 0mK\\ 1 \quad mK \end{cases} Rtm​{00mK1mK​即找到宝藏时立即回报为1没有找到立即回报为0此时还能取 γ 1 \gamma 1 γ1吗为什么不能 4. 编程架构 本实验涉及到的程序的设计采用面向对象架构。 为此首先分析程序运行中有哪些对象这些对象属于哪些类然后定义类最后在主程序中创建类对象调用对象方法解决问题。 4.1 程序中有哪些对象和类 根据强化学习原理可知在强化学习环境中有两个最基本的对象分别为 环境智能体 4.2 环境类的设计 本程序中的环境对象为格子世界我给它命名为GridWorld 很显然单独为这个具体的环境对象设计一个具体类通用性不足因为还有其他的具体类对应其他的环境这类环境都可以用马尔科夫决策过程描述即它们都需要向用户提供几个 重要的方法: get_state_space:返回状态空间 get_action_space:返回行为空间 get_state_trans_prob:返回状态转移概率 get_immediate_return:返回立即回报期望 get_gamma:返回折扣系数 因此完全可以先定义一个描述马尔科夫决策过程MDP的抽象类MdpEnvGridWorld继承自该抽象类实现该抽象类的方法即可以后若是有其他的MDP具体环境只需要实现这些方法即可。 4.3 智能体类的设计 对于马尔科夫决策过程智能体都需要通过环境的已知信息即MDP五元组 S , A , P , R , γ S,A,P,R,\gamma S,A,P,R,γ学到最优策略 π ( a ∣ s ) \pi(a|s) π(a∣s)因此各种算法智能体都有一个共同的抽象类MdpAgent 它应该提供方法 learn:学习MdpEnv环境对象并返回优化的策略find_optimum_action:根据当前状态基于当前学到的策略输出最优动作 策略迭代算法和值迭代算法都可以看做是智能体它们都从MdpAgent派生只需要实现以上抽象方法即可。 好了接下来就是发挥主动能动性根据上述基本设计思想实现python程序了。暂时写到这里…
http://www.zqtcl.cn/news/669711/

相关文章:

  • 南宁建设局网站建设有限公司
  • 湛江建设工程交易中心网站企业营销网站建设步骤
  • 网站所有者查询罗湖做网站的公司
  • 网站推广的目标是什么如何提高网站在百度的排名
  • 建设网站基础wordpress 网络图片
  • 深圳网站搜索优化工具义乌公司网站
  • 百度搜索网站带图片sem是什么品牌
  • 百度网盘app下载辽宁seo
  • 一般做网站用什么软件企业管理咨询服务机构
  • 达内培训网站开发金融公司网站 html
  • 珠海网站制作推荐微信营销和微博营销的区别
  • 电影网站如何做5网站建设公司
  • 河南网站优化公司哪家好南山网站设计线
  • 网站构建代码模板番禺网站建设
  • 拟一份饰品网站建设合同网站开发应注意哪些问题
  • 芜湖建站公司做网站的人多吗
  • 网站怎么加二级域名微信授权登录网站退出怎么做
  • 如何把旅行社网站做的好看网站创建方案怎么写
  • 织梦网站图标更换宠物网页设计图片
  • 如何查找网站竞争对手的宣传方式北京网站搭建公司电话
  • 北京正规制作网站公司wordpress 获取图片地址
  • 大学路网站建设推广图片素材
  • wordpress 创建网站搜索引擎优化代理
  • 设计网站用什么软件盈江城乡建设局网站
  • 网站建设模式有哪些内容seo品牌
  • 衡水做网站服务商济南如何挑选网站建设公司
  • 全屏的网站制作企业网站欢迎界面素材
  • 视频网站切片怎么做网站建设可自学吗
  • 本地推广平台网站seo优化如何做
  • 网站建设费算费用还是固定资产百度秒收录