当前位置: 首页 > news >正文

网站建设得花多钱这是我自己做的网站吗

网站建设得花多钱,这是我自己做的网站吗,在线流程图网站怎么做,科技感强的网站强化学习是指智能体通过不断试错的方式进行学习#xff0c;利用与环境进行交互时获得的奖励或惩罚来指导行为 试错学习 尝试#xff08;决策-decision#xff09;错误结果#xff1a;每次尝试无论产生什么样的结果#xff0c;都会对下一次结果产生影响 奖励#xff08;…强化学习是指智能体通过不断试错的方式进行学习利用与环境进行交互时获得的奖励或惩罚来指导行为 试错学习 尝试决策-decision错误结果每次尝试无论产生什么样的结果都会对下一次结果产生影响 奖励reward正确的结果惩罚punishment错误的结果 学习通过不断地尝试来修正自己的行为从而在下一次尝试中做出更有利的行为 试错学习的目标通常是以最大化累积的奖励来呈现这个过程就是序列决策sequential decision making。 换句话说对于任意问题只要能够建模成序列决策问题或者带有鲜明的试错学习特征就可以使用强化学习来解决并且这是截至目前最为高效的方法之一这就是要学习强化学习的原因。 其他类型的强化学习例如观察学习模仿学习、离线强化学习 马尔可夫决策过程 马尔可夫决策过程Markov decision processMDP它能够以数学的形式来表达序列决策过程也是强化学习最基本的问题模型。 智能体和环境之间交互是在一系列离散的时间time step中交互的通常时间 t t t是有限的即有限马尔可夫决策过程Finite MDP。上限用 T T T表示从 t t t到 T T T为一个回合比如游戏的一局。 有些方法可以拓展到连续时间的情况但为了方便我们尽量只考虑离散时步的情况。 性质 马尔可夫决策过程有一个前提即马尔可夫性质。 P ( s t 1 ∣ s 0 , s 1 , . . , s t ) P ( s t 1 ∣ s t ) P(s_{t1}|s_0,s_1,..,s_t) P(s_{t1}|s_t) P(st1​∣s0​,s1​,..,st​)P(st1​∣st​) P ( s t 1 ∣ s 0 , s 1 , . . , s t α t ) P ( s t 1 ∣ s t , α t ) P(s_{t1}|s_0,s_1,..,s_t\alpha_t) P(s_{t1}|s_t,\alpha_t) P(st1​∣s0​,s1​,..,st​αt​)P(st1​∣st​,αt​) 在给定历史状态 s 0 , s 1 , . . . , s t s_0,s_1,...,s_t s0​,s1​,...,st​下某个未来的状态只与当前状态 s t s_t st​有关与历史的状态无关。 显然现实生活中很多场景都不符合马尔可夫性质但可以结合其他方法来辅助强化学习。 回报 G t r t r t 1 . . . r T G_t r_{t} r_{t1} ... r_{T} Gt​rt​rt1​...rT​ G t r t γ r t 1 . . . γ n r T G_t r_{t} \gamma r_{t1} ... \gamma^nr_{T} Gt​rt​γrt1​...γnrT​ 其中 G t G_t Gt​是累积奖励回报 γ \gamma γ是衰减因子位于0-1之间奖励越靠后权越小。 带衰减因子有以下考量 马尔可夫过程可能带环避免无穷想尽可能快的得到未来的奖励作为超参数来调整对现在的状态还是之前的状态更看重 马尔可夫链 上图中 s 1 , s 2 , s 3 s1,s2,s3 s1,s2,s3分别表示三种不同的状态其中的连线表示不同状态之间转移的概率。上图被称为马尔可夫链Markov Chain例如 P 12 P ( S t 1 s 2 ∣ S t s 1 ) P_{12} P(S_{t1} s_2|S_{t} s_1) P12​P(St1​s2​∣St​s1​) 进一步可扩展为 P s s ′ P ( S t 1 s ′ ∣ S t s ) P_{ss} P(S_{t1} s|S_{t} s) Pss′​P(St1​s′∣St​s) 其中大写S表示所有状态的集合可以将状态之间转化的概率用表格表示。 进而表示为状态转移矩阵State Transition Matrix 马尔可夫奖励过程Markov Reward ProcessesMRPs 是马尔可夫链 奖励函数R如果状态有限则奖励函数可以用向量表示。如下图所示可以将奖励过程看作一个随波逐流的纸船到达不同位置获得不同的奖励。 状态价值函数被定义为回报的期望即当我们进入某一个状态后我们现在有多大的价值。 例如计算S4的价值函数 方法一蒙特卡罗从S4开始采样生成很多轨迹进行平均方法二贝尔曼方程 马尔可夫决策过程MDPs 马尔可夫决策过程可以用一个五元组 S , A , R , P , γ S,A,R,P,\gamma S,A,R,P,γ表示其中A表示动作空间、R表示奖励函数、P表示状态转移矩阵、 γ \gamma γ表示衰减因子。 较MRP增加了行为A未来的状态不仅依赖于当前的状态也依赖于在当前状态智能体采取的动作。 性质 P ( s t 1 ∣ s t , α t ) P ( s t 1 ∣ s 0 , s 1 , . . , s t α t ) P(s_{t1}|s_t,\alpha_t) P(s_{t1}|s_0,s_1,..,s_t\alpha_t) P(st1​∣st​,αt​)P(st1​∣s0​,s1​,..,st​αt​) 奖励函数也多了一个当前的动作 R ( s t s , a t a ) E [ r t ∣ s t s , a t a ] R(s_t s,a_t a) E[r_t|s_ts,a_ta] R(st​s,at​a)E[rt​∣st​s,at​a] 策略定义了在某一个状态应该采取什么样的动作。知道当前状态后我们可以把当前状态代入策略函数来得到一个概率即 π ( a ∣ s ) p ( a t a ∣ s t s ) π(a|s) p(a_t a|s_ts) π(a∣s)p(at​a∣st​s)概率代表在所有可能的动作里面怎样采取行动比如可能有 0.7 的概率往左走有 0.3 的概率往右走这是一个概率的表示。 左侧的马尔可夫链或者马尔可夫奖励过程从一个状态到另一个状态只需要状态转移函数 P s ′ ∣ s Ps|s Ps′∣s。右侧的马尔可夫决策过程需要先选择行为即中间一层黑色结点最终转移到另一种状态。 DQN
http://www.zqtcl.cn/news/361213/

相关文章:

  • 珠三角网站建设网页制作专业知识
  • 罗湖微信网站制作深圳做网站哪个公司最好
  • ps如何做ppt模板下载网站网站模板分类
  • 网站建设在线网站服务器和直播服务器一样吗
  • iapp网站做软件教程朋友圈广告投放平台
  • 优门设 网站网站代理 正规备案
  • 衡水做wap网站上海做网站吧
  • seo推广思路seo线下培训班
  • 没有备案的网站怎么做淘宝客html5开发手机网站
  • 酒店旅游团购网站建设推广普通话实践总结
  • 基本的网站开发技术路线建设网站的好处有哪些
  • 网站排行怎么做wordpress all in one seo插件
  • 河北特定网站建设推荐wordpress添加vip用户组
  • 北京商城网站建设地址asp.net网站开发 pdf
  • 如何用网页制作网站龙岩门户网站
  • 中国建设银行官网站下载建设网站弹出后加载不进去
  • 广告网站制作多少钱建设工程合同甲方
  • 一号网站建设誉重网站建设
  • 网站seo优化查询网站开发最合适的搭配
  • 做文员的网站知乎qq小程序怎么打开
  • 网站外链建设分析wordpress生成验证码发送代码
  • 网站设计与制作的过程珠海网站建设 旭洁科技
  • 网站建设项目经费的报告轻创网
  • 青岛网站建设制作软件开发培训学校排行
  • pk10网站怎么做网站建设名词
  • 秦皇岛哪有网站优化公司wordpress看图插件
  • ps做网站宽度想做个网站要多少钱
  • 马克斯网站建设外贸电商平台哪个网站最好
  • 国外网站做任务套利网络推广员怎么做
  • 如何创建一个网站用来存放东西wordpress 可以干嘛