网站建设得花多钱,这是我自己做的网站吗,在线流程图网站怎么做,科技感强的网站强化学习是指智能体通过不断试错的方式进行学习#xff0c;利用与环境进行交互时获得的奖励或惩罚来指导行为
试错学习
尝试#xff08;决策-decision#xff09;错误结果#xff1a;每次尝试无论产生什么样的结果#xff0c;都会对下一次结果产生影响 奖励#xff08;…强化学习是指智能体通过不断试错的方式进行学习利用与环境进行交互时获得的奖励或惩罚来指导行为
试错学习
尝试决策-decision错误结果每次尝试无论产生什么样的结果都会对下一次结果产生影响 奖励reward正确的结果惩罚punishment错误的结果 学习通过不断地尝试来修正自己的行为从而在下一次尝试中做出更有利的行为
试错学习的目标通常是以最大化累积的奖励来呈现这个过程就是序列决策sequential decision making。 换句话说对于任意问题只要能够建模成序列决策问题或者带有鲜明的试错学习特征就可以使用强化学习来解决并且这是截至目前最为高效的方法之一这就是要学习强化学习的原因。 其他类型的强化学习例如观察学习模仿学习、离线强化学习
马尔可夫决策过程
马尔可夫决策过程Markov decision processMDP它能够以数学的形式来表达序列决策过程也是强化学习最基本的问题模型。
智能体和环境之间交互是在一系列离散的时间time step中交互的通常时间 t t t是有限的即有限马尔可夫决策过程Finite MDP。上限用 T T T表示从 t t t到 T T T为一个回合比如游戏的一局。 有些方法可以拓展到连续时间的情况但为了方便我们尽量只考虑离散时步的情况。 性质
马尔可夫决策过程有一个前提即马尔可夫性质。 P ( s t 1 ∣ s 0 , s 1 , . . , s t ) P ( s t 1 ∣ s t ) P(s_{t1}|s_0,s_1,..,s_t) P(s_{t1}|s_t) P(st1∣s0,s1,..,st)P(st1∣st) P ( s t 1 ∣ s 0 , s 1 , . . , s t α t ) P ( s t 1 ∣ s t , α t ) P(s_{t1}|s_0,s_1,..,s_t\alpha_t) P(s_{t1}|s_t,\alpha_t) P(st1∣s0,s1,..,stαt)P(st1∣st,αt)
在给定历史状态 s 0 , s 1 , . . . , s t s_0,s_1,...,s_t s0,s1,...,st下某个未来的状态只与当前状态 s t s_t st有关与历史的状态无关。
显然现实生活中很多场景都不符合马尔可夫性质但可以结合其他方法来辅助强化学习。
回报 G t r t r t 1 . . . r T G_t r_{t} r_{t1} ... r_{T} Gtrtrt1...rT G t r t γ r t 1 . . . γ n r T G_t r_{t} \gamma r_{t1} ... \gamma^nr_{T} Gtrtγrt1...γnrT
其中 G t G_t Gt是累积奖励回报 γ \gamma γ是衰减因子位于0-1之间奖励越靠后权越小。
带衰减因子有以下考量
马尔可夫过程可能带环避免无穷想尽可能快的得到未来的奖励作为超参数来调整对现在的状态还是之前的状态更看重
马尔可夫链 上图中 s 1 , s 2 , s 3 s1,s2,s3 s1,s2,s3分别表示三种不同的状态其中的连线表示不同状态之间转移的概率。上图被称为马尔可夫链Markov Chain例如 P 12 P ( S t 1 s 2 ∣ S t s 1 ) P_{12} P(S_{t1} s_2|S_{t} s_1) P12P(St1s2∣Sts1)
进一步可扩展为 P s s ′ P ( S t 1 s ′ ∣ S t s ) P_{ss} P(S_{t1} s|S_{t} s) Pss′P(St1s′∣Sts)
其中大写S表示所有状态的集合可以将状态之间转化的概率用表格表示。
进而表示为状态转移矩阵State Transition Matrix 马尔可夫奖励过程Markov Reward ProcessesMRPs
是马尔可夫链 奖励函数R如果状态有限则奖励函数可以用向量表示。如下图所示可以将奖励过程看作一个随波逐流的纸船到达不同位置获得不同的奖励。 状态价值函数被定义为回报的期望即当我们进入某一个状态后我们现在有多大的价值。 例如计算S4的价值函数
方法一蒙特卡罗从S4开始采样生成很多轨迹进行平均方法二贝尔曼方程 马尔可夫决策过程MDPs
马尔可夫决策过程可以用一个五元组 S , A , R , P , γ S,A,R,P,\gamma S,A,R,P,γ表示其中A表示动作空间、R表示奖励函数、P表示状态转移矩阵、 γ \gamma γ表示衰减因子。
较MRP增加了行为A未来的状态不仅依赖于当前的状态也依赖于在当前状态智能体采取的动作。
性质 P ( s t 1 ∣ s t , α t ) P ( s t 1 ∣ s 0 , s 1 , . . , s t α t ) P(s_{t1}|s_t,\alpha_t) P(s_{t1}|s_0,s_1,..,s_t\alpha_t) P(st1∣st,αt)P(st1∣s0,s1,..,stαt)
奖励函数也多了一个当前的动作 R ( s t s , a t a ) E [ r t ∣ s t s , a t a ] R(s_t s,a_t a) E[r_t|s_ts,a_ta] R(sts,ata)E[rt∣sts,ata]
策略定义了在某一个状态应该采取什么样的动作。知道当前状态后我们可以把当前状态代入策略函数来得到一个概率即 π ( a ∣ s ) p ( a t a ∣ s t s ) π(a|s) p(a_t a|s_ts) π(a∣s)p(ata∣sts)概率代表在所有可能的动作里面怎样采取行动比如可能有 0.7 的概率往左走有 0.3 的概率往右走这是一个概率的表示。 左侧的马尔可夫链或者马尔可夫奖励过程从一个状态到另一个状态只需要状态转移函数 P s ′ ∣ s Ps|s Ps′∣s。右侧的马尔可夫决策过程需要先选择行为即中间一层黑色结点最终转移到另一种状态。 DQN