做关于卖宠物饲料网站有什么名字吗,中国煤炭建设协会网站,安阳信息港,建一个网站多少钱基本元素
状态集#xff1a;表示智能体所处所有状态的全部可能性的集合。类似的集合#xff0c;行为集#xff0c;回报集决策#xff1a;规定我在某个状态下#xff0c;我做出某个action马尔可夫链#xff1a;学术上来说是无记忆性质。说白了就是我只在乎我目前的状态。…基本元素
状态集表示智能体所处所有状态的全部可能性的集合。类似的集合行为集回报集决策规定我在某个状态下我做出某个action马尔可夫链学术上来说是无记忆性质。说白了就是我只在乎我目前的状态。比如说我有一个trajectory他走到了某个状态s1.那我只关心他目前已经到了s1并且我考虑的也只有s1这个状态至于他怎么到的s1我不关心。也就是跟到s1的过去无关所以叫无记忆性质。
例子 用迷宫游戏很好理解。游戏规则就是我需要走到S9蓝色位置黄色位置都是墙不能走。然后我每一个位置我都可以上下左右不动五种操作。然后目标就是我尽量越短越好。 首先需要对环境进行抽象环境很简单我目前棋子处于哪个位置。所以state就是棋盘上的位置。然后按照规则行为就是上下左右不动。 决策就是指规定了每一个位置应该做出那个action。 然后决策微观一点来看就是规定我在某个状态需要进行如何action所以我关心的是我在这个state需要往哪走而不会关心我怎么来的到了这个state。所以这个就具备了这个马尔可夫的性质。 至于怎么找到最优的决策这不是我要关心的。但每一个决策都具备这个马尔科夫的这个性质。 MDP可以理解为如此。只要我的决策确定下来了那么就规定了我一个状态我需要做那个行动转移到另外一个状态。并且我的这个action只参照于我所处的状态。