五个网站,想自己在家做外贸网站,网站有限公司免费,五个网站现在我添加了另一个约束-通过在迷宫.py现在我在1000次跑步后得到了这种行为#xff0c;每次跑步有200次互动#xff1a;现在哪种方式有意义-机器人试图从另一边绕墙#xff0c;避开状态(1#xff0c;7)所以#xff0c;我得到了奇怪的结果#xff0c;因为特工过去总是从随…现在我添加了另一个约束-通过在迷宫.py现在我在1000次跑步后得到了这种行为每次跑步有200次互动现在哪种方式有意义-机器人试图从另一边绕墙避开状态(17)所以我得到了奇怪的结果因为特工过去总是从随机位置开始这也包括惩罚状态编辑另一点是如果希望随机生成代理那么确保它不是在可惩罚状态下生成的def _freePos(self): produce a list of the free positions. res []for i, row in enumerate(self.mazeTable):for j, p in enumerate(row):if p False:if self.punishing_states ! None:if (i, j) not in self.punishing_states:res.append((i, j))else:res.append((i, j))return res而且table.params.reshape(81,4).max(1).reshape(9,9)似乎会从value函数返回每个状态的值