wordpress 多站点 用户,js网站模板下载,网站开发相关,代码我们的现实生活中有着许多多智能体共同决策的场景#xff0c;比如多机械臂协同#xff0c;多个无人机或多个机器人完成某共同目标。下面介绍单智能体强化学习的进化#xff0c;多智能体强化学习。
含义
多智能体系统中包含 m 个智能体#xff0c;智能体共享环境#xff…我们的现实生活中有着许多多智能体共同决策的场景比如多机械臂协同多个无人机或多个机器人完成某共同目标。下面介绍单智能体强化学习的进化多智能体强化学习。
含义
多智能体系统中包含 m 个智能体智能体共享环境智能体之间会相互影响。一个智能体的动作会改变环境状态从而影响其余所有智能体。举个例子股市中的每个自动交易程序就可以看做一个智能体。尽管智能体自动交易程序之间不会交流它们依然会相互影响一个交易程序的决策会影响股价从而对其它自动交易程序有利或有害。
多智能体强化学习 (Multi-Agent Reinforcement LearningMARL) 是指让多个智能体处于相同的环境中每个智能体独立与环境交互利用环境反馈的奖励改进自己的策略以获得更高的回报即累计奖励。在多智能体系统中一个智能体的策略不能简单依赖于自身的观测、动作还需要考虑到其他智能体的观测、动作。因此MARL 比单智能体强化学习 (Single-Agent Reinforcement LearningSARL) 更困难。 四种设定 完全合作关系
智能体的利益一致获得的奖励相同有共同的目标。 多个工业机器人协同装配汽车。他们的目标是相同的都希望把汽车装好。假设一共有 m 个智能体它们在 t 时刻获得的奖励分别是 Rt1, Rt2, · · · , Rtm。 在完全合作关系中它们的奖励是相同的
完全竞争关系
一方的收益是另一方的损失。 两个格斗机器人它们的利益是冲突的一方的胜利就是另一方的失败。在完全竞争的设定下双方的奖励是负相关的对于所有的 t有 Rt1 ∝ −Rt2。如果是零和博弈双方的获得的奖励总和等于 0 Rt1 −Rt2。
合作竞争的混合
智能体分成多个群组组内的智能体是合作关系它们的奖励相同组间是竞争关系两组的奖励是负相关的。 比如足球机器人两组是竞争关系一方的进球是另一方的损失而组内是合作关系队友的利益是一致的。
利己主义
一个智能体的动作会改变环境状态从而让别的智能体受益或者受损。利己主义的意思是智能体只想最大化自身的累计奖励而不在乎他人收益或者受损。 比如股票自动交易程序可以看做是一个智能体环境股市中有多个智能体。这些智能体的目标都是最大化自身的收益因此可以看做利己主义。
Remark