当前位置: 首页 > news >正文

做英文兼职的网站有哪些公司形象墙设计制作

做英文兼职的网站有哪些,公司形象墙设计制作,wordpress html 代码,包工头接活平台小工程在人工智能#xff08;AI#xff09;的研究领域中#xff0c;游戏被视为现实世界的简化模型#xff0c;常常是研究的首选平台。这些研究主要关注游戏代理的决策过程。例如#xff0c;中国的传统卡牌游戏“掼蛋”#xff08;字面意思是“扔鸡蛋”#xff09;就是一个挑战…在人工智能AI的研究领域中游戏被视为现实世界的简化模型常常是研究的首选平台。这些研究主要关注游戏代理的决策过程。例如中国的传统卡牌游戏“掼蛋”字面意思是“扔鸡蛋”就是一个挑战性极强的游戏在这个游戏中即使是专业的人类玩家有时也难以做出正确的决策。而在掼蛋游戏中也流传着这样一个说法“掼蛋打得好适合当领导”这也是独属人类世界的“玩法”和某种合作行为的体现。本篇研究将探讨AI在这类复杂卡牌游戏中的决策能力特别是它们如何通过蒙特卡洛方法和深度神经网络来掌握游戏规则并在游戏中做出合作等复杂行为的决策。 标题Mastering the Game of Guandan with Deep Reinforcement Learning and Behavior Regulating 公众号「夕小瑶科技说」后台回复“掼蛋”获取论文pdf。   背景介绍掼蛋游戏的特点与挑战 掼蛋一种起源于中国江苏省的四人固定搭档出牌型攀牌游戏近年来迅速走红并登上了第五届全国智力运动会。游戏使用两副标准的52张牌加上四张王牌每位玩家起始持有27张牌。掼蛋的独特之处在于其多样的可玩牌型组合使得游戏富有娱乐性。游戏中的一种强力牌型被称为“炸弹”这也是“掼蛋”直译为“扔鸡蛋”名称的由来因为在中文里“炸弹”与“鸡蛋”谐音。掌握如何使用炸弹是游戏的难点之一因为平均来说玩家手中不会超过三个炸弹。 掼蛋与另一种扑克游戏斗地主类似但由于其独特的级牌系统而有所区别。每队以二级牌开始比赛争先将级牌升至A。 级牌不仅作为两队的记分系统还具有强大的特权。例如当前级牌可以压制所有牌型除了王牌而且两张红桃级牌成为百搭牌。 百搭牌不能代表任何王牌但可以代表其他所有牌型使其成为非常强大的实用牌型。例如玩家可以利用百搭牌创建强力的牌型组合如炸弹或同花顺这在缺少特定牌时是不可能的。 掼蛋游戏由多个小局组成。我们将小局定义为在固定级牌下决定每位玩家排名的所有动作序列。当一队的成员率先打完手中的牌即成为庄家该队便赢得了小局。小局结束后根据队员的排名获胜队伍的级牌可以升级至多三级。当获胜队伍的级牌为A且最后没有队员成为最后一名时整个游戏结束。 每个小局开始时除了第一个小局玩家必须进行一个贡品过程其中上一小局的最后一名住户必须将其最高级别的牌捐赠给庄家。百搭牌不被视为最高级别的牌。为了平衡每位玩家的牌数庄家必须返回一张不高于十的牌。 由于贡品过程与实际出牌分开我们没有使用强化学习来帮助代理决定捐赠/返回哪张牌而是采用了通常足够的基于规则的方法。 GuanZero框架简介结合蒙特卡洛方法和深度神经网络 在本篇论文中研究者们提出了一个名为GuanZero的强化学习框架旨在让AI代理不仅掌握掼蛋游戏还能以高效的方式理解所需的行为。GuanZero框架依赖于深度蒙特卡洛Deep Monte-CarloDMC方法利用其出色的可扩展性同时通过精心设计的神经网络编码方案培养合作等所需行为。 蒙特卡洛MC方法是一种简单而有效的估算价值函数的方法有助于发现最优策略。它们之所以简单是因为除了通过与环境的交互获得的经验包括状态、动作和奖励之外不需要对环境有完整的了解。这种经验甚至可以通过模拟获得。MC方法通过平均样本回报来解决强化学习问题。 下一节将讨论如何编码状态和动作这些将作为输入馈送到神经网络中。 状态表示与行为编码如何通过神经网络编码游戏状态和行为 1. 卡牌的独特编码方式 在关乎状态表示的问题上神经网络需要能够理解和处理游戏中的各种卡牌组合。在观察了掼蛋游戏中卡牌的重要性之后研究者们决定将每张卡牌视为一个独特的实体并为其分配一个介于1到108之间的数字。 这种编码方式可以通过一个8x15的矩阵来可视化其中每一行代表一个特定的花色第四行和第八行还包括了四张王牌。在这个矩阵中存在于玩家手中的卡牌会被设置为1其余则为0。这样的编码方式不仅考虑了卡牌的花色和等级还能追踪剩余卡牌的数量这对于游戏来说至关重要。在输入到神经网络之前这个矩阵会被展平成一个108维的一热向量。 2. 代表合作、矮化和协助行为的一热向量 在掼蛋中合作行为被定义为玩家在能够出牌打败队友的牌时选择不出牌。这种行为通常被人类玩家所青睐因为游戏的目标是尽快打出手中的卡牌帮助队友同样重要。为了衡量代理执行合作行为的频率研究者们定义了合作率这一指标。 除此之外还有矮化行为即玩家选择出一个大于对手最小手牌数量的牌组合使得获胜的对手难以应对。 最后是协助行为玩家出的牌组合小于队友的手牌数量使得队友更容易找到应对的牌。这些行为的状态通过长度为三的一热向量来表示 当不满足行为条件时向量被设置为[1, 0, 0] 当满足条件时根据玩家的选择向量被设置为[0, 1, 0]执行行为或[0, 0, 1]不执行行为。 这样的设计原则为代理提供了一个简单而逻辑严密的机制来学习何时合作何时不合作。 神经网络架构LSTM与前馈网络的结合 神经网络的架构旨在接受状态s和行为a作为输入并估计结果的预期累积奖励Q(s, a)。状态由一系列特征的丰富组合表示这些特征已在表1中详细列出。为了正确处理历史行为研究者们采用了长短期记忆网络Long Short Term Memory LSTM来捕捉行为、状态和价值之间的长期依赖性。 LSTM网络通过学习何时记住和何时忘记相关信息来实现这一点同时通过允许梯度不变地流动缓解了梯度消失问题。这些LSTM的属性反过来又促进了学习过程。在对历史行为进行特殊处理的同时所有状态中的特征以及行为都被串联起来输入到一个由六层密集层组成的前馈神经网络中激活函数为修正线性单元ReLU。 分布式学习过程如何通过并行化提高训练效率 在深度强化学习中分布式学习过程是提高训练效率的关键策略之一。通过并行化研究者们能够在多个环境实例中同时运行多个智能体这样可以显著加快数据收集的速度从而加速学习过程。 1. 分布式学习的基本原理 分布式学习的核心思想是将学习任务分散到多个计算节点上。在这种设置中每个节点都运行一个智能体的副本并与环境进行交互以收集数据。然后这些数据被用来更新一个共享的全局模型。这种方法的优势在于它允许智能体并行地探索状态空间而不是顺序地进行这样可以更快地覆盖更多的状态—动作对。 2. GuanZero的分布式学习实现 在GuanZero框架中研究者们采用了类似于A3CAsynchronous Advantage Actor-Critic的分布式学习方法。为四名玩家分别设置了四个网络分别命名为p1、p2、p3和p4并根据第一个小游戏中的出牌顺序进行分配。 然后通过将模拟任务分配给四个执行者来并行化学习过程。每个执行者在模拟智能体与环境交互时都维护一个本地网络LN。这些本地网络会定期与学习过程中维护的四个全局网络同步。学习过程根据执行者获得的经验来更新这些全局网络。 通过这种分布式学习方法能够快速生成大量的样本从而减轻了蒙特卡洛方法高方差的问题并提高了训练效率。此外还利用了长短期记忆LSTM网络来捕捉动作、状态和价值之间的长期依赖关系这进一步增强了模型的学习能力。 实验设置对比GuanZero与其他AI代理的性能 为了验证GuanZero框架的有效性研究者们设置了一系列实验来比较GuanZero与其他AI代理的性能。 1. 对手智能体 研究者们使用了多种类型的对手智能体包括随机选择动作的随机智能体、基于规则的中国关牌AI算法竞赛CGAIAC冠军智能体以及使用DouZero框架训练的基于强化学习的智能体。所有这些智能体都经过了充分的训练直到收敛。 2. 性能评估 研究者们通过胜率WR作为评估智能体强度的唯一指标。在实验中将GuanZero智能体与上述所有对手进行对抗并记录了胜率。 实验结果显示GuanZero智能体在与随机智能体对抗时取得了压倒性的胜利这表明随机智能体大多数时候无法做出良好的决策。 在与基于规则的CGAIAC智能体对抗时GuanZero智能体面临了一定的抵抗但随着足够数量的模拟基于强化学习的智能体开始展现出其优势因为它们能够找到针对规则智能体的反制动作。 此外GuanZero智能体在与DouZero基础智能体的对抗中最初遇到了激烈的抵抗但随着训练的进行GuanZero智能体迅速获得了上风并且训练效率令人满意不到一周就观察到了收敛的迹象。 通过这些实验研究者们证明了GuanZero框架在关牌游戏中的有效性并通过行为调节机制进一步提升了智能体的性能。 行为调节的效果分析合作、矮化和协助行为的学习过程 1. 合作行为的学习与效果 GuanZero通过特定的神经网络编码方案使得代理能够学习何时合作何时不合作。合作率的度量标准是代理实际合作的次数与合作条件满足的次数之比。训练过程中GuanZero代理的合作率稳定在一个显著高于随机代理基线值的水平这表明GuanZero代理成功学习了合作行为并在实践中有效地应用了这一行为。 2. 矮化行为的学习与效果 GuanZero代理学习矮化行为的过程较为复杂因为其发生条件较为严格且出现频率较低。尽管如此GuanZero代理最终还是学会了何时执行矮化行为。训练过程显示矮化率有较大波动但最终趋于稳定代理能够在适当的时机执行矮化行为。 3. 协助行为的学习与效果 GuanZero代理在训练过程中学会了何时执行协助行为协助率的趋势与矮化行为类似经历了一段波动后趋于稳定。这表明GuanZero代理能够有效地学习并执行协助行为以提高团队的整体表现。 结论与未来工作GuanZero的成就与潜在改进方向 GuanZero通过深度强化学习和行为调节成功地掌握了掼蛋游戏并在与其他先进算法的比较中展现出了优越的性能。GuanZero代理不仅学会了游戏的基本策略还通过特别设计的神经网络编码方案学会了合作、矮化和协助等行为这些行为对于团队胜利至关重要。 未来的工作将集中在进一步提高GuanZero的性能和泛化能力上。尽管GuanZero在掼蛋游戏中取得了显著的成就但其特定的行为调节方案可能难以扩展到其他游戏或应用领域。 此外研究者们还希望探索其他形式的神经网络结构因为当前的网络结构相对基础更先进的神经网络不仅能够与不断增强的计算能力相匹配还可能引导代理发现尚未想象到的新策略。 总结AI在掼蛋游戏中的突破意义 人工智能AI在游戏领域的研究一直是AI研究的热点尤其是在棋牌游戏中。近年来AI在围棋、国际象棋等完全信息游戏中取得了显著进展如AlphaGo和AlphaZero的成功。然而在不完全信息的游戏中AI面临着更大的挑战。掼蛋游戏就是一个具有巨大状态空间和复杂性的不完全信息游戏它对AI研究提出了新的挑战。 掼蛋游戏的复杂性主要体现在其不完全信息的特性以及庞大的状态空间。传统算法如CFR在应用于多玩家设置时需要额外的调整尤其是在需要鼓励队友间合作行为的情况下。此外Guandan游戏中的信息集数量和合法动作数量都非常庞大这可能会降低现有算法的效率。 例如与DQN结合使用的动作消除法就是为了减少Q函数中过度估计错误的风险这些错误可能导致学习算法收敛到次优策略。 本篇论文提出了一个名为GuanZero的强化学习框架旨在使AI代理不仅能够掌握掼蛋游戏而且还能以高效的方式理解所需的行为。GuanZero框架依赖于DMC的可扩展性并通过精心设计的神经网络编码方案培养合作等所需行为。 GuanZero的神经网络架构能够处理状态和动作的丰富组合并通过LSTM网络捕捉动作、状态和价值之间的长期依赖性。此外研究者们还建立了一个分布式学习过程通过并行化模拟任务来加速学习过程并使用胜率WR作为评估代理强度的唯一指标。 实验结果表明GuanZero代理在与随机代理、基于规则的CGAIAC代理以及基于DouZero的代理的对抗中均取得了胜利。特别是在与DouZero基于代理的对抗中GuanZero代理在训练过程中迅速占据上风并且训练效率令人满意不到一周就出现了收敛的迹象。 总的来说GuanZero在掼蛋游戏中的突破意义在于其能够处理复杂的状态空间和不完全信息的挑战并通过行为调节机制学习合作等所需行为。这一突破不仅展示了AI在处理复杂棋牌游戏中的潜力为AI能够更好模仿人类的思维提供借鉴也为未来AI在更广泛领域的应用奠定了基础。 公众号「夕小瑶科技说」后台回复“掼蛋”获取论文pdf。
http://www.zqtcl.cn/news/70539/

相关文章:

  • 成都工程建设信息网站如何把网站和域名绑定
  • 南通专业网站建设公司加盟网官方网站
  • 做h5免费的网站有wordpress php文件上传
  • 珠宝商城网站模板专门找人做软件的网站
  • python做网站有什么弊端深圳网页设计培训中心
  • yiqicms主站调用一级目录wordpress博客的文章?ui设计师创意平台
  • 网站建设公司如何转型上海app定制
  • 做公司网站按年收费视觉差的网站
  • 建设部监理工程师网站河北高端网站设计公司
  • 网站建设业务饱和了吗网站怎么添加栏目
  • 南昌网站建设工作室网站正在紧急建设中
  • 有做软件的网站有哪些品牌logo设计理念介绍
  • 淘宝客做网站要钱吗上海网站营销seo
  • 建网站中企动力能制作网页的软件是
  • 房山网站建设服务家教网站如何建设
  • wordpress 网站上传到服务器错误wordpress基础模板
  • 深圳市建设科技促进中心网站建站 wordpress
  • ai人工智能写作网站昆山高端网站建设
  • 山东网站推广营销设计门户网站制作哪专业
  • 智能网站建设维护高端网站建设kgu
  • 7位数qq免费申请永久关键词优化公司济南兴田德润团队怎么样
  • 静态html网址网站导航源码手机微信一体网站建设
  • 深圳网站设计网站制作深圳市信用网
  • 上海定制化网站开发公司兼职做网站安全么
  • 网站安全维护公司成都市住建局
  • 昌吉州建设局网站pinterest网站怎么进
  • 网站内容完全改变被k做纺织的都用什么网站
  • 网站设计 无锡华润集团网站建设商
  • 怎么做网站的外链网站建设零金手指花总
  • 精品课程网站建设设计方案上海外贸博览会