当前位置: 首页 > news >正文

信誉好的网站建设北京专业推广公司

信誉好的网站建设,北京专业推广公司,无人区在线观看高清1080,wordpress仪表盘加载很慢IEEE TAI 2024 paper 1 Introduction 一篇offline to online 的文章#xff0c;有效解决迁移过程出现的performance drop。所提出的O2AC算法首先在离线阶段添加一项BC惩罚项#xff0c;用于限制策略靠近专家策略#xff1b;而在在线微调阶段#xff0c;通过动态调整BC的权…IEEE TAI 2024 paper 1 Introduction 一篇offline to online 的文章有效解决迁移过程出现的performance drop。所提出的O2AC算法首先在离线阶段添加一项BC惩罚项用于限制策略靠近专家策略而在在线微调阶段通过动态调整BC的权重缓解performance drop。 2 Method 2.1 offline 离线阶段采用BC结合确定性策略优化方法。最大化下列损失函数 J o f f i n e ( θ ) E ( s , a ) ∼ B [ ζ Q ϕ ( s , π θ ( s ) ) − ∥ π θ ( s ) − a ∥ 2 ] J_{\mathrm{offine}}(\boldsymbol{\theta})\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\zeta Q_{\boldsymbol{\phi}}(\boldsymbol{s},\pi_{\boldsymbol{\theta}}(\boldsymbol{s}))-\left\|\pi_{\boldsymbol{\theta}}(\boldsymbol{s})-\boldsymbol{a}\right\|^2\right] Joffine​(θ)E(s,a)∼B​[ζQϕ​(s,πθ​(s))−∥πθ​(s)−a∥2] 其中 ζ \zeta ζ用于平衡BC以及一般policy iteration其数值如下 ζ α 1 m ∑ ( s i , a i ) ∈ B ‾ ∣ Q ( s i , a i ) ∣ \zeta\frac{\alpha}{\frac1m\sum_{(\boldsymbol{s}_i,\boldsymbol{a}_i)\in\overline{\mathcal{B}}}|Q(\boldsymbol{s}_i,\boldsymbol{a}_i)|} ζm1​∑(si​,ai​)∈B​∣Q(si​,ai​)∣α​ 其中 B ‾ \overline{\mathcal{B}} B表示从Buffer中采样地mini-batch, size为m 2.2 online 在线微调阶段对确定性策略优化的损失函数表示如下 J o n l i n e ( θ ) E ( s , a ) ∼ B [ ζ Q ϕ ( s , π θ ( s ) ) − λ ∥ π θ ( s ) − a ∥ 2 ] J_{\mathrm{online}}(\boldsymbol{\theta})\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\zeta Q_{\boldsymbol{\phi}}(\boldsymbol{s},\pi_{\boldsymbol{\theta}}(\boldsymbol{s}))-\lambda\left\|\pi_{\boldsymbol{\theta}}(\boldsymbol{s})-\boldsymbol{a}\right\|^2\right] Jonline​(θ)E(s,a)∼B​[ζQϕ​(s,πθ​(s))−λ∥πθ​(s)−a∥2] 相较于offline损失函数增加对BC权重因子 λ \lambda λ。该数值是动态减少的实验设置为每5k steps, 减少10%。对Q价值的更新则是类似于TD3使用两个target网络以及延时更新。 L ( ϕ ) E ( s , a ) ∼ B [ ( y ˉ − Q ϕ ( s , a ) ) 2 ] where  y ˉ r min ⁡ i 1 , 2 Q ϕ i ˉ ( s , ′ a ′ ∼ π θ ˉ ) . \begin{aligned}L(\phi)\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\left(\bar{y}-Q_{\boldsymbol{\phi}}(\boldsymbol{s},\boldsymbol{a})\right)^2\right]\\\\\text{where }\bar{y}r\min_{i1,2}Q_{\bar{\boldsymbol{\phi}_i}}(\boldsymbol{s},\boldsymbol{a}\sim\pi_{\bar{\boldsymbol{\theta}}}).\end{aligned} L(ϕ)where yˉ​​E(s,a)∼B​[(yˉ​−Qϕ​(s,a))2]ri1,2min​Qϕi​ˉ​​(s,′a′∼πθˉ​).​ 伪代码如下 Summary 有个疑问online阶段对策略进行更新时采样的数据(s,a)是来自replaybuffer B \mathcal{B} B。 B \mathcal{B} B包含在线阶段真实交互数据以及离线数据。如果(s,a)是OOD或者质量差数据那么此时BC项应该尽可能地不要发挥作用。简单的调整 λ \lambda λ恐怕效果不够。可以探索添在BC项再加一个指示函数自适应地判断“异常数据”直接截断为0.
http://www.zqtcl.cn/news/194963/

相关文章:

  • 利用网站新媒体宣传法治建设建站哪个平台好
  • 网站seo课设wordpress 500 根目录
  • 电子商务网站建设的阶段化分析如何利用视频网站做数字营销推广
  • 电子商务网站建设ppt模板国外注册机网站
  • 西部数码做跳转网站百度seo排名培训优化
  • 农业网站素材wordpress all in one
  • 学习网站建设有前景没wordpress 和dokuwiki
  • 服装网站开发方案网站设计美工排版编辑
  • 旅游网站首页模板下载广州市建设工程检测中心网站
  • 餐饮加盟网站建设wordpress 首行缩进
  • kkday是哪里做的网站橙云 php网站建设
  • 站长之家0网站规划作品
  • 物流公司网站建设系统规划广告设计怎么学
  • 异地备案 网站中信建设有限责任公司经济性质
  • 网站没有备案怎么申请广告宿迁莱布拉网站建设
  • 太原适合网站设计地址网站建设 教学视频教程
  • 建商城网站需要多少钱网站开发维护报价单
  • 唐山网站建设冀icp备婚纱网站页面设计
  • 做购物网站支付需要怎么做手机网站建设教程
  • 国外网站空间租用哪个好建站快车打电话
  • 自媒体网站 程序做药公司的网站前置审批
  • 简洁网站模板素材廊坊建设企业网站
  • 长沙建站找有为太极就治就网站内容如何自动关联新浪微博
  • 手机企业网站设计理念企业建设网站的步骤是什么?
  • 网站建设与管理视频网站推广的方法枫子
  • 苏州市住房和城乡建设局官方网站宠物之家网站开发
  • 建个人网站活字格能开发企业网站吗
  • php网站后台密码忘记做电子商务网站 语言
  • 网站建设策划师怎样进入国外网站
  • 建设银行商城网站浙江建站管理系统价格