当前位置: 首页 > news >正文

亳州企业网站建设个人做电影网站合法吗

亳州企业网站建设,个人做电影网站合法吗,工商企业年报查询入口,.net做网站用什么技术IEEE TAI 2024 paper 1 Introduction 一篇offline to online 的文章#xff0c;有效解决迁移过程出现的performance drop。所提出的O2AC算法首先在离线阶段添加一项BC惩罚项#xff0c;用于限制策略靠近专家策略#xff1b;而在在线微调阶段#xff0c;通过动态调整BC的权…IEEE TAI 2024 paper 1 Introduction 一篇offline to online 的文章有效解决迁移过程出现的performance drop。所提出的O2AC算法首先在离线阶段添加一项BC惩罚项用于限制策略靠近专家策略而在在线微调阶段通过动态调整BC的权重缓解performance drop。 2 Method 2.1 offline 离线阶段采用BC结合确定性策略优化方法。最大化下列损失函数 J o f f i n e ( θ ) E ( s , a ) ∼ B [ ζ Q ϕ ( s , π θ ( s ) ) − ∥ π θ ( s ) − a ∥ 2 ] J_{\mathrm{offine}}(\boldsymbol{\theta})\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\zeta Q_{\boldsymbol{\phi}}(\boldsymbol{s},\pi_{\boldsymbol{\theta}}(\boldsymbol{s}))-\left\|\pi_{\boldsymbol{\theta}}(\boldsymbol{s})-\boldsymbol{a}\right\|^2\right] Joffine​(θ)E(s,a)∼B​[ζQϕ​(s,πθ​(s))−∥πθ​(s)−a∥2] 其中 ζ \zeta ζ用于平衡BC以及一般policy iteration其数值如下 ζ α 1 m ∑ ( s i , a i ) ∈ B ‾ ∣ Q ( s i , a i ) ∣ \zeta\frac{\alpha}{\frac1m\sum_{(\boldsymbol{s}_i,\boldsymbol{a}_i)\in\overline{\mathcal{B}}}|Q(\boldsymbol{s}_i,\boldsymbol{a}_i)|} ζm1​∑(si​,ai​)∈B​∣Q(si​,ai​)∣α​ 其中 B ‾ \overline{\mathcal{B}} B表示从Buffer中采样地mini-batch, size为m 2.2 online 在线微调阶段对确定性策略优化的损失函数表示如下 J o n l i n e ( θ ) E ( s , a ) ∼ B [ ζ Q ϕ ( s , π θ ( s ) ) − λ ∥ π θ ( s ) − a ∥ 2 ] J_{\mathrm{online}}(\boldsymbol{\theta})\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\zeta Q_{\boldsymbol{\phi}}(\boldsymbol{s},\pi_{\boldsymbol{\theta}}(\boldsymbol{s}))-\lambda\left\|\pi_{\boldsymbol{\theta}}(\boldsymbol{s})-\boldsymbol{a}\right\|^2\right] Jonline​(θ)E(s,a)∼B​[ζQϕ​(s,πθ​(s))−λ∥πθ​(s)−a∥2] 相较于offline损失函数增加对BC权重因子 λ \lambda λ。该数值是动态减少的实验设置为每5k steps, 减少10%。对Q价值的更新则是类似于TD3使用两个target网络以及延时更新。 L ( ϕ ) E ( s , a ) ∼ B [ ( y ˉ − Q ϕ ( s , a ) ) 2 ] where  y ˉ r min ⁡ i 1 , 2 Q ϕ i ˉ ( s , ′ a ′ ∼ π θ ˉ ) . \begin{aligned}L(\phi)\mathbb{E}_{(\boldsymbol{s},\boldsymbol{a})\sim\mathcal{B}}\left[\left(\bar{y}-Q_{\boldsymbol{\phi}}(\boldsymbol{s},\boldsymbol{a})\right)^2\right]\\\\\text{where }\bar{y}r\min_{i1,2}Q_{\bar{\boldsymbol{\phi}_i}}(\boldsymbol{s},\boldsymbol{a}\sim\pi_{\bar{\boldsymbol{\theta}}}).\end{aligned} L(ϕ)where yˉ​​E(s,a)∼B​[(yˉ​−Qϕ​(s,a))2]ri1,2min​Qϕi​ˉ​​(s,′a′∼πθˉ​).​ 伪代码如下 Summary 有个疑问online阶段对策略进行更新时采样的数据(s,a)是来自replaybuffer B \mathcal{B} B。 B \mathcal{B} B包含在线阶段真实交互数据以及离线数据。如果(s,a)是OOD或者质量差数据那么此时BC项应该尽可能地不要发挥作用。简单的调整 λ \lambda λ恐怕效果不够。可以探索添在BC项再加一个指示函数自适应地判断“异常数据”直接截断为0.
http://www.zqtcl.cn/news/677611/

相关文章:

  • icp备案网站用不了备案期间关闭网站
  • 上海电子门户网站建设数据公司签约网站
  • 北京品牌高端网站建设公司天津最好的网站建设公司
  • 网站开发中文摘要当今做啥网站致富
  • 钓鱼网站制作方法WordPress音乐免刷新
  • 北京网站建设的公网站订票策划方案
  • 做搜狗网站快速排名福田瑞沃自卸车
  • 帮人做图挣外快的网站做网站刷流量挣钱吗
  • 网站改版被降权从0到建网站
  • dedese网站牛客网官网
  • 网站到期续费要多少钱如何做一个电商
  • 试述网站建设的步骤石家庄公司网站如何制作
  • 百度推广自己做网站吗韶关东莞网站建设
  • 濮阳建站建设室内设计效果图图片
  • 上海找做网站公司国外网站国内做好还是国外做
  • 一个vps建两个网站怎么弄数据库济南地产行业网站开发
  • 网站到期请续费站长网
  • 个人网站名字可以用哪些促销网站怎么做
  • 网站开发需要提供哪些东西镇江网络违法网站
  • 都江堰建设局官方网站wordpress分享此文章
  • 素材网站整站下载赣州网站建设信息
  • 网上做问卷报酬不错的网站是iis 如何新建网站
  • 济南建设监理协会网站雄安网站建设单位
  • 微网站模板怎么用公司网站无法打开
  • 查询网站备案进度做外贸的数据网站
  • 广州建网站哪儿济南兴田德润简介室内设计效果图手绘图
  • 网站页面设计要求做搜狗网站优化
  • 家纺代发网站建设百度怎么做开锁网站
  • 哈尔滨网站建设有哪些做互联网项目怎么推广
  • 网站首页代码怎么做温州设计集团有限公司官网