当前位置: 首页 > news >正文

手机网站如何制作前端开发和后端开发哪个好

手机网站如何制作,前端开发和后端开发哪个好,赤峰网站设计,dede 网站版权信息ICLR 2024 Oral paper Intro 无监督RL旨在发现潜在的行为帮助提高下游任务效率以往方法集中于探索以及基于互信息的技能发现(skill)。然而去前者在高危复杂空间实现困难#xff0c;后者也容易因为缺乏激励导致探索能力不足。本文提出METRA核心观点认为与其在复杂状态空间处理…ICLR 2024 Oral paper Intro 无监督RL旨在发现潜在的行为帮助提高下游任务效率以往方法集中于探索以及基于互信息的技能发现(skill)。然而去前者在高危复杂空间实现困难后者也容易因为缺乏激励导致探索能力不足。本文提出METRA核心观点认为与其在复杂状态空间处理不如构造一个更紧凑的隐空间z类似于PCA将复杂状态空间简化: ϕ : S → Z \phi:\mathcal{S}\rightarrow\mathcal{Z} ϕ:S→Z而z可以通过时间距离temporal distances度量metric d链接到状态空间。 采用时间距离度量(状态间转换的最小交互步数)的原因是其对状态表征是不变的因此该度量适用于pixel-based的任务。因此通过最大化Z空间中的覆盖可以获得近似覆盖整个状态空间的各种行为便可实现扩展到高维、复杂的环境。 Method METRA的目标是基于Z空间实现状态空间的最大化覆盖。类似于Skill-based的无监督方法提出如下优化目标 I W ( S ; Z ) W ( p ( s , z ) , p ( s ) p ( z ) ) , I_{\mathcal W}(S;Z)\mathcal{W}(p(s,z),p(s)p(z)), IW​(S;Z)W(p(s,z),p(s)p(z)), 上式计算了状态与skills之间的Wasserstein dependency measure (WDM)。为了让上述目标简介且易于计算采用Kantorovich-Rubenstein duality提供一种可计算的方式最大化WDM。 I W ( S ; Z ) sup ⁡ ∥ f ∥ L ≤ 1 E p ( s , z ) [ f ( s , z ) ] − E p ( s ) p ( z ) [ f ( s , z ) ] v \begin{aligned}I_{\mathcal{W}}(S;Z)\sup_{\|f\|_{L}\leq1}\mathbb{E}_{p(s,z)}[f(s,z)]-\mathbb{E}_{p(s)p(z)}[f(s,z)]\end{aligned}v IW​(S;Z)∥f∥L​≤1sup​Ep(s,z)​[f(s,z)]−Ep(s)p(z)​[f(s,z)]​v 直观来说更希望采样联合分布的(s,z)而非边际分布的(s,z)。上述目标是可计算的可以设置f为1阶李普希兹连续的函数通过梯度下降优化而z-condition的策略 π ( a ∣ s , z ) \pi(a|s,z) π(a∣s,z)可以通过RL算法优化其奖励函数表示为 r ( s , z ) f ( s , z ) − N − 1 ∑ i 1 N f ( s , z i ) r(s,z)f(s,z)-N^{-1}\sum_{i1}^Nf(s,z_i) r(s,z)f(s,z)−N−1∑i1N​f(s,zi​)。而对每一个状态都需要从z的先验分布中采集N个 z i z_i zi​这样计算量增加。 因此本文简化计算量提出参数化 f ( s , a ) ϕ ( s ) ⊤ ψ ( z ) f(s,a)\phi(s)^{\top}\psi(z) f(s,a)ϕ(s)⊤ψ(z)。上述优化目标转化为 I W ( S ; Z ) ≈ sup ⁡ ∥ ϕ ∥ L ≤ 1 , ∥ ψ ∥ L ≤ 1 E p ( s , z ) [ ϕ ( s ) ⊤ ψ ( z ) ] − E p ( s ) [ ϕ ( s ) ] ⊤ E p ( z ) [ ψ ( z ) ] . I_{\mathcal{W}}(S;Z)\approx\operatorname*{sup}_{\|\phi\|_{L}\leq1,\|\psi\|_{L}\leq1}\mathbb{E}_{p(s,z)}[\phi(s)^{\top}\psi(z)]-\mathbb{E}_{p(s)}[\phi(s)]^{\top}\mathbb{E}_{p(z)}[\psi(z)]. IW​(S;Z)≈∥ϕ∥L​≤1,∥ψ∥L​≤1sup​Ep(s,z)​[ϕ(s)⊤ψ(z)]−Ep(s)​[ϕ(s)]⊤Ep(z)​[ψ(z)]. 原文给出证明在隐空间维度D趋于正无穷时 f ( s , a ) f(s,a) f(s,a)与 ϕ ( s ) ⊤ ψ ( z ) \phi(s)^{\top}\psi(z) ϕ(s)⊤ψ(z)等价。然后考虑状态为最后T时刻的设定 I W ( S T ; Z ) ≈ sup ⁡ ∥ ϕ ∥ L ≤ 1 , ∥ ψ ∥ L ≤ 1 E p ( τ , z ) [ ϕ ( s T ) ⊤ ψ ( z ) ] − E p ( τ ) [ ϕ ( s T ) ] ⊤ E p ( z ) [ ψ ( z ) ] sup ⁡ ϕ , ψ ∑ t 0 T − 1 ( E p ( τ , z ) [ ( ϕ ( s t 1 ) − ϕ ( s t ) ) ⊤ ψ ( z ) ] − E p ( τ ) [ ϕ ( s t 1 ) − ϕ ( s t ) ] ⊤ E p ( z ) [ ψ ( z ) ] ) , \begin{aligned}I_{\mathcal{W}}(S_T;Z)\approx\sup_{\|\phi\|_L\leq1,\|\psi\|_L\leq1}\mathbb{E}_{p(\tau,z)}[\phi(s_T)^\top\psi(z)]-\mathbb{E}_{p(\tau)}[\phi(s_{T})]^{\top}\mathbb{E}_{p(z)}[\psi(z)]\\\sup_{\phi,\psi}\sum_{t0}^{T-1}\big(\mathbb{E}_{p(\tau,z)}\big[(\phi(s_{t1})-\phi(s_t))^\top\psi(z)\big]-\left.\mathbb{E}_{p(\tau)}[\phi(s_{t1})-\phi(s_{t})]^{\top}\mathbb{E}_{p(z)}[\psi(z)]\right),\end{aligned} IW​(ST​;Z)​≈∥ϕ∥L​≤1,∥ψ∥L​≤1sup​Ep(τ,z)​[ϕ(sT​)⊤ψ(z)]−Ep(τ)​[ϕ(sT​)]⊤Ep(z)​[ψ(z)]ϕ,ψsup​t0∑T−1​(Ep(τ,z)​[(ϕ(st1​)−ϕ(st​))⊤ψ(z)]−Ep(τ)​[ϕ(st1​)−ϕ(st​)]⊤Ep(z)​[ψ(z)]),​ 其中 p ( s 0 ) p(s_0) p(s0​)与 p ( z ) p(z) p(z)独立分布设 ψ ( z ) z \psi(z)z ψ(z)z, 约简优化目标为 I W ( S T ; Z ) ≈ sup ⁡ ∥ ϕ ∥ L ≤ 1 E p ( τ , z ) [ ∑ t 0 T − 1 ( ϕ ( s t 1 ) − ϕ ( s t ) ) ⊤ ( z − z ˉ ) ] I_{\mathcal{W}}(S_T;Z)\approx\sup\limits_{\|\phi\|_L\leq1}\mathbb{E}_{p(\tau,z)}\left[\sum\limits_{t0}^{T-1}(\phi(s_{t1})-\phi(s_t))^\top(z-\bar{z})\right] IW​(ST​;Z)≈∥ϕ∥L​≤1sup​Ep(τ,z)​[t0∑T−1​(ϕ(st1​)−ϕ(st​))⊤(z−zˉ)] 且其中 z ˉ E p ( z ) [ z ] {\bar{z}}{\mathbb{E}}_{p(z)}[z] zˉEp(z)​[z]若是z均值为0那该问题可看作奖励函数 r ( s , z , s ′ ) ( ϕ ( s ′ ) − ϕ ( s ) ) ⊤ z \begin{aligned}r(s,z,s^{\prime})(\phi(s^{\prime})-\phi(s))^{\top}z\end{aligned} r(s,z,s′)(ϕ(s′)−ϕ(s))⊤z​的RL问题联合优化 ϕ \phi ϕ与 π ( a ∣ s , z ) \pi(a|s,z) π(a∣s,z) METRA 到目前为止上述问题没有指定距离函数 d d d, 本文提出两个状态时间距离 d t e m p ( s 1 , s 2 ) d_{\mathrm{temp}}(s_{1},s_{2}) dtemp​(s1​,s2​), 即从 s 1 s_1 s1​到 s 2 s_2 s2​最小环境交互步数。那么优化问题为 sup ⁡ π , ϕ E p ( τ , z ) [ ∑ t 0 T − 1 ( ϕ ( s t 1 ) − ϕ ( s t ) ) ⊤ z ] s . t . ∥ ϕ ( s ) − ϕ ( s ′ ) ∥ 2 ≤ 1 , ∀ ( s , s ′ ) ∈ S adj , \begin{aligned}\sup_{\pi,\phi}\mathbb{E}_{p(\tau,z)}\left[\sum_{t0}^{T-1}(\phi(s_{t1})-\phi(s_{t}))^{\top}z\right]\\\mathrm{s.t.}\|\phi(s)-\phi(s)\|_2\leq1,\forall(s,s)\in\mathcal{S}_{\text{adj}},\end{aligned} π,ϕsup​Ep(τ,z)​[t0∑T−1​(ϕ(st1​)−ϕ(st​))⊤z]s.t.∥ϕ(s)−ϕ(s′)∥2​≤1,∀(s,s′)∈Sadj​,​ 其中 S adj \mathcal{S}_{\text{adj}} Sadj​为相邻状态对的集合因此d1。直观来说上述目标迫使策略 π ( a ∣ s , z ) \pi(a|s,z) π(a∣s,z)尽可能向着由z指定的方向进行探索但是由于 ∥ ϕ ( s 1 ) − ϕ ( s 2 ) ∥ 2 \|\phi(s_{1})-\phi(s_{2})\|_{2} ∥ϕ(s1​)−ϕ(s2​)∥2​存在一个upper bound。这样潜在空间应该将其(有限的)维度分配给原始状态空间中流形最大限度“展开”的状态。从某种意义上说状态集中的最短路径应该尽可能长 Zero-shot goal-reaching with METRA 得益于 ϕ ( s ) \phi(s) ϕ(s)考虑时间距离上的状态抽象可以方便的实现Zero-shot goal-reaching 。只需将方向设置 z ( ϕ ( g ) − ϕ ( s ) ) / ∥ ϕ ( g ) − ϕ ( s ) ∥ 2 z(\phi(g)-\phi(s))/\|\phi(g)-\phi(s)\|_{2} z(ϕ(g)−ϕ(s))/∥ϕ(g)−ϕ(s)∥2​连续技能或者 z arg ⁡ max ⁡ dim ⁡ ( ϕ ( g ) − ϕ ( s ) ) z\arg\max_{\dim}\left(\phi(g)-\phi(s)\right) zargmaxdim​(ϕ(g)−ϕ(s))(离散技能)
http://www.zqtcl.cn/news/563524/

相关文章:

  • 《网站开发实践》 实训报告广告策划书案例完整版
  • 一级 爰做片免费网站做中学学中做网站
  • 网站排名如何提升网络营销的有哪些特点
  • 巨腾外贸网站建设个人主页网站模板免费
  • 有哪些网站免费做推广淄博网站电子商城平台建设
  • 网站建设的技术支持论文做网站买什么品牌笔记本好
  • 凡科网站后台在哪里.工程与建设
  • 静态网站源文件下载建设手机网站价格
  • 苏州做网站优化的网站开发邮件
  • 做网站怎么搭建环境阿里云大学 网站建设
  • 网站改版业务嵌入式培训推荐
  • 腾讯云 怎样建设网站网站开发 报价
  • 网络科技公司门户网站免费人脉推广官方软件
  • 建和做网站网络营销推广可以理解为
  • 太原市网站建设网站人防工程做资料的网站
  • 怎么做免费推广网站做网站第一部
  • 橙色网站后台模板WordPress的SEO插件安装失败
  • 做网站好还是做微信小程序好外包加工网外放加工活
  • 中国建设银行网站查征信电子商务网站建设及推广
  • 扫描网站漏洞的软件php网站后台验证码不显示
  • 诸城哪里有做网站的做网站的尺寸
  • 网站开发参考书目做网站推广赚钱吗
  • 九度网站建设网站做ppt模板
  • 浙江做公司网站多少钱评论回复网站怎么做
  • 江门网络建站模板虚拟主机价格一般多少钱
  • 网站建设公司云南深圳手机商城网站设计费用
  • 汇泽网站建设网页版快手
  • 手机销售培训网站wordpress案例插件
  • 滨江道做网站公司wordpress 花瓣网
  • 如何建网站快捷方式软件开发做平台