邵阳网站建设哪家好,全案策划,微信h5链接怎么做,均安网站制作目录
AC的数据低效性#xff1a;
根本原因#xff1a;策略更新导致数据失效
应用场景#xff1a;
1. 离策略值函数估计
2. 离策略策略优化
3. 经验回放#xff08;Experience Replay#xff09;
4. 策略梯度方法
具体场景分析
场景1#xff1a;连续策略更新
场…
目录
AC的数据低效性
根本原因策略更新导致数据失效
应用场景
1. 离策略值函数估计
2. 离策略策略优化
3. 经验回放Experience Replay
4. 策略梯度方法
具体场景分析
场景1连续策略更新
场景2高维动作空间
为什么AC不能直接复用数据
改进方案向off-policy演化
原理
重要性采样的核心价值 在强化学习中重要性采样Importance Sampling 主要用于解决离策略Off-policy学习中的分布偏移问题。其核心应用场景是通过行为策略Behavior Policy 收集的样本来估计目标策略Target Policy 的期望值。 AC的数据低效性
Actor-CriticAC算法作为典型的 on-policy 方法其数据利用率低的核心原因在于策略更新与数据收集的强耦合性。以下是具体分析 根本原因策略更新导致数据失效 策略更新即数据淘汰 每次策略 更新后参数改变新策略的动作分布 与旧策略 不同。 旧策略收集的数据 服从旧分布 而更新后需要的是新分布 下的数据。 结果旧数据立即失效必须重新采样。 数学本质 策略梯度更新依赖当前策略的期望 若用旧策略 的数据估计期望需引入重要性权重 但原生AC算法是一个on-policy算法直接丢弃旧数据不进行修正。 也就是 target policy behaivor policy那么当每次target policy发生变化时都需要进行重新采样如何转化为off-policy从而提高数据利用率可以通过imortance sampling来实现 应用场景
1. 离策略值函数估计 问题目标策略 的期望回报 无法直接采样如目标策略是确定性策略而采样策略是探索性策略。 解决方案 使用行为策略 生成的轨迹样本通过重要性权重修正分布偏差 其中 是从时刻 $t$ 到终止时刻 $T$ 的累积重要性权重。
2. 离策略策略优化 算法示例 Off-policy Actor-Critic如ACER Q-Learning的方差缩减使用加权重要性采样 原理 通过重要性权重重用旧策略的样本更新新策略减少环境交互次数提升样本效率。
3. 经验回放Experience Replay 场景 在DQN等算法中回放池中的经验由历史策略生成与当前策略分布不一致。 解决方案 对每个样本 计算重要性权重 修正Q值更新
4. 策略梯度方法 问题 策略梯度依赖当前策略样本。 重要性采样作用 重用旧策略 的样本计算梯度 应用在PPO、TRPO等算法中。
具体场景分析
场景1连续策略更新 AC流程 收集数据 → 更新Critic → 更新Actor → 丢弃数据 → 重新收集数据 效率瓶颈 90%的时间花在数据收集上仅10%用于计算更新。 例训练一个Atari游戏AC需2000万帧数据而off-policy的DQN仅需1000万帧。
场景2高维动作空间 问题 高维空间如机器人控制需大量样本覆盖动作分布但AC每次更新后旧样本作废。 后果 智能体陷入局部最优需额外探索新区域进一步降低效率。
为什么AC不能直接复用数据 理论限制 策略梯度定理要求期望基于当前策略分布$\mathbb{E}{a \sim \pi{\theta}}$。 实践风险 若强行复用旧数据梯度估计偏差随策略差异增大而爆炸见下图。
| 策略差异 (KL散度) | 梯度偏差 | 效果 |
|-------------------|----------|--------------------|
| 小 (0.01) | 低 | 可用 |
| 中 (0.01~0.1) | 中 | Q值估计失真 |
| 大 (0.1) | 高 | 训练崩溃 | 改进方案向off-policy演化
为提升数据利用率现代AC算法引入重要性采样或混合策略
算法核心改进数据利用率PPO重要性采样 权重裁剪 (Clip)中 (复用少量旧数据)SAC最大熵框架 经验回放高 (完全off-policy)TD3双Q网络 延迟更新 经验回放高 (完全off-policy)A3C异步并行采样 (数据并行)低 (但加速采样过程) 注PPO虽复用数据但其重要性权重 的方差限制了复用次数通常仅3-10次。 原理
根据分布来生成样本
期望,
当, 平均值可以近似期望 如果样本分布发生变化变为分布 那么期望就变为 问题
在迭代过程中策略的分布发生变化(p1 - p0)如何还能够利用之前生成的数据(p1)来进行继续学习呢? 如果能够基于behavior policy 产生的样本来估计其中是目标policy。
也就是基于来估计
我们就可以使用重要性采样对分布数据进行采样 这样我们可以通过来估计
如何估计
定义
then: 所以通过可以成功近似p_0分布 其中 就是重要性权重。
- 如果两者相等那么重要性权重就是1
- 如果,那么就代表更容易被采样到而不是所以要加大权重这样的话就可以加强样本的重要性。 为什么已知为什么不直接期望 这样的话通过重要性采样对分布的数据进行采样就可以近似分布 具体算法 beta对应于p1
应用到梯度上升算法中 相比AC失去探索性由于分母beta不可变 重要性采样的核心价值
场景作用离策略评估用行为策略样本估计目标策略的值函数策略优化重用历史样本更新策略提升样本效率经验回放修正回放池样本的分布偏移方差缩减结合加权重要性采样稳定训练 关键点重要性采样是强化学习中连接行为策略与目标策略的桥梁其核心价值在于重复利用历史数据显著提升采样效率但需谨慎处理方差问题。