0%

稀疏奖励下的强化学习

Posted on 2020-06-30 Edited on 2021-08-16 In Reinforcement Learning

稀疏奖励下的强化学习

当agent无法得到足够多的有效reward或者说得到的是稀疏奖励（sparse reward），会导致agent学习缓慢，甚至无法有效学习。

解决方法：

1. Use data to improve learning

1.1 Curiosity driven

paper: Episodic Curiosity through Reachability

https://arxiv.org/pdf/1810.02274.pdf

该方法改变了 agent「好奇心」的生成方式和奖励机制，将 agent 对环境信息观察的记忆信息引入奖励机制中，有效降低了 agent「原地兜圈」、「拖延」等不良行为，提升了强化学习模型的性能。

本文引入「好奇心（Curiosity）」的基本思路是：只对那些需要花费一定努力才能达到的结果给予奖励（这部分结果一定是在已经探索过的环境部分之外）。根据探索环境所需要的步骤数量来衡量这些努力。为了估计步骤数量，本文训练了一个神经网络近似器：给定两个观测值，预测将它们分开需要执行多少步。图 1 给出了通过可达性（Reachability）来说明行动的新颖性（Novelty）的概念。图中的节点是观测值，边是可能的转换。蓝色的节点已经在记忆内存中，绿色的节点可以在 k=2 步内从记忆内存中到达（不新颖），橙色的节点距离较远—需要超过 k 步才能到达（新颖）。

1.2 Reward shaping

1.3 Imitation learning

1.4 Curriculum learning

2. Improve model

2.1 Hierarchical reinforcement learning

2.2 Meta-learning