稀疏奖励下的强化学习

稀疏奖励下的强化学习

当agent无法得到足够多的有效reward或者说得到的是稀疏奖励(sparse reward),会导致agent学习缓慢,甚至无法 有效学习。

解决方法:

1. Use data to improve learning

1.1 Curiosity driven

paper: Episodic Curiosity through Reachability

https://arxiv.org/pdf/1810.02274.pdf

该方法改变了 agent「好奇心」的生成方式和奖励机制,将 agent 对环境信息观察的记忆信息引入奖励机制中,有效降低了 agent「原地兜圈」、「拖延」等不良行为,提升了强化学习模型的性能。

本文引入「好奇心(Curiosity)」的基本思路是:只对那些需要花费一定努力才能达到的结果给予奖励(这部分结果一定是在已经探索过的环境部分之外)。根据探索环境所需要的步骤数量来衡量这些努力。为了估计步骤数量,本文训练了一个神经网络近似器:给定两个观测值,预测将它们分开需要执行多少步。图 1 给出了通过可达性(Reachability)来说明行动的新颖性(Novelty)的概念。图中的节点是观测值,边是可能的转换。蓝色的节点已经在记忆内存中,绿色的节点可以在 k=2 步内从记忆内存中到达(不新颖),橙色的节点距离较远—需要超过 k 步才能到达(新颖)。

1.2 Reward shaping

1.3 Imitation learning

1.4 Curriculum learning

2. Improve model

2.1 Hierarchical reinforcement learning

2.2 Meta-learning