强化学习1：大纲-波妞和咕唧

1、背景

大家小时候应该玩过超级玛丽（暴漏年龄了:)）, 游戏的玩法是，通过控制马里奥的移动，消灭敌人，拯救公主。受限于操作，不是人人都可以很轻松的通过。

这时候就会产生1个想法：能否让电脑自己玩这个游戏，帮我通过呢？

感谢目前的AI时代，通过咨询AI，我们得知在AI中，有一个领域叫强化学习，可以帮我们解决这个问题。

基于这个背景，我准备自己手动玩一遍强化学习，并把过程记录下来，文档会分为几个连续的系列

强化学习是机器学习的一个分支，不同于监督学习和非监督学习，强化学习是通过算法，让agent（代理）进行一个动作，然后观察环境，再进行下一个动作，如此循环，在动作过程中，agent会获得奖励或者惩罚，通过不断的动作，agent会逐渐的学会如何获得最大的奖励。这样的学习过程，就叫做强化学习。

我们熟知的alpha go就是一个典型的强化学习例子，再比如无人机的飞控，也是一个典型的强化学习例子。

附上强化学习的一个图：

1、基于python开发1个简单的游戏

2、基于开发的游戏自定义gym环境

3、基于stable baselines3训练和测试

4、实战微信跳一跳游戏

这就是我们后续几篇文章主要的内容了