1、背景
大家小时候应该玩过超级玛丽(暴漏年龄了:)), 游戏的玩法是,通过控制马里奥的移动,消灭敌人,拯救公主。受限于操作,不是人人都可以很轻松的通过。
这时候就会产生1个想法:能否让电脑自己玩这个游戏,帮我通过呢?
感谢目前的AI时代,通过咨询AI,我们得知在AI中,有一个领域叫强化学习,可以帮我们解决这个问题。
基于这个背景,我准备自己手动玩一遍强化学习,并把过程记录下来,文档会分为几个连续的系列
2、什么是强化学习
强化学习是机器学习的一个分支,不同于监督学习和非监督学习,强化学习是通过算法,让agent(代理)进行一个动作,然后观察环境,再进行下一个动作,如此循环,在动作过程中,agent会获得奖励或者惩罚,通过不断的动作,agent会逐渐的学会如何获得最大的奖励。这样的学习过程,就叫做强化学习。
我们熟知的alpha go就是一个典型的强化学习例子,再比如无人机的飞控,也是一个典型的强化学习例子。
附上强化学习的一个图:

3、强化学习实操大纲
1、基于python开发1个简单的游戏
2、基于开发的游戏自定义gym环境
3、基于stable baselines3训练和测试
4、实战微信跳一跳游戏
这就是我们后续几篇文章主要的内容了