强化学习1:大纲

gujiangfei 于 2025-03-23 发布

1、背景

大家小时候应该玩过超级玛丽(暴漏年龄了:)), 游戏的玩法是,通过控制马里奥的移动,消灭敌人,拯救公主。受限于操作,不是人人都可以很轻松的通过。

这时候就会产生1个想法:能否让电脑自己玩这个游戏,帮我通过呢?

感谢目前的AI时代,通过咨询AI,我们得知在AI中,有一个领域叫强化学习,可以帮我们解决这个问题。

基于这个背景,我准备自己手动玩一遍强化学习,并把过程记录下来,文档会分为几个连续的系列

2、什么是强化学习

强化学习是机器学习的一个分支,不同于监督学习和非监督学习,强化学习是通过算法,让agent(代理)进行一个动作,然后观察环境,再进行下一个动作,如此循环,在动作过程中,agent会获得奖励或者惩罚,通过不断的动作,agent会逐渐的学会如何获得最大的奖励。这样的学习过程,就叫做强化学习。

我们熟知的alpha go就是一个典型的强化学习例子,再比如无人机的飞控,也是一个典型的强化学习例子。

附上强化学习的一个图:

3、强化学习实操大纲

1、基于python开发1个简单的游戏

2、基于开发的游戏自定义gym环境

3、基于stable baselines3训练和测试

4、实战微信跳一跳游戏

这就是我们后续几篇文章主要的内容了