相关赛道:

不吃蘑菇,不捡金币,我用强化学习跑通29关马里奥,刷新最佳战绩

机器之心 2020-08-01 11:20:42 来源: 机器之心
机器之心报道

编辑:张倩、蛋酱

看了用强化学习训练的马里奥,我才知道原来这个游戏的后几关长这样。



《超级马里奥兄弟》是任天堂公司开发并于 1985 年出品的著名横版过关游戏,最早在红白机上推出,有多款后续作品,迄今多个版本总销量已突破 5 亿套。

这款游戏承载了一代人的回忆,你还记不记得你玩到过第几关?

其实,除了我们这些玩家之外,强化学习研究者也对这款游戏情有独钟。

最近,有人用 PPO 强化学习算法训练了一个超级马里奥智能体,已经打通了 29 关(总共 32 关),相关代码也已开源。



PPO 算法的全称是 Proximal Policy Optimization(近端策略优化),是 OpenAI 在 2017 年发布的一种强化学习算法。该算法的实现和调参十分简单,在强化学习中的表现优于当时所有顶尖算法的水平,因此被 OpenAI 作为强化学习研究中的首选算法。

使用 PPO 训练的 OpenAI Five 是第一款在电竞游戏中击败人类世界冠军的 AI。2018 年 8 月,OpenAI Five 与 Ti8Dota2 世界冠军 OG 战队展开了一场巅峰对决,最终 OpenAI Five 以 2:0 的比分轻松战胜世界冠军 OG。

此前,作者曾经使用 A3C 算法训练过用于通关超级马里奥兄弟的智能体。尽管智能体可以又快又好地完成游戏,但整体水平是有限的。无论经过多少次微调和测试,使用 A3C 训练的智能体只能完成到第 9 关。同时作者也使用过 A2C 和 Rainbow 等算法进行训练,前者并未实现性能的明显提升,后者更适用于随机环境、游戏,比如乒乓球或太空侵略者。

还有三关没有过是怎么回事?作者解释说,4-4、7-4 和 8-4 关的地图都包含了一些谜题,智能体需要选择正确的路径才能继续前进。如果选错了路径,就得重新把走过的路再走一遍,陷入死循环。所以智能体没能通过这三关。