DeepMindMuZeroAI可以在不知道规则的情况下掌握游戏
人工智能的圣杯一直是让计算机能够像人类一样学习。然而,当今最强大的人工智能仍然依赖于某些已知规则,例如国际象棋或围棋的规则。然而,人类的学习在推理方面往往是混乱的,在我们前进的过程中学习生活规则。DeepMind 长期以来一直尝试使用游戏作为其环境和测试套件来创建此类 AI。谷歌专注于人工智能研究的姊妹公司刚刚公布了其在 MuZero 方面的最新成果,这是一种无需事先学习规则即可掌握游戏的人工智能。
DeepMind 之前的 AI 像 AlphaGo 已经被媒体广泛报道,因为它们在各自的游戏中击败了人类冠军。尽管他们可能令人印象深刻,但他们离最终目标还有几步之遥。尤其是 AlphaGo,其优势在于不仅了解围棋规则,还了解人类玩家的领域知识和数据。它的继任者 AlphaGo Zero 和 AlphaZero 仍然可以依靠规则手册来学习。
虽然这些 AI 在策略复杂但视觉效果简单的游戏中表现出色,但当应用于视觉上更复杂的游戏时,它们就失败了,因为这些游戏的规则并不那么容易推断。这就是新的 MuZero AI 的用武之地,它使用一系列 Atari 游戏(如吃豆人女士)来测试他们的理论。
大多数人工智能研究人员使用两种策略来解决学习问题,其中一种是依赖于获得游戏规则或知识的前瞻搜索。基于模型的规划确实通过创建环境的准确模型来学习,但代价是过于复杂。MuZero 的优势在于它仅对环境中重要的部分进行建模,例如知道雨伞可以帮助您在雨中保持干爽,而不是对所有雨滴的运动进行建模。
MuZero 能够掌握游戏的效率和速度给DeepMind留下了深刻的印象,即使只有有限的步骤来提前计划。它希望这种新的 AI 学习方法将应用于规则未以明确定义的方式制定的混乱的现实世界环境。