根据《自然》最新发表的一项研究,一类增强学习算法在雅达利经典游戏中的得分超过了人类玩家和已有的人工智能系统。这类算法被统称为Go-Explore,它改善了对复杂环境的探索方式,或有望朝着实现真正智能学习体迈出重要一步。
增强学习可以让人工智能系统通过探索和理解复杂环境来进行决策,并学习如何以最优的方式获得奖励。然而,当遇到很少给予反馈的复杂环境时,目前的加强学习算法似乎很容易碰壁。
但Go-Explore突破了这些障碍。它可以对环境进行全面探索,同时构建一个档案库来记住它去过的地方,确保自己不会忘记通往有望成功的中期阶段或是最终胜利(奖励)的路线。
利用这类算法,论文作者解决了之前未能解决的2600个雅达利游戏,验证了这类算法的潜力。作者指出,记住并回到有望成功的探索区域的简单原则,是一种强大、通用的探索方法。他们认为论文所报道的算法有望应用于机器人、语言理解和药物设计。
作者:杨馥溪/整理
编辑:许琦敏
责任编辑:任荃
图片来源:pixabay
*文汇独家稿件,转载请注明出处。