在一场关于人工智能的转折中,计算机科学家对机器进行编程,使其变得具有好奇心——能自己探索周围环境并且为了学习而学习。这种新方法可使机器人比现在学习得更快。有朝一日,它们甚至可能在形成假设和推动已知科学向前发展方面超越人类科学家。
“发展好奇心是智能的核心问题。”在美国布朗大学掌管智能机器人实验室的计算机科学家George Konidaris介绍说,“当你不确定你的机器人将来要做什么时,使其具有好奇心将会非常有用。”
多年以来,科学家一直在开发针对好奇心的算法,但复制人类的求知欲是个难题。比如,大多数方法不能评估智能机器人在看见某个事物前预测其是否有趣方面存在的差距。(人类有时能通过封面判断一本书是否有趣)
目前在英国伦敦谷歌深度思维公司就职的计算机科学家Todd Hester希望做得更好。“我在寻找使计算机更加聪明地学习并且像人类一样进行探索的方法。”Hester表示,“不是探索所有事情,也不是随意进行探索,而是尝试着更加聪明地做一些事情。”
为此,Hester和得克萨斯大学计算机科学家Peter Stone开发了一种名为TEXPLORE-VENIR、依赖于强化学习技术的新算法。在强化学习中,程序会尝试一些事情。如果一个举动使其离某个最终目标(比如迷宫的尽头)更近一步,它会收到一个小小的奖励并且更有可能在将来再次尝试这一操作。深度思维公司利用强化学习,使程序通过随机试验掌握雅达利游戏和围棋游戏的玩法。不过,和其他具有好奇心的算法一样,TEXPLORE-VENIR同样设置了一个内在目标。如果它理解了一些新事物,就会奖励自己,即便这些知识并未使其离最终目标更近一步。
随着TEXPLORE-VENIR不断学习并且构建起关于世界的模型,它会因发现了和此前见到的事物不一样的信息而奖励自己。比如,在一幅地图上发现遥远的地方,或者在烹调用的程序上发现具有异国情调的食谱。“它们是完全不同的学习和探索类型。”Konidaris表示,“对它们进行平衡真的很重要。我喜欢这篇文章的地方在于它同时做到了两点。”
Hester和Stone在两个场景中测试了他们的方法。首先是一个含有一圈4个房间的虚拟迷宫,房间则由锁着的门连接起来。机器人(仅是一个计算机程序)不得不找到钥匙,将其捡起来,然后利用它打开门上的锁。每通过一扇门,机器人会获得10分,并且拥有3000步来获得更高的得分。如果研究人员先让机器人仅在TEXPLORE-VENIR的指导下摸索1000步,它在3000步的测试阶段会平均获得约55分。如果机器人利用其他开发好奇心的算法进行此类探索,它在测试阶段的得分从0到35分不等,除了利用一种被称为R-Max的算法。后者也能让机器人获得约55分。在另一个不同的设定中,机器人不得不同时探索和穿过门。TEXPLORE-VENIR获得了约70分,R-Max获得了约35分,其他算法获得的分数则不到5分。研究人员在6月出版的《人工智能》杂志上报告了这一结果。
随后,研究人员利用实体机器人测试了他们的算法。这是一个被称为Nao的人形玩具。在3项单独的任务中,半米高的机器人需要击打铙钹、用手将粉色胶带举到眼前或者按下脚上的按钮,从而获得分数。在每项任务中,它有200步来获得分数,但在这之前会有400步来摸索。这要么是随机进行的,要么利用TEXPLORE-VENIR。每种方法平均开展了13次试验。相较于随机摸索,在利用TEXPLORE-VENIR进行探索后,Nao在找到粉色胶带上做得更好,并且在13次试验中,有7次按下了按钮。但在随机探索后,没有一次按下。通过自身和周围环境开展半结构化的试验,TEXPLORE-VENIR做好了充分准备执行被分配的任务,就像婴儿在学习爬之前舞动自己的四肢一样。
在做家务、设计高效的生产流程或者为疾病寻求治疗方案时,具有好奇心的机器人会表现出灵活的行为。Hester表示,下一步将利用深度神经网络,即以大脑结构为模型的算法更好地确定要探索的新领域。而这顺便也能使Hester的探索更进一步:“我们能否制造像孩子一样学习的机器人呢?” (宗华编译)
来源:中国科学报
编辑:童妙 实习编辑 曾映雪