您的位置: 首页 >科技 >

DeepMind思想家在益智游戏和宇宙飞船导航游戏上测试架构

2019-06-27 11:20:58 编辑: 来源:
导读 想象和计划的代表:这是本月早些时候六个DeepMind团队成员的DeepMind讨论的标题。他们在两个论文上完成了DeepMind研究工作的方向,现在正在

想象和计划的代表:这是本月早些时候六个DeepMind团队成员的DeepMind讨论的标题。

他们在两个论文上完成了DeepMind研究工作的方向,现在正在arXiv上。

他们说,在你采取行动之前想象你行为的后果是人类认知的有力工具。(我们每天都这样做。就像那个笔在你桌面的边缘摇摇晃晃。你可以“想象”它落下,所以你把它移到一个更安全的位置。)

“如果我们的算法要发展同样复杂的行为,他们也必须具备'想象'和推理未来的能力。”

正如Thomas Claburn在The Register中指出的那样,DeepMind“已经发现,用想象力灌输其软件代理可以帮助他们更好地学习。”

什么样的想象。

如果你研究报道这项研究的新闻网站,你会发现他们会仔细地说出它是什么以及它不是什么,而是使用诸如想象力 - “喜欢”和想象力 - “基于”这样的短语。

他们从根本上研究了改进深层强化学习的新技术。

克拉本用非常清晰的语言翻译了他们正在做的事情:

“强化学习是机器学习的一种形式。它涉及一种软件代理,通过与特定环境的交互来学习,通常是通过反复试验。深度学习是一种机器形式,涉及受人类大脑启发的算法,称为神经网络。这两种技术可以一起使用。“ 他说,DeepMind的工作试图提供两全其美的优势。

代理人从像素表示中播放Sokoban,而不知道游戏规则。在特定的时间点,我们想象代理人对五种可能未来的想象。根据该信息,代理商决定采取什么行动。突出显示相应的轨迹。阅读DeepMind博客:想象和计划的代理商

在现实世界中,复杂性规则。说到规则,在现实生活中,它们并没有如此清晰地定义。事情发生你无法轻易预测。至于规划策略,我们非常清楚,一个通用的答案并不总是适用于真实的环境。

代理商如何处理复杂问题?团队成员有两篇论文涉及这一切。他们描述了一系列基于想象力的计划方法。引入了体系结构,以便代理商学习和构建计划以最大化任务效率的新方法。

关于这些代理人的一个更有趣的特征描述是“他们可以学习不同的策略来构建计划。他们通过在继续当前的想象轨迹或从头开始重新选择之间做出选择。”

他们还可以使用不同的想象模型,“具有不同的精度和计算成本。”

研究人员测试了任务的架构,包括益智游戏推箱子和宇宙飞船导航游戏。

推箱子视频说明:一名经纪人从像素表示中扮演推箱子,不知道游戏规则。

宇宙飞船任务的注意事项:DeepMind的帖子带有一个“代理人玩太空飞船任务的视觉效果。红线表示在环境中执行的轨迹,而蓝色和绿色表示想象的轨迹。”

结果?

“对于这两项任务,想象力增强的特工大大优于无想象力的基线:他们以较少的经验学习,能够应对环境建模的不完美之处。”

正如TNW的亚历杭德罗·陶伯所说,“这些论文中描述的想象力类型远不及人类所能达到的那种,但它确实表明,人工智能可以并且能够在行动之前有效地想象不同的场景。”

关于论文:“想象力增强的深层强化学习代理”本月在arXiv上提交。

他们表示,这些代理人通过“学习解释”他们的不完美预测来使用近似环境模型,并且他们的算法可以直接在低级别的观察上进行训练,只需很少的领域知识。

“在不对环境模型的结构及其可能的不完善性做出任何假设的情况下,我们的方法以端到端的方式学习,从模型模拟中提取有用的知识 - 特别是不依赖于模拟的回报。”

另一篇论文是“从零开始学习基于模型的规划”,本月也提交了arXiv。“我们表明,我们的架构可以学习解决具有挑战性的连续控制问题,并在离散的迷宫解决任务中学习精心策划的策略。”


免责声明:本文由用户上传,如有侵权请联系删除!

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082   备案号:闽ICP备19027007号-6

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。