DeepMind思想家在益智游戏和宇宙飞船导航游戏上测试架构

2019-06-27 11:20:58 编辑：来源：

导读想象和计划的代表：这是本月早些时候六个DeepMind团队成员的DeepMind讨论的标题。他们在两个论文上完成了DeepMind研究工作的方向，现在正在

想象和计划的代表：这是本月早些时候六个DeepMind团队成员的DeepMind讨论的标题。

他们在两个论文上完成了DeepMind研究工作的方向，现在正在arXiv上。

他们说，在你采取行动之前想象你行为的后果是人类认知的有力工具。(我们每天都这样做。就像那个笔在你桌面的边缘摇摇晃晃。你可以“想象”它落下，所以你把它移到一个更安全的位置。)

“如果我们的算法要发展同样复杂的行为，他们也必须具备'想象'和推理未来的能力。”

正如Thomas Claburn在The Register中指出的那样，DeepMind“已经发现，用想象力灌输其软件代理可以帮助他们更好地学习。”

什么样的想象。

如果你研究报道这项研究的新闻网站，你会发现他们会仔细地说出它是什么以及它不是什么，而是使用诸如想象力 - “喜欢”和想象力 - “基于”这样的短语。

他们从根本上研究了改进深层强化学习的新技术。

克拉本用非常清晰的语言翻译了他们正在做的事情：

“强化学习是机器学习的一种形式。它涉及一种软件代理，通过与特定环境的交互来学习，通常是通过反复试验。深度学习是一种机器形式，涉及受人类大脑启发的算法，称为神经网络。这两种技术可以一起使用。“ 他说，DeepMind的工作试图提供两全其美的优势。

代理人从像素表示中播放Sokoban，而不知道游戏规则。在特定的时间点，我们想象代理人对五种可能未来的想象。根据该信息，代理商决定采取什么行动。突出显示相应的轨迹。阅读DeepMind博客：想象和计划的代理商

在现实世界中，复杂性规则。说到规则，在现实生活中，它们并没有如此清晰地定义。事情发生你无法轻易预测。至于规划策略，我们非常清楚，一个通用的答案并不总是适用于真实的环境。

代理商如何处理复杂问题?团队成员有两篇论文涉及这一切。他们描述了一系列基于想象力的计划方法。引入了体系结构，以便代理商学习和构建计划以最大化任务效率的新方法。

关于这些代理人的一个更有趣的特征描述是“他们可以学习不同的策略来构建计划。他们通过在继续当前的想象轨迹或从头开始重新选择之间做出选择。”

他们还可以使用不同的想象模型，“具有不同的精度和计算成本。”

研究人员测试了任务的架构，包括益智游戏推箱子和宇宙飞船导航游戏。

推箱子视频说明：一名经纪人从像素表示中扮演推箱子，不知道游戏规则。

宇宙飞船任务的注意事项：DeepMind的帖子带有一个“代理人玩太空飞船任务的视觉效果。红线表示在环境中执行的轨迹，而蓝色和绿色表示想象的轨迹。”

结果?

“对于这两项任务，想象力增强的特工大大优于无想象力的基线：他们以较少的经验学习，能够应对环境建模的不完美之处。”

正如TNW的亚历杭德罗·陶伯所说，“这些论文中描述的想象力类型远不及人类所能达到的那种，但它确实表明，人工智能可以并且能够在行动之前有效地想象不同的场景。”

关于论文：“想象力增强的深层强化学习代理”本月在arXiv上提交。

他们表示，这些代理人通过“学习解释”他们的不完美预测来使用近似环境模型，并且他们的算法可以直接在低级别的观察上进行训练，只需很少的领域知识。

“在不对环境模型的结构及其可能的不完善性做出任何假设的情况下，我们的方法以端到端的方式学习，从模型模拟中提取有用的知识 - 特别是不依赖于模拟的回报。”

另一篇论文是“从零开始学习基于模型的规划”，本月也提交了arXiv。“我们表明，我们的架构可以学习解决具有挑战性的连续控制问题，并在离散的迷宫解决任务中学习精心策划的策略。”

标签：宇宙飞船

免责声明：本文由用户上传，如有侵权请联系删除！

本站除标明“本站原创”外所有信息均转载自互联网版权归原作者所有。

邮箱：toplearningteam#gmail.com (请将#换成@)