研究人员使用视频游戏解锁新的AI水平

2019-06-06 17:10:27 编辑：来源：

导读对人工智能的期望是非常真实和非常高的。福布斯项目的收入分析将从2018年的16 2亿美元飙升至2025年的312亿美元。报告还包括一项调查显示，8

对人工智能的期望是非常真实和非常高的。“福布斯”项目的收入分析将从2018年的16.2亿美元飙升至2025年的312亿美元。报告还包括一项调查显示，84%的企业认为投资人工智能将带来竞争优势。

“看到近年来取得的巨大成功和进步令人兴奋，”匹兹堡斯旺森工程学院工业工程助理教授Daniel Jiang说。“为了延续这一趋势，我们正在寻求开发更复杂的算法方法，以学习最优决策的策略。”

Jiang博士设计了在复杂和不确定环境中学习决策策略的算法。通过在模拟环境中测试算法，他们可以从错误中吸取教训，同时发现和加强成功策略。为了完善这一过程，蒋博士和他所在领域的许多研究人员需要模拟现实世界。

“作为工业工程师，我们通常会处理以运营为重点的问题。例如，运输，物流和供应链，能源系统和医疗保健是几个重要领域，”他说。“所有这些问题都是具有现实后果的高风险操作。它们没有为尝试实验技术创造最佳环境，特别是当我们的许多算法被认为是重复'试错'的巧妙方法时所有可能的行动。“

准备高级AI以应对现实场景和复杂性的一种策略是使用历史数据。例如，算法可以运行数十年的数据，以确定哪些决策有效，哪些决策导致效果不佳。然而，研究人员发现很难测试仅使用过去数据来学习自适应行为的算法。

蒋博士解释说：“历史数据可能是一个问题，因为人们的行为可以解决后果，也不会提出其他可能性。换句话说，算法很难提出问题'如果我选择门会有什么不同的事情B代替门A?' 在历史数据中，我们只能看到门A的后果。“

视频游戏作为替代方案，提供了丰富的测试环境，充满了复杂的决策制定，而没有让不成熟的AI充分掌控的危险。与现实世界不同，它们为算法提供了一种安全的方法来从错误中吸取教训。

“视频游戏设计师并不打算以测试模型或模拟为目标来构建游戏，”江博士说。“他们经常设计具有双重任务的游戏：创造模仿现实世界的环境，并挑战玩家做出艰难的决定。这些目标恰好与我们正在寻找的东西保持一致。此外，游戏也很多在几个小时的实时中，我们可以评估数十万个游戏玩法决策的结果。“

为了测试他的算法，江博士使用了一种名为Multiplayer Online Battle Arena或MOBA的视频游戏。诸如英雄联盟或风暴英雄等游戏是流行的MOBA，其中玩家控制几个“英雄”角色中的一个，并试图在保护自己的同时摧毁对手的基地。

用于训练游戏玩法AI的成功算法必须克服几个挑战，例如实时决策和长决策视野 - 一个数学术语，用于何时直到很久以后才能知道某些决策的后果。

“我们设计的算法用于评估41条信息，然后输出22种不同动作中的一种，包括移动，攻击和特殊动作，”江博士说。“我们将不同的训练方法相互比较。最成功的玩家使用一种称为蒙特卡罗树搜索的方法来生成数据，然后将其输入神经网络。”

蒙特卡罗树搜索是一种决策制定策略，其中玩家通过模拟或视频游戏随机移动。然后，该算法分析游戏结果，以便为更成功的动作赋予更多权重。随着时间的推移和游戏的多次迭代，更成功的动作持续存在，并且玩家在赢得游戏方面变得更好。

“我们的研究也给出了一些理论结果，表明蒙特卡洛树搜索是一种有效的策略，可以训练代理人成功地做出艰难的决策，即使在不确定的世界中进行操作，”江博士解释说。

江博士发表了他的研究成果与Emmanuel Ekwedike和Han Liu共同撰写的一篇论文，并于今年夏天在瑞典斯德哥尔摩举行的2018年机器学习国际会议上公布了结果。

在匹兹堡大学，他继续在博士学位的连续决策领域工作。学生Yijia Wang和Ibrahim El-Shar。该团队专注于与乘车共享，能源市场和公共健康相关的问题。随着行业准备让AI负责关键职责，蒋博士确保基础算法始终处于游戏的顶端。

标签：解锁新的AI水平

免责声明：本文由用户上传，如有侵权请联系删除！

本站除标明“本站原创”外所有信息均转载自互联网版权归原作者所有。

邮箱：toplearningteam#gmail.com (请将#换成@)