您的位置: 首页 >互联网 >

研究人员使用视频游戏解锁新的AI水平

2019-06-06 17:10:27 编辑: 来源:
导读 对人工智能的期望是非常真实和非常高的。福布斯项目的收入分析将从2018年的16 2亿美元飙升至2025年的312亿美元。报告还包括一项调查显示,8

对人工智能的期望是非常真实和非常高的。“福布斯”项目的收入分析将从2018年的16.2亿美元飙升至2025年的312亿美元。报告还包括一项调查显示,84%的企业认为投资人工智能将带来竞争优势。

“看到近年来取得的巨大成功和进步令人兴奋,”匹兹堡斯旺森工程学院工业工程助理教授Daniel Jiang说。“为了延续这一趋势,我们正在寻求开发更复杂的算法方法,以学习最优决策的策略。”

Jiang博士设计了在复杂和不确定环境中学习决策策略的算法。通过在模拟环境中测试算法,他们可以从错误中吸取教训,同时发现和加强成功策略。为了完善这一过程,蒋博士和他所在领域的许多研究人员需要模拟现实世界。

“作为工业工程师,我们通常会处理以运营为重点的问题。例如,运输,物流和供应链,能源系统和医疗保健是几个重要领域,”他说。“所有这些问题都是具有现实后果的高风险操作。它们没有为尝试实验技术创造最佳环境,特别是当我们的许多算法被认为是重复'试错'的巧妙方法时所有可能的行动。“

准备高级AI以应对现实场景和复杂性的一种策略是使用历史数据。例如,算法可以运行数十年的数据,以确定哪些决策有效,哪些决策导致效果不佳。然而,研究人员发现很难测试仅使用过去数据来学习自适应行为的算法。

蒋博士解释说:“历史数据可能是一个问题,因为人们的行为可以解决后果,也不会提出其他可能性。换句话说,算法很难提出问题'如果我选择门会有什么不同的事情B代替门A?' 在历史数据中,我们只能看到门A的后果。“

视频游戏作为替代方案,提供了丰富的测试环境,充满了复杂的决策制定,而没有让不成熟的AI充分掌控的危险。与现实世界不同,它们为算法提供了一种安全的方法来从错误中吸取教训。

“视频游戏设计师并不打算以测试模型或模拟为目标来构建游戏,”江博士说。“他们经常设计具有双重任务的游戏:创造模仿现实世界的环境,并挑战玩家做出艰难的决定。这些目标恰好与我们正在寻找的东西保持一致。此外,游戏也很多在几个小时的实时中,我们可以评估数十万个游戏玩法决策的结果。“

为了测试他的算法,江博士使用了一种名为Multiplayer Online Battle Arena或MOBA的视频游戏。诸如英雄联盟或风暴英雄等游戏是流行的MOBA,其中玩家控制几个“英雄”角色中的一个,并试图在保护自己的同时摧毁对手的基地。

用于训练游戏玩法AI的成功算法必须克服几个挑战,例如实时决策和长决策视野 - 一个数学术语,用于何时直到很久以后才能知道某些决策的后果。

“我们设计的算法用于评估41条信息,然后输出22种不同动作中的一种,包括移动,攻击和特殊动作,”江博士说。“我们将不同的训练方法相互比较。最成功的玩家使用一种称为蒙特卡罗树搜索的方法来生成数据,然后将其输入神经网络。”

蒙特卡罗树搜索是一种决策制定策略,其中玩家通过模拟或视频游戏随机移动。然后,该算法分析游戏结果,以便为更成功的动作赋予更多权重。随着时间的推移和游戏的多次迭代,更成功的动作持续存在,并且玩家在赢得游戏方面变得更好。

“我们的研究也给出了一些理论结果,表明蒙特卡洛树搜索是一种有效的策略,可以训练代理人成功地做出艰难的决策,即使在不确定的世界中进行操作,”江博士解释说。

江博士发表了他的研究成果 与Emmanuel Ekwedike和Han Liu共同撰写的一篇论文,并于今年夏天在瑞典斯德哥尔摩举行的2018年机器学习国际会议上公布了结果。

在匹兹堡大学,他继续在博士学位的连续决策领域工作。学生Yijia Wang和Ibrahim El-Shar。该团队专注于与乘车共享,能源市场和公共健康相关的问题。随着行业准备让AI负责关键职责,蒋博士确保基础算法始终处于游戏的顶端。


免责声明:本文由用户上传,如有侵权请联系删除!

精彩推荐

图文推荐

点击排行

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082   备案号:闽ICP备19027007号-6

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。