2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)
在棋盘游戏中击败人类在AI世界中是过时的。现在,顶尖的学者和科技公司希望在视频游戏中挑战我们。今天,由Elon Musk和Sam Altman创立的研究实验室OpenAI宣布了其最新的里程碑:一个AI代理团队,可以在流行的战斗竞技场游戏Dota 2中击败业余爱好者的前1%。
你可能还记得OpenAI 去年8月首次进入Dota 2 的世界,推出了一个可以在1v1比赛中击败顶级球员的系统。然而,这种游戏类型大大减少了Dota 2的挑战.OpenAI现在已经升级其机器人在5v5对战中扮演人类,这需要更多的协调和长期规划。虽然OpenAI尚未挑战该游戏最优秀的玩家,但它将在今年晚些时候在The International举行,这是Dota 2锦标赛,这是电子竞技日历上最大的年度赛事。
像这样的研究动机很简单:如果我们能够教授人工智能系统玩视频游戏所需的技能,我们可以用它们来解决复杂的现实挑战,这些挑战在某些方面类似于视频游戏 - 例如,管理城市的交通基础设施。
“这是一个令人兴奋的里程碑,它真的是因为它是关于过渡到真实应用程序,”OpenAI的联合创始人兼首席技术官Greg Brockman告诉The Verge。“如果你有一个问题的模拟,并且你可以运行它足够大的规模,那么你可以用它做什么就没有障碍。”
从根本上说,视频游戏提供了像国际象棋或Go这样的棋盘游戏所面临的挑战。他们隐藏了玩家的信息,这意味着AI无法感知整个比赛场地并计算出最佳的下一步动作。还有更多要处理的信息和大量可能的动作。OpenAI表示,在任何时候,它的Dota 2机器人必须在1,000个不同的动作之间进行选择,同时处理代表游戏中发生的事件的20,000个数据点。
为了创建他们的机器人,实验室转向了一种称为强化学习的机器学习方法。这是一种看似简单的技术,可以产生复杂的行为。AI代理人被投入到虚拟环境中,在那里他们自学如何通过反复试验来实现目标。程序员设置所谓的奖励功能(为诸如杀死敌人之类的东西授予机器人点数),然后他们让AI代理人一遍又一遍地玩。
对于这批新的Dota机器人来说,自我玩耍的数量是惊人的。每天,机器人以加速的速度玩了180 年的游戏时间。他们在几个月的时间里以这种速度接受训练。“它开始时是完全随机的,在地图上游荡。然后,经过几个小时,它开始学习基本技能,“布罗克曼说。他说,如果需要12,000到20,000小时的人力来学习成为一名专业人士,那就意味着OpenAI的代理人“每天都会玩100次人类生活。”
一方面,这证明了当代机器学习方法和处理大量数据的最新计算机芯片的强大功能。另一方面,它提醒人们如何从根本上愚蠢的AI代理人。如果人类花费数千年的时间来学习如何玩单个视频游戏,那么我们就不会是一个物种。
OpenAI的机器人仍然受到限制。例如,他们只玩了115个英雄中的5个,包括Necrophos(如图)。 图片:阀门
虽然OpenAI的机器人现在正在玩5v5比赛,但他们仍然没有接触到Dota 2的全部复杂性。存在许多限制。他们只使用了115位英雄中的5位,每位都有自己的打法。(他们的选择:Necrophos,Sniper,Viper,Crystal Maiden和Lich。)他们的决策过程中的某些元素是硬编码的,比如他们从供应商处购买的物品以及他们使用游戏中体验点升级的技能。游戏的其他棘手部分已被完全禁用,包括隐身,召唤和病房的放置,这些物品充当远程摄像机,在高级游戏中至关重要。(正如一位游戏指南警告的那样,“如果有任何话题让新人感到困惑,那就太过分了。”)
OpenAI的代理商还拥有您对计算机的所有优势。他们的反应时间比人类快,他们不会错过点击,他们可以即时,准确地访问数据,如项目库存,英雄的健康状况,以及地图上物体之间的距离,这对正确使用某些物品至关重要。法术。这是人类玩家必须手动检查或本能判断的所有信息。
所有这些似乎都是对机器人能力的起诉,但布罗克曼认为这是一种分心。他表示,在Dota 2中玩平均持续45分钟的整个游戏的能力确实使OpenAI的代理商与众不同。这种长期规划被认为很难甚至不可能通过强化学习来教授,但OpenAI的工作表明不然。布罗克曼说,他们成功的主要原因只是他们带来了更多的计算机能力来解决这个问题。“这真的与规模有关,”他说。
巴斯大学人工智能研究员安德烈亚斯·西奥多罗(Andreas Theodorou)表示,对5v5游戏的最新研究向前迈出了一大步,尽管他指出,最重要的成就可能是OpenAI使用可视化来调试他们的经纪人 (这些交互式可视化可以在这里看到。)“这些技术显示,一般来说,强化学习和机器学习系统一般都是透明的,”Theodorou告诉The Verge。这些附加组件“增加了系统的价值”,他说,特别是出于教育目的。
Theodorou说,研究人员使用单独的奖励功能来鼓励机器人一起工作也是值得注意的。这个奖励功能被标记为“团队精神”,并且在每场比赛的过程中都有所增加。机器人开始每个游戏追求个人目标,比如摧毁杀戮,但随着时间的推移,他们更多地关注共同的目标。
布罗克曼说,与人类玩家不同,这意味着绝对“没有自我”。他告诉The Verge,“机器人完全愿意为了更大的利益而牺牲一条车道或放弃英雄。” “为了好玩,我们有一个人来帮助更换其中一个机器人。我们没有训练他们做任何特别的事,但他说他感觉得到了如此好的支持。他想要的任何东西,机器人都得到了他。“
OpenAI的机器人团队目前已经与业余和半游戏团队进行了五场多场比赛,赢得了四场比赛并赢得了一场比赛。但是他们最大的挑战将在今年晚些时候在国际上展出。具有完美时间和没有自我的机器能否与人类专业人士的流畅和直观的游戏相匹配?在这一点上,这是任何人的游戏。
2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)