2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082 备案号:闽ICP备19027007号-6
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
专注于推进人工智能研究的谷歌部门DeepMind今天发布了一个新版本的AlphaGo程序,它只通过玩自己来学习游戏。
该系统被称为AlphaGoZero,通过学习其自我游戏的结果,使用一种称为强化学习的机器学习技术来工作。 随着零的不断训练,该系统开始学习先进的概念,在游戏中,自己去挑选某些有利的位置和序列。
经过三天的训练,该系统能够击败AlphaGoLee,DeepMind的软件,去年击败了韩国顶级球员LeeSedol,100场比赛为零。 经过大约40天的训练-这意味着2900万场自我游戏-阿尔法戈零能够击败阿尔法戈大师(今年早些时候击败了世界冠军克杰)89场比赛到11场。
结果表明,当涉及到不同技术的有效性时,在人工智能领域还有很多需要学习的东西。 阿尔法围棋大师是使用许多类似的方法,阿尔法围棋零是,但它开始训练人类数据,首先开始自我游戏。
一个有趣的注意是,虽然AlphaGoZero在几周的训练中学习了几个关键概念,但该系统的学习方式不同于许多接近围棋游戏的人类玩家。 连续的“拉粉”石头,以一个楼梯一样的模式在棋盘上玩,是人类在练习游戏时学到的第一件事之一。 《自然》杂志发表的论文《深度心灵》(Deep Mind)指出,Zero在后来的训练中才理解这一概念。
此外,AlphaGoZero比它的许多前辈更有效率。 阿尔法·戈·李需要使用几台机器和48台谷歌的张量处理单元机器学习加速器芯片。 系统的早期版本AlphaGo Fan需要176个GPU。 阿尔法围棋零,连同阿尔法围棋大师,每个只需要一个单一的机器与四个TPU。
2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082 备案号:闽ICP备19027007号-6
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。