2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)
制扑克,骗子的骰子和转弯残局德州扑克游戏的基准测试,这是无限制德州扑克的一种变体,双方玩家都可以检查或跟注在四个下注回合中的前两个。该团队最多使用128台PC,每个PC带有8个图形卡来生成模拟游戏数据,并且他们在训练过程中随机选择了下注和筹码大小(从5,000到25,000筹码)。ReBeL接受了整场比赛的训练,并在残局德州扑克中有20,000美元下注其对手。
研究人员报告说,与被评为世界上最佳单挑扑克玩家之一的Dong Kim相比,ReBeL在7,500手牌中每手牌的下注速度快于两秒,而决策所需的时间从不超过五秒。他们说,与Facebook以前的扑克游戏系统Libratus的最高得分为147千分之多相比,他们平均每场对人类的游戏盲注(强迫下注)得分为165(千分之一)(千分之十六)。
由于担心启用作弊,Facebook团队决定不发布用于扑克的ReBeL代码库。相反,他们开放了Liar's Dice的实现源代码,他们说这也更易于理解和调整。他们在预印本中写道:“我们相信它使游戏更适合作为研究领域。”“虽然已经存在可以在扑克中实现超人性能的AI算法,但这些算法通常假定参与者拥有一定数量的筹码或使用一定的下注大小。重新训练算法以解决任意筹码量或意外的下注大小需要比实时可行更多的计算。但是,ReBeL可以在几秒钟内为任意筹码量和任意下注量计算策略。”
2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)