本篇文章5423字,读完约14分钟

本文是首次在微信公共平台上发表:新智元。 文案是作者个人的观点,不代表网络的角度。 投资者据此,风险请自己承担。

【新智元领先】ai在人机德扑战争中没有分散压倒性胜利的影响。 前几天,card player网站采访了程序开发者、cmu博士noam brown,回顾比赛,评价了对战中的技术亮点。 brown指出,libratus获胜的理由是,人类没有可用的弱点,训练时libratus没有采用过人类的数据。 布朗还说,稍有增强的libratus有望在两年内赢得无限手德克萨斯扑克6人桌( six-max )比赛。
上月末,卡内基梅隆大学的ai项目在“一对一无限制注”的扑克比赛中,打败了世界顶级德州扑克职业选手。 大家意外的是,这个程序几乎压倒性地战胜了人类扑克手: 14bb/h。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

(注:在德州扑克中,在线下按bb/h,超过15bb/h,你可以完全控制这个级别的桌子,打5bb/h-10bb/h。 在网上按bb/100手,超过5bb/100是很厉害的。 )

比赛一共打了12万手,最后ai程序获得了170万筹码,也就是约1.7万大盲注,获得了近90个采购。 对职业扑克玩家来说,幸好这不是真正的钱,但他们不能在这场比赛中瓦解军队。 全队的人都被机器打败了。

这个ai程序被称为libratus,开发者之一cmu博士noam brown称之为“特朗普ai圣杯”。 libratus是noam brown和cmu教授tuomas sandholm共同开发的,只是cmu开发的一系列扑克ai程序中最新的。 迄今为止,没有机器能一对一地打败德克萨斯扑克游戏中的世界级人类玩家。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

card player网站对noam brown采访了这场历史性的比赛和今后的扑克ai研究。

libratus胜利原因及算法的重要性

brian pempus :你对比赛的结果感到吃惊吗?

noam brown :是的,其实我很惊讶这个ai这么厉害。 比赛之前,我们用它和以前的ai程序对战测试,然后我们预感它会赢。 libratus以10~12bb/h战胜了claudico,这比人类赢了很多(去年claudico输给了人类),但差距很大。 所以,在比赛前,我认为ai能赢一点人。 我们不知道会赢多少。 所以ai的表现这么好,给我们留下了很深的印象。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

brian pempus :当时不觉得ai能以14bb/h打败人类吗?

noam brown :是啊。 考虑到人类战胜了claudico,我不知道人类的潜力有多大。 人类选手发现了claudico的弱点,可以同时利用这些弱点。 例如,提高claudico的嵌入式( limp )是比较有效的,是他们获胜的关键。 libratus不利用对方。 事实上,libratus在不利用claudico弱点的情况下,以10~12bb/h战胜claudico,证明了如果libratus没有弱点,在一对一游戏中比人类强。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

libratus获胜的理由是人类没有可用的弱点。

brian pempus :当人类玩家把局面几乎平分时,你认为人类发现了ai的弱点吗? 还是你觉得你们还有自信?

noam brown :是的,第一周结束时比分几乎打成平局。 在比赛的第一周,我们推测了很多问题,比如人类选手如何调整libratus,libratus的优势所在。 他们都没告诉我,但据我所知,他们在寻找数据模式,ai的弱点和优势。 所以,经常我不担心。 他们认为ai有缺陷,其实没有。 例如,在一天的比赛中,他们的80%是3倍下注(3bet )。 根据数据,ai被认为对特定的3bet的玩法很弱。 但是,我认为这并不是真的弱,是因为数据有噪音。 因为至今为止玩过的卡片给他们带来了那样的想法。 但他们看到有点模式。 例如,他们观察到ai不对应特定的开幕式下注的大小。 这些弱点在比赛前我们不认为很重要,但事实表明这是相当大的漏洞。 幸运的是,ai为此做好了准备。 同时,在人们睡觉的时候,继续训练以弥补这些差距,防止成为长期的问题。 所以第二周形势变了。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

brian pempus次后进行微调对ai重要吗? 人类队之间讨论战术,这提高了比赛的难度吗?

noam brown :这里面有很多误解。 ai进行了微调并不意味着需要更频繁的4-bet。 人类每次翻牌都采用不同的下注尺寸。 我们有很多编程的投注尺寸,所以ai可以知道如何应对2倍、2.5倍、3倍的开局投注。 但是,如果人类开局是2.75倍,ai就会是3倍。 所以那个应对相当好。 从2.75倍持续到3倍并不合理,但只要不需要四舍五入到接近的大小即可。 于是一夜之间,可以训练如何对应2.75倍,同时训练的大小由算法决定。 所以,这是唯一的微调。 ai学习如何应对不同的翻转前和翻转时的投注大小。 这是算法的重要部分,不是像人类想象的那样利用人类的弱点,而是随着时间的推移使ai适应人类的扑克风格。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

brian pempus :那么,这是否说明ai在翻牌前和翻牌中是适应的,比翻牌时和翻河卡时更重要?

noam brown :关于转弯和河流转弯,你会发现遇到转弯时ai会花一点时间考虑。 事实上,考虑转动戒指和河流戒指后的动作需要一点时间。 这是因为实际时间非常短,实际上有些人没有观察到人类玩家每次转动奖牌都重新计算战略。 这是为了计算人类转动卡环和河流卡环时投注尺寸的最佳策略。 因此,这个问题需要预先计算一系列不同的投注尺寸,放入游戏树中,但预先计算的是无法对应令牌和河令牌。 因为那是实时计算的战略。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

brian pempus:libratus有claudico没有的能力吗? 还是不完美?

noam brown:claudico在河牌圈有实时解算器( solver ),但在以下方面更弱。 首先,我没有考虑阻塞卡( blockers )。 为了实现高速旋转,必须组合多手,然后区别对待。 所以,基于这个理由,你可能会认为手牌上有a和3张黑桃的卡和另一张手牌上有a和3张黑桃的卡是一样的。 即使应该区别对待这两张卡。 claudico的终局解算器计算大量的实时下注,但不会对每个人下注重新计算。 我认为这种人类每次下注的重新计算对我们的ai在这次比赛中取得胜利很重要。 同样,这次可以扩展这样的计算。 这个可以在转卡之前做。 这是因为现在需要解决大约50种不同的河卡,游戏结束前可能发生的行动数量也在指数级增长。 因此,在计算价格方面,为了更有效地扩展这个新算法,新程序的价格也是claudico的1000倍。
年1月底,卡内基梅隆大学的ai节目libratus在“一对一无限制注”的扑克比赛中与人类玩家对战现场。 最终libratus以绝对的特征战胜了四个人类玩家。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

libratus没有采用人类的数据,训练时没有与人类对战过

brian pempus:libratus离完整的gto (博弈论中的优化策略)有多远? 这样的机器,还有几个版本?

Noam brown :没有人正确知道Libra tus与博弈论中的优化战略相比有多大的差异。 我们知道如何计算这个数值,但这非常贵。 现在也没有实现。 这是我们接下来十多年想处理的问题。 如果需要推测正确的时间,我认为博弈论中的优化策略可以以15bb/h的特征战胜libratus。 这是我的概算,范围应该是5-50bb/h。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

brian pempus :那在这方面,ai还在大的提高空之间吗?

noam brown :不容易说。 过去的许多ai程序都有最重要的弱点。 the turn和the river没有考虑区块。 这在高级别比赛中非常重要。 libratus没有这个问题。 那是在令牌和河令牌中,对各个手进行独特的测量。 与迄今为止的许多ai程序相比,这是重要的进步,带来了表现上的巨大飞跃。 现在,在这个方向上有越来越多的升级空之间,也就是更好地区别拦截卡的方法。 但是,在如何选择下注这一点上,可能也有一点提高了空之间。 对我来说,很难推测具体会提高多少。 但是,大约15bb。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

BrianPemPus :据说Libra TUS对令牌和河令牌的巨大投注( over bet )非常具有侵略性。 在你看来,ai已经有可以说完美的能力了吗? 或者,在如何在现在的底牌范围( ranges )内取得平衡的方向上,ai还在改善空之间?

noam brown :比赛中,libratus在巨大投注上的表现真是让我们吃惊。 libratus没有使用人类数据训练,没有和人类扑克手说过话。 所以,在参加比赛时,它带来了独特的游戏战略,与人类认为的最佳做法大不相同。 超车是该战略的重要部分,另外还有donk bets (作为翻转前的追随者进入翻转后,在没有位置的情况下,对翻转前的公开撰稿人进行逆积极下注的游戏)战略。 对我来说,看到ai实现了至今为止人类也做不到的事情,这真是令人难忘,我很满意。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

我想claudico(cmu以前的德州扑克ai程序)看到了这种侵略性。 claudico有被嘲笑的古典行为:它总是在底层池塘还很小的时候开始all-in。 我认为caudico的这样的战略显然是错误的。 在这些大押注的背后隐藏着多个不平衡。 在libratus中,看到平衡的侵略性,我认为这也是赢得比赛的重要因素。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

brian pempus :许多人开始担心libratus的胜利对网上扑克未来的快速发展意味着什么。 你开发的ai程序怎么不破坏这些游戏的本质呢? 至少现在。

noam brown :至少我现在可以向人们保证不把libratus放在网上,也不做相关的计划。 但是,我们很明显,利用我们发表的技术,把它变成bot,一点也不阻止它上传到网上。 我不打算推测bot会对网上扑克有多大影响。 我对网上扑克不太了解。 但现在我知道bot有点被采用了,同时我知道多个扑克网站想抓住这些bot。 我不知道,最终谁会成为最大的受益者。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

libratus有望在两年内赢得无限手德相扑六人桌

brian pempus :如果比赛中的牌数减少或增加,对比赛结果有什么影响? 机器能应付500~1000手的盲注吗?

noam brown :我们选择200手的理由是我们在年度计算机扑克比赛中使用了这个法规。 每年,打牌的ai研究者都聚集在一起对战。 200手盲注对ai来说特别难。 因为卡越多,ai应该应对的选择就越多。 据我的理解,200手盲注的难度在人类能玩的上限。 我认为公平平等是必要的,但让ai玩应该也很难。 卡的数量少的话,比如100手,我想ai会有和现在一样的结果(如果不更好的话)。 卡的数量增加的话,比如500或1000……老实说,我觉得ai玩得和现在一样(如果不更好的话)。 这不是因为对ai来说情况变得简单了,而是因为卡数增加了,对人类来说变多了变得复杂了。 我不认为人类能盲注500手或1000手。 如果成为那个订单,就会强调libratus真正擅长的大兆贝克特( over-bets )的重要性。 我不认为人类是“超大型下注”,比libratus强。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

brian pempus :除了德克萨斯扑克的无限手之外,ai研究者还能让bot对战更多类型的玩家的扑克是什么?

我对noam brown人打牌有一点研究。 总之,libratus现在采用的技术对2个以上的玩家也是有效的。 问题不是技术,而是如何判断选手的表现。 因为如果你有两个以上的对手,你可以采用gto战略输钱。 其他选手在暗处和亮处贯穿。 因此,在1个ai对战5个个体类的情况下,确认ai是否比人类好是不容易的,几乎不可能进行这样的测量。 因此,电脑扑克比赛变成了用一个ai对战一个体类的形式,研究者关注ai和人类玩家打牌的结果。 我认为现在玩无限德州扑克的6个人的桌子( six-max )有点超出了libratus和其他ai程序类似的能力。 尽管如此,年度电脑扑克比赛现在计划增加6人桌的比赛,所以这方面的研究进展应该非常快。 我想现在的libratus如果进一步增强的话,两年内可以在6人无限手德克萨斯扑克的桌子上战胜人类。 玩6人桌时,与比gto弱的玩家相比,攻击策略可能更有效。 在ai扑克研究领域有这样的讨论,目前还没有答案。 人类在弱者同时攻击他们的弱点方面更有特点。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

编译源: card player/Poker-news/21333-Poker-bot-that-dominated-humans-in-heads-up-could-soon-win-at

开始创业大会

ai创业大会由新智元和10家主流ai创投机构:青驰创投、红杉资本中国基金、高晓智成人人工智能基金、青湖资本、青象资本、idg资本、高榕资本、中信建投证券、明势资本、松禾远景基金共同发起,由新智元主办,北京市中关村、。 的科技园区管理的新智元为充满野心的未来ai独角兽提供了强大的创投资源对接机会,顶级风投ts等你带来。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

form.mikecrm/gthejw

点击复印件下面,在线填写申请注册的申请表。 这份报纸为参加者选出必要的资料。

如果bp等介绍资料增加,可以发送到xzy100@aiera。 邮件标题请填写企业名称。 如果有咨询的话,也欢迎联系这个邮箱。

标题:“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

地址:http://www.china-huali.com/cjxw/46259.html