“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”-中华财会网

本篇文章5423字，读完约14分钟

本文是首次在微信公共平台上发表:新智元。文案是作者个人的观点，不代表网络的角度。投资者据此，风险请自己承担。

【新智元领先】ai在人机德扑战争中没有分散压倒性胜利的影响。前几天，card player网站采访了程序开发者、cmu博士noam brown，回顾比赛，评价了对战中的技术亮点。 brown指出，libratus获胜的理由是，人类没有可用的弱点，训练时libratus没有采用过人类的数据。布朗还说，稍有增强的libratus有望在两年内赢得无限手德克萨斯扑克6人桌( six-max )比赛。
上月末，卡内基梅隆大学的ai项目在“一对一无限制注”的扑克比赛中，打败了世界顶级德州扑克职业选手。大家意外的是，这个程序几乎压倒性地战胜了人类扑克手: 14bb/h。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

(注:在德州扑克中，在线下按bb/h，超过15bb/h，你可以完全控制这个级别的桌子，打5bb/h-10bb/h。在网上按bb/100手，超过5bb/100是很厉害的。）

比赛一共打了12万手，最后ai程序获得了170万筹码，也就是约1.7万大盲注，获得了近90个采购。对职业扑克玩家来说，幸好这不是真正的钱，但他们不能在这场比赛中瓦解军队。全队的人都被机器打败了。

这个ai程序被称为libratus，开发者之一cmu博士noam brown称之为“特朗普ai圣杯”。 libratus是noam brown和cmu教授tuomas sandholm共同开发的，只是cmu开发的一系列扑克ai程序中最新的。迄今为止，没有机器能一对一地打败德克萨斯扑克游戏中的世界级人类玩家。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

card player网站对noam brown采访了这场历史性的比赛和今后的扑克ai研究。

libratus胜利原因及算法的重要性

brian pempus :你对比赛的结果感到吃惊吗？

noam brown :是的，其实我很惊讶这个ai这么厉害。比赛之前，我们用它和以前的ai程序对战测试，然后我们预感它会赢。 libratus以10~12bb/h战胜了claudico，这比人类赢了很多(去年claudico输给了人类)，但差距很大。所以，在比赛前，我认为ai能赢一点人。我们不知道会赢多少。所以ai的表现这么好，给我们留下了很深的印象。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

brian pempus :当时不觉得ai能以14bb/h打败人类吗？

noam brown :是啊。考虑到人类战胜了claudico，我不知道人类的潜力有多大。人类选手发现了claudico的弱点，可以同时利用这些弱点。例如，提高claudico的嵌入式( limp )是比较有效的，是他们获胜的关键。 libratus不利用对方。事实上，libratus在不利用claudico弱点的情况下，以10~12bb/h战胜claudico，证明了如果libratus没有弱点，在一对一游戏中比人类强。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

libratus获胜的理由是人类没有可用的弱点。

brian pempus :当人类玩家把局面几乎平分时，你认为人类发现了ai的弱点吗？还是你觉得你们还有自信？

noam brown :是的，第一周结束时比分几乎打成平局。在比赛的第一周，我们推测了很多问题，比如人类选手如何调整libratus，libratus的优势所在。他们都没告诉我，但据我所知，他们在寻找数据模式，ai的弱点和优势。所以，经常我不担心。他们认为ai有缺陷，其实没有。例如，在一天的比赛中，他们的80%是3倍下注(3bet )。根据数据，ai被认为对特定的3bet的玩法很弱。但是，我认为这并不是真的弱，是因为数据有噪音。因为至今为止玩过的卡片给他们带来了那样的想法。但他们看到有点模式。例如，他们观察到ai不对应特定的开幕式下注的大小。这些弱点在比赛前我们不认为很重要，但事实表明这是相当大的漏洞。幸运的是，ai为此做好了准备。同时，在人们睡觉的时候，继续训练以弥补这些差距，防止成为长期的问题。所以第二周形势变了。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

brian pempus次后进行微调对ai重要吗？人类队之间讨论战术，这提高了比赛的难度吗？

noam brown :这里面有很多误解。 ai进行了微调并不意味着需要更频繁的4-bet。人类每次翻牌都采用不同的下注尺寸。我们有很多编程的投注尺寸，所以ai可以知道如何应对2倍、2.5倍、3倍的开局投注。但是，如果人类开局是2.75倍，ai就会是3倍。所以那个应对相当好。从2.75倍持续到3倍并不合理，但只要不需要四舍五入到接近的大小即可。于是一夜之间，可以训练如何对应2.75倍，同时训练的大小由算法决定。所以，这是唯一的微调。 ai学习如何应对不同的翻转前和翻转时的投注大小。这是算法的重要部分，不是像人类想象的那样利用人类的弱点，而是随着时间的推移使ai适应人类的扑克风格。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

brian pempus :那么，这是否说明ai在翻牌前和翻牌中是适应的，比翻牌时和翻河卡时更重要？

noam brown :关于转弯和河流转弯，你会发现遇到转弯时ai会花一点时间考虑。事实上，考虑转动戒指和河流戒指后的动作需要一点时间。这是因为实际时间非常短，实际上有些人没有观察到人类玩家每次转动奖牌都重新计算战略。这是为了计算人类转动卡环和河流卡环时投注尺寸的最佳策略。因此，这个问题需要预先计算一系列不同的投注尺寸，放入游戏树中，但预先计算的是无法对应令牌和河令牌。因为那是实时计算的战略。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

brian pempus:libratus有claudico没有的能力吗？还是不完美？

noam brown:claudico在河牌圈有实时解算器( solver )，但在以下方面更弱。首先，我没有考虑阻塞卡( blockers )。为了实现高速旋转，必须组合多手，然后区别对待。所以，基于这个理由，你可能会认为手牌上有a和3张黑桃的卡和另一张手牌上有a和3张黑桃的卡是一样的。即使应该区别对待这两张卡。 claudico的终局解算器计算大量的实时下注，但不会对每个人下注重新计算。我认为这种人类每次下注的重新计算对我们的ai在这次比赛中取得胜利很重要。同样，这次可以扩展这样的计算。这个可以在转卡之前做。这是因为现在需要解决大约50种不同的河卡，游戏结束前可能发生的行动数量也在指数级增长。因此，在计算价格方面，为了更有效地扩展这个新算法，新程序的价格也是claudico的1000倍。
年1月底，卡内基梅隆大学的ai节目libratus在“一对一无限制注”的扑克比赛中与人类玩家对战现场。最终libratus以绝对的特征战胜了四个人类玩家。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

libratus没有采用人类的数据，训练时没有与人类对战过

brian pempus:libratus离完整的gto (博弈论中的优化策略)有多远？这样的机器，还有几个版本？

Noam brown :没有人正确知道Libra tus与博弈论中的优化战略相比有多大的差异。我们知道如何计算这个数值，但这非常贵。现在也没有实现。这是我们接下来十多年想处理的问题。如果需要推测正确的时间，我认为博弈论中的优化策略可以以15bb/h的特征战胜libratus。这是我的概算，范围应该是5-50bb/h。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

brian pempus :那在这方面，ai还在大的提高空之间吗？

noam brown :不容易说。过去的许多ai程序都有最重要的弱点。 the turn和the river没有考虑区块。这在高级别比赛中非常重要。 libratus没有这个问题。那是在令牌和河令牌中，对各个手进行独特的测量。与迄今为止的许多ai程序相比，这是重要的进步，带来了表现上的巨大飞跃。现在，在这个方向上有越来越多的升级空之间，也就是更好地区别拦截卡的方法。但是，在如何选择下注这一点上，可能也有一点提高了空之间。对我来说，很难推测具体会提高多少。但是，大约15bb。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

BrianPemPus :据说Libra TUS对令牌和河令牌的巨大投注( over bet )非常具有侵略性。在你看来，ai已经有可以说完美的能力了吗？或者，在如何在现在的底牌范围( ranges )内取得平衡的方向上，ai还在改善空之间？

noam brown :比赛中，libratus在巨大投注上的表现真是让我们吃惊。 libratus没有使用人类数据训练，没有和人类扑克手说过话。所以，在参加比赛时，它带来了独特的游戏战略，与人类认为的最佳做法大不相同。超车是该战略的重要部分，另外还有donk bets (作为翻转前的追随者进入翻转后，在没有位置的情况下，对翻转前的公开撰稿人进行逆积极下注的游戏)战略。对我来说，看到ai实现了至今为止人类也做不到的事情，这真是令人难忘，我很满意。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

我想claudico(cmu以前的德州扑克ai程序)看到了这种侵略性。 claudico有被嘲笑的古典行为:它总是在底层池塘还很小的时候开始all-in。我认为caudico的这样的战略显然是错误的。在这些大押注的背后隐藏着多个不平衡。在libratus中，看到平衡的侵略性，我认为这也是赢得比赛的重要因素。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

brian pempus :许多人开始担心libratus的胜利对网上扑克未来的快速发展意味着什么。你开发的ai程序怎么不破坏这些游戏的本质呢？至少现在。

noam brown :至少我现在可以向人们保证不把libratus放在网上，也不做相关的计划。但是，我们很明显，利用我们发表的技术，把它变成bot，一点也不阻止它上传到网上。我不打算推测bot会对网上扑克有多大影响。我对网上扑克不太了解。但现在我知道bot有点被采用了，同时我知道多个扑克网站想抓住这些bot。我不知道，最终谁会成为最大的受益者。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

libratus有望在两年内赢得无限手德相扑六人桌

brian pempus :如果比赛中的牌数减少或增加，对比赛结果有什么影响？机器能应付500~1000手的盲注吗？

noam brown :我们选择200手的理由是我们在年度计算机扑克比赛中使用了这个法规。每年，打牌的ai研究者都聚集在一起对战。 200手盲注对ai来说特别难。因为卡越多，ai应该应对的选择就越多。据我的理解，200手盲注的难度在人类能玩的上限。我认为公平平等是必要的，但让ai玩应该也很难。卡的数量少的话，比如100手，我想ai会有和现在一样的结果(如果不更好的话)。卡的数量增加的话，比如500或1000……老实说，我觉得ai玩得和现在一样(如果不更好的话)。这不是因为对ai来说情况变得简单了，而是因为卡数增加了，对人类来说变多了变得复杂了。我不认为人类能盲注500手或1000手。如果成为那个订单，就会强调libratus真正擅长的大兆贝克特( over-bets )的重要性。我不认为人类是“超大型下注”，比libratus强。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

brian pempus :除了德克萨斯扑克的无限手之外，ai研究者还能让bot对战更多类型的玩家的扑克是什么？

我对noam brown人打牌有一点研究。总之，libratus现在采用的技术对2个以上的玩家也是有效的。问题不是技术，而是如何判断选手的表现。因为如果你有两个以上的对手，你可以采用gto战略输钱。其他选手在暗处和亮处贯穿。因此，在1个ai对战5个个体类的情况下，确认ai是否比人类好是不容易的，几乎不可能进行这样的测量。因此，电脑扑克比赛变成了用一个ai对战一个体类的形式，研究者关注ai和人类玩家打牌的结果。我认为现在玩无限德州扑克的6个人的桌子( six-max )有点超出了libratus和其他ai程序类似的能力。尽管如此，年度电脑扑克比赛现在计划增加6人桌的比赛，所以这方面的研究进展应该非常快。我想现在的libratus如果进一步增强的话，两年内可以在6人无限手德克萨斯扑克的桌子上战胜人类。玩6人桌时，与比gto弱的玩家相比，攻击策略可能更有效。在ai扑克研究领域有这样的讨论，目前还没有答案。人类在弱者同时攻击他们的弱点方面更有特点。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”

编译源: card player/Poker-news/21333-Poker-bot-that-dominated-humans-in-heads-up-could-soon-win-at

开始创业大会

ai创业大会由新智元和10家主流ai创投机构:青驰创投、红杉资本中国基金、高晓智成人人工智能基金、青湖资本、青象资本、idg资本、高榕资本、中信建投证券、明势资本、松禾远景基金共同发起，由新智元主办，北京市中关村、。的科技园区管理的新智元为充满野心的未来ai独角兽提供了强大的创投资源对接机会，顶级风投ts等你带来。

“CMU 德州扑克幕后英雄 AI 将在一对多比赛完胜人类”