本篇文章9343字,读完约23分钟

新智元原创

资料来源: reddit

:鹏飞

【新智元领先】德扑被认为是比其他游戏难度大得多的人工智能挑战项目。 但是cmu和facebook共同制作的ai赌神pluribus,训练价格为150美元,用8天的训练时间吊打职业选手,每小时赢1000美元! 这么强的ai是怎么炼成的? 研究那个算法应该怎么做? 请幕后的研究者解答。

“1小时赢1000美元的AI赌神是怎样炼成的?幕后团队在线答疑”

规则确定的游戏即使是像星际一样战局变化的实时战术游戏,人类也无法战胜具有碾压性计算力特征的计算机。 因此也有人对幸运的、需要大量心理战的德克萨斯扑克寄予希望。

德克萨斯扑克( texas hold'em,有时简称hold'em或holdem )是世界上最受欢迎的公牌扑克衍生游戏,也是国际扑克比赛的正式竞赛项目之一。 德州扑克是受位置顺序影响最大的扑克派生游戏之一,所有回合数的下注顺序不变。 也是美国很多赌场最受欢迎的扑克游戏,在美国以外的地区也很流行,理论上一台最多可以容纳22人(不卖卡的话是23人)的纸牌手,通常是20到10人的桌子。 zh .维基百科/维基百科/维基百科/ % E5 % BE7 % B5 % B7 % E6 % 92 % B2 % E5 % 85 % 8b 。

“1小时赢1000美元的AI赌神是怎样炼成的?幕后团队在线答疑”

赌神下凡:一小时赢7000元,一周成为百万富翁

扑克是典型的不完全的新闻游戏。 在德州扑克中,玩家无法知道发生了什么,一对一的无限注中包含了10^160的决定点( decision points )。

各点根据出牌方的理解,有必要制作不同的路径。 这种新闻的特质不完全,德州扑克成了比其他游戏难得多的人工智能挑战项目。

但其实结局早就注定了暗中。 四十年来,科学家从未停止过德克萨斯的研究。

10年前,电脑是第一款有限的德克萨斯扑克游戏,在战胜人类顶尖选手的4年前,加拿大艾伯塔大学的研究小组开发了被称为人类赢不了的扑克机器人。 两年前,也就是年,加拿大和捷克科学家在arxiv发表论文,提出了一种叫deepstack的算法,说人工智能在比赛中可以有“直觉”。

“1小时赢1000美元的AI赌神是怎样炼成的?幕后团队在线答疑”

前几天,在cmu科学家的努力下,人工智能已经在六个无限注德扑克比赛中击败了所有人类的顶级玩家。 只存在于电影电视剧中的赌神,现在真实存在于现实世界中!

nature/articles/d 41586-019-02156-9 。

science.science mag/content/early/2019/07/10/science.aay 2400

技术/ 。

这个赌神pluribus的“炼成”类似于寒门儿童黑马袭击的故事:训练pluribus的电脑不到1000元,用两个cpu运行。

上图显示了pluribus在64核心cpu培训期间路线图战略的改进过程。 性能是根据训练的最终快照来测量的。。

这样简陋的装备,pluribus一小时内赢了人类大约7000人民币。 以这样的速度,ai通过德克萨斯成为亿万富翁,不到一周就可以了。

上面的视频展示了pluribus对一些职业玩家使用的牌局策略。 (牌面是公开的)

赌博之神是怎么炼成的? 幕后科学家在线问答

很明显,赌博ai爆发了大众的感情。 技术人员最关心的不仅是它能获胜,恐怕也是它背后的机制。

最近,这个“ai赌神”pluribus的幕后推手是facebook ai research研究科学家、cmu计算机科学博士读noam brown和cmu教授tuomas sandholm,共同在reddit上发声, 大家都很兴奋,贡献了130多篇投稿。

会影响扑克网站吗?

是世界上最受欢迎的扑克游戏之一,德克萨斯扑克在美国和世界上有很多玩家。 在ai赌博后,我很关心是否会在短期内影响德克萨斯的扑克(言外之意:有一千人用人工智能冒充真正的顾客吗? reddit客户dlc3r还问了另一个重要的问题:算法之间的游戏什么时候开始。

“1小时赢1000美元的AI赌神是怎样炼成的?幕后团队在线答疑”

noam认为,现在主流的扑克网站在有先进的机器人检测技术的同时,也非常成熟,用机器人出千人的风险太大,没有几个价值。 但是,肯定会影响专业扑克(例如选手、领域、俱乐部等),至少俱乐部可以使用人工智能训练专业扑克选手。

“1小时赢1000美元的AI赌神是怎样炼成的?幕后团队在线答疑”

但是,noam还关注人工智能而不是特朗普(也就是说,我们只是热衷于技术研究的人,除此之外,真的没有时间和精力)。

下面介绍如何使用aivat减少分散因子

noam估计他们的机器人胜率是5bb/100。 也就是说,在50美元/100美元的盲注和10000美元的小费下,每个小费1美元,pluribus平均拿到5美元的奖金,每小时可以赚1000美元(约7000人民币)。

德克萨斯特朗普的利润计算单位是“每百局的利润是盲的,bb/100(p值为0.021 )”。 优秀的职业选手能达到3-7bb/100手,显然ai的这个胜率非常高!

如果方差不减少,专家可能需要连续四个月每周打5天牌,每天打8小时牌,得到有价值的样品量。

感谢艾伯塔大学和布拉格查尔斯大学的研究者开发了名为aivat的扑克分散减少算法,最终减少了约12.5倍的手续费。

aivat可以比较有效地减少运气成分。 例如,如果机械手非常强,aivat将从奖金中减去基线值以抵消运气成分。

上面的视频展示了蒙特卡洛cfr算法通过判断实际和假定行动值来更新扫描者战略的过程。 在pluribus中,为了最优化,该扫描实际上是以深度优先的方法进行的。

研究pluribus算法应该从哪里开始?

名为smoke_carrot的人显然是个喜欢学习的人。 他试图认真研究pluribus背后的算法,但发现pluribus采取了与平时接触的方法不同的方法。 比如,你希望研究者给你一些建议,比如应该从哪里开始? 我应该读哪方面的书?

tuomas教授肯定了这个smoke_carrot的论断,但确实pluribus的算法与强化学习、mcts完全不同。 而且,现在在处理不完全的新闻游戏方面,没有好的教材。 除此之外,这个行业发展得太快,从年到年的论文都过时了。

他建议有想做有趣研究的同学,应该阅览这次研究的相关论文。 现在发表的论文可以免费得到,这需要认真学习!

之后,tuomas教授仔细选择相关论文和报告,方便大家进行学习研究:

keynote ' newresultsforsolvingimperfect-information games ' attheassociationfortheadvancementofartificialintelligenceanualcol,22

keynote“super-humanaiforstrategicreasoning:beatingtopprosinheads-upno-limit Texas hold’em”attheinternationaljontcont al intent v=xrwulry_t1o )

solving imperfect-information games.( CS.CMU.EDU/~ Sandho LM/solving % 20 GAMES.Science-. PDF

abstractionforsolvinglargeincomplete-information games.( CS.CMU.EDU

thestateofsolvinglargeincomplete-information games,Andapplicationtopoker.( CS.CMU.EDU/~ Sandho LM/solving

brown,n. and sandholm,t.2019.superhumanaiformultiplayerpoker.( science.science mag/content/early/2019/07 )

farina,g .,kroer,c .,and sandholm,t.2019.regret circuits:composabilityofregretminimizers.inproceeedingsoftheinternationalce

farina,g .,kroer,c .,brown,n .,and sandholm,t.2019.stable-predictiveoptimisticcounterfactualregretminization

brown,n,lerer,a ...,gross,s .,and sandholm,t.2019.deepcounterfactualregretminimizationicml.early version ( AN )

brown,n. and sandholm,t.2019.solving imperfect-informationgamesviadiscountedregretminimization ( Arxiv/PDF/1809.04040.PDF . inproceedingsoftheaaiconferenceonartificialintelligence ( AAI ).outstandingpaperhonorablemention,oneoffourpapersreceivingspece

farina,g .,kroer,c .,and sandholm,t . inproceedingsoftheaaaiconferenceonartificialintelligence ( AAAI ).

marchesi,a ...,farina,g .,kroer,c .,gatti,n .,and sandholm,t.2019.Quasi-Perfectstackelbergequilibrium

farina,g .,kroer,c .,brown,n .,and sandholm,t.2019.stable-predictiveoptimisticcounterfactualregretminization

brown,n. and sandholm,t.superhumanaiforheads-upno-limit poker:libratusbeatstopprofessionals.( science.science mag/content

brown,n..lerer,a ..,gross,s .,and sandholm,t .. deepcounterfactualregretminimization ( Arxiv/PDF/1810164 )

kroer,c ..,waugh,k ..,kilinc-karzan,f ..,and sandholm,t.fasteralgorithmsforextensive-formgamesolvingviaimprovedsmoothinge

brown,n ..,sandholm,t ..,and amos

kroer,c. and sandholm,t.aunifiedframeworkforextensive-formgameabstractionwithbounds.in NIPS.Early version ( CS.CMU.EDU

farina,g ..,gatti,n ..,and sandholm,t .. Practicalexactalgorithmfortrembling-Handequilibriumrefinementsingames.( CC )。

kroer,c ..,farina,g ..,and sandholm,t .. solvinglargesequentialgameswitheexcesivegaptechnique.( Arxiv/ABS/181 )

farina,g .,celli,a .,gatti,n .,and sandholm,t.exantecoordinationand collusioninzero-sum multi-player extensive-form games .。

farina,g .,marchesi,a .,kroer,c .,gatti,n .,and sandholm

kroer,c .,farina,g .,and sandholm,t *.* robuststackelbergequilibriainextensive-formgamesandextensiontolimitedlookahead.( CS )

brown,n ..,and sandholm,t .. safeandnestedsubgamesolvingforimperfect-information Games.( CS.CMU.EDU/~ NAMB

farina,g .,kroer,c .,sandholm,t .. regretminimizationinbehavioraly-constrained Zero-SUM GAMU/~ Sandho LM/Beho

brown,n. and sandholm,t.reducedspaceandfasterconvergenceinimperfect-informationgamesviapruning.( CS.CMU.EDU/)

kroer,c .,farina,g .,sandholm

brown,n ..,kroer,c ..,and sandholm,t .. dynamicthresholdingandpruningforregretminimization.( CS.CMU.EDU/~ Sandan

kroer,c. and sandholm,t .. imperfect-recallabstractionswithboundsingames.( CS.CMU.EDU

noambrownandtuomassandholm.strategy-basedwarmstartingforregretminimizationingames.in AAI.extendedversionwithapendix~sandho

noambrownandtuomassandholm .. regret-basedpruninginextensive-form games.( CS.CMU.edu/~ Sandho LM/CS15-892 F15 )。 INI PS.extended Version.( CS.CMU.EDU/~ Sandho LM/regret-Based Pruning.NIPS 15.with APPENIX

brown,n. and sandholm,t.simultaneousabstractionandequilibriumfindingingames.( CS.CMU.EDU/~ sandho LM/simulant )。

选择kroer,c. & sandholm,t.limitedlookaheadinimperfect-information Games.( CS.CMU.EDU/~ Sandho LM/Limited -32

kroer,c .,waugh,k .,kilinc-karzan,f .,and sandholm,t.faster first-ordermethodsforextensive-formgamesolvive

brown,n ..,ganzfried,s ..,and sandholm,t. . hierarchical abstraction,distributedequilibrium computation, and post-Prost withapplicationtoachampionno-limit Texas hold’em agent.( CS.CMU

kroer,c. and sandholm,t.discretizationofcontinuousactionspacesinextensive-form games.( cs.CMU.edu/~ sandho lm )

选择ganzfried,s. and sandholm,t.endgamesolvinginlargeimperfect-information Games.( CS.CMU.EDU/~ Sandho LM

kroer,c. and sandholm,t.extensive-formgameabstractionwithbounds.( CS.CMU.EDU/~ sandho LM/extensivegamebastration

brown,n. and sandholm,t.regrettransferandparameteroptimization

ganzfried,s. and sandholm,t .. potential-aware imperfect-recallabstractionwithearthmover’sdistanceinimperfect-information ga

ganzfried,s. and sandholm,t.actiontranslationinextensive-formgameswithlargeactionspaces:axioms,paradoxes,and the Pseudo-he

选择sandholm,t. and singh,s.lossystochasticgameabstractionwithbounds.( CS.CU.EDU/~ sandho LM/Losystochasticament )。

gilpin,a ...,pe? a,j ..,and sandholm,t.first-orderalgorithmwitho ( LN (1/ EPSIlon ) ) convergenceforepsilon-equilibriumintwo-Person zero-SU mathematicalprogramming133(1-2),279-298.subsumesouraai-08 Paper. 。

ganzfried,s ..,sandholm,t ..,and waugh,k .. strategypurificationandthresholding:effective non-equilibriumapproachesforplaying

ganzfried,s. and sandholm,t

hoda,s .,gilpin,a .,pe? a,j ..,and sandholm,t .. smoothingtechniquesforcomputingnashequilibriaofsequentialgames.( CS.CMU.edu/~ Sandho LM/ProxtrePlex

ganzfried,s. and sandholm,t.computingequilibriabyincorporatingqualitativemodels ( CS.CMU.EDU qualitative.tr10.pdf ):cmutechnicalreportCMU-CS-10-105. 。

gilpin,a. and sandholm,t.Speedingupgradient-BasedalgorithMSForsequential Games ( CS.CMU.Du )

ganzfried,s. and sandholm,t.2009.computingequilibriainmultiplayerstochasticgamesofimperfectinformation ( CS.CMU.Deden tion )

他在2008年和之前关于不完全新闻游戏计算处理的精选论文:

gilpin,a. and sandholm,t.2008.expectation-basedversuspotential-awareautomatedabstractionimperfectinformationgames:anexx ~ sandho LM/expectation-basedvspotential-aware.AAI 08.PDF ) in aaai. 。

ganzfried,s. and sandholm,t.2008.computinganapproximatejam/foldequilibriumfor3- agent no-limit Texas hold ' em tournaments.( com

gilpin,a ..,sandholm,t ..,and s? 伦森,t.2008.aheads-upno-limit Texas hold ' empokerplayer:discretizedbettingmodelsandautomaticalygeneratedequilibrium-fing u

选择gilpin、a. and sandholm、t.2007.LosslessabstractionofimPerfectinformationgames ( CS.CMU.EDU/~ Sandho LM/E

gilpin,a ..,sandholm,t ..,and s? rensen,t.2007.potential-awareautomatedabstractionofsequentialgames,andholisticequilibriumanalysisoftexashold ' epom

gilpin,a. and sandholm,t.2007.Betterautomatedabstractiontechniquesforimperfectinformationgames,withaPPLicationtotexashold,

gilpin,a. and sandholm,t.2006.AcomPetitivetexashold ' empokerplayerviaautomatedabstractionandreal-timeequilibrucomm

如果你感兴趣,想看越来越多的讨论,请转到reddit:

Reddit/r/machine learning/comments/ceec E3/ama _ we _ are _ Noam _ brown _ and _ tuomas _ sandho LM

本文是首次在微信公共平台上发表:新智元。 文案是作者个人的观点,不代表网络的角度。 投资者据此,风险请自己承担。

标题:“1小时赢1000美元的AI赌神是怎样炼成的?幕后团队在线答疑”

地址:http://www.china-huali.com/cjxw/41791.html