本篇文章4070字,读完约10分钟

本文是首次在微信公共平台上发表:新智元。 文案是作者个人的观点,不代表网络的角度。 投资者据此,风险请自己承担。

新智元开始了新一轮的大招聘: coo、执行总编辑、主编、高级编译、主笔、运营总监、顾客管理者、咨询总监、行政助理等9个岗位全面开放。

简历投递: jobs@aiera

hr微信: 13552313024

新智元为coo和执行总编提供最高一百万以上的年薪激励。 为骨干员工提供最完善的培训体系,

工资和奖金高于行业平均水平。

加入新智元,与人工智能行业的领袖携手改变世界。

【新智元领先】年刚开始,人机战争激战加剧:从在围棋中输给孤独的大师到面部识别的小,海外科学家宣布,机器在一对一的无限注德州扑克中战胜了人类。 扑克是典型的不完全新闻游戏游戏,也是人工智能面临的长时间挑战。 一对一的无限注包含10的160次方( 1之后是160个0 )的决定点( decision points )。 各点根据出牌方的理解有不同的路径。 另外,作者在论文中介绍了一种允许系统在比赛中具有“直觉”的新算法deepstack。 【进入新智元公众号,在对话框中输入“0110”下载论文】
来自加拿大和捷克的数名计算机科学研究者最近向arxiv投稿论文,为不完全的新闻(特朗普等)更新 研究者在论文中说,在几十名参加者举行的44000人扑克比赛中,deepstack成为第一个以德州扑克一对一的无限注打败职业扑克玩家的电脑程序。

“AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有“直觉””

非完美的新闻游戏

游戏长期以来一直被视为衡量人工智能进步的标准。 在过去的20年里,我们目睹了多个游戏程序超越了西方双陆手、跳棋手、国际象棋、jeopardy、atari电子游戏、围棋等人类。 计算机程序在这些方面的成功对新闻的对称性也就是现在的游戏状态所有玩家都能得到的明确消息是一样的。 这个完美新闻的属性也是这些程序成功的算法的核心,包括在游戏中进行局部搜索。

“AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有“直觉””

现代博弈论的创始人,电脑的先驱von neumann,对不完美的新闻游戏中的推理行为进行了说明。 “现实世界与此不同,现实世界包括很多赌注和一点点的欺诈战略,别人可以考虑你会做什么”。 von neumann最着迷的游戏是扑克。 在这个游戏中,玩家在拿到自己的卡后,依次下注,让对方下注,和他们下注,扔掉卡。 扑克是不完美的新闻游戏,玩家只能根据自己手中的卡片提供的不对称消息来判断游戏的状态。

“AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有“直觉””

一对一对战(也就是只有两个玩家)有限的投注德州扑克,ai有点成功过。 但是,一对一有限的德克萨斯扑克,所有的决定点( decision points )都不到10的14次方。 与此相对,电脑在围棋中胜过了人类职业棋手,围棋是完美的新闻游戏,包括约10的170次方的决定点。

“AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有“直觉””

不完美的新闻游戏需要更多复杂的推理能力。 特定时刻的正确决定取决于对方明确的个人新闻的概率分布,这一般表现在他们的行动中。 但是对方的行为如何含蓄他的消息,相反取决于他对我们的私人消息了解多少,我们的行为已经透露了多少消息。 这个循环推论是为什么一个身体不太孤立很难推论游戏的状态,但在完美的新闻游戏中,这是局部搜索方法的核心。

“AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有“直觉””

在不完美的新闻游戏中,有竞争力的ai方法一般是推理整个游戏,得到完美的优先战略。 CFR ( counterfactualregretminimization )是其策略之一,用自己的游戏进行循环推理,即在多次成功的循环中,用自己的策略对抗自己。 如果游戏太大,难以直接处理,经常先处理更小的浓缩型游戏。 最后,要玩第一个大型游戏,必须移动在原始版本的游戏中设计的模拟和行为,使其成为更“浓缩”的游戏。

“AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有“直觉””

这种方法允许计算机在游戏(如hunl )中推理,但通过将hunl下面10个160次方的场景压缩为10个14次方的缩略图场景来实现。 这种做法很可能会失去消息,这样的程序都离专业的人类玩家水平还差。

年,电脑程序的claudico输给了专业扑克玩家队。 同时,是一场以巨大劣势输的比赛。 另外,最近在年度计算机扑克比赛中发现,基于“浓缩”的计算机程序有很多缺点。 在采用这种方法的四个计算机程序中,包括常年名列前茅的程序,被认为采用了局部最佳响应的妙招,一个战略能输多少的决定中,产生了更接近下限的答案。 这四个基于“浓缩”方法的程序都有可能输得很惨,用量化表示,是每个游戏弃牌的4倍。

“AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有“直觉””

deepstack使用了完全不同的方法。 继续采用cfr中的循环推理解决新闻不对称问题。 但是,因为并不是计算并记忆游戏的完美优先战略,所以也没有必要进行简单的凝固(浓缩)。 相反,在游戏中,每次出现特定场景都会考虑,但不是独立的。

“AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有“直觉””

通过采用高速近似估计代替某种深度的计算,可以避免推论游戏整体的剩馀部分。 这个估计可以认为是deepstack的直觉:在可能的扑克情况下,有可能的个人卡的卡面大小的直觉。

最终,在某种程度上与人类相似的deepstack的直觉需要被训练。 我们使用随机生成的扑克场景深度学习进行了训练。 最终,deepstack在理论上是可能的,可以产生比基于“浓缩”的方法更需要实质上更少的搜索的战略,而且是世界上第一个在hunl游戏中打败人类专家的计算机程序,平均胜率为450 mbb/g ( mbb/g,milli-big-blinds per game是测量扑克玩家表现的指数,50 mbb/g被认为是很大的特征,750mbb/g是对方每个游戏弃牌的胜率。 )

“AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有“直觉””

神经网络机器学习系统第一次战胜了人类职业玩家

和职业选手对抗得出结果

我们聘请了国际扑克联盟( international federation of poker )的扑克选手将deepstack与人类专家进行比较。 选手们在四周内完成了3000场比赛。 为了鼓励选手,以最高级别的aivat计算)分别给予5000元、2500元、1250元的奖励。 比赛在每年11月7日和12月12日之间在网上进行,扑克选手最多可以玩4次。 这在网上很常见。 总共有来自17个国家的33名选手与deepstack竞争。 deepstack和每个人比赛的表现如表1所示。

“AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有“直觉””

比赛的速度

分解计算和神经网络判定在一个gpu上实现。 这样可以一次快速批量调用反事实价值互联网上的多个子公共树。 这是加快deepstack的关键。 由torch7开发,在nvidia geforce gtx 1080显卡上运行。 以上的实现手段大多是为了迅速执行deepstack,理想上像人打牌一样快。 表3显示了deepstack和人前一步之后和提出下一步之前的平均间隔时间。 平均来说,deepstack比人类选手快得多。 但是,我们记住了人类选手,可以进行4场比赛(虽然没有多少人,可以进行2场以上),所以轮到人类选手比赛的时候,可能会在别的比赛。

“AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有“直觉””

表3 :人和deepstack的思考时间显示,deepstack在第一次呼叫( pre-flop )中平均时间非常快,第一次呼叫时的状态一般可以击中缓存。

deepstack是一种大类型排列不完全新闻游戏的通用算法。 对deepstack在hunl(heads-up no-limit )德州扑克中的作用进行说明。 扑克游戏的状态可以分为包括玩家的私人新闻,即两张卡朝下的手,和卡朝上的公共卡和玩家的投注顺序的公共状态。 游戏中公共状态的可能序列形成公共树,每个公共状态有关联的子公共树。 参照下图6 :

“AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有“直觉””

连续re-solving

own action :用为自己选择操作的处理策略计算的值替换对方的相反事实值。 使用计算策略和贝叶斯规则更新我们自己的工作范围。

chance action :用最后分解为此动作计算出的逆事实值替换对方的逆事实值。 通过清除新卡不可能的手牌范围来更新我们自己的范围。

opponent action :什么都不用做

limited lookahead和空间树

连续re-solving理论上是可能的,但实际上是不现实的。 除非游戏接近尾声,否则re-solving本身很麻烦。 例如,第一个动作的re-solving需要暂时计算整个游戏的近似处理方案。

deepcounterfactualvaluenetworks

深度神经网络( dnn )是图像和语音识别、音乐自动生成、游戏等任务的强大模型。 deepstack采用dnn和自定义体系结构作为depth-limited lookahead的价值函数。 如图8所示。 训练两个独立的互联网。 一个是在前三张卡解决后推定反事实值,另一个是在第四张卡( turn互联网)解决后推定反事实值。 发行任何公共卡之前加速上一个动作的辅助互联网的re-solving。

“AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有“直觉””

最近,新智元在报道中说,被称为“脑vs人工智能:跟不上”的比赛将于1月11日在匹兹堡的rivers赌场开幕。 比赛中,主播jason les、东KIM、daniel mcaulay、jimmy chou将在20天内与cmu计算机程序以120000手一对一的德州扑克。

cmu的人工智能系统被称为libratus,与去年失败的claudico相比,战略终于改变了。 libratus不像claudico那样依赖终局,而是使用bridges计算机实时计算新的终局处理方法和算法。

此外,claudico常用的策略是limping,这是特朗普的术语,意味着尝试与写入混合,而不是写入或放弃。 libratus有时会这样。

和前面提到的deepstack一样,他们想克服的也是一对一(两名选手)有限的德州扑克课题,这是非常多的复杂游戏,有10的160次方的新闻集。 每个集合根据出牌方的理解有不同的路径。 这本巨大的新闻集比整个宇宙的原子数还多。

综合两个机构的介绍,其采用方法也有相似性,采用实时计算。 cmu的比赛于11日举行,这边的论文刊登在arxiv上,cmu好像又被刮胡子了。

复制源:微信公共平台新智元

标题:“AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有“直觉””

地址:http://www.china-huali.com/cjxw/46287.html