本篇文章3297字,读完约8分钟

原标题: deepmind ai在《星际争霸2》中虐待99.8%的人,顶级宗师段位源:腾讯情报

新智元报道

资料来源: pc gamers等

:啸林

在rts游戏中,电脑ai=人工智能障碍?

对很多游戏玩家来说,游戏中内置的计算机ai就像个笑话,应该被称为“人工智能障碍”。

与玩家匹敌的电脑ai往往被分配了超过玩家的资源。 例如,在“红警”中打10个冷酷的敌人,在“魔兽世界”中打疯狂的电脑。 计算机ai的特征来自远超玩家的资源和造兵速度,以及对ai停止战争等各种作弊。

这时,人类玩家常见的获胜方法要么在自己精心打磨的游戏水平上变硬,要么利用电脑夹克的缺陷“从后门”。 无论如何,这表明ai预编程的战略不能适应灵活狡猾的人类玩家。

比如这张图,电脑终于学会了藏匿基地这个人类的基本操作,玩家露出了喜悦的阿姨的笑声。

计算机ai战略的第一个问题是,如果不作弊(不免除战争雾),可以心理推测玩家的单位在哪里,玩家遵循什么样的趋势,比较能应对他们的第一次攻击。

无论是游戏ai的无脑缺陷,还是人类玩家窃笑,这在训练中引入深度学习( dl )时突然停止了。

为什么集中在星际旅行2上? 极多,杂乱,高度真实

星际争霸是暴雪制的经典实时战术( rts )游戏,以对战术思维的强烈考验、精妙的种族平衡和极强的玩耍性而闻名,玩家也需要在经济宏观管理和微观个人控制之间保持谨慎的平衡。

从星际旅行1到星际旅行2,这个rts神作被列为世界电子竞技的核心项目之一。

年暴雪狂欢节,人山人海的星际争霸2场比赛

ai中下棋、围棋、“危险边缘”(英语: jeopardy! 梅夫·格里芬1964年创立的美国电视猜谜节目)之后,大家都认识到《星际争霸2》是ai的下一个重大挑战。 ai巨头们纷纷搓手,试图跳到科普罗星区的虫海、坦克群和高级圣堂武士们。

他们之所以对星际旅行感兴趣,是因为它足够多,杂乱无章,可以模拟现实生活。

ai做星际旅行的风云人物、纽芬兰纪念大学的计算机科学教授david churchill说:“星际旅行太多太复杂了。 也可以适用于星际旅行的机器人,也可以应对现实生活中的其他问题。 ”。

星际旅行不存在最佳战略,ai需要不断探索、展开和更新自己的战术知识。

操作空之间巨大,需要操作数百个不同的单位,因此可能的组合空之间非常大。

游戏的过程很长,需要长时间的计划。 正如多个现实世界的问题一样,因果关系不是瞬间产生的。 游戏初期采取的行动可能长时间没有回报,所以要锻炼ai的长线思考能力。

“星际旅行对人类来说是最难的游戏。 就像下棋一样,我也踢足球。 你需要高度集中的观察力,超人般的手指和胳膊,以及超过普通人的战术头脑。 ”。

alphastar和人类玩家mana互相残杀

另外,与国际象棋游戏不同,在《星际争霸》中,大量的“棋子”对ai提出了巨大的挑战。

alphago下棋,可能的手一共是10的170次方,这个数字比整个宇宙原子数10的80次方多。 这对星际旅行来说是儿科。

星际旅行每一瞬间有10的26次方的可能操作。 我几乎无法计算。 尽管如此,ai被限制在以人类的速度操作,不得不通过制定战术而不是通过一系列超人类的无敌操作轰炸人类的对手。

alphastar的平均apm为277,玩家可以达到559。

根据deepmind团队在nature上发表的论文,星际旅行成为了人工智能研究的重要挑战。 这是因为“天生的多样性和多代理人的挑战,在最困难的专业电子竞赛中达到了持续的地位,同时与现实世界有着很强的关联性”。

为什么ai玩星际争霸2这么多复杂的游戏? 因为很多复杂的游戏是对现实的优秀模拟。

如果ai能像人一样在这么多复杂的环境中实时地感知、分解、理解、推理、决定、行动,ai就会发生变化,在很多复杂的实际环境中发挥更大的作用。

deepmind的alphastar用血虐待人类,占宗师的段位

来自谷歌的deepmind团队训练了最强的星际旅行ai alphastar,在星际旅行2的一系列扫盲游戏(也就是说,人类笨蛋们不知道和他们对战的是ai )中打败了弱者。

在排行榜上达到了宗师水平,在欧洲的服务器上表现出了99.8%以上的人。

看看deepmind团队是如何谈论新宗师alphastar的诞生的

为什么deepmind队选择了主攻电脑游戏? 这可能不令人吃惊。 因为首席执行官是demis hassabis。

谷歌首席执行官sundar Pichai

一个老玩家可能知道他做的游戏。 在为bullfrog的游戏syndicate(bullfrog1993年发售的即时战术游戏)提供了一点水平设计后,当时17岁的hassabis与1994年游戏《主题公园》的共同设计师成为了首席。 这个游戏卖了一百万部。

基于硬件: 10亿次浮点运算的液冷tpu

alphastar在google自己的张量解决单元( tpu )上运行,是为神经网络机器学习开发的asic。

这个芯片构成了多个服务的后端。 例如,一个芯片可以用google photos每天解决一亿张以上的照片,google street view不到五天就可以提取数据库中的所有副本。

说到“张量”,当然要与在nvidia的rtx gpu上启用dlss的张量核进行比较。 tpu比gpu精度低,缺乏用于纹理化和光栅化的硬件,但巨大的计算有惊人的速度。

谷歌在高达1024芯片的存储吉鲁上部署了第三代tpu。

谷歌母公司alphabet首席执行官sundar pichai在位于加利福尼亚山景城的企业年度i / o会议上说:“每个舱的运算速度现在超过了10亿次浮点运算。”

“这使我们可以开发更好、更大、更准确的ml模型来处理更大的问题。 这些芯片非常强大,必须在数据中部署第一个液体冷却中心。 ”。

44天相当于玩了200年,拓宽了新的玩法界限。

alphastar通过观看暴雪发表的匿名人类游戏开始训练。 开始模仿这些策略,很快就能在95%的比赛中打败游戏内置电脑的精英水平。

在游戏的三个种族中,alphastar喜欢神族protoss,但研究者最终认为虫族zerg和人族terran也是并列的。

然后采用“alpha league”循环比赛的做法,首先对从人类数据训练的神经网络,然后依次重复,不同的ai实例开始相互对战,使用成功实例的分支,新的PHA

最后选择alpha league中最难利用的代理,称为“the nash of league”挑战人类。

用血洗顶级职业选手

alphastar的训练只花了44天,deepmind估计相当于每个ai代理做了200年的星际旅行2。 然后打败了99.8%的人类。

年12月10日,alphastar以5:0的战绩击败team liquid职业星际2选手tlo,经过更多训练,于12月19日再次以5:0的完胜战绩血洗职业选手mana,但在下一场表现比赛中输给了mana。

alphastarvs mana,血液清洗

alphastarvs serral,当时星际争霸2是最强的“统治者”,这张盘输了,但后来以3:1打败了他

tlo在deepmind的博客中回顾说:“我很惊讶ai这么强。”

他还说:“ai也显示了我从来没有想过的战略。 这意味着我们可能还有没有充分探索的新玩法”。 和寻求孤独失败的围棋宗师alpha zero一样,对游戏的理解听起来超过了人类。

接下来拿到星际争霸2世界冠军奖杯的,可能真的不是人类玩家,而是alphastar。

参考链接:

ai研究者如何应对所有“星际争霸2”的初学者

pcgame r/how-a-team-of-ai-researchers-took-on-all-comers-at-starcraft-2 /

1:10! 《星际争霸2》沦陷的人类被ai用血清洗了

news.mydrivers/1/612/612721

全天候滚动播放最新的财经信息和视频,越来越多的粉丝福利扫描二维码备受关注( finance )。

标题:【热门】Deepmind AI在《星际争霸2》血虐99.8%人类,登顶宗师段位

地址:http://www.china-huali.com/gphq/2805.html