AI向扑克世界冠军发起挑战 这一次它领先了

智东西(公众号:zhidxcom)
编 | 海中天

导语:在匹兹堡赌场,AI正在与扑克世界冠军对决,整个比赛时长20天,月底将会出结果,如无意外,AI将会获胜,这是AI技术的另一个突破。

从周五晚上一直到周六上午,时间不断流逝,金东(Dong Kim)听起来似乎被打垮了。

金东是一位扑克高手,尤其擅长无限下注德州扑克。他现年28岁,是韩裔美国人,一般来说金东只与顶尖高手在高赌注网站及大型拉斯维加斯赌场比赛。

金东是谁?

本月,金东来到了匹兹堡(Pittsburgh),他要与AI机器对决,这台机器是卡耐基梅隆大学的两位计算机科学家开发的。在无限下注德州扑克比赛中,还没有计算机打败过人类顶尖选手,无限下注德州扑克是一种相当复杂的卡牌游戏,它是“世界扑克大赛”的主要比赛项目。

大约2年前,金东在同一个赌场打败了AI,这次情况不同了。周五下半夜,时长20天的比赛刚刚进入第10天,金东在接受采访时表示,他与同行根本没有机会赢下比赛。

当时金东正准备返回酒店,为次日的比赛做准备。金东告诉记者:“在今天之前,我根本不知道AI已经变得这么厉害。对决的时候我觉得自己在与某人对决,这个人作了弊,似乎他能看见我的牌。我不是说AI在作弊,只是它打得太好了。”

这台机器名叫Libratus,在拉丁语中,Libratus的意思是“平衡”,金东说这个名称与机器的表现很相符。金东还说:“它似乎什么都懂一点。”AI不会用同一种方式打牌,它还会用坏牌或者好牌虚张声势,如果手上的牌很好,或者很坏,它会下很高的赌注。换言之,比赛时金东很难找到漏洞。如果他真的找到漏洞,也是次日的事了。

AI向扑克世界冠军发起挑战 这一次它领先了

杰森·莱斯(Jason Les)和丹尼尔·麦考利(Daniel McAulay)也是顶尖扑克选手,他们也参加了挑战,二人的描述与金东很相似。当比赛进行到第10天,三名选手都说他们也许可以打一盘平局,但是一场也赢不了。莱斯称:“很明显,就目前来看,人类完全取胜不太可能。我们深深陷入了绝境。”自此之后,他们的形势更加恶化。到了周一晚上,虽然当天的比赛人类赢了,但是机器赢得的赌注比最接近的竞争对手多了701242美元。

AI再一次取得重大突破。在西洋棋、国际象棋、Jeopardy!和围棋比赛中,AI机器已经越超了人类,但是无限下注德州扑克相当困难。为什么?因为它是一种“信息不完整”的游戏。牌是隐藏的,在任何时候玩家只能看到游戏的一部分。要想取胜,他们必须依赖直觉:猜测对手会打什么牌。在无限下注德州扑克中,这点尤其重要,赌博的过程涉及复杂的下注策略。

AI正在崛起,人类在扑克游戏中扮演什么角色?这是本次比赛的重点。每一天,机器玩扑克的方式都不同,差异还很大,它在游戏中修补漏洞,人类对手相信,比赛进行时卡耐基梅隆大学的研究人员一直在改进系统。

到底有没有修改?卡耐基梅隆大学教授桑德霍尔姆(Tuomas Sandholm)拒绝透露。不论怎样,桑德霍尔姆和他的合作伙伴卡耐基梅隆大学博士生诺姆·布朗(Noam Brown)肯定参与了游戏,而且还很积极。他们极可能修改了机器,每天都在修改。即使没有修改,他们也在遮掩,试图让金东及其它人类选手猜疑,这样做也可以改变比赛的轨迹。

看起来似乎不公平,但是AI就是这样运行的。人类一直在改变AI,因为人类正在朝着更佳的可能性前进,许多时候,人类与AI并肩前进,因为要让可能变成现实用这种方法最好。

竞争共享

正如金东指出的,桑德霍尔姆的确想赢。金东称:“他是一个非常复杂的人,我不认为他可以轻松接受失败。”在AI世界,许多专家将游戏作为跳板,走向下一站。

没错,广泛的协作是现代AI的一个特点。许多研究人员都是学术专家,或者来自学术界,他们想用某种方式分享研究成果,这种意愿改变了许多企业的文化。

与此同时,研究人员也想打败同行,实现新的突破。事实上,就在桑德霍尔姆与布朗推出Libratus之前,阿尔伯塔大学的研究人员也发布了报告,报告中谈到了一个系统,该系统击败了许多人类扑克选手。只是这些选手的等级没有金东高。

一面是学术性质的竞争分享,一面是大量的企业资金,二者结合,刺激AI迅速发展。有了谷歌资金的支持,研究人员开发AI打败了围棋职业高手。

AI是如何工作的?

从匹兹堡的扑克比赛中我们可以看到AI与人类的距离正在缩小。人类与AI竞争,同时也协作,竞合往往能带来最好的结果。

在匹兹堡比赛中,金东感到很沮丧,似乎有一种挫败感。Libratus是如何工作的,机器有没有持续修改,桑德霍尔姆并没有透露,这样做似乎并不公平。不过这种事情我们早就看到过:计算机与人类协作,一起打造面向明天的无敌系统。游戏规则正是这样的。

就在匹兹堡对决即将展开之时,桑德霍尔姆接受了《华盛顿邮报》的采访,他说:“我很兴奋。”桑德霍尔姆被机器打败了,不过他的牌技并不高明,机器打败他并不是什么了不起的成就。

在过去13天里,Libratus在匹兹堡赌场与4位世界扑克冠军对峙。如果AI可以击败对手,无疑又是一个巨大的突破。到目前为止,比赛已经打了67000手牌,Libratus赢了701242美元的筹码,最开始时是0。换言之,世界冠军们输了701242美元。他们玩的不是真钱游戏,而是争夺20万美元的总资金,最后这笔奖金会由大家分享。

还有53000手牌需要打,如果形势没有逆转,最终AI将会在扑克上战胜人类,这还是第一次。

AI向扑克世界冠军发起挑战 这一次它领先了

桑德霍尔姆说:“从一开始Libratus就处在领先位置。”他是一位计算机科学家,简历就有126页,Libratus是桑德霍尔姆12年的研究成果。研究于2004年从卡耐基梅隆大学开始,当时桑德霍尔姆开始研究面向连续信息不完整游戏的抽象算法。

国际象棋属于信息“完整”的游戏,因为对决的双方可以看到棋盘,可以预测对手的下一步。“不完整游戏”不同,双方无法知道游戏的全部信息,比如对方的牌是什么。

桑德霍尔姆认为,无限下注德州扑克模型可以用来推测真实的“不完整”情况,比如网络、军事策略。他想开发一套通用算法,该算法可以进行战略推理。

从Claudico到Libratus

在研究过程中,算法一次又一次输给人类。2015年5月,桑德霍姆在Rivers赌场组织了一次扑克比赛,当时他让AI程序“Claudico”与4名扑克冠军选手对决,Claudico输了732713美元的筹码。

卡耐基梅隆大学在2015年的新闻稿中解释说:“人类在下注时金额一般相当于彩池(所有玩家于该局已下注筹码的总和)的一半或者三分之二,Claudico有时下的注很少,只有10%,有时很多,达到10倍。”参加比赛的人类高手道格•波尔克(Doug Polk)当时向卡耐基梅隆大学解释称:“下注19000美元,只为赢取700美元,人类不会这样干。”

参加“年度计算机扑克竞赛”时,桑德霍尔姆的团队连续2年输给了其它AI团队。桑德霍尔姆解释说:“不同的研究方法带来不同的结果。”但是至今为止没有AI系统打败人类扑克高手,直到Libratus出现。

现在AI又与世界冠军在匹兹堡比赛。桑德霍尔姆称:“AI打牌的方法可能是人类从未使用过的。AI打扑克如同火星人打扑克。”Libratus对无限下注德州扑克的规则有着深刻的理解,它还知道对手可能采取的行动,然后制定策略,被AI打败的冠军选手有2位之前与Clautico对决过。

比赛进程如下:打了27000手牌,Libratus领先50513美元;打了67000手牌,Libratus让金额翻了14倍,增至701242美元。

Libratus面临一个挑战,AI程序是恒定不变的,而人类选手可以不断研究、不断学习、不断提高。人类选手还有获胜的欲望,他们想赢下奖金,还要面临社会的压力。比赛进行到第9天,一位男子对莱斯说:“嗨,你让我们失望。”

现在AI已经成为第一名。桑德霍尔姆已经开始接受结果,他告诉记者,其它AI研究人员发来许多邮件,庆祝Libratus的成功。与此同时,人类玩家用Twitch直播比赛,还用Twitter直播结果。1月23日,莱斯在Twitter发消息称:“人类最终赢了9.3万美元。”现在还不是桑德霍尔姆庆贺的时候,结果月底才会正式出炉。

Libratus曾经与好几名职业扑克高手对决,有单挑,有时会有2名玩家参与,它打了几千场扑克。本次比赛为期20天,刚刚完成一半,Libratus的筹码已经比人类对手多了将近80万美元。虽然并不确定,但是AI获胜的机率很大。

寻找最佳策略

百度首席科学家吴恩达(Andrew Ng)认为:“对于AI来说,扑克是最难攻克的游戏之一。没有什么单一的最佳策略可以选择,AI必须让行动随机化,让对手不确定,从而达到欺骗的目的。”

桑德霍尔姆称,长久以来人类一直凌驾于计算机之上,他对此感到惊讶。桑德霍姆说:“这些顶尖职业选手很棒,完全超出我的意料。在AI处理过的所有游戏中,只有在扑克游戏中AI无法拥有超越人类的表现。”

AI专家用游戏理论——或者说是战略决策数学——寻找最佳策略应对各种不同的情况,因为可能性很多,所以涉及到“逼近”问题。杜克大学AI、游戏理论教授文森特·康尼泽(Vincent Conitzer)认为:“每一个行为的好与坏都取决于你观察不到的东西,因此系统要具备‘不可预知’的特点。如果你从不吓唬愚弄,你就不是出色的玩家。游戏理论可以告诉我们如何用最优方法让游戏变得随机化。”

与之前的Claudico相比,Libratus使用了一些新技术,桑德霍尔姆介绍说,它使用了新的平衡态近似法(equilibrium approximation) 技术,当游戏进入后期,一些牌会显露出来,系统用新方法分析可能的结果。对游戏结局进行分析相当耗费计算力,每一次比赛,系统都需要得到匹兹堡超级计算中心的支持,超级计算中心由卡耐基梅隆大学和匹兹堡大学联合运营。

即使Libratus真的胜利了,也并不意味着从此人类在牌桌上再无立足之地。Libratus所使用的技术无法应付多玩家无限下注德州扑克。

AI向扑克世界冠军发起挑战 这一次它领先了