Bryan Pellegrino谈论他的人工智能研究以及如何帮助Polk制定策略
发布时间:2021-03-27 22:31:42

这篇采访刊登在最新一期的《Card Player》杂志上,现在可以免费在线阅读。

在整个扑克热潮的早期,Bryan Pellegrino可以说是这个星球上最好的单挑玩家之一,'PrimordialAA'这个昵称令人闻风丧胆。像他那一代的许多其他扑克职业玩家一样,他从大学辍学,全职追求扑克,并在网上击败一些最高的级别的游戏,赚取了相当不错的生活。


 Bryan Pellegrino谈论他的人工智能研究以及如何帮助Polk制定策略(图1)

他也在现场比赛界小有成就,在世界扑克系列赛10000美元无上限扑克主赛中三次打入后期,在2012年WSOP1500美元限注扑克赛事中获得亚军,在WSOP10000美元无限注单挑赛事中又两次达到最后阶段。

然而在2015年左右,Pellegrino决定将重心从扑克中转移。在与妻子和儿子进行了为期一年的假期环游世界后,Pellegrino投身于计算机世界。他创建了一个专注于投球排序的机器学习模型,并将其卖给了美国职业棒球大联盟的特许经营权,然后在硅谷创办了一家加密货币企业。

然而,在2020年,计算机世界让他重新回到了扑克牌上。去年7月,这位新罕布什尔州人与Facebook人工智能研究部门的Noam Brown一起帮助发表了一篇研究论文。这篇论文是关于人工智能如何利用博弈论来完善扑克策略,并利用这些同样的概念来解决现实世界中的问题。

当Negreanu接受挑战后,Polk立即开始组建一个团队来完善他的整体对战。他聘请了几位对战教练来帮助他以最好的方式实施策略,还聘请了一群人记录手牌,以建立一个关于Negreanu倾向性的信息数据库,另一个团队则帮助巩固Polk所谓的 "翻牌前策略"。

Pellegrino被请来帮助进行翻牌前的工作。

最近在Card Player的采访中,讨论了他和Polk在幕后所做的工作,他的人工智能是如何比其他可供公众使用的解牌器有所改进,以及这项技术如何解决现实世界的问题。

Doug最近找到了你 让你成为他团队的一员 你们在打职业比赛的时候有关系吗?他是怎么找到你的?

Bryan Pellegrino: 虽然形式不同,但我们都玩单挑游戏。最后我得到了[Daniel Cates]的指导,开始研究常规桌,但我从来没有真正深入到那个场景中。但我们最终做了研究,通过Facebook人工智能研究,我们发表了一篇学术论文。围绕反事实后悔最小化所做的工作,特别是在扑克之外可以使用的领域,是我们发现有趣的领域之一。但为了某种程度上证明它,我们很早就想要学术基准。

Doug 主动联系我,问我是否还活跃在游戏和社区中。我想他是想了解一下最好的学习资源和准备比赛的最佳方式的不同意见。他无比的勤奋,比我认识的任何人都要勤奋。我打了15年的扑克,我不认为我见过有人像Doug一样投入工作,在学习、重复和把所有正确的材料放在一起。

而且Doug和Noam Brown非常熟悉,他是论文的作者之一。Doug和他的团队是与Claudico和Libratus(高级人工智能扑克机器人)对抗的人,所以他知道Noam和他的工作。我告诉他,我刚刚和Noam一起发表了这篇论文,结果相当惊人。他对我们如何将研究利用成学习材料很感兴趣。

到底什么是反事实遗憾最小化?它和扑克有什么关系?

非常简单的解释就是,在过去,很多人会通过最大化你的回报来模拟决策。你想尝试赢取最大的利益,对吧?但人们发现,其实你想尝试做的是把你的后悔降到最低。

这将会使你达到纳什均衡。这将导致你的GTO[博弈论最优]策略。比方说,我们在玩剪刀石头布,我使用的是反事实后悔最小化。如果我扔了一块石头,你扔了一把剪刀,我的遗憾是-1,也就是说我不会有任何遗憾。我会觉得很爽。如果你扔了一块石头,我就会保持中立。如果你扔了一张纸,我就会有1,我会有遗憾。

所以我要做的就是利用这三种结果的遗憾来改变我的策略。所以现在我不再100%地扔石头,而是根据我的总体遗憾,减少扔石头的次数。如果你这样做了几万亿次,你就会得到一个GTO石头,纸,剪刀的策略。

同样的事情也适用于扑克。只不过不是简单的三个选项,而是你有一棵巨大的树,上面有人们可以使用的每一个买入大小和他们可以采取的每一个行动。而我们的目标是拿着这棵树,尽量减少遗憾。如果你做到了这一点,你就会想出GTO策略。一个永远不会后悔的策略。你的对手没有任何可以利用你的地方,是不会让你后悔太重的。

你能用通俗的语言分析一下研究报告的内容吗?

我们发表了一篇论文,叫做《释放深度反事实价值网络的潜力》。阿尔伯塔大学、卡内基梅隆大学都做过这方面的研究,本质上是扑克人工智能。他们在使用这些技术,基本上我们提出了一堆这些技术的变体。我们创造了一个新颖的DCFR+变体,比之前的顶级代理,比如DeepStack,整体速度性能提高了5000倍,我们和上一届ACPC[年度计算机扑克大赛]的冠军打了一场比赛,那就是Slumbot。


所有的学者聚在一起,他们举办了一场挑战赛。他们有他们最新的扑克研究,他们都会和他们对战。所以,我们拿了其中的赢家和它玩。我们以每100手20个大盲注的成绩打败了它. 我们完全打败了它。

我是个大学辍学生,所以我和Facebook人工智能研究团队一起发表学术论文,意味着我们在这里做了一些令人印象深刻的事情。学术界的人都很厉害,我想是真的对我们的论文成果印象深刻。而我们的论文刚刚发表的时候,正好是Doug在思考他和丹牛的挑战的时候。

他对你说了什么,让你想成为他团队的一员?

我不想对学术界太挑剔,但要与其他著名的AI进行对标真的很难。我们联系了其他所有主要的人工智能,但他们都没有兴趣与我们进行对标,尤其是其中一些代理每天的运行成本高达数百万美元。Slumbot正好是公开的,而且非常受人尊敬。

但在我们公布之后,我们就没有别的事情可做了。我们不打算继续沿着这条研究之路走下去,于是我们又涉足了很多其他领域......算是技术的应用。但是,当Doug达到了, 它是这个有趣的机会 那种看到有人如何研究 与此做出来的野生。这是一个机会,有这个集成到一个高调的挑战。我们过去曾联系过[Phil] Galfond,看他是否有兴趣,但最终这只是帮助Doug的一种方式,并有可能为研究本身带来一些关注。

你提到这种工作可以用在扑克之外的其他领域。你能详细说明在哪里以及如何使用吗?

这个挑战非常棒,和Facebook AI研究的Noam Brown一起发表文章是一个巨大的荣誉。我们探索的一些东西是自动驾驶汽车。我们正在研究自动驾驶汽车内的路由问题,我们还研究了温室中的机器人技术。有一些温室技术可以帮助创造价值数百亿美元的农产品,以及人工智能技术如何影响这一点,并有所作为。我们现在正在探索药物发现。我们被这个过程所吸引,并对那里可以做什么感到兴奋。

反事实遗憾最小化如何适用于自动驾驶汽车这样的东西?

如果你试图在这个巨大的网络中进行路由,并且有交通和所有这些其他的事情,你基本上可以建立这个问题的模型,如何以最少的遗憾到达目的地。比方说,时间是遗憾,你要尽量减少到达目的地的时间。但它不一定是时间。它可以是时间,可以是路况,也可以是收费。你可以找到这些厉害的实际应用。 

Doug说你是其中一个帮他构建翻牌前范围的人。你是怎么做到的?

这篇论文本质上是一个求解器。我们创建了一个解算器,恰好是非常好的和快速的。大多数这些求解器的现代工作方式是,当他们做翻牌前范围时,他们必须大量地抽象他们正在做的事情。

所以,你可以建立一个规模不大的翻牌前树。没有那么多的选项,也没有那么大或那么复杂的树,但这样你就会有大量的翻牌和大量的转牌。所以这些树会变得非常大... 几百兆字节大。比你在任何电脑上都要大。所以,他们所做的就是将它们抽象化。他们只看10次或56次,不管那部分是什么。这有它自己的一套准确性。你必须选择那些你希望能代表一切并能给你一个好印象的失败之处。

在我们这里,我们根本不做这些事情。我们是用神经网来查询这些东西。所以我们可以建立一个尽可能大和尽可能复杂的树,这是人类可能的。那些需要500TB的现代计算机无法解决的事情,我们可以在30秒内完成。这可以让Doug说:"嘿,我们想弄清楚每个下注的最佳尺寸是什么。所以,让我们运行一个2x,一个2.1x,2.2x,2.3x "等等,他可以在每一个尺寸大小上做到这一点。它可以变得非常细化。

在哪里实现改变你的大小是实际的?如果丹牛... 你要记住,这是在他们最初玩任何手牌之前。如果丹牛开到这个大小呢?如果他Limp了呢?他要3-Bet到这个大小吗?我们的最佳3-Bet大小是多少?这只是一个巨大的运行数量。


Doug会把这些产出汇总起来,然后和他的教练一起研究。这是在现实世界中实施的实际情况之间的平衡,因为你不可能有57种不同的大小,并且能够记住所有的大小。所以,你可以选择一两个规模,然后根据EV(预期值)来判断你想要实施的策略有多复杂,是否值得。

早期,这是一个很大的问题。只是大量的运行,试图找出什么是最佳尺寸,如何玩弄事物,找出“DNegs”可能会做什么。但是如果你谈论的是市场上的其他求解器之一,它需要一周的时间来完成每一次运行并得到这些结果,这只是一小部分失败。

我们可以在一夜之间运行150个,早上就能给他一个巨大的报告。这真的是他所做的。他回来与另一个迭代 并说:“嘿,这是有趣的,让我们探索更多。”

时间安排是怎样的?他是不是每次比赛后都会带着问题来找你,中间休息日也会和你见面?

那更多的是他的教练。我想他正在研究战略 以及他和那些教练一起实施这些战略的情况。而对我们来说,这就像 "嘿,我们想探索这个。" 我们会问他想让我们跑什么样的树,并弄清楚他想从这里得到什么。然后,我们会回去 并运行所有这些东西,并只是给他一个巨大的报告,尝试并通过。

他并没有回来讨论他比赛中的具体实施细节。那主要是和他的教练团队一起讨论的。对我们来说,更多的是关于为什么会发生一些事情。有的时候,他构筑了一棵错误的树,或者他认为有些东西有点古怪。对我们来说,这其实是为了让他获得尽可能多的数据。

丹牛非常坦诚地随着比赛的进行对自己的比赛进行了改变。你是否需要运行专门针对这些变化的数据?从你的角度来看,看到丹牛的比赛演变是什么感觉?

我们绝对注意他的一些倾向。他做了一些你不应该做的事情. 比如说,他在不在位置的情况下打口袋K和口袋Q。这些战术甚至不能被认为是一种混合策略. 这些都是不应该做的事情.

我们必须弄清楚他的策略是从什么地方来的。他从哪里得到这些东西。我有点怀疑现实了。我知道这不应该是一件事,但这是一件事。有一些事情让我们产生了疑问,但我们只得回过头去看。

听你说的这些东西非常有趣,但是你觉得一般的扑克玩家在听到这些东西有多深入之后,会不会被吓得不敢玩单挑扑克?

从某种意义上说,这令人望而生畏,但没有人应该对成为世界上最好的选手所需要的东西感到失望。你看一个NBA球员,你可能想相信他们是如此的天赋异禀,他们所做的就是踏上球场,然后碾压,但实际上他们有庞大的帮助团队,比如营养师,还有自由投篮教练,他们所做的一切都有特定的教练。

每个在扑克这种竞争性的东西中成为精英的人都知道,它需要越来越多的努力。当我在2002年开始的时候,只是一些聪明的家伙在试图战胜对方。甚至连解谜者都没有 你只是在和你的朋友们讨论理论。我相信70年代的篮球运动就是这样的 但随着竞争的加剧,事情也在不断变化

最终,这就是成为世界上最好的球队之一所需要的。因为现在衡量世界最佳的标准比10年前好太多了。就像斯蒂芬-库里和勒布朗-詹姆斯比几代人之前的篮球都要好。

大多数人只是去看扑克,他们只是去看这些人的头脑工作,就像你在电视上看运动员一样。你看不到为了获得这些技能并能在这些水平上竞争所付出的疯狂努力。