
阅读 0 讨论 0
从博弈论角度分析诈唬:特殊情况中的预期回报
德学院官方2020.05.06 发布
诈唬是扑克游戏中的重要组成部分,每一个优秀的玩家都应该牢记它。从不诈唬或者太频繁地诈唬,对一个扑克玩家来说都是巨大的错误。如何找到适当的平衡点?什么时候诈唬才是理想的选择?什么时候,以什么样的频率对某些玩家诈唬才能打出有收益的扑克呢? 这篇文章会涉及到诈唬的数学背景,并利用博弈论阐述一些可能的策略。 这篇文章的主要内容 • 数学背景 • 最佳策略 • 纳什均衡点 前面两点我们在前几天的文章中已经讨论过...今天,我们要说的是第三点: 一些特殊情况中的预期回报 下面是两张展示特殊情况中的预期回报的图表。第一张图表显示当你的听型牌失败时的预期回报,用给定的例子计算: 你的对手的预期回报是你的预期回报的负数,加上已经在底池中的$100。(他会得到你在下注轮的净损失,加上 现有的底池。当然如果你赢下底池的话,你的净损失是– $100,而他不会得到任何东西。来看看最简单的情况:当你的预期回报是0时,你的筹码量不会发生变化。因此你不会赢下底池,赢得底池的是你的对手。因为 我们已经玩到了河牌圈,所以这不是一个零和博弈。) 当你知道什么时候诈唬,什么时候价值下注,而对手却不知道时,对他来说(也可能对你),下面的这个图表 会更有用。这张表显示的是,综合你的获胜牌和失败牌之后的你的预期回报。在类似的情况中,你有20%的时候会领先,80%的时候会落后。因此你的平均预期 回报是 qEw + (1 – q)El. (这个结果的负值加上底池现有的$100是你的对手的预期回报Eop。) 结论 当你面对一个优秀的对手时,最好的选择就是利用纳什均衡点为你提供的策略:xopt。在这种情况你的对手会用 yopt的策略打牌。如果他没有,他就犯了错误(也说明他不是一个优秀的玩家),你可以利用他的错误找到最佳的打法。如果他经常跟注,就少诈唬他,如果他 很少跟注,就多诈唬他。如果你能猜测他的跟注频率,就可以根据预期回报最大化的原则,计算自己应该诈唬的频率。 附录 计算yopt的值 如果y = yopt,你的预期回报不会改变,无论x是多少。让我们先让x = 0,这时你什么牌也赢不了,公式是: El, x=0 = 0. 现在让x = 1. El的公式变为 El, x=1 = (1 – yopt)P – yoptB. 因为x=0和x=1时的预期回报是一样的,所以 (1 – yopt)P – yoptB = 0, 所以 (1 – yopt)P = yoptB, P – yoptP = yoptB, P = yopt(P + B), 最后 yopt = P/(P + B). 从对手的角度来看 现在让我们以对手的视角看看这个问题。首先我们要列出他的预期回报Eop。因为他不知道你是领先还是落后,所以他的预期回报还受q的影响,因此公式有一点复杂: Eop = – qyB + q(1 – y)0 + (1 – q)[xy(P + B) + x(1 – y)0 + (1 – x)P]. 第一项表示你有能取胜的牌,你下注,他跟注,并损失了这个跟注。第二项表示你持有能获胜的一手牌,但是他弃 牌,没有赢到或损失任何东西。剩下的部分表示他领先时的情况。方括号中的第一部分表示你诈唬,他跟注,他赢得底池和你的下注的情况。中间部分表示当你诈 唬,他弃牌时的情况,没有盈利和损失,最后一部分表示当你弃牌时,他赢得底池的情况(可能是他在你之后过牌,赢得摊牌,也可能是他下注,迫使你弃牌). 省略其中为0的部分,我们得到 Eop = (1 – q)[xy(P + B) + (1 – x)P] – qyB. 如果你的对手知道你从不诈唬(x = 0),那他的最佳打法是什么?他永远不会跟注,在上面的公式中如果用0代替x,我们得到 Eop x=0 = (1 – q)P– qyB. 为了使结果最大化,我们必须让y = 0 (永远不跟注)。 另一方面,如果你的对手知道你总是诈唬(x = 1),那他最好的回应就不那么明显了。如果x = 1,我们得到 Eop x=1 = (1 – q)y(P + B) – qyB = y[(1 – q)(P + B) – qB]. 如果 (1 – q)(P + B) – qB > 0, y = 1 (总是跟注)会最大化对手的预期回报。 如果 (1 – q)(P + B) – qB < 0, 他就应该使用 y = 0 (永远不跟注)的策略。 (1 – q)(P + B) – qB < 0 意味着 (1 – q)(P + B) < qB, P + B – qP – qB < qB, P + B < q(P + 2B), 最后 q > (P + B)/(P + 2B). 在我们的例子中,P = B = $100,如果q > 2/3,你的对手应该永不跟注(即使他知道你总是下注;因此在这种情况中你总是应该诈唬), 当q < 2/3时,他应该总是跟注(如果他知道你总是诈唬)。记住,这个q的值也仅取决于底池大小和下注大小。 计算xopt的值 如果x = xopt,你的对手的预期回报不会改变,无论y是多少。和之前一样,先让y = 0。Eop的公式为 Eop y=0 = (1 – q)(1 – xopt)P. 现在让y = 1。我们得到 Eop y=1 = (1 – q)[ xopt (P + B) + (1 – xopt)P] – qB. 因为y=0和y=1时的Eop是一样,我们得到 (1 – q)(1 – xopt)P = (1 – q)[ xopt (P + B) + (1 – xopt)P] – qB, 因此 qB = (1 – q) xopt (P + B) (两边都有(1 – q)(1 – xopt)P,因此可以消掉),所以最终我们得到 xopt = qB/[(1 – q)(P + B)]. 当我们讨论可能性时,我们通常用 0.2代替20%,用0.5代替50%等等。一件不可能的事件发生的可能性是0 (0%),一件确定的事发生的可能性是1 (100%)。剩下的其他事件发生的可能性在0和1之间。 - 0
- 0
- 0
- 0
从博弈论的角度分析诈唬(2):特殊情况中的期望回报
德学院官方2019.07.22 发布
今天,我们要说的是第三点: 一些特殊情况下的期望回报 下面两张表显示了特殊情况中的期望回报。 第一张图表示的是听牌失败时的期望回报,用上一篇文章的例子来计算: 对手的期望回报是你的期望回报的负数,再加上已经在底池中的$100。 他会得到你在下注轮的净损失+现有底池。当然如果你赢下底池的话,你的净损失是– $100,他没有回报。 来看看最简单的情况:当你的期望回报是0时,你的筹码量不会发生变化,因此你不会赢下底池,底池会被对手赢走。由于我们已经玩到河牌圈,所以这不是一个零和博弈。 如果你知道什么时候诈唬,什么时候价值下注,而对手却不知道,对他来说(也可能是对你),下面的这个图表会更有用。 这张表显示的是综合获胜和失败之后,你的期望回报。我们假设过,你有20%的时候领先,80%的时候落后,因此你的平均期望回报是 qEw + (1 – q)El。(这个结果的负值+底池现有的$100=对手的期望回报Eop。) 结论 当你面对优秀的对手时,最好的选择就是利用纳什均衡点为你提供的策略:xopt。在这种情况对手会用 yopt的策略打牌。如果他没有使用,他就在犯错(也说明他不是一个优秀的玩家),你就可以利用他的错误找到最佳的打法。 如果他经常跟注,你就少诈唬,如果他很少跟注,你就多诈唬。如果你能猜到他的跟注频率,就可以根据期望回报最大化的原则,计算自己应该诈唬的频率。 附录 ◆◆yopt是怎样计算的◆◆ 如果y = yopt,无论x是多少,你的期望回报都不会改变。让我们先假设x = 0,这时你什么牌也赢不了,公式是: El = 0 现在假设x = 1,El的公式变为 El = (1 – yopt)P – yoptB 因为x=0和x=1时的期望回报一样,所以 (1 – yopt)P – yoptB = 0, 所以 (1 – yopt)P = yoptB, P – yoptP = yoptB, P = yopt(P + B), 最后 yopt = P/(P + B) ◆◆从对手的角度来看◆◆ 现在我们从对手的视角看看这个问题。 首先我们要列出他的期望回报Eop。由于他不知道你的牌是领先还是落后,所以他的期望回报还会受到q的影响,所以这个公式会复杂一点: Eop = – qyB + q(1 – y)0 + (1 – q)[xy(P + B) + x(1 – y)0 + (1 – x)P] – qyB 表示你有优胜牌,你下注,他跟注,并且输了。 q(1 – y)0表示你有优胜牌,但是他弃牌,没有输赢。 (1 – q)[xy(P + B) + x(1 – y)0 + (1 – x)P]是他领先时的情况。 方括号中xy(P + B)表示你诈唬,他跟注,他赢得底池和你的下注。 x(1 – y)0 表示你诈唬,他弃牌,没有盈利和损失。 (1 – x)P表示你弃牌,他赢下底池的情况(包括他过牌赢下摊牌和他下注你弃牌两种情况) 省略其中为0的部分,我们得到 Eop = (1 – q)[xy(P + B) + (1 – x)P] – qyB 如果对手知道你从不诈唬(x = 0),那他的最佳打法是什么?他永远不会跟注,在上面的公式中如果用0代替x,我们得到 Eop x=0 = (1 – q)P– qyB 为了使结果最大化,我们必须让y = 0 (永远不跟注)。 反过来,如果对手知道你总是诈唬(x = 1),那他就很难找到最佳应对方式了。如果x = 1,我们得到 Eop x=1 = (1 – q)y(P + B) – qyB = y[(1 – q)(P + B) – qB] 如果 (1 – q)(P + B) – qB > 0, y = 1 (总是跟注)会让对手的期望回报最大化。 如果 (1 – q)(P + B) – qB < 0, 他就应该使用 y = 0 (永远不跟注)的策略。 (1 – q)(P + B) – qB < 0 意味着 (1 – q)(P + B) < qB, P + B – qP – qB < qB, P + B < q(P + 2B), 最后 q > (P + B)/(P + 2B) 在我们的例子中,P = B = $100,如果q > 2/3,对手应该永不跟注(即使他知道你总是下注;因此在这种情况中你总是应该诈唬), 当q < 2/3时,他应该总是跟注(如果他知道你总是诈唬)。记住,这个q的值也仅取决于底池大小和下注大小。 ◆◆xopt是怎么计算的?◆◆ 如果x = xopt,那么无论y是多少,对手的期望回报都不会改变。和之前一样,先假设y = 0。Eop的公式为 Eop = (1 – q)(1 – xopt)P 现在假设y = 1,我们得到 Eop = (1 – q)[ xopt (P + B) + (1 – xopt)P] – qB 因为y=0和y=1时的Eop一样,我们得到 (1 – q)(1 – xopt)P = (1 – q)[ xopt (P + B) + (1 – xopt)P] – qB, 因此 qB = (1 – q) xopt (P + B) (两边都有(1 – q)(1 – xopt)P,因此可以消掉),所以最终我们得到 xopt = qB/[(1 – q)(P + B)] 当我们讨论频率时,我们通常用 0.2代替20%,用0.5代替50%等等。一件不可能的事件发生的可能性是0 (0%),一件确定的事发生的可能性是1 (100%)。剩下的其他事件发生的可能性在0和1之间。 - 0
- 0
- 0
- 0
从博弈论的角度分析诈唬(1):什么情况下该诈唬
德学院官方2019.07.22 发布
这篇文章的主要内容有: • 数学背景 • 最佳策略 • 纳什均衡点 诈唬是扑克游戏的重要组成部分,每一个优秀的玩家都应该牢记。从不诈唬或太频繁诈唬,对一个扑克玩家来说都是巨大的错误。如何找到适当的平衡点?什么时候诈唬才是理想的选择?什么时候,以什么样的频率对某些玩家诈唬才能打出有收益的扑克呢? 这篇文章会涉及到诈唬的数学背景,并利用博弈论阐述一些策略。 我应该诈唬吗? 你正处在河牌圈,牌面是6♠9♥K♠A♦5♣。 你确定对手有一手成牌。从他的行动你认为他可能有AA,KK或AK。你的牌是J♠10♠。 你听牌失败。底池是$100,你和对手还各剩$100,你先行动。这时过牌你就输了。(如果对手也过牌,你会输掉摊牌;如果对手下注,你也没足够的钱去诈唬他。) 假设对手读出了你的牌,在河牌之前,他猜到你在听牌。为了简单起见,我们假设他有80%的概率认为你听同花或卡顺失败,另外20%的概率认为你有87,在河牌击中顺子。 如果你有87,击中顺子,你应该价值下注,可惜你没有。你有两个选择:过牌放弃,或是尝试诈唬拿下底池。假设你在诈唬时,会全下所有$100,也就是一个底池,你的诈唬频率应该是多少? 这个问题的答案是什么? 要回答这个问题,我们需要利用一些数学工具。别担心,不会太复杂,你只需一点代数知识和一些常识。差点忘了,还有博弈论,但是只会用到很常识的部分。 把问题转化为数学 我们会用到一些符号。P代表底池大小,B代表下注大小。q代表对手认为你会赢这手牌的概率。在我们的例子中,P=$100,B=$100,q=0.20.如果你对20%这个数字不满意,可以换掉,计算方法是一样的。同样,你也可以改变底池大小和下注大小。 我们需要用符号表示诈唬频率和对手的跟注频率。x代表诈唬赔率,y代表跟注赔率。如果我们有30%的概率诈唬(x = 0.3),从长期来看我们诈唬的频率就是30%。同样,y表示对手会跟注我们下注的频率。 所以我们初始的问题变成了求x的最佳值。 期望回报和纯策略 首先,追溯到最初始的问题。我们打扑克的目标是什么?赢钱。准确地说,是赢尽可能多的钱。在做决定的时候,我们要问问自己,哪个行动会有最大的期望回报? 在这个例子中,如果你有优胜牌,你会做价值下注。在你下注以后,对手可能跟注(y),也可能弃牌(1 – y)。 当他跟注时,你会赢下现有的底池,再加上对手跟注的钱,也就是P + B。当他弃牌时,你只会赢得现有的底池,也就是P。(现有底池通常指你下注之前的底池大小。) 因此,如果你有一手获胜牌,你的期望回报Ew (w代表获胜winning)会是 Ew = y(P + B) + (1 – y)P 如果你的牌会输(听牌失败),情况就会变得更复杂。你有可能诈唬(x),也可能过牌放弃(1 – x)。 当你选择诈唬时,对手还是有可能跟注(y),或弃牌(1 – y)。当他跟注时,你会损失这次下注,所以你的净回报是负的,也就是–B。 当他弃牌时,你会赢得现有底池,也就是P。所以当你诈唬时,你的期望回报会由这两部分组成: (1 – y)P – yB 如果你选择过牌(放弃这手牌),你赢不到一分钱,所以这种情况下你的期望回报是0。 综上所述,当你的牌会输时,你的预期回报 El (l代表失败losing)会是 El = (1 – x)0 + x[(1 – y)P – yB] 由于第一部分是0,我们可以直接忽略,公式变为: El = x[(1 – y)P – yB] 假设你知道对手从不跟注(y = 0),你的期望回报公式还可以简化为: El = xP 要最大化期望回报,你必须让x = 1,也就是说你应该每次都诈唬。 但是,如果对手总是跟注(y = 1),你的期望回报公式会变为: El= – xB 在这种情况下,为了最大化期望回报,你必须让x = 0,这代表你永远不要诈唬。(所以明白了吗?永远不要诈唬一个跟注站。) 以上计算是知道对手在两种特殊情况下会采取什么策略,然后得出的应对结果,但是这两种情况非常极端,所以这个策略被称为纯策略。在真实的扑克游戏中,对手们会更加飘忽不定,他会有一定的频率跟注你的下注(y不会是0也不会是1)。他采取的会是混合策略。 最佳策略 对手可以选择一个跟注频率y,让你无论使用什么策略(也就是无论x是多少),期望回报都不会改变。我们用yopt表示这个跟注频率(在某种程度来看,yopt就是y的最佳值。) yopt很容易计算,下一篇文章会讲。 yopt = P/(P + B) 在我们的例子中,P = B = $100,所以yopt = 1/2。如果对手刚好有一半的机会跟注,你是打不过他的。如果对手根据y = yopt的策略打牌,你的期望回报将会是 El= x[PB/(P + B) – PB/(P + B)] = 0 (就是把yopt带入求El的公式) 这时,无论你选择什么策略(无论x是多少),你的期望回报都不会升高或降低。 有趣的是yopt只取决于底池和下注的大小,不受q(q代表对手认为你会赢这手牌的概率)的影响。这表明yopt并不总是y的最佳值。例如当 q=1时,也就是你的对手确定你有优胜牌,这时他不会有一半的跟注频率,因为他根本不会跟注。他会使用y=0的策略。 后面我们还会说,yopt在什么情况下才是最佳值。 同样,你也可以选择一个x,让对手无论选择什么样的策略(无论y是多少),他的期望回报都一样。我们用xopt表示这个特殊的x。但是,求xopt的值会更复杂一些,它的公式是 xopt = qB/[(1 – q)(P + B)] 如果你经常用会输的牌诈唬,对手的期望回报为 Eop = (1 – q)P – qPB/(P + B) 这个公式里没有y,所以对手的期望回报不会改变。 在我们的例子中P = B = $100,q = 0.2,所以xopt = 1/8。如果你有1/8的概率诈唬,对手就赢不了你,就算他非常善于观察,了解你的策略(知道x = xopt)。如果你的诈唬频率高于或低于1/8,善于观察的对手就会剥削你策略上的漏洞。所以当你面对非常优秀的对手时,xopt可以确保 你的策略是最佳的。 优秀的对手用什么频率跟注你的下注?yopt就是答案。如果你根据x = xopt的策略打牌,他选择任何打法都不能提高或降低期望回报。如果对手不使用y = yopt的策略打牌,你可以观察他的漏洞,利用他的错误,选择最佳的回应剥削。 只有当他的y = yopt时,你是无法剥削他的,这时无论使用怎样的打法,你的期望回报都不会改变。 记住,如果你不使用xopt的策略,对手也会调整打法来剥削你的漏洞。 现在你知道xopt和yopt在什么时候情况下才是最佳值了吧:当对手无法剥削你时。在博弈论中, 这两个策略(xopt, yopt )被称为纳什均衡点。这在博弈论和经济学中都是非常重要的概念。(没错,就是电影 《美丽心灵》中的纳什,1994年诺贝尔经济学奖的获得者)。现在你知道它在扑克中也扮演着重要的角色了吧。 未完待续... - 0
- 0
- 0
- 0

加载中...