繰り返し型最後通牒ゲーム(Repeated Ultimatum Game)を数理的に徹底分析する一例を示す。まず、一回限りの場合の均衡(subgame perfect equilibrium, SPE)を整理し、その後に有限回・無限回の繰り返しゲームとしての分析および補助的な進化ゲーム理論的考察を行う。
最後通牒ゲームは、以下のような二人ゲームとして定式化される。プレイヤーは提案者(プレイヤーA)と応答者(プレイヤーB)の二名である。資源の総額を1(または1000円など)とする。提案者は、自己の取り分 x(0 ≦ x ≦ 1)と応答者の取り分 1 - x を提示する。応答者は、この提案を受け入れるか拒否するかを選び、受け入れればそれぞれ提示額が得られ、拒否すれば双方が0の利得となる。
このゲームを「繰り返し型」とする場合、ゲームが複数回(有限または無限に)同じ形で行われ、参加者は各回の結果に応じた戦略(または将来の罰則を考慮した戦略)を採ると仮定する。
純粋戦略に基づく分析では、応答者が提案された 1 - x を受け入れるかどうかを考える。利得が正ならば受容すべきであり、これを前提とすると、提案者は自分の取り分を最大化するため、限りなく x = 1 に近い値を設定し、応答者には最小の正の額 ε を渡すことになる。したがって、部分ゲーム完全均衡(SPE)は「提案者が最小限の額を応答者に提案し、応答者はそれを受け入れる」形となる。すなわち、理論上は提案者がほぼ全額を得る均衡となる。
しかし実験では、提案額は概ね30~50%付近となり、応答者は自分の取り分が30%以下の場合に拒否する傾向が見られる。この傾向は「公平性」や「不平等嫌悪」といった心理的要因(Fehr–Schmidtモデル、Bolton–Ockenfelsモデルなど)で説明されることが多いが、ここでは理論モデルの基本形として扱う。
ゲームが T 回(有限回)繰り返される場合、逆順帰納法により各回の均衡を求めることができる。最終回(第 T 回)は一回限りのゲームと同じであり、提案者は最小額を提示し、応答者は受容する均衡が成立する。第 T-1 回以降についても、最終回の均衡が既知であるため、もし応答者が拒否することで最終回に不利益を被ると予想されれば、提案者は同様に自分の取り分を最大化する戦略を採用することになる。結果として、全期間において逆順帰納法により唯一のSPEは、各回で「最小限の提案」および「受容」になる。しかしこの結論は「有限回かつ共通認識の完全合理性」の下での結果であり、実際の人間行動や信頼関係、将来の相互報復(パニッシュメント)などを考慮すると、均衡が変化する可能性がある。
無限回繰り返しゲーム(もしくは有限回で終了時期が不明な場合)では、参加者は将来の報酬を割引因子 δ(0 < δ < 1)で評価する。この場合、例えばトリガー戦略を採用すると、初回は提案者が公正な分配(例えば50:50)を提示し、応答者も受容する。もしある回で応答者が提案を拒否した場合、その後は常に応答者が0となる(または極めて低い利得になる)戦略に切り替える。
R / (1 - δ) ≧ (ある回で裏切って得られる一時的な増分) + δ P / (1 - δ)
ここで R は公正な分配時の利得、P は裏切りが起こった場合の(ペナルティとして)得られる利得である。十分高い割引因子(将来の利得に重みを置く)であれば、長期的に見ると協力状態(公正な分配)を維持する方が双方に有利となり得る。
無限回繰り返しゲームでは、フォーク定理により、プレイヤー間の報復や相互信頼を用いたさまざまな均衡が実現可能である。例えば、提案者と応答者が互いに「公平な分配」を維持する戦略が、十分な将来重視(δが大きい)条件下で均衡となる可能性がある。
実験結果で見られる「公正な提案」や「低すぎる提案の拒否」は、伝統的な合理性だけでは説明が難しいため、進化ゲーム理論の枠組みが有用である。多数のプレイヤーが繰り返し対戦する環境では、各プレイヤーの行動がその後の成功率に影響し、公平な戦略が進化的に安定(ESS: Evolutionarily Stable Strategy)となる場合がある。
また、レプリケーターダイナミクスを考えると、社会全体における各戦略の割合 q_i は、各戦略の平均利得と社会全体の平均利得との差に応じて変化する。式としては dq_i/dt = (π(s_i) - π̄) q_i となり、この力学の下では、公平な提案と拒否が進化的に安定な均衡となるシナリオが示される。RIETIなどの研究では、最後通牒ゲームに基づく数理モデルとシミュレーションを通して、提案者と応答者間の選別的取引や、社会的知性の役割が平均利得や格差にどのように影響するかが検討されている。
繰り返し型最後通牒ゲームの数理的分析から、以下の点が示唆される。有限回の場合、共通認識の完全合理性の下では、逆順帰納法により各回で「最小限の提案/受容」が唯一のSPEとなる。しかし実験的にはこれと大きく異なる(公正な提案が多い)結果が得られており、心理的要因や公平性の感情を反映した行動が考慮されるべきである。無限回の場合、フォーク定理により、公正な分配を支える戦略が実現可能であり、特に割引因子が高い場合には、公正な均衡が安定する。