ゲームの理論を探る(その3)-「囚人のジレンマ」の意味を考える
ゲームの理論とは、複数のプレイヤーの行動や、意思決定を分析する理論です。ここでは「囚人のジレンマ」を例にして、ナッシュ均衡とパレート最適を理解します。
囚人のジレンマの状況設定
今、AとBの2人が共犯で、ある軽犯罪で捕まりました。2人とももっと重い罪を犯していると疑われています。
・ このまま黙っていれば軽犯罪だけ罪に問われて、懲役2年で済むことになります。
・ ただ、もし正直に白状したら、1人だけの自白の場合、その人の懲役は0年となり、黙っていた方は罪が押し付けられて懲役10年になります。
・ 一方、2人とも自白した場合は、懲役5年となります。
このような状況の下、2人は一度考えてこいと申し渡され、別々の取調べ室に行くことになりました。互いに情報交換はできないと仮定します。
ここで、2人の状況を表で確認します。2人の利得については、下記の様に設定します。
・ 2人とも黙秘の場合には(-2、-2)と表されます。左の数字はAに対応し、右の数字はBに対応しています。
・ Aが自白、Bが黙秘の場合には(0、-10)となり、黙秘したBの方に-10の負の数で表されます。
・ Aが黙秘、Bが自白した場合には(-10、0)となり、Bの罪が見逃されることになります。
・ Aが自白、Bも自白の場合は(-5、-5)で、どちらも懲役5年となります。
まず、Aの気持ちになって考えます。

・ Bが黙秘した場合には、Aにとって有利な利得は、黙秘の-2と自白の0を比べて、当然自白の0を選ぶことになります。
・ Bが自白しているとすると、黙秘すれば10年の懲役が課されますので、当然自分も自白して5年の懲役にします。
次に、Bの気持ちになって考えます。

・ Aが黙秘していると仮定しますと、Bにとって有利なのは自白ですので、0を選びます。
・ Aが自白しているとすると、Bも自白の方が良いので-5を選びます。
こういった行動の選び方のことを「最適反応」と言います。最適反応とは、相手がある戦略を採ったという条件の下で、自らの利得を最大化する戦略という意味です。
そして、どちらも最適反応を採っている場所がありますが、これを「ナッシュ均衡」と呼びます。これは各プレイヤーの最適反応の組み合わせの場所です。(-5、-5)の場所は互いが自白する場合で、両方が一緒に選択しているのでこれはナッシュ均衡です。
更に、表をみてみますと、黙秘・黙秘の方は両者とも2年の懲役で済み、こちらの方が(-5、-5)のナッシュ均衡より有利です。これは別々の場所で尋問されるのでなければ、情報の交換で協力できる状況が黙秘・黙秘(-2、-2)の場所となります。これを囚人のジレンマといい、協力した方がいい時に協力できなくて、どっちも損する構造になっています。
そして、(-5、-5)から(-2、-2)に移動することを「パレート改善」と呼びます。どのプレーヤーからも文句が出ず、少なくとも1人のプレーヤーが得をする状況の変化です。文句がでるのは、自分の利得が下がるとき、もし変わらなかったら文句は言えないことになります。
一方、左上(-2、-2)は、ナッシュ均衡からみて、相手の効用を減少させずに、自分の効用を上げるようにする選択となっていますし、これ以上のパレート改善できません。これを「パレート最適」と言います。

日常的には、価格決定の問題、すなわち値段維持か、値引きかでは、両者が値引きをすることがナッシュ均衡になり、いじめの問題では、全員がいじめに加担することがナッシュ均衡となります。

囚人のジレンマのポイントは、なぜジレンマと言われるかを理解することです。これは本当は相手の情報が入手できれば、両者にとってより良いパレート最適の選択ができます。しかし、それができないことへのジレンマがあることを指しています。
実際の場面では、情報を得るためにあらゆる手段を使うことになりますが、みなさんどう思われましたか。