Il requisito degli equilibri perfetti nei sottogiochi

Gli equilibri di Nash sono spesso sorretti dall’aspettativa, da parte del singolo giocatore, che, se il gioco procede verso un particolare sottogioco, allora l’avversario sceglierà una data azione. Tuttavia, in questo lavoro si vuole restringere l’insieme degli equilibri a quelli che si basano su azioni o “minacce” credibili. Una minaccia viene considerata credibile se viene effettivamente messa in atto qualora il gioco si diriga verso il punto in cui l’attuazione di tale minaccia era prevista. Un equilibrio perfetto nei sottogiochi può dunque essere definito come un insieme di strategie, una per ogni giocatore, in cui le azioni prescritte da queste strategie costituiscono un equilibrio di Nash in ciascun sottogioco che possa essere raggiunto. Come già anticipato, il rispetto degli impegni assunti è sostenuto mediante la “Penance”.

La prima ipotesi che viene presa in considerazione non presenta nessun paese deviante nel periodo t – 1. Dalla “Penance” ne deriva che tutti i paesi sono chiamati a cooperare. Per tutto il tempo che i paesi partecipanti seguono la prescrizione, un qualsiasi paese partecipante j ottiene un payoff pari a dk – c in ogni periodo, dove k è il numero di paesi che decidono di aderire all’accordo e di giocare cooperate. Se invece il paese j deviasse nel periodo t, giocando defect, e ritornasse a rispettare gli impegni assunti solo in t + 1, riceverebbe per il periodo t un payoff pari a b(k – 1), mentre nel periodo seguente subentrerebbe la punizione da parte degli altri paesi che nel periodo t avevano cooperato; con ciò il suo payoff diventa pari a d – c (dove k è uguale a 1), in quanto l’unico paese a giocare cooperate in t + 1 è proprio il paese j. A partire dal periodo t + 2 la cooperazione fra tutti i paesi k viene ripristinata, ed il payoff del paese j torna ad essere dk – c per tutti i periodi successivi (si ricordi che la nostra analisi non considera più di una deviazione).

Riassumendo, i payoffs sono:

dk – c, per ogni paese partecipante se tutti i k paesi cooperano;
b(k – 1), per il paese j che nel periodo t gioca defect;
d – c, per il paese j che nel periodo t + 1subisce la punizione.

Si può affermare perciò che per il paese j sarà più conveniente rispettare i vincoli previsti dalla “Penance” fintantoché ciò che ottiene dal giocare cooperate è maggiore o al limite uguale al payoff che invece riceve dalla deviazione.

In sostanza:

(1 + δ)(dk – c)≥ b(k – 1) + δ(d – c)
dk – c + δdk – δc ≥bk – b + δd – δc

Risolvendo per k:
k ≥ δd – b + c = 1 + c – d
δd + d – b δd + d – b (4)

Questa è una condizione sui parametri che, se soddisfatta, caratterizza la “Penance” come equilibrio di Nash.

La seconda situazione oggetto della nostra analisi è quella in cui un paese, aderente all’accordo, ha deviato nel periodo t – 1. Sappiamo che, sulla base di quanto definito nella “Penance”, uno dei k – 1 paesi, ad esempio il paese i, che non ha deviato nel periodo t – 1, per rispettare le condizioni dovrà giocare defect nel periodo seguente, ovvero in t. Il problema è ora quello di capire se, per il paese i, vi è una convenienza nel rispettare la “Penance” oppure continuare a cooperare; se decidesse di giocare defect il suo payoff sarebbe pari a b, mentre nel caso in cui non rispettasse le condizioni dettate dalla “Penance”, i paesi partecipanti sarebbero ora due, con un payoff pari a dk – c, e con k uguale a 2, d2 – c.

Riassumendo i payoffs sono:

b, se il paese partecipante i rispetta la “Penance”;
d2 – c, se il paese i non rispetta la “Penance”.
Dalla condizione (3) otteniamo b > d2 – c. Per il paese i conviene giocare defect in t in quanto il payoff che otterrebbe da questa mossa è maggiore.

Considerando invece il paese j che ha deviato nel periodo t–1, nel caso in cui decidesse di conformarsi alla “Penance” in t, sarebbe l’unico paese a giocare cooperate in questo stesso periodo, e perciò il suo payoff ammonterebbe a d – c, dove k è pari a 1. A partire dal periodo t + 1 invece, dove la cooperazione fra tutti i paesi viene ripresa, il payoff diventa dk – c. Se invece scegliesse di continuare a giocare defect anche in t, ritardando di un periodo di adeguarsi alla “Penance”, il suo guadagno in t sarebbe pari a zero (bk con k = 0) in quanto tutti gli altri k – 1 paesi giocano defect (che sappiamo essere la strategia dominante), ed a d – c in t + 1, essendo l’unico paese a giocare cooperate.

Riassumendo, i payoffs sono:

d – c, se il paese j decide di adeguarsi alla “Penance” in t;
0, se il paese j gioca defect anche in t. Per il paese j sarà più conveniente conformarsi alla “Penance” in t piuttosto che in t + 1 se
d – c + δ(dk – c)≥0 + δ(d – c)
d – c + δdk – δc ≥0 + δd – δc
dove, a sinistra dell’equazione, abbiamo il guadagno totale derivate dalla deviazione in t – 1 e dalla cooperazione in t, mentre a destra vi è deviazione sia in t – 1 che in t.

Risolvendo per k:

δd – b + c c – d
k ≥ δd = 1 + δd (5)

Possiamo ora confrontare i due risultati ottenuti: nel caso di assenza di deviazione in t – 1 il numero minimo di paesi cooperanti k per far sì che un accordo stipulato in un regime globale sia sostenibile deve essere

δd – b + c c – d
k ≥ = 1 + δd + d – bδd + d – b (4)

mentre nel caso di presenza di deviazione in t – 1

δd – b + c c – d
k ≥ δd = 1 + δd (5)

Il numero minimo di paesi necessari per stipulare un accordo simile è minore nel caso di assenza di deviazione in t – 1, in quanto
c – d c – d ≥ δd δd + d – b (6)

Ricordiamo le ipotesi: d ≥b e c > d. La (6) diventa così condizione necessaria e sufficiente affinché la strategia in cui tutti i paesi giocano nel rispetto della “Penalità” sia un perfetto equilibrio di sottogioco. Questo porta ad avere un più basso numero limite di paesi necessari per rendere sostenibile un accordo globale, e quindi una maggiore possibilità che un trattato venga effettivamente stipulato, ratificato e rispettato.

La prima situazione ipotizza l’assenza di deviazioni dal regime della “Regional Penance”, in solo una delle due regioni nel periodo t – 1. Dati kA e kB, ogni paese partecipante riceve d(kA + kB) – c per ogni periodo, mentre ogni N – kA – kB paese non partecipante riceve b(kA + kB). Si supponga che nel periodo t il paese j della regione A giochi defect, deviando dagli obblighi assunti. Il suo payoff per questo periodo sarà pari a b(kA – 1 + kB). Se nel periodo t + 1 decide di ritornare a cooperare assieme agli altri paesi, il suo payoff sarà pari a d(1 + kB) – c, in quanto nel rispetto dei vincoli della “Regional Penance” qualsiasi altro dei kA paesi deve giocare defect (ottenendo b(1 + kB)), lasciando il paese j l’unico dei kA paesi a giocare cooperate. Dal periodo t + 2 in avanti, la cooperazione viene ripresa fra tutti i kA paesi, ed il payoff del paese j torna ad essere d(kA + kB) – c per tutti i periodi successivi.

Riassumendo i payoffs sono:

d(kA + kB) – c per il periodo t se il paese j gioca cooperate in t;
b(kA – 1 + kB) per il periodo t se il paese j devia in t;
d(1 + kB) – c per il periodo t + 1 se il paese j deviante in t gioca cooperate in t + 1.

Si può perciò affermare che per il paese j è più conveniente non deviare dagli accordi nel caso in cui il payoff che ottiene dal giocare cooperate in tutti i periodi sia maggiore di quello che otterrebbe deviando nel periodo t del gioco; ovvero:

(1+δ)(d(kA + kB) – c) ≥b(kA – 1 + kB) + δ(d(1 + kB) – c) (7)
dkA + dkB – c + δdkA + δdkB – δc ≥bkA – b + bkB + δd+ δdkB – δc

In virtù dell'uguaglianza tra paesi, il numero di paesi che aderisce all’accordo nelle due regioni deve essere uguale. Per questo motivo si pone kS = kA = kB, e sostituendo kS a kA e a kB e risolvendo l’equazione per kS, si ottiene:

δd – b + c c – d – (d – b) kS≥ = 1 + δd + 2(d – b)δd + 2(d – b) (8)

La condizione (8) assicura che la strategia in cui tutti i paesi rispettano la “Regional Penance” è un equilibrio di Nash.

Nella seconda tipologia di situazione, andiamo ad ipotizzare una deviazione da parte di un singolo paese in una delle due regioni nel periodo t–1. Supponiamo che la deviazione avvenga nella regione A da parte del paese j; anche in questo caso, il rispetto della “Regional Penance” comporta che il paese deviante venga punito: tutti i paesi kA – 1, che nel periodo t–1 hanno giocato cooperate, dovranno giocare defect nel periodo successivo t. Possiamo notare come per questi paesi giocare defect piuttosto che cooperate sia più conveniente: infatti se uno dei kA – 1 paesi partecipanti decidesse di giocare cooperate in t, per lui si configurerebbe una duplice perdita, in t ed in t + 1. La perdita nel periodo t deriva dalla condizione (3): i paesi che cooperano sono due, quindi k è uguale a 2.

La condizione generica b(k – 1 )≥ dk – c in questa ipotesi diventa:

b(1 + kB) ≥d(2 + kB) – c, nel periodo t e
b kB ≥d(1 + kB) – c, nel periodo t + 1.

Se il paese j accetta la punizione e si conforma ai vincoli nel periodo t, i suoi payoffs saranno:

d(1 + kB) – c, nel periodo t e d(kA + kB) – c, per tutti gli altri periodi successivi. Al contrario, se decidesse di non rispettare i vincoli anche nel periodo t e giocasse cooperate solo in t + 1, i suoi payoffs diventano: bkB, nel periodo t e d(1 + kB) – c, nel periodo t + 1.

Possiamo affermare che è più conveniente per un paese deviante j nel periodo t – 1 accettare subito la punizione e giocare cooperate in t se
d(1 + kB) – c + δ(d(kA + kB) – c) ≥bkB + δ(d(1 + kB) – c) (9) d + dkB – c + δdkA +δdkB – δc ≥bkB + δd + δdkB -δc

Ponendo kS = kA = kB e risolvendo l’equazione per kS otteniamo:
δd – b + c c – d – (d – b) kS≥ = 1 + δd + d – bδd + d – b (10)

Si procede nell'analisi considerando i kB paesi partecipanti della regione B. Mantenendo ferma l’ipotesi che vi sia stata una deviazione nella regione A nel periodo t – 1, e che il paese deviante i scelga di giocare cooperate in t, i payoffs di un paese partecipante j qualsiasi nella regione B saranno pari a:
d(1 + kB) – c, nel periodo t ed a d(kA + kB) – c, nel periodo successivo t + 1 solo se tutti i kA – 1 e kB paesi partecipanti rispettano la “Regional Penance”. Nel caso in cui il paese partecipante j della regione B giochi defect nel periodo t, ma ritorni a giocare cooperate nel periodo t + 1, i suoi payoffs si modificano in questo modo: b(1 + kB– 1), nel periodo t e d(kA + 1) – c, nel periodo t + 1.
In entrambi i casi la cooperazione viene ristabilita nel periodo t + 2.

Concludendo, il paese partecipante j non ha incentivi a deviare dalla “Regional Penance” se

d(1 + kB) – c + δ(d(kA + kB) – c) ≥bkB + δ(d(kA + 1) – c) (11) d + dkB – c + δdkA + δdkB – δc ≥bkB + δdkA + δd – δc

Ponendo kS = kA = kB e risolvendo per kS otteniamo esattamente la disequazione (10).
Sulla base delle disequazioni cui il modello perviene e considerando le ipotesi iniziali, possiamo giungere alla seguente condizione:

c – d – (d – b) c – d – (d – b) ≥ δd + d – b δd + 2(d – b) (12)

in quanto d ≥___ b, e dalla condizione (3), b > d2 – c. In particolare la condizione (9) è condizione necessaria e sufficiente per definire la strategia in cui tutti i paesi giocano “Regional Penance” un perfetto equilibro di sottogioco. Si osservi che il numero minimo di paesi che devono partecipare in un regime basato su due accordi regionali è minore di quello richiesto in un regime basato su un unico accordo globale.

di Martina Sartori [Visita la sua tesi »] [Leggi i suoi articoli »]

Tesi Correlate

  • Un modello di analisi della partecipazione negli accordi cooperativi

    Viene presentati modelli per la tutela dei beni pubblici. Nello specifico, il bene pubblico considerato è la politica di contrasto al cambiamento climatico. Ili contrasto avviene mediante una cooperazione fra paesi a livello regionale, piuttosto che attraverso un trattato globale. La preferibilità di un regime rispetto all'altro non si limita a considerare il numero di paesi che i differenti accordi...»

Condividi questa pagina