Předpokládejme, že máme hru
(0ba1),
kde 0≤a≤b≤1, což v extrémech odpovídá
0
a
b
1
0
1
1
1
0
0
0
1
0
0
1
1
Tady změna krychle odpovídá změně jedné nerovnosti
Opakované hry
Mějme strategii v 1-paměťovém prostředí (p0,p1,p2,p3,p4), kde
p0 - pravděpodobnost spolupráceS na začátku (v 1. kole)
p1 - pravděpodobnost spolupráceS po SS
p2 - pravděpodobnost spolupráceS po SZ
p3 - pravděpodobnost spolupráceS po ZS
p4 - pravděpodobnost spolupráceS po ZZ
1−pi je pravděpodobnost zradyZ po …
A nechť soupeř má strategii (q0,q1,q2,q3,q4), přičemž si uvědomme, že ZS pro nás je SZ pro něj apod.
Napišme si výherní matici do řádku do výherního vektoruw=(SS,SZ,ZS,ZZ)(w1,w2,w3,w4)
A pak výhru v n-tém kolem dostaneme jako
(u(p,q))n=w⋅P1⋮P4,
kde Pi je pravděpodobnost, že hra dospěla do stavu SS,SZ,ZS,ZZ
Vektor P1⋮P4 určíme pomocí teorie markovských řetězců. Spočítejme si přechodovou matici A - ta bude mít tvar
A=SSSZZSZZSS,SZ,ZS,ZZp1q1p1(1−q1)(1−p1)q1(1−p1)(1−q1)p2q3p2(1−q3)(1−p2)q3(1−p2)(1−q3)p3q2p3(1−q2)(1−p3)q2(1−p3)(1−q2)p4q4p4(1−q4)(1−p4)q4(1−p4)(1−q4)
A pak jistě platí
P=Anp0q0p0(1−q0)⋮
Za předpokladu stability se neprojeví počáteční vektor p0q0p0(1−q0)⋮, ale hra dospěje do vektoru x takového, že Ax=x
Matice A musí být pravděpodobností, tj. suma v každém sloupci musí být 1.
Tento problém řešíme jako
Ax=x(A−I)x=0,
kde x říkáme stacionární vektor (z lingebry dostaneme, že řešení musí jediné až na násobek), který také musí být pravděpodobnostní, tj. ∑x=1.
Rozepišme si
A−E=p1q1−1p1(1−q1)(1−p1)q1(1−p1)(1−q1)p2q3p2(1−q3)−1(1−p2)q3(1−p2)(1−q3)p3q2p3(1−q2)(1−p3)q2−1(1−p3)(1−q2)p4q4p4(1−q4)(1−p4)q4(1−p4)(1−q4)−1,
což řešme pomocí Cramerova pravidla
a tedy
x1=∣B∣∣B1∣
kde B1 je matice, kde jsme 1. sloupec vyměnili za sloupec pravých stran
V tuto chvíli, pokud budeme pouze sčítat řádky, tak se nám nemění determinant. Tedy přičtěme 1. řádek z B k tomu 2. a 3., tj.
A proveďme Laplaceův rozvoj podle 1. řádků pro B1
Obdobně bychom postupovali i pro B2
Celkem naše výhra
u=w1x1+w2x2+…u=w1∣B∣∣B1∣+w2∣B∣∣B2∣+…u=∣B∣w1∣B1∣+w2∣B2∣+…,
přičemž jmenovatel můžeme vnímat jako Laplaceův rozvoj pro B, kde místo vektoru 1 jsme dali vektor w, tj.
Celkem výhru dostaneme jako
u=∣B∣∣C∣
Uvědomme si, že každá proměnná je lineárné v každém z determinantů (vyskytuje se vždy pouze v jednom sloupci), tj.
u=γpi+δαpi+β
Počítejme optimální vektor (p1,…,p4), tedy
∂pi∂u=(γpi+δ)2α(γpi+δ)−(αpi+β)γ∂pi∂u=>0(γpi+δ)2αδ−βγ
Tedy to znamená, že řešíme znaménko pouze u αδ−βγ
Tedy se výhra řídí ryze rostoucí, či ryze klesající, funkcí v každém parametru
Celkem nejlepší protihra (odpověď) se realizuje nějakou "rohovou" strategií, tj. volbou pi∈{0,1} (nebo s šumem {ε,1−ε})
Případě, že nám vyjde parciální derivace nulová, tak dostaneme "nerohové strategie", což odpovídá celé jedné stěně hyperkryhclehyperkrychle [0,1]4.
Spočítejme si nyní onu parciální derivaci "pořádně":
Z tohoto dostáváme podle Dasnanotovy-Jacobiho formule
ve smyslu jejího značení
∣A∣=p2q3p2−1q3………
V této formě to na zkoušce nebude
Speciální strategie v IPD
ekvalizátor - soupeř si volí q tak, aby u byla konstatní
realizuje se lineární závislostí (q1q3q2−1q4),(1111) a (w1w2w3w4)
některé determinanty jsou zde nulové
0-determinant (ZD-strategie)
rozdíl mezi u a v je prohození w2 a w2 (je to symetrická hra)
v se liší od v vektorem výher wˉ=(w1w3w2w4)
u=∣1∣∣w∣,v=∣1∣∣wˉ∣
a
q11w1w1………↘↙q44w4w4