Upload
dinhduong
View
222
Download
0
Embed Size (px)
Citation preview
Introdução à Teoria de Jogos e suas Aplicações
Daniel R. FigueiredoCOPPE/UFRJ
LAND – COPPE/PESC – UFRJ
Programa de Verão do IMJaneiro de 2010
Aula 2/3
Figueiredo – Verão 2010
Organização do Curso3 encontros (seg, qua, sex), 10hDuas partes de ~1h15m (15m de intervalo)
misturar teoria e práticaEncontro 1
conflitos de interesse, exemplo, introdução à teoria, noções de equilíbrio, minimax
Encontro 2teorema de Nash, jogos sem sequência, exemplo
Encontro 3Jogos evolucionários, dinâmica de jogo, exemplos em biologia
Interatividade e participação do público!
Figueiredo – Verão 2010
O que é um Jogo?
Um modelo de uma situação de conflitoDuas ou mais entidades com interesses distintosJogadores: entidades em conflito
Ações disponíveis para cada jogadorEstratégias de cada jogador
Conjunto de estratégias tomadas definem resultado do jogo
Jogadores possuem relação de preferência sobre os possíveis resultados
Recompensa em cada resultado
Figueiredo – Verão 2010
Saddle Points
An outcome is a saddle point if it is both less than or equal to any value in its row and greater than or equal to any value in its column
Saddle Point PrinciplePlayers should choose outcomes that are saddle points of the game
Value of the gamevalue of saddle point outcome if it exists
Figueiredo – Verão 2010
Analyzing the Game
-10-16D
325C
0-112A
DBA
Player 1
Player 2
Outcome (C, B) is a saddle point
❒ “What if” questions
Figueiredo – Verão 2010
Games With no Saddle Points
What should players do?Player 1: play A because win 30, lose at most 10Player 2: play C because win 20, lose at most 20outcome (A, C) : payoff 20 to A
Is this reasoning “stable”?What if Player 2 anticipates this reasoning from Player 1?
20
-10
B
-2010B
2030A
CA
Player 1
Player 2
Figueiredo – Verão 2010
Games With no Saddle Points
What should players really do?
20
-10
B
-2010B
2030A
CA
Player 1
Player 2
Resort to randomness!
Figueiredo – Verão 2010
Mixed StrategiesEach player associates a probability distribution over its set of strategies
players decide on which prob. distribution to use
Payoffs are computed as expectations
3
0
D
-5B
4A
C
Player 1
2/31/3
Payoff to P1 when playing A = 1/3(4) + 2/3(0) = 4/3Payoff to P1 when playing B = 1/3(-5) + 2/3(3) = 1/3
❒ How should player 1 play?
Distrib chosenby player 2
Figueiredo – Verão 2010
Mixed Strategies
3
0
D
-5B
4A
C
Player 1
2/31/3
Payoff to P1 when playing A = 1/3(4) + 2/3(0) = 4/3Payoff to P1 when playing B = 1/3(-5) + 2/3(3) = 1/3
❒ By playing 1/3 C, 2/3 D player 2 loses 4/3• Assuming player 1 plays A
❒ Is this the best player 2 can do?❒ How should player 2 choose its distribution?
Distrib chosenby player 2
Figueiredo – Verão 2010
Mixed Strategies
Idea: use a prob. distribution that cannot be exploited by other player
payoff should be equal independent of the choice of strategy of other playerguarantees minimum gain (maximum loss)
3
0
D
-5B
4A
C
Player 1
Payoff to P1 when playing A = x(4) + (1-x)(0) = 4xPayoff to P1 when playing B = x(-5) + (1-x)(3) = 3 – 8x
4x = 3 – 8x, thus x = 1/4
❒ How should Player 2 play?(1x)x
Figueiredo – Verão 2010
Mixed StrategiesPlayer 2 mixed strategy
1/4 C , 3/4 Dminimizes its loss independent of P1 choices
Player 1 has same reasoning (Why?)
3
0
D
-5B
4A
C
Player 1
Payoff to P2 when playing C = x(-4) + (1-x)(5) = 5 - 9xPayoff to P2 when playing D = x(0) + (1-x)(-3) = -3 + 3x
5 – 9x = -3 + 3x, thus x = 2/3
Player 2
(1x)
x
Figueiredo – Verão 2010
Mixed Strategies Equilibrium
Player 1: 2/3 A, 1/3 BPlayer 2: 1/4 C , 3/4 DExpected payoff: (1, -1)Stable (like a saddle point)
No player can deviate from prob. distribution and increase their payoff
3
0
D
-5B
4A
C
Player 1
Player 2
Figueiredo – Verão 2010
Minimax TheoremEvery two-person zero-sum game has a solution in mixed (and sometimes pure) strategies
solution payoff is the value of the gamemaximin = v = minimaxv is uniquemultiple equilibrium in pure strategies possible
but fully interchangeable
Proved by John von Neumann in 1928!birth of game theory
Figueiredo – Verão 2010
Two-person Non-zero Sum Games
Players are not strictly opposedpayoff sum is non-zero
-1, 2
2, 0
B
5, 1B
3, 4A
A
Player 1
Player 2
❒ Situations where interest is not directly opposed❍ players could cooperate (but there are no bindings)
Figueiredo – Verão 2010
What is the Solution?
Ideas of zero-sum game: saddle points
❒ pure strategy equilibrium
❒ mixed strategies equilibrium❍ no pure strategy eq.
2, 1
-1, 4
B
3, 2B
5, 0A
A
Player 1
Player 2
-1, 2
2, 0
B
3, 1B
5, 4A
A
Player 1
Player 2
Figueiredo – Verão 2010
Multiple Equilibria Problem
Games can have multiple equilibrianot equivalent: payoff is differentnot interchangeable: playing an equilibrium strategy does not lead to equilibrium
2, 2
1, 1
B
0, 1B
1, 4A
A
Player 1
Player 2
equilibria
Figueiredo – Verão 2010
The Good News: Nash’s Theorem
Every two person game has at least one equilibrium in either pure or mixed strategiesProved by Nash in 1950 using Brouwer's fixed point theorem
generalized to N person gamedid not “invent” this equilibrium concept
❒ Def: An outcome o* of a game is a NEP (Nash equilibrium point) if no player can unilaterally change its strategy and increase its payoff
❒ Cor: any saddle point is also a NEP
Figueiredo – Verão 2010
Game of Chicken
2
2
❒ Game of Chicken (aka. Hawk-Dove Game)❍ driver who swerves “looses”
-10, -10
-1, 5
stay
5, -1stay
0, 0swerve
swerve
Driver 1
Driver 2Drivers want
to do opposite of one
another!
❒ NEP in mixed strategies❒ Will revisit this in Hawk-Dove context
Figueiredo – Verão 2010
Best Response FunctionsConsider payoff function of player 1
s1, s
2 are strategies of P1 and P2
❒ What is best strategy for player 1, given a strategy choice of player 2?
❒ Cor. If is a NEP, then are best response to one another:
❒ Compute NEP by using best response functions
),(maxarg)( 211211
ssusRs
=
),( *2
*1 ss
known as best response function
),( 211 ssu
),( *2
*1 ss
)( *21
*1 sRs = )( *
12*2 sRs =and
Figueiredo – Verão 2010
Best Response Funct Graphically
NEP: strategies are mutual best responses❍ all intersections
are NEPs
1s
2s
strategy range of player 1
strategy range for player 2
)( 12 sR
best response for player 2
)( 21 sR best response for player 1
Figueiredo – Verão 2010
Cournot Model of DuopolySeveral firms produce exactly same product
: quantity produced by firm
Cost to firm i to produce quantity
Market clearing price (price paid by consumers)
where
Revenue of firm i
iq Ni ,,1=
)( ii qC
q i
)(QP ∑=i iqQ
)()(),( iiiii qCQPqQqU −=
How much should firm i produce?
Figueiredo – Verão 2010
Cournot Duopoly: Simple Example
Consider two firms: Simple production cost
no fixed cost, only marginal cost with constant c
Simple market (fixed demand a)
where
Revenue of firm
Firms choose quantities simultaneouslyAssume c < a
2,1=i
iii cqqC =)(
+−= )()( QaQP
21 qqQ +=
))(()(),( 21 cqqaqcqQaqQqU iiiii −+−=−−= +
2,1=i
Figueiredo – Verão 2010
Cournot Duopoly: Solution
Two player game: Firm 1 and Firm 2Strategy space
production quantitysince if ,
What is the NEP?use best response function
aQ ≥0)( =QP0≥iq
aqi <
❒ Best response for firm 1
❒ Best response for firm 2
))((maxarg)( 2110
211
cqqaqqRaq
−+−=<≤
))((maxarg)( 2120
122
cqqaqqRaq
−+−=<≤
value chosen by
firm 2
value chosen by
firm 1
Figueiredo – Verão 2010
Cournot Duopoly: Solution
Solution to maximization problemfirst order condition is necessary and sufficient
❒ Best response functions❍ best strategy for player 1, given choice for player 2
❒ At NEP, strategies are best response to one another❍ need to solve pair of equations
❍ using substitution…
2)( 2
21
cqaqR
−−= 2)( 1
12
cqaqR
−−=and
2
*2*
1cqa
q−−=
2
*1*
2
cqaq
−−=
),( *2
*1 qq
and
Figueiredo – Verão 2010
Cournot Duopoly: Analysis
NEP is given by
❒ Total amount produced at NEP: ❒ Price paid by consumers at NEP:
3*2
*1
caqq
−==
❒ Consider a monopoly (no firm 2, )02 =q
❒ Equilibrium is given by 2)(*1 caq −=
❒ Total amount produced: ❒ Price paid by consumers:
)(32
caQ −=
32
)(ca
QP+=
)(21
caQ −=
2)(
caQP
+=
less quantity produced
higher price
Competition can be good!
Figueiredo – Verão 2010
Jogando em SequênciaAté agora, jogadas foram simultâneas
Jogadores decidem suas estratégias sem saber o que o outro irá fazer
Jogo em sequênciaJogadores alternam a vez tomando decisõesEscolhas anteriores são públicas
Jogos de tabuleiroex. xadrez
Figueiredo – Verão 2010
Jogos em ÁrvoreComo representar este tipo de jogo?Jogo representado em árvore
Cada nó da árvore representa ponto de decisão para algum jogadorArestas representam as escolhasFolhas representam o fim do jogo (resultado)
Jogadores precisam decidir o que fazer em cada ponto de decisão
Plano de ação!Estratégia de cada jogador
Figueiredo – Verão 2010
Exemplo de Jogo em Árvore
Conjunto de estratégias para jogador 1: {E, D}
Jogador 1
Jogador 2 Jogador 2E
E
D
DD E
3, 1 1, 2 -2, 1 0, -1
O que fazer quando J1 joga E
O que fazer quando J1 joga D
Recompensa para jogador
2
Recompensa para
jogador 1
Estratégia para jogador 2 ____ , ____
Conjunto de estratégias para jogador 2:{EE, ED, DE, DD}
Figueiredo – Verão 2010
Exemplo de Jogo
Vivavoz e Skype estão decidindo adotar uma tecnologia para codificação de voz (WMA ou Speex)
Skype decide primeiro, depois Vivavoz
Skype
Vivavoz VivavozW
W
S
SS W
5, 2 3, 1 2, 1 4, 4
Qual o equilíbrio de Nash deste jogo?
Figueiredo – Verão 2010
Estratégias dos Jogadores
W
W
S
SS W
5, 2 3, 1 2, 1 4, 4Estratégia do Skype?S = {W, S}
Estratégia do Vivavoz?Dois pontos de decisão
O que fazer quando Skype joga W
O que fazer quando Skype joga S
____ ____
V = {WW, WS, SW, SS}
Figueiredo – Verão 2010
Convertendo o Jogo para sua Forma Normal
Todo jogo em forma extensiva pode ser convertido em forma normalEnumerar estratégias de cada jogador
2, 1
3, 1
4, 4
5, 2
4, 42, 1
3, 15, 2
SWWS
S
W
SSWW
Skype
Vivavoz
W
W
S
SS W
5, 2 3, 1 2, 1 4, 4
Figueiredo – Verão 2010
NEP e Ameaças Inacreditáveis
Jogar “Speex de qualquer maneira” não é acreditável para VivavozSe Skype jogar WMA, então é melhor para Vivavoz jogar WMA!
2, 1
3, 1
SW
4, 4
5, 2
WS
4, 42, 1S
3, 15, 2W
SSWW
Skype
Vivavoz
Equilíbriode Nash
W
W
S
SS W
5, 2 3, 1 2, 1 4, 4
Figueiredo – Verão 2010
Indução de Trás-para-Frente Começando das folhas, remover nós da árvore de forma iterativa
Fazendo a melhor escolha em cada nó
W
W
S
SS W
5, 2 3, 1 2, 1 4, 4
W S
5, 2 4, 4
W S
W
Melhor estratégia para Vivavoz : WS
Melhor estratégia para Skype : W
Resultado único
Figueiredo – Verão 2010
Indução de Trás-para-Frente Indução de Trás-para-Frente sempre leva a um equilíbrio de Nash (jogos com informação perfeita)
Equilíbrio não necessariamente é úniconão há preferência estrita sobre os resultados
Mecanismo para remoção de equilíbrios de Nash “ruins”
Ameaças inacreditáveis
Figueiredo – Verão 2010
Líderes e SeguidoresO que aconteceria se Vivavoz decidisse primeiro?
Equilíbrio de Nash (depois de indução de trás-para-frente)?
Vivavoz
Skype SkypeW
W
S
SS W
2, 5 1, 3 1, 2 4, 4
Melhor resultado para Vivavozameaça inacreditável passa a ser crível!
Vantagem de jogar primeiromas sempre é vantajoso?
Figueiredo – Verão 2010
Jogo da CentopéiaJogo clássico, introduzido na década de 80Jogo em sequência Duas pessoas tomam decisões de forma alternada por um certo número de rodadasA cada rodada, o jogador da vez pode terminar o jogo ou continuar
Continuar: aumenta o pote
Terminar: o pote é dividido, mas o jogador que terminou recebe fração maior
Pote é aumentado externamente (sem prejuíso para jogadores)
Como jogar?
Figueiredo – Verão 2010
Jogo da CentopéiaExemplo (3 rodadas)
1 2 1 2 1 2
1,0 0,2 3,1 2,4 5,3 4,6
5,5
C
T
C
T
C
T
C
T
C
T
C
T
Recompensa em balas
Vamos jogar!