38
Introdução à Teoria de Jogos e suas Aplicações Daniel R. Figueiredo COPPE/UFRJ LAND – COPPE/PESC – UFRJ Programa de Verão do IM Janeiro de 2010 Aula 2/3

Introdução à Teoria de Jogos e suas Aplicações · Hawk-Dove Game) driver who swerves “looses”-10, -10-1, 5 stay stay 5, -1 swerve 0, 0 swerve Driver 1 Driver 2 Drivers want

Embed Size (px)

Citation preview

Introdução à Teoria de Jogos e suas Aplicações

Daniel R. FigueiredoCOPPE/UFRJ

LAND – COPPE/PESC – UFRJ

Programa de Verão do IMJaneiro de 2010

Aula 2/3

Figueiredo – Verão 2010

Organização do Curso3 encontros (seg, qua, sex), 10hDuas partes de ~1h15m (15m de intervalo)

misturar teoria e práticaEncontro 1

conflitos de interesse, exemplo, introdução à teoria, noções de equilíbrio, minimax

Encontro 2teorema de Nash, jogos sem sequência, exemplo

Encontro 3Jogos evolucionários, dinâmica de jogo, exemplos em biologia

Interatividade e participação do público!

Figueiredo – Verão 2010

O que é um Jogo?

Um modelo de uma situação de conflitoDuas ou mais entidades com interesses distintosJogadores: entidades em conflito

Ações disponíveis para cada jogadorEstratégias de cada jogador

Conjunto de estratégias tomadas definem resultado do jogo

Jogadores possuem relação de preferência sobre os possíveis resultados

Recompensa em cada resultado

Figueiredo – Verão 2010

Saddle Points

An outcome is a saddle point if it is both less than or equal to any value in its row and greater than or equal to any value in its column

Saddle Point PrinciplePlayers should choose outcomes that are saddle points of the game

Value of the gamevalue of saddle point outcome if it exists

Figueiredo – Verão 2010

Analyzing the Game

-10-16D

325C

0-112A

DBA

Player 1

Player 2

Outcome (C, B) is a saddle point

❒ “What if” questions

Figueiredo – Verão 2010

Games With no Saddle Points

What should players do?Player 1: play A because win 30, lose at most 10Player 2: play C because win 20, lose at most 20outcome (A, C) : payoff 20 to A

Is this reasoning “stable”?What if Player 2 anticipates this reasoning from Player 1?

20

-10

B

-2010B

2030A

CA

Player 1

Player 2

Figueiredo – Verão 2010

Games With no Saddle Points

What should players really do?

20

-10

B

-2010B

2030A

CA

Player 1

Player 2

Resort to randomness!

Figueiredo – Verão 2010

Mixed StrategiesEach player associates a probability distribution over its set of strategies

players decide on which prob. distribution to use

Payoffs are computed as expectations

3

0

D

-5B

4A

C

Player 1

2/31/3

Payoff to P1 when playing A = 1/3(4) + 2/3(0) = 4/3Payoff to P1 when playing B = 1/3(-5) + 2/3(3) = 1/3

❒ How should player 1 play?

Distrib chosenby player 2

Figueiredo – Verão 2010

Mixed Strategies

3

0

D

-5B

4A

C

Player 1

2/31/3

Payoff to P1 when playing A = 1/3(4) + 2/3(0) = 4/3Payoff to P1 when playing B = 1/3(-5) + 2/3(3) = 1/3

❒ By playing 1/3 C, 2/3 D player 2 loses 4/3• Assuming player 1 plays A

❒ Is this the best player 2 can do?❒ How should player 2 choose its distribution?

Distrib chosenby player 2

Figueiredo – Verão 2010

Mixed Strategies

Idea: use a prob. distribution that cannot be exploited by other player

payoff should be equal independent of the choice of strategy of other playerguarantees minimum gain (maximum loss)

3

0

D

-5B

4A

C

Player 1

Payoff to P1 when playing A = x(4) + (1-x)(0) = 4xPayoff to P1 when playing B = x(-5) + (1-x)(3) = 3 – 8x

4x = 3 – 8x, thus x = 1/4

❒ How should Player 2 play?(1­x)x

Figueiredo – Verão 2010

Mixed StrategiesPlayer 2 mixed strategy

1/4 C , 3/4 Dminimizes its loss independent of P1 choices

Player 1 has same reasoning (Why?)

3

0

D

-5B

4A

C

Player 1

Payoff to P2 when playing C = x(-4) + (1-x)(5) = 5 - 9xPayoff to P2 when playing D = x(0) + (1-x)(-3) = -3 + 3x

5 – 9x = -3 + 3x, thus x = 2/3

Player 2

(1­x)

x

Figueiredo – Verão 2010

Mixed Strategies Equilibrium

Player 1: 2/3 A, 1/3 BPlayer 2: 1/4 C , 3/4 DExpected payoff: (1, -1)Stable (like a saddle point)

No player can deviate from prob. distribution and increase their payoff

3

0

D

-5B

4A

C

Player 1

Player 2

Figueiredo – Verão 2010

Minimax TheoremEvery two-person zero-sum game has a solution in mixed (and sometimes pure) strategies

solution payoff is the value of the gamemaximin = v = minimaxv is uniquemultiple equilibrium in pure strategies possible

but fully interchangeable

Proved by John von Neumann in 1928!birth of game theory

Figueiredo – Verão 2010

Two-person Non-zero Sum Games

Players are not strictly opposedpayoff sum is non-zero

-1, 2

2, 0

B

5, 1B

3, 4A

A

Player 1

Player 2

❒ Situations where interest is not directly opposed❍ players could cooperate (but there are no bindings)

Figueiredo – Verão 2010

What is the Solution?

Ideas of zero-sum game: saddle points

❒ pure strategy equilibrium

❒ mixed strategies equilibrium❍ no pure strategy eq.

2, 1

-1, 4

B

3, 2B

5, 0A

A

Player 1

Player 2

-1, 2

2, 0

B

3, 1B

5, 4A

A

Player 1

Player 2

Figueiredo – Verão 2010

Multiple Equilibria Problem

Games can have multiple equilibrianot equivalent: payoff is differentnot interchangeable: playing an equilibrium strategy does not lead to equilibrium

2, 2

1, 1

B

0, 1B

1, 4A

A

Player 1

Player 2

equilibria

Figueiredo – Verão 2010

The Good News: Nash’s Theorem

Every two person game has at least one equilibrium in either pure or mixed strategiesProved by Nash in 1950 using Brouwer's fixed point theorem

generalized to N person gamedid not “invent” this equilibrium concept

❒ Def: An outcome o* of a game is a NEP (Nash equilibrium point) if no player can unilaterally change its strategy and increase its payoff

❒ Cor: any saddle point is also a NEP

Figueiredo – Verão 2010

Game of Chicken

2

2

❒ Game of Chicken (aka. Hawk-Dove Game)❍ driver who swerves “looses”

-10, -10

-1, 5

stay

5, -1stay

0, 0swerve

swerve

Driver 1

Driver 2Drivers want

to do opposite of one

another!

❒ NEP in mixed strategies❒ Will revisit this in Hawk-Dove context

Figueiredo – Verão 2010

Best Response FunctionsConsider payoff function of player 1

s1, s

2 are strategies of P1 and P2

❒ What is best strategy for player 1, given a strategy choice of player 2?

❒ Cor. If is a NEP, then are best response to one another:

❒ Compute NEP by using best response functions

),(maxarg)( 211211

ssusRs

=

),( *2

*1 ss

known as best response function

),( 211 ssu

),( *2

*1 ss

)( *21

*1 sRs = )( *

12*2 sRs =and

Figueiredo – Verão 2010

Best Response Funct Graphically

NEP: strategies are mutual best responses❍ all intersections

are NEPs

1s

2s

strategy range of player 1

strategy range for player 2

)( 12 sR

best response for player 2

)( 21 sR best response for player 1

Figueiredo – Verão 2010

Cournot Model of DuopolySeveral firms produce exactly same product

: quantity produced by firm

Cost to firm i to produce quantity

Market clearing price (price paid by consumers)

where

Revenue of firm i

iq Ni ,,1=

)( ii qC

q i

)(QP ∑=i iqQ

)()(),( iiiii qCQPqQqU −=

How much should firm i produce?

Figueiredo – Verão 2010

Cournot Duopoly: Simple Example

Consider two firms: Simple production cost

no fixed cost, only marginal cost with constant c

Simple market (fixed demand a)

where

Revenue of firm

Firms choose quantities simultaneouslyAssume c < a

2,1=i

iii cqqC =)(

+−= )()( QaQP

21 qqQ +=

))(()(),( 21 cqqaqcqQaqQqU iiiii −+−=−−= +

2,1=i

Figueiredo – Verão 2010

Cournot Duopoly: Solution

Two player game: Firm 1 and Firm 2Strategy space

production quantitysince if ,

What is the NEP?use best response function

aQ ≥0)( =QP0≥iq

aqi <

❒ Best response for firm 1

❒ Best response for firm 2

))((maxarg)( 2110

211

cqqaqqRaq

−+−=<≤

))((maxarg)( 2120

122

cqqaqqRaq

−+−=<≤

value chosen by

firm 2

value chosen by

firm 1

Figueiredo – Verão 2010

Cournot Duopoly: Solution

Solution to maximization problemfirst order condition is necessary and sufficient

❒ Best response functions❍ best strategy for player 1, given choice for player 2

❒ At NEP, strategies are best response to one another❍ need to solve pair of equations

❍ using substitution…

2)( 2

21

cqaqR

−−= 2)( 1

12

cqaqR

−−=and

2

*2*

1cqa

q−−=

2

*1*

2

cqaq

−−=

),( *2

*1 qq

and

Figueiredo – Verão 2010

Cournot Duopoly: Analysis

NEP is given by

❒ Total amount produced at NEP: ❒ Price paid by consumers at NEP:

3*2

*1

caqq

−==

❒ Consider a monopoly (no firm 2, )02 =q

❒ Equilibrium is given by 2)(*1 caq −=

❒ Total amount produced: ❒ Price paid by consumers:

)(32

caQ −=

32

)(ca

QP+=

)(21

caQ −=

2)(

caQP

+=

less quantity produced

higher price

Competition can be good!

Figueiredo – Verão 2010

Jogando em SequênciaAté agora, jogadas foram simultâneas

Jogadores decidem suas estratégias sem saber o que o outro irá fazer

Jogo em sequênciaJogadores alternam a vez tomando decisõesEscolhas anteriores são públicas

Jogos de tabuleiroex. xadrez

Figueiredo – Verão 2010

Jogos em ÁrvoreComo representar este tipo de jogo?Jogo representado em árvore

Cada nó da árvore representa ponto de decisão para algum jogadorArestas representam as escolhasFolhas representam o fim do jogo (resultado)

Jogadores precisam decidir o que fazer em cada ponto de decisão

Plano de ação!Estratégia de cada jogador

Figueiredo – Verão 2010

Exemplo de Jogo em Árvore

Conjunto de estratégias para jogador 1: {E, D}

Jogador 1

Jogador 2 Jogador 2E

E

D

DD E

3, 1 1, 2 -2, 1 0, -1

O que fazer quando J1 joga E

O que fazer quando J1 joga D

Recompensa para jogador

2

Recompensa para

jogador 1

Estratégia para jogador 2 ____ , ____

Conjunto de estratégias para jogador 2:{EE, ED, DE, DD}

Figueiredo – Verão 2010

Exemplo de Jogo

Vivavoz e Skype estão decidindo adotar uma tecnologia para codificação de voz (WMA ou Speex)

Skype decide primeiro, depois Vivavoz

Skype

Vivavoz VivavozW

W

S

SS W

5, 2 3, 1 2, 1 4, 4

Qual o equilíbrio de Nash deste jogo?

Figueiredo – Verão 2010

Estratégias dos Jogadores

W

W

S

SS W

5, 2 3, 1 2, 1 4, 4Estratégia do Skype?S = {W, S}

Estratégia do Vivavoz?Dois pontos de decisão

O que fazer quando Skype joga W

O que fazer quando Skype joga S

____ ____

V = {WW, WS, SW, SS}

Figueiredo – Verão 2010

Convertendo o Jogo para sua Forma Normal

Todo jogo em forma extensiva pode ser convertido em forma normalEnumerar estratégias de cada jogador

2, 1

3, 1

4, 4

5, 2

4, 42, 1

3, 15, 2

SWWS

S

W

SSWW

Skype

Vivavoz

W

W

S

SS W

5, 2 3, 1 2, 1 4, 4

Figueiredo – Verão 2010

NEP e Ameaças Inacreditáveis

Jogar “Speex de qualquer maneira” não é acreditável para VivavozSe Skype jogar WMA, então é melhor para Vivavoz jogar WMA!

2, 1

3, 1

SW

4, 4

5, 2

WS

4, 42, 1S

3, 15, 2W

SSWW

Skype

Vivavoz

Equilíbriode Nash

W

W

S

SS W

5, 2 3, 1 2, 1 4, 4

Figueiredo – Verão 2010

Indução de Trás-para-Frente Começando das folhas, remover nós da árvore de forma iterativa

Fazendo a melhor escolha em cada nó

W

W

S

SS W

5, 2 3, 1 2, 1 4, 4

W S

5, 2 4, 4

W S

W

Melhor estratégia para Vivavoz : WS

Melhor estratégia para Skype : W

Resultado único

Figueiredo – Verão 2010

Indução de Trás-para-Frente Indução de Trás-para-Frente sempre leva a um equilíbrio de Nash (jogos com informação perfeita)

Equilíbrio não necessariamente é úniconão há preferência estrita sobre os resultados

Mecanismo para remoção de equilíbrios de Nash “ruins”

Ameaças inacreditáveis

Figueiredo – Verão 2010

Líderes e SeguidoresO que aconteceria se Vivavoz decidisse primeiro?

Equilíbrio de Nash (depois de indução de trás-para-frente)?

Vivavoz

Skype SkypeW

W

S

SS W

2, 5 1, 3 1, 2 4, 4

Melhor resultado para Vivavozameaça inacreditável passa a ser crível!

Vantagem de jogar primeiromas sempre é vantajoso?

Figueiredo – Verão 2010

Jogo da CentopéiaJogo clássico, introduzido na década de 80Jogo em sequência Duas pessoas tomam decisões de forma alternada por um certo número de rodadasA cada rodada, o jogador da vez pode terminar o jogo ou continuar

Continuar: aumenta o pote

Terminar: o pote é dividido, mas o jogador que terminou recebe fração maior

Pote é aumentado externamente (sem prejuíso para jogadores)

Como jogar?

Figueiredo – Verão 2010

Jogo da CentopéiaExemplo (3 rodadas)

1 2 1 2 1 2

1,0 0,2 3,1 2,4 5,3 4,6

5,5

C

T

C

T

C

T

C

T

C

T

C

T

Recompensa em balas

Vamos jogar!

Figueiredo – Verão 2010

Jogo da Centopéia1 2 1 2 1 2

1,0 0,2 3,1 2,4 5,3 4,6

5,5

C

T

C

T

C

T

C

T

C

T

C

T

Resultados3,1 ; 5,3 ; 5,3 ; 2,4 ; 4,6 ; 4,6 ; 5,5 ; 2,4 ; 3,1 ; 2,4 ; 2,4 ; 2,4 ; 4,6

Análise do jogoQual é o equilíbrio de Nash?O que podemos concluir?