Download pdf - MỘT SỐ THUẬT TOÁN TRONG LÝ THUYẾT TRÒ CHƠI

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

ĐẠI HỌC THÁI NGUYÊN

TRƢỜNG ĐẠI HỌC KHOA HỌC

PHẠM THỊ THU PHƢƠNG

MỘT SỐ THUẬT TOÁN

TRONG LÝ THUYẾT TRÒ CHƠI

Chuyên ngành: TOÁN ỨNG DỤNG

Mã số: 60.46.01.12

LUẬN VĂN THẠC SĨ TOÁN HỌC

NGƢỜI HƢỚNG DẪN KHOA HỌC

TS. VŨ MẠNH XUÂN

THÁI NGUYÊN– 2014


MỤC LỤC

MỤC LỤC

LỜI CẢM ƠN ................................................................................................... 1

MỞ ĐẦU ........................................................................................................... 2

Chƣơng 1: SƠ LƢỢC VỀ LÝ THUYẾT TRÒ CHƠI ...................................... 3

1.1 Xuất xứ .................................................................................................... 3

1.2 Một số bài toán ....................................................................................... 6

1.2.1 Bài toán 1 ......................................................................................... 6

1.2.2 Bài toán 2 ......................................................................................... 8

1.3 Một số khái niệm ................................................................................... 10

Chƣơng 2: MỘT SỐ THUẬT TOÁN TRÒ CHƠI ......................................... 14

2.1 Trò chơi ma trận .................................................................................... 14

2.2 Các chiến lƣợc trong trò chơi ma trận ................................................... 16

2.2.1 Các chiến lƣợc thuần túy trong trò chơi ma trận .......................... 16

2.2.2 Các chiến lƣợc hỗn hợp trong trò chơi ma trận ............................ 20

2.2.3 Lý thuyết trò chơi dƣới dạng qui hoạch tuyến tính ........................ 32

2.2.4 Chiến lƣợc từng bƣớc và phƣơng pháp Brown .............................. 37

KẾT LUẬN ..................................................................................................... 43

TÀI LIỆU THAM KHẢO ............................................................................... 44


1

LỜI CẢM ƠN

Sau một thời gian nghiên cứu tìm hiểu, em đã hoàn thành Luận văn Thạc

sỹ toán học chuyên ngành Toán ứng dụng với đề tài: “Một số thuật toán

trong lý thuyết trò chơi”.

Lời đầu tiên em xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo TS. Vũ

Mạnh Xuân đã tận tình hƣớng dẫn em trong suốt quá trình nghiên cứu và

thực hiện luận văn. Em cũng xin chân thành cảm ơn Quý thầy cô tham gia

giảng dạy,các thầy cô phòng đào tạo và cô Nguyễn Thị Thu Thủy trƣởng khoa

Toán Tin trƣờng Đại học Khoa học – Đại học Thái Nguyên đã hƣớng dẫn,

truyền đạt kiến thức, tạo mọi điều kiện giúp đỡ cho em trong suốt thời gian

theo học và thực hiện luận văn này.

Qua việc nghiên cứu và hoàn thành luận văn, em đã có thêm nhiều kiến

thức bổ ích trong chuyên môn cũng nhƣ phƣơng pháp luận nghiên cứu khoa

học. Trong khuôn khổ của một luận văn, chắc chắn chƣa đáp ứng đƣợc đầy đủ

những vấn đề đặt ra. Vì điều kiện nghiên cứu còn hạn chế, nên mặc dù đã cố

gắng rất nhiều nhƣng luận văn không tránh khỏi những thiếu sót. Em rất

mong nhận đƣợc sự đóng góp ý kiến, phê bình quý báu của các nhà khoa học,

các thầy cô và các bạn đồng nghiệp.

Một lần nữa em xin chân thành cảm ơn !

Thái Nguyên, tháng 09 năm 2014

Học viên

Phạm Thị Thu Phƣơng


2

MỞ ĐẦU

Lý thuyết trò chơi là một nhánh của Toán học ứng dụng. Ngành này

nghiên cứu các tình huống chiến thuật trong đó các đối thủ lựa chọn các hành

động khác nhau để cố gắng làm tối đa kết quả nhận đƣợc. Lý thuyết trò chơi

nghiên cứu các quyết định đƣợc đƣa ra trong một môi trƣờng gồm có các đối

thủ tƣơng tác với nhau và nghiên cứu cách lựa chọn hành vi tối ƣu khi chi phí

và lợi ích của mỗi lựa chọn là không cố định mà phụ thuộc vào lựa chọn của

các cá nhân khác. Mặc dù còn là lĩnh vực khá mới mẻ, song lý thuyết trò chơi

đƣợc sử dụng trong nhiều ngành khoa học, từ Sinh học, Triết học, khoa học

máy tính, kinh tế học... cho đến chính trị, quân sự và văn hóa.

Trong các trƣờng đại học, lý thuyết trò chơi mới chủ yếu đƣợc giới

thiệu sơ lƣợc với một số ngành thuộc lĩnh vực kinh tế.

Mục đích của đề tài này nhằm nghiên cứu khái quát về lý thuyết trò

chơi, một số chiến lƣợc trong trò chơi ma trận và minh họa bằng những ví dụ

cụ thể.

Kết cấu của luận văn ngoài phần mở đầu và kết luận đƣợc chia làm hai

chƣơng nhƣ sau:

Chƣơng 1: Trình bày sơ lƣợc về lý thuyết trò chơi từ sự ra đời và phát

triển cũng nhƣ các lĩnh vực ứng dụng. Một số ví dụ và các khái niệm cơ bản.

Chƣơng 2: Trình bày một số thuật toán trò chơi ma trận và minh họa

trên những ví dụ cụ thể.

Do những hạn chế về thời gian và điều kiện nghiên cứu cũng nhƣ những

khó khăn của bản thân nên luận văn chắc chắn còn nhiều khiếm khuyết.

http://vi.wikipedia.org/wiki/To%C3%A1n_h%E1%BB%8Dc_%E1%BB%A9ng_d%E1%BB%A5ng

http://vi.wikipedia.org/wiki/Sinh_h%E1%BB%8Dc

http://vi.wikipedia.org/wiki/Tri%E1%BA%BFt_h%E1%BB%8Dc


3

Chƣơng 1: SƠ LƢỢC VỀ LÝ THUYẾT TRÒ CHƠI

Chƣơng này trình bày về lý thuyết trò chơi và xuất xứ của nó, các bài

toán cũng nhƣ các khái niệm và ứng dụng của lý thuyết trò chơi trong thực tế.

Các kiến thức trong chƣơng đƣợc tham khảo và sử dụng trong các tài liệu:

Don Ross (2010), Games Theory.

Jim Ratliff (1997), Strategic form Games.

Fudenberg (1991), Drew and Jean Tirole: Game Theory, MIT Press.

1.1 Xuất xứ

Lý thuyết trò chơi là một nhánh của Toán học ứng dụng. Ngành này

nghiên cứu các tình huống chiến thuật trong đó các đối thủ lựa chọn các hành

động khác nhau để cố gắng làm tối đa kết quả nhận đƣợc. Việc phân tích các

tình huống cạnh tranh có hai mục tiêu. Mục tiêu thứ nhất là tìm hiểu đƣợc tại

sao các bên tham gia trò chơi trong các tình huống cạnh tranh đó lại ứng xử

nhƣ họ làm. Mục tiêu thứ hai có tính thực dụng hơn là có khả năng gợi ra cho

ngƣời chơi cách chơi cách chơi nào tốt nhất. Mục tiêu thứ nhất đặc biệt quan

trọng khi trò chơi ở mức rộng, có nhiều ngƣời chơi và có các quy tắc chơi

phức tạp. Theo đuổi mục tiêu thứ hai có thể cho phép mô tả cho từng ngƣời

chơi một chiến lƣợc tốt nhất mà ngƣời ta có thể chơi.

Những thảo luận đầu tiên đƣợc biết đến về lý thuyết trò chơi xuất hiện

trong một lá thƣ viết bởi James Waldegrave vào năm 1713. Trong lá thƣ này,

Waldegrave đƣa ra lời giải chiến thuật hỗn hợp minimax cho một trò đánh bài

hai ngƣời chơi Le Her. Chỉ đến khi sự xuất bản “Nghiên cứu về những Định

luật toán học của lý thuyết Tài sản” của Antoine Augustin Cournot vào năm

1838 thì những phân tích chung về lý thuyết trò chơi mới đƣợc theo đuổi.

Mặc dù những phân tích của Cournot là tổng quát hơn là của

Waldegrave, lý thuyết trò chơi chƣa thật sự tồn tại nhƣ là một ngành duy nhất

cho đến khi John von Neumann xuất bản một loạt các bài báo vào năm 1928.


4

Những kết quả này sau này đƣợc mở rộng thêm ra trong cuốn sách xuất bản

năm 1944 “Lý thuyết trò chơi và các hành vi kinh tế” bởi von Neumann và

Oskar Morgenstern. Tác phẩm uyên thâm này chứa đựng phƣơng pháp tìm

những lời giải tối ƣu cho những trò chơi tổng bằng không với hai ngƣời chơi.

Trong suốt khoảng thời gian này, những tác phẩm về lý thuyết trò chơi chủ

yếu tập trung vào lý thuyết các trò chơi hợp tác, phân tích về những chiến

thuật tối ƣu cho một nhóm các cá nhân, giả sử rằng họ có thể bảo đảm những

thỏa thuận giữ họ với những chiến thuật thích hợp.

Vào năm 1950, thảo luận đầu tiên của Prisoner's dilemma xuất hiện, và

một thí nghiệm đƣợc làm về trò chơi này tại công ty RAND. Vào khoảng

cùng thời gian đó, John Nash phát triển một định nghĩa về một chiến thuật

"tối ƣu" cho các trò chơi với nhiều ngƣời chơi, và đƣợc biết đến nhƣ là cân

bằng Nash. Cân bằng này là đủ tổng quát, cho phép sự phân tích về trò chơi

không hợp tác thêm vào những trò chơi có hợp tác.

Lý thuyết trò chơi trải qua một thời gian sôi động trong những năm

1950, trong những năm đó những khái niệm về cốt lõi, dạng trò chơi bao quát,

trò chơi giả, trò chơi lặp, và giá trị Shapley đƣợc phát triển. Thêm vào đó,

những ứng dụng đầu tiên của lý thuyết trò chơi vào triết học và khoa học

chính trị diễn ra trong thời gian này.

Vào năm 1965, Reinhard Selten giới thiệu khái niệm lời giải của các

cân bằng lý tƣởng của các trò chơi con, làm chính xác thêm cân bằng Nash.

Vào năm 1967, John Harsanyi phát triển các khái niệm thông tin hoàn toàn và

trò chơi Bayesian. Ông ta, cùng với John Nash và Reinhard Selten, đoạt giải

thƣởng Nobel về kinh tế vào năm 1994.

Trong những năm 1970, lý thuyết trò chơi đƣợc áp dụng rộng rãi vào

sinh học, chủ yếu là do kết quả của các công trình của John Maynard Smith

và chiến lƣợc tiến hóa bền vững của ông. Thêm vào đó, những khái niệm về


5

cân bằng liên quan, sự hoàn toàn rung tay, và kiến thức chung đƣợc giới thiệu

và phân tích.

Vào năm 2005, những lý thuyết gia trò chơi Thomas Schelling và

Robert Aumann đoạt giải thƣởng Nobel về kinh tế. Schelling là về các mô

hình động, các ví dụ ban đầu của lý thuyết tiến hóa trò chơi. Aumann đóng

góp thêm vào trƣờng cân bằng (equilibrium school), phát triển một cân bằng

làm thô đi những cân bằng liên quan nhau và phát triển các phân tích chi tiết

về giả sử của kiến thức chung.

Năm 2012, hai ngƣời Mỹ là Alvin Roth và Lloyd Shapley cùng đƣợc

trao giải Nobel về kinh tế nhờ những công trình về lý thuyết phân phối ổn

định và thực tiễn tạo lập thị trƣờng, trên cơ sở sử dụng lý thuyết trò chơi và

thực nghiệm.

Ngày nay, trong cuộc sống của chúng ta có rất nhiều ví dụ liên quan đến

áp dụng lý thuyết trò chơi nhƣ:

- Chơi cờ, chơi bài, đánh bạc hoặc chơi xổ số khi nghiên cứu tần số xuất hiện

các con số.

- Thi đấu thể thao

- Chiến thuật, chiến lƣợc quân sự

- Cạnh tranh kinh tế của các doanh nghiệp với nhau hoặc chiến lƣợc sản xuất

khi nghiên cứu thị trƣờng tiêu thụ.

- Cạnh tranh với thời tiết và nói chung với thiên nhiên trong sản xuất nông

nghiệp nói riêng hay trong nền kinh tế nói chung.

- Phƣơng án vận chuyển trên các tuyến đƣờng trong tình thế khẩn cấp với thời

tiết thay đổi. vvv....

Từ đây ta có thể thấy rằng, lý thuyết trò chơi giờ đây đã đƣợc ứng dụng

rộng khắp trong tất cả các lĩnh vực từ văn hóa, chính trị, quân sự, kinh tế cho

đến nhiều ngành khác..


6

1.2 Một số bài toán

1.2.1 Bài toán 1

Bài toán trò chơi qua sông:

Giả sử bạn muốn đi ngang qua một con sông và ở đó có ba chiếc cầu

(Giả sử việc bơi, lội, đi thuyền đều không thể đƣợc). Chiếc cầu đầu tiên an

toàn và không có trở ngại gì. Chiếc cầu thứ hai nằm dƣới chân một mỏm đá

trên đó có những tảng đá lớn thỉnh thoảng vẫn rơi xuống. Chiếc cầu thứ ba thì

có những con rắn hổ mang rất độc sống ở đó. Giả sử bạn là ngƣời trốn chạy

và một ngƣời có một khẩu súng đang đợi bạn một bên bờ sông. Hắn ta sẽ đuổi

kịp, và bắn bạn, chúng ta giả định nhƣ vậy, nếu chỉ khi hắn ta đợi ở chiếc cầu

an toàn mà bạn cố vƣợt qua. Vấn đề đặt ra là bạn sẽ chọn cho mình chiếc cầu

nào để vƣợt qua sông?

Bài toán này bạn nhận ra rằng: bạn phải chọn lối đi nào an toàn nhất

cho mình sao cho tránh đƣợc các chƣớng ngại vật cũng nhƣ tránh đƣợc ngƣời

truy đuổi. Dƣờng nhƣ bạn đã bị rơi vào một cái bẫy tình huống không thể

quyết định đƣợc. Toàn bộ những gì an ủi bạn chỉ là: ở bờ sông bên kia ngƣời

săn đuổi bạn cũng bị mắc chính vào cái bẫy khó xử đó, không thể quyết định

đƣợc nên đợi ở cây cầu nào,vì ngay khi hắn ta hình dung phải đợi ở cây cầu

này thì hắn ta lại nhận ra rằng nếu hắn ta có thể tìm ra một lý do tốt hơn để

chọn đƣợc một cây cầu, thì bạn có thể đoán trƣớc đƣợc đúng cái lý do đó và

để rồi lại tránh hắn ta.

Vì trong trò chơi này cả ngƣời chạy trốn lẫn kẻ truy đuổi đều chỉ có

một vận động và mỗi ngƣời lựa chọn vận động của họ mà không hề biết

ngƣời kia lựa chọn vận động nào.

Ba chiến lƣợc của ngƣời chạy – qua chiếc cầu an toàn, những tảng đá

có nguy cơ bị rơi và nguy cơ gặp rắn hổ mang – tạo thành các hàng của ma

trận. Tƣơng tự nhƣ vậy ba chiến lƣợc của ngƣời săn đuổi - đợi ở chiếc cầu an

toàn, đợi ở chiếc cầu có đá rơi, và đợi ở chiếc cầu có rắn hổ mang – tạo thành


7

cột của ma trận. Mỗi ô của ma trận chỉ rõ hoặc sẽ chỉ rõ nếu ma trận của

chúng ta hoàn thiện – một kết quả đƣợc xác định trong khuôn khổ những

khoản được trả của ngƣời chơi. Một khoản đƣợc trả của ngƣời chơi đơn giản

là một con số đƣợc ấn định bởi hàm tiện ích thứ tự của ngƣời săn đuổi cho

hiện trạng của các sự kiện phù hợp với kết quả. Đối với mỗi kết quả, khoản

đƣợc trả của Hàng luôn luôn đƣợc kê trƣớc hết, sau đó đến khoản đƣợc trả

của Cột. Vì vậy chẳng hạn nhƣ góc trái ở trên cùng cho thấy rằng khi ngƣời

chạy trốn đi qua chiếc cầu an toàn còn ngƣời săn đuổi cũng đang chờ ở đó thì

ngƣời chạy trốn nhận đƣợc một khoản đƣợc trả bằng 0, và ngƣời săn đuổi

nhận đƣợc khoản đƣợc trả bằng 1. Chúng ta lý giải điều này bằng cách qui

chiếu vào hàm tiện ích của họ mà trong cuộc chơi này là rất đơn giản. Nếu

ngƣời chạy trốn qua sông đƣợc an toàn thì anh ta nhận đƣợc một khoản đƣợc

trả là 1; nếu không an toàn thì anh ta đƣợc 0. Nếu ngƣời chạy trốn không thực

hiện đƣợc vì anh ta bị bắn hoặc bị đá rơi vào hoặc bị rắn hổ mang tấn công thì

ngƣời săn đuổi nhận đƣợc khoản đƣợc trả là 1 và ngƣời chạy trốn là 0.

Bất cứ khi nào ngƣời săn đuổi đợi ở chiếc cầu mà ngƣời chạy trốn lựa

chọn thì ngƣời chạy trốn sẽ bị bắn. Tất cả những kết quả này tạo ra vector của

khoản đƣợc trả là (0, 1). Bạn có thể tìm ra chúng bằng cách vạch chéo xuống

qua ma trận từ góc phía trên bên trái xuống. Bất cứ khi nào mà ngƣời bỏ trốn

chọn chiếc cầu an toàn nhƣng ngƣời săn đuổi lại đợi ở chỗ khác thì ngƣời

chạy trốn qua sông đƣợc an toàn, bằng cách nhận đƣợc khoản đƣợc trả theo

vector (1, 0). Hai kết quả này đƣợc chỉ rõ trong hai ô thứ hai của hàng đầu.

Đến lúc này toàn bộ những ô còn lại đƣợc đánh dấu bằng dấu hỏi. Tại sao?

Vấn đề ở đây là nếu ngƣời bỏ trốn qua sông ở chỗ cây cầu đá rơi hoặc chỗ cây

cầu có rắn hổ mang thì anh ta đã đƣa các yếu tố tham số vào trò chơi. Trong

những trƣờng hợp này anh ta đã hứng lấy rủi ro bị giết, và vì vậy mà tạo ra

vector khoản đƣợc trả là (0,1), có nghĩa là độc lập với bất cứ cái gì ngƣời săn


8

đuổi làm. Vậy thì ta có thể minh họa những phân tích ở trên bởi ma trận của

trò chơi nhƣ sau:

0,1 1,0 1,0

? 0,1 ?

? ? 0,1

1.2.2 Bài toán 2

Bài toán tình thế lƣỡng nan của ngƣời tù:

Có hai ngƣời tù A và B bị bắt vì tội cƣớp của. Cảnh sát cách ly A và B

để chúng không thể liên lạc, thông đồng với nhau. Cảnh sát yêu cầu chúng

thành thật khai báo nhận tội, và đƣa ra điều kiện: Nếu anh ta nhận tội và khai

báo ngƣời kia thì sẽ chỉ bị 2 năm tù trong trƣờng hợp ngƣời kia không nhận

tội, và 5 năm tù nếu ngƣời kia cũng nhận tội. Mặt khác, nếu anh ta không

nhận tội mà ngƣời kia nhận tội thì anh ta sẽ bị 10 năm tù. Cuối cùng nếu cả

hai không nhận tội thì cả hai sẽ chỉ bị 2 năm tù.

Bài toán này có thể tóm tắt ở bảng sau:

Tù nhân A không nhận tội Tù nhân A nhận tội

Tù nhân B không nhận

tội Cả hai bị 2 năm tù

B - 10 năm tù

A - 1 năm tù

Tù nhân B nhận tội B - 1 năm tù, A - 10 năm tù Cả hai bị 5 năm tù

Ngƣời săn

Cầu an toàn Cầu có đá rơi Cầu có rắn

hổ mang

Cầu có đá rơi

Cầu có rắn

hổ mang

Kẻ chạy

trốn

Cầu an toàn


9

Bài toán này có hai ngƣời tham gia là A và B. Hai ngƣời bị cách ly nên

ngƣời này không biết ngƣời kia chọn điều gì (nhận tội hay không). Vì vậy

tình huống là rất khó xử, nhƣ tên gọi của bài toán.

Ta có thể thấy rằng, ở địa vị A (hoặc B) đều có thể suy nghĩ nếu nhận

tội thì có thể chỉ bị 1 năm tù khi mà B (hoặc A) không nhận tội, còn B (hoặc

A) sẽ chịu 10 năm tù; còn nếu B (hoặc A) cũng thú tội thì bị 5 năm tù. Ý nghĩ

này xuất phát từ mong muốn ích kỷ sao cho mình có thể bị tù ít nhất nên nhận

tội và đào ngũ với bạn. Trƣờng hợp đào ngũ khiến tổng thời gian tù của cả hai

sẽ là 11 năm (trong có kẻ ích kỷ chỉ chịu 1 năm), hoặc là 10 năm (nếu cả hai

cùng suy nghĩ ích kỷ nhƣ nhau) nhiều hơn là khi không nhận tội (hợp tác với

nhau) sẽ cùng bị 2 năm tù, tổng cộng chung cả hai là 4 năm. Nhƣ vậy cả A và

B đều chỉ có hai chiến lƣợc là hợp tác và đào ngũ.

Ta có thể lập ma trận thƣởng - phạt (payoff) nhƣ sau:

Hợp tác Đào ngũ

Hợp tác 2, 2 10, 1

Đào ngũ 1, 10 5, 5

Qua ma trận trên, chúng ta nhận thấy là nếu cả hai chọn chiến lƣợc hợp

tác thì tổng số thiệt hại là nhỏ nhất (2+2=4 năm tù) - ô 1.1 của ma trận trên.

Còn nếu cả hai cùng chọn chiến lƣợc đào ngũ (không hợp tác) thì tổng số thiệt

hại lên tới 10 năm tù (ô 2.2, 5+5=10). Một khi chỉ có một bên chọn chiến lƣợc

hợp tác, thì tổng số thiệt hại chung lên tới 11 năm tù (ô 1.2 và 2.1) trong đó

anh bạn phản bội hƣởng lợi chỉ bị 1 năm tù, còn ngƣời kia chịu tới 10 năm tù.

Trên đây chúng ta chỉ xét bài toán kết thúc sau một bƣớc đi. Ngƣời ta

đã mở rộng bài toán này bằng cách cho ngƣời chơi thực hiện nhiều bƣớc đi và

gọi là bài toán tình thế lƣỡng nan của tù nhân lặp lại. Ngƣời chơi cũng chỉ có


10

2 chiến lƣợc là hợp tác và

mỗi bƣớc đi của mình. Bài toán mở rộng này đƣợc Robert Axelrod khảo sát

bài toán này và trình bày trong tác phẩm “Sự tiến hóa của sự hợp tác” (1984)

ông đã mời nhiều nhà nghiên cứu từ khắp thế giới tạo những

. Nhiều chƣơng

trình máy tính với các chiến thuật rất khác nhau với độ phức tạp khác nhau

của thuật toán, mức độ thù địch ban đầu, và khả năng tha thứ… đƣợc gửi tới

ông. Sau một thời gian dài với nhiều ngƣời tham gia cuộc đấu này, kết quả là

những chiến thuật tham lam (đào ngũ) có kết quả thấp hơn các chiến thuật vị

tha (hợp tác). Chiến thuật tốt nhất là ăn miếng trả miếng (tit for tat) do Anatol

Rapoport xây dựng. Chiến thuật này là: bƣớc đi đầu tiên là hợp tác, sau đó chỉ

làm theo đối thủ trong các bƣớc sau, nghĩa là nếu đối thủ đào ngũ thì mình

cũng đào ngũ, còn hợp tác thì mình cũng hợp tác.

Axelrod kết luận rằng “ăn miếng trả miếng” là một chiến thuật đẹp, nó

bắt đầu bằng sự hợp tác, và chỉ đào ngũ nếu đối thủ không hợp tác (đào ngũ).

Vì có nhiều tiếp theo nên ngƣời chơi có thể phản ứng lại ngay và trừng phạt

đối thủ.

1.3 Một số khái niệm

Lý thuyết trò chơi là lý thuyết toán học mô tả và giải quyết các tình thế

đối kháng. Với mỗi “ cuộc chơi ” có thể là:

- Cuộc chơi giữa hai đối thủ ( trò chơi đôi )

- Cuộc chơi giữa n đối thủ ( trò chơi tập thể )

- Cuộc chơi có vô số đối thủ

Hơn nữa, mỗi cuộc chơi đều có thể là:

- Cuộc chơi đối kháng khi quyền lợi giữa các bên tham gia hoàn toàn trái

ngƣợc nhau, thắng lợi của mỗi ngƣời dẫn tới tổn thất của ít nhất một

ngƣời khác.


11

- Cuộc chơi không hoàng toàn đối kháng, nếu một nhóm trong số những

ngƣời chơi có lợi ích chung ngoài lợi ích riêng.

Đƣơng nhiên là trong mỗi bƣớc đi và trong suốt quá trình chơi mỗi bên

tham gia đều có thể nhận đƣợc những tổn thất và thắng lợi nào đó. Vì vậy

trong quá trình chơi mỗi bên tham gia đều tìm cách sao cho:

- Thắng lợi về phía mình lớn nhất.

- Tổn thất về phía đối phƣơng lớn nhất ( trong trò chơi hoàn toàn đối kháng ),

hoặc tổn thất về phía mình nhỏ nhất (cả trong đối kháng và không đối kháng).

Nền kinh tế thị trƣờng có điều tiết của Nhà nƣớc là một ví dụ về mô hình

của lý thuyết trò chơi không hoàn toàn đối kháng giữa nhiều bên tham gia,

trong đó mỗi bên ngoài việc cực đại hóa lợi ích của mình còn có trách nhiệm

( tự nhiên hoặc cƣỡng chế bằng hệ thống chính sách, luật pháp, thuế khóa, trợ

giá...) nâng cao lợi ích cộng đồng.

Trong lý thuyết trò chơi ngƣời ta sử dụng một số thuật ngữ sau:

Trò chơi liên hiệp: Là trò chơi mà trong đó hành động của những ngƣời

chơi hƣớng tới cực đại hóa lợi ích (thắng lợi) của tập thể (liên hiệp), không

tính đến việc phân tích thắng lợi giữa những ngƣời tham gia.

Trò chơi không liên hiệp: Là trò chơi mà mục đích của mỗi thành viên

là thu về cho bản thân thắng lợi càng lớn càng tốt.

Với tƣ cách là ví dụ về trò chơi không liên hiệp có thể xét nền kinh tế thị

trƣờng hoàn toàn tự phát, tự điều tiết theo quan điểm kinh tế tân – cổ điển.

Chiến lƣợc của ngƣời chơi: Là một tập hợp các quy tắc, các chọn lựa

đƣợc xác định duy nhất trong hành vì của ngƣời chơi ở mỗi bƣớc chơi, phụ

thuộc vào mỗi trạng thái xảy ra trong quá trình chơi. Cũng có thể nói rằng nó

phụ thuộc vào kết quả ở mỗi bƣớc do hành vi của đối phƣơng gây ra.

Tùy thuộc vào số lƣợng các chiến lƣợc có thể mà trò chơi phân thành:

- Trò chơi hữu hạn bƣớc ( nếu chỉ có một số hữu hạn chiến lƣợc )

- Trò chơi vô hạn bƣớc.


12

Giả sử có I ngƣời tham gia trò chơi. Gọi iT ; i = 1, I ; là tập hợp mọi chiến

lƣợc có thể có của ngƣời chơi thứ i. Khi đó quá trình chơi đƣợc thể hiện ở chỗ

ngƣời chơi thứ i chọn cho mình một chiến lƣợc i it T trong cả quá trình chơi.

Kết quả là đạt đƣợc một trạng thái s, do đó ngƣời chơi i thu đƣợc thành quả (

lợi ích ) iH (s) .

Trò chơi cũng có thể đƣợc tiến hành theo nhiều bƣớc, mà ở bƣớc j ngƣời

chơi i áp dụng chiến lƣợc ij it T . Do xảy ra trạng thái

js ở bƣớc đó mà ngƣời

chơi i thu đƣợc thành quả i jH (s ) , và lại áp dụng chiến lƣợc

i. j+1 it T ở bƣớc

(j+1). Khi đó tổng hợp thành quả của ngƣời chơi i tại mọi bƣớc cho đến khi

kết thúc quá trình chơi hoặc cho đến một bƣớc nào đó sẽ là thành quả của

ngƣời đó trong suốt quá trình chơi.

Với các ký hiệu đã cho thì trò chơi không liên hiệp là tập:

1 2 1 2; , ,..., ; , ,...,I IL I T T T H H H

Trong đó I và iT (i = 1, 2,..., I) là những tập hữu hạn hoặc vô hạn, còn

iH (i = 1, I) là hàm trên tập 1

I

i

i

T t nhận những giá trị thực. Nói cách khác, iH

là thành quả thu đƣợc của ngƣời i ( i I ) do kết quả áp dụng “đồng thời”

chiến lƣợc của mọi ngƣời chơi ở mỗi bƣớc trong cả cuộc chơi.

Trạng thái chấp nhận đƣợc: Trạng thái s trong trò chơi gọi là chấp

nhận đƣợc đối với ngƣời chơi i, nếu trong trạng thái đó ngƣời chơi i có đổi

chiến lƣợc it của mình bằng bất cứ chiến lƣợc '

it nào khác (tất nhiên '

i i it , t T )

cũng không làm tăng thêm thắng lợi bản thân.

Trạng thái cân bằng: Trạng thái s đƣợc gọi là trạng thái cân bằng, nếu

nó là trạng thái chấp nhận đƣợc đối với mọi ngƣời chơi.

Khái niệm trạng thái cân bằng trong lý thuyết trò chơi có ý nghĩa gần

tƣơng tự với điểm Pareto trong kinh tế thị trƣờng (hiệu quả Pareto xảy ra

trong một phân bố xác định tài nguyên hoặc lợi ích giữa các thành viên, mà


13

bất cứ một thành viên nào trong đó muốn tăng thêm lợi ích cho mình – tức là

thay đổi phân bố đã có, đều làm giảm lợi ích của ít nhất một thành viên khác).

Ở đây trạng thái cân bằng là trạng thái mà nếu thay đổi nó đi một chút cũng

đều làm giảm thẳng lợi bản thân chấp nhận đƣợc của ít nhất một ngƣời chơi.

Trong trò chơi không liên hiệp thì quá trình giải trò chơi chính là quá

trình tìm trạng thái cân bằng.

Trò chơi với tổng là hằng số: Trò chơi không liên hiệp gọi là trò chơi

với tổng là hằng số, nếu tồn tại một hằng số C sao cho:

I

i

i=1

H (s) = C (1.1)

với mọi trạng thái s S (S là tập mọi trạng thái có thể xảy ra).

Chẳng hạn, gọi I là tập hợp doanh nghiệp và C là mức thuế ấn định của

Nhà nƣớc trong một kỳ ngân sách thì ta có một trò chơi với tổng hằng, dù trò

chơi là liên hiệp hay không liên hiệp.

Trò chơi với tổng không: Là trò chơi với tổng hằng mà C=0 (ở đây ta

xét trò chơi đôi tức 2 đối thủ )

Trò chơi đôi với tổng 0 là trò chơi mà nếu ngƣời này thắng bao nhiêu thì

ngƣời kia thua bấy nhiêu trong mỗi ván chơi.

Chiến lƣợc thuần túy: Là chiến lƣợc xác định riêng biệt và ngƣời chơi

có thể chọn với xác suất bằng 1.

Nếu iT là tập hợp mọi chiến lƣợc có thể của ngƣời chơi i thì mỗi chiến

lƣợc riêng biệt trong đó là một chiến lƣợc thuần túy.

Chiến lƣợc hỗn hợp: Là chiến lƣợc trong đó kết hợp một số chiến lƣợc

thuần túy mà mỗi chiến lƣợc thuần túy này xuất hiện đƣợc sử dụng với một

tần suất ( xác suất ) nào đó.


14

Chƣơng 2: MỘT SỐ THUẬT TOÁN TRÒ CHƠI

Chƣơng này trình bày về trò chơi ma trận và các thuật toán trong trò

chơi ma trận. Các kiến thức trong chƣơng đƣợc tham khảo và trích dẫn

trong cuốn:

Tô Cẩm Tú (1997), Một số phương pháp tối ưu hóa trong kinh

tế, NXB Khoa học và kỹ thuật.

Bierman, H. S. and L. Fernandez (1998), Game Theory with

economic applications, Addison-Wesley.

2.1 Trò chơi ma trận

Trò chơi đôi với tổng 0 gọi là trò chơi ma trận nếu mỗi ngƣời chơi đều

có một số hữu hạn chiến lƣợc thuần túy. Xét bài toán có hai ngƣời chơi, giả sử

ngƣời chơi thứ nhất có m chiến lƣợc thuần túy, còn ngƣời chơi thứ hai có n

chiến lƣợc thuần túy. Từ đó hình thức trò chơi đôi với tổng 0, trong đó có m

chiến lƣợc thuần túy của ngƣời chơi thứ nhất và n chiến lƣợc thuần túy của

ngƣời chơi thứ hai đƣợc cho bởi ma trận:

111 12

21 22 2

1 2

........

........

.......................

.......

n

n

m m mn

aa a

a a aA

a a a

Trong đó ija là biểu thị thắng lợi của ngƣời chơi thứ nhất ( tƣơng ứng đó

là tổn thất của ngƣời chơi thứ hai ), nếu ngƣời chơi thứ nhất chọn chiến lƣợc

thuần túy i, còn ngƣời chơi thứ hai chọn chiến lƣợc thuần túy j.

Ma trận A gọi là ma trận trò chơi hay ma trận thanh toán nghĩa là với kết

quả thực hiện chiến lƣợc i của ngƣời chơi thứ nhất và chiến lƣợc j của ngƣời

chơi thứ hai thì ngƣời thứ hai phải “trả” cho ngƣời thứ nhất ija .

Cũng có thể gọi A là ma trận thắng của ngƣời thứ nhất, do đó là ma trận

thua của ngƣời thứ hai.


15

Đƣơng nhiên các thuật ngữ “thắng lợi”, “tổn thất” và “trả” ở đây chuyển

sang nghĩa thông thƣờng nhƣ sau:

- Nếu ija > 0 thì “thắng lợi” đó là thắng lợi thật của ngƣời 1, tức là đƣợc thêm

ija .

- Nếu ija < 0 thì “thắng lợi” của ngƣời 1 đồng nghĩa với ngƣời 1 phải trả cho

ngƣời 2 một lƣợng ija

Mục đích của mỗi ngƣời chơi là cực đại hóa thắng lợi của mình. Muốn

vậy, mỗi ngƣời chơi đều cần tìm xem thắng lợi đảm bảo của mỗi chiến lƣợc

(trong tập hợp mọi chiến lƣợc có thể có của mình) bằng bao nhiêu, do đó áp

dụng chiến lƣợc nào thì thắng lợi đảm bảo lớn nhất.

Vì vậy nội dung đặt ra của bài toán trò chơi là tìm trạng thái cân bằng.

Nếu một đối thủ áp dụng chiến lƣợc nhằm đạt trạng thái cân bằng, mà đối thủ

kia áp dụng chiến lƣợc không nhằm đạt trạng thái đó thì tổn thất của ngƣời

sau sẽ tăng lên.

Trong một số trƣờng hợp trò chơi đôi với tổng hằng số C 0 vẫn có thể

là trò chơi ma trận. Chẳng hạn trò chơi với quy ƣớc:

- Ngƣời chơi thứ nhất phải nộp C nếu ija > 0 khi ngƣời thứ nhất dụng

chiến lƣợc i còn ngƣời thứ hai sử dụng chiến lƣợc j (thông thƣờng phải có ija

> C).

- Ngƣời thứ hai phải nộp C nếu ija < 0

Nhƣ vậy nếu ija > 0 thì ngƣời thứ hai phải thanh toán

ija nhƣng ngƣời

thứ nhất chỉ đƣợc hƣởng ija - C, còn nếu ija < 0 thì ngƣời thứ nhất tổn thất

ij a và ngƣời thứ hai đƣợc lợi ija C .


16

2.2 Các chiến lƣợc trong trò chơi ma trận

2.2.1 Các chiến lƣợc thuần túy trong trò chơi ma trận

- Chiến lược maximin của người chơi thứ nhất

Thắng lợi đảm bảo (thắng lợi thấp nhất ) của ngƣời chơi thứ nhất khi

chọn chiến lƣợc i là:

ijmini a

1 j n

Ngƣời chơi thứ nhất, nếu không “mạo hiểm”, cần tìm trong các chiến

lƣợc có thể có của mình chiến lƣợc nào mà thắng lợi đảm bảo lớn nhất.

Đại lƣợng:

ij11 1

max max minii mi m j n

v a gọi là giá dƣới của trò chơi

Chiến lƣợc thuần túy 0i mà với nó:

01

maxi ii m

v

gọi là chiến lƣợc maximin của ngƣời chơi thứ nhất.

- Chiến lược minimax của người chơi thứ hai

Đối lại với chiến lƣợc của ngƣời chơi thứ nhất (tìm chiến lƣợc cực đại

hóa thắng lợi thấp nhất ) ngƣời chơi thứ hai trƣớc hết tìm xem nếu sử dụng

chiến lƣợc j; j =1,n ; thì tổn thất lớn nhất bằng bao nhiêu, nếu ngƣời thứ nhất

có thể dùng bất cứ chiến lƣợc nào trong m chiến lƣợc có thể có, tức là tìm:

ij

1

maxj

i m

a

Hợp lý nhất là ngƣời thứ hai áp dụng chiến lƣợc nhằm cực tiểu hóa tổn

thất lớn nhất của mình (tƣơng ứng với thắng lợi nhất của đối phƣơng), tức là

trong mọi chiến lƣợc 1,j n , tìm chiến lƣợc 0j mà:

0 ij

1 11

min min maxj j

j n i mj n

v a


17

Đại lƣợng 0j

v gọi là giá trên của trò chơi

Chiến lƣợc thuần túy 0j mà nhờ nó đạt đƣợc v gọi là chiến lƣợc minimax của

ngƣời chơi thứ hai.

Nếu v v v thì trò chơi có điểm yên ngựa trong các chiến lƣợc thuần

túy, và số v đƣợc gọi là giá hay giá trị của trò chơi.

Nhƣ vậy, trò chơi ma trận có điểm yên ngựa trong các chiến lƣợc thuần

túy khi và chỉ khi tồn tại phần tử 0 0i ja vừa là số nhỏ nhất trong dòng 0i vừa là

số lớn nhất trong cột 0j , tức là:

0 0 0 0ij i j i ja a a (*)

Mọi cặp 0 0(i , j ) tức là mọi ô 0 0(i , j ) trong ma trận có tính chất (*) đƣợc gọi

là các điểm yên ngựa.

Ví dụ: Ta xét bài toán thực tiễn trong nông nghiệp nhƣ sau:

Ở một vùng nào đó có thể trồng ba giống cây 1A , 2A , 3A ; mà năng suất

bình quân của mỗi giống đều phụ thuộc vào thời tiết (chẳng hạn khô hạn, bình

thƣờng và mƣa nhiều). Cần xác định xem phƣơng thức gieo trồng nào cho giá

trị tổng sản lƣợng đảm bảo lớn nhất, biết rằng đơn giá 1 tấn sản phẩm iA là

ip ; i 1,3

Ta có thể đƣa ra mô hình toán học của bài toán nhƣ sau:

Với ngƣời nông dân ( ngƣời chơi thứ nhất ) có ba chiến lƣợc thuần túy là

1A , 2A và 3A . Đối thủ của ngƣời nông dân là thời tiết ( ngƣời chơi thứ hai )

cũng có ba chiến lƣợc thuần túy: khô hạn, bình thƣờng, mƣa nhiều.

Gọi ijt là năng suất cây trồng i với điều kiện thời tiết j; i, j = 1,2,3, với tƣ

cách là thắng lợi của ngƣời chơi thứ nhất ta lấy giá trị sản lƣợng trên 1 đơn vị


18

diện tích của ngƣời nông dân khi thu hoạch, thì ma trận trò chơi (ma trận hàm

thu nhập của ngƣời nông dân) là:

1 11 1 12 1 13

2 21 2 22 2 23

3 31 3 32 3 33

p t p t p t

A = p t p t p t

p t p t p t

Bài toán thực tiễn trong thƣơng nghiệp:

Một nhu yếu phẩm có n kiểu mẫu mã. Bài toán đặt ra với một cửa hàng

thƣơng nghiệp là nhập kiểu nào thì hợp lý nhất theo nghĩa sau: nếu hàng hóa

kiểu j; j =1,n ; đƣợc tiêu thụ thì cửa hàng bán nó đƣợc lại jp ; nếu không bán

đƣợc thì cửa hàng tổn thất jq do chi phí bảo quản và tiền mua buôn (ở đây để

đơn giản ta chỉ xét trên một đơn vị nhu yếu phẩm)

Mô hình toán học của bài toán:

Trong điều kiện nhu cầu và thị hiếu của ngƣời tiêu dùng không đƣợc xác

định thì cuộc đụng độ giữa các kiểu hàng nhập vào cửa hàng tạo thành một trò

chơi mà ngƣời chơi thứ nhất là cửa hàng và ngƣời chơi thứ hai là thị hiếu

khách hàng.

Mỗi ngƣời chơi đều có n chiến lƣợc thuần túy;

- Chiến lƣợc i của ngƣời chơi thứ nhất là nhập hàng kiểu i; i =1,n .

- Chiến lƣợc j của ngƣời chơi thứ hai (thị trƣờng) là tiêu thụ hàng hóa

kiểu j; j =1,n .

Ma trận thắng lợi của cửa hàng là:

1 1 1

2 2 2

..........

..........

.....................................

..........n n n

p q q

q p qA

q q p

Từ bài toán tổng quát trên ta xét ma trận sau:


19

5 1 4 3 2

6 3 5 0 4

7 2 6 4 5

A

Có điểm yên ngựa là ô (1,2) tại đó;

-1 = min (5, -1, 4, 3, 2) = max (-1, -3, -2)

Nhƣ đã nói, quá trình giải trò chơi chính là quá trình tìm trạng thái cân

bằng. Trong trƣờng hợp ma trận trò chơi A có điểm yên ngựa, thì rõ ràng rằng

điểm đó cho trạng thái cân bằng (ngƣời thứ nhất không thể đƣợc lợi hơn và

ngƣời thứ hai không bị thiệt nhiều hơn). Vì vậy ta có mệnh đề sau:

Mệnh đề: Nếu ma trận A có điểm yên ngựa trong các chiến lƣợc thuần

túy thì quá trình giải trò chơi là quá trình tìm điểm yên ngựa của A.

Chiến lƣợc tối ƣu của ngƣời chơi đƣợc xác định bởi tọa độ 0 0(i , j ) của

điểm yên ngựa của A, còn giá trị của cuộc chơi bằng giá trị 0 0i ja tại điểm

yên ngựa.

Ta xét bài toán sau:

Input: Cho ma trận trò chơi sau:

5 4 1 3 1

A= 1 5 6 4 2

3 2 2 3 5

Out put: Hãy tìm chiến lƣợc tối ƣu của mỗi ngƣời và giá của cuộc chơi.

Thuật toán giải:

1 min(5,4, 1,3,1) 1

2 min(1,5, 6, 4,2) 6

3 min(3,2, 2, 3,5) 3

1 2 3max( , , ) max( 1, 6, 3) 1v

1 max(5,1,3) 5

2 max(4,5,2) 5

3 max( 1, 6, 2) 1


20

4 max(3, 4, 3) 3

5 max(1,2,5) 5

1 2 3 4 5min( , , , , ) min(5,5, 1,3,5) 1v

Ma trận A có điểm yên ngựa trong các chiến lƣợc thuần túy, đó là ô

(1,3); tại đó 1v v

Đánh giá kết quả: Chiến lƣợc tối ƣu của ngƣời chơi thứ nhất là chiến lƣợc 1,

và của ngƣời thứ hai là chiến lƣợc 3, với nó thắng lợi đảm bảo của ngƣời thứ

nhất là -1 (ngƣời thứ nhất thua 1 và ngƣời thứ hai đƣợc 1).

Nhìn trên ma trận A ra thấy rõ ràng rằng nếu ngƣời thứ nhất áp dụng

chiến lƣợc 1 thì sẽ thắng :

5 nếu ngƣời thứ hai áp dụng chiến lƣợc 1


-1 (thua 1) nếu ngƣời thứ hai áp dụng chiến lƣợc 3



2.2.2 Các chiến lƣợc hỗn hợp trong trò chơi ma trận

Xét trò chơi có ma trận là:

11 12 1

21 22 2

1 2

....

....A

.............................

....

n

n

mn

m m mn

a a a

a a a

a a a

Ký hiệu: 1 2p (p ,p ,..., p )m ;1

1m

i

i

p , p 0i là vectơ m chiều mà p i

( 1,i m ) là xác suất (tần suất) để ngƣời chơi thứ nhất chọn chiến lƣợc i.

và 1 2q (q ,q ,...,q )n ; 1

1n

j

j

q ; 0jq là vectơ n chiều, trong đó q j là xác

suất (tần suất) để ngƣời chơi thứ hai chọn chiến lƣợc j ; 1,j n


21

Các vectơ p và q lần lƣợt đƣợc gọi là chiến lƣợc hỗn hợp của ngƣời chơi

thứ nhất và ngƣời chơi thứ hai.

Nhƣ vậy mỗi ngƣời đều có một tập các chiến lƣợc hỗn hợp.

Gọi iT là tập các chiến lƣợc hỗ hợp của ngƣời chơi thứ i, i=1,2 thì

- Bài toán của ngƣời chơi thứ nhất là chọn chiến lƣợc * * * *

1 2 1p (p ,p ,...,p ) Tm sao

cho cực đại hóa lợi ích của mình khi không có thông tin về việc chọn chiến

lƣợc của ngƣời thứ hai.

- Bài toán của ngƣời chơi thứ hai là chọn chiến lƣợc * * * *

1 2 2q (q ,q ,...,q ) Tn sao

cho cực tiểu hóa thắng lợi của ngƣời thứ nhất khi không có thông tin về hành

vi của ngƣời đó.

Thắng lợi trung bình của ngƣời chơi thứ nhất

Nếu ngƣời thứ nhất chọn chiến lƣợc 1 2p (p ,p ,..., p )m , còn ngƣời thứ hai

chọn chiến lƣợc 1 2q (q ,q ,...,q )n thì thắng lợi trung bình của ngƣời nhất, ký

hiệu M(p,q) bằng:

ij i j

1 1

M(p,q) a p qm n

i j

Thắng lợi M(p,q) gọi là hàm của cuộc chơi.

Ví dụ 1: Trong bài toán với ma trận:

5 3 1 4A

3 1 5 3

Ngƣời chơi thứ nhất có hai chiến lƣợc thuần túy:

(1)p = (1,0) : chỉ sử dụng chiến lƣợc 1

(2)p = (0,1) : chỉ sử dụng chiến lƣợc 2

Và một tập vô hạn các chiến lƣợc hỗn hợp, chẳng hạn:

(3) 1 9p = ,

10 19 cứ 10 lần chơi thì 1 lần sử dụng chiến lƣợc 1 và 9 lần sử

dụng chiến lƣợc 2


22

(4) 2 8p = ,

10 10 : tần suất sử dụng chiến lƣợc 1 bằng 0,2 tức là mọi tập:

1 2 1 2 1 2p = (p ,p ) : p 0,p 0,p + p = 1

Ngƣời chơi thứ hai có bốn chiến lƣợc thuần túy

(1)q = (1,0,0,0) : chỉ dùng chiến lƣợc 1




và một tập vô hạn chiến lƣợc hỗn hợp:

4

1 2 3 4 j j

j=1

q = q ,q ,q ,q ;q 0; j =1,4; q =1 chẳng hạn chiến lƣợc:

1 2 2 3q = , , ,

8 8 8 8

Nếu chẳng hạn, ngƣời thứ nhất sử dụng chiến lƣợc:

1 2p = ,

3 3

và ngƣời thứ hai sử dụng chiến lƣợc:

1 4 2 3q = , , ,

10 10 10 10

thì thắng lợi trung bình của ngƣời thứ nhất là:

1 1 1 4 1 2 1 3 2 1 2 4 2 2 2 3 17(p,q) 5. . 3. . 1. . 4. . 3. . 1. . 5. 3. .

3 10 3 10 3 10 3 10 3 10 3 10 3 10 3 10 30M

Nói cách khác, với chiến lƣợc đã sử dụng của ngƣời thứ nhất và chiến

lƣợc tƣơng ứng của ngƣời thứ hai thì ngƣời thứ nhất tổn thất trung bình 17

30 .

Ví dụ 2: Một cơ sở sản xuất chính phẩm và phụ phẩm lấy từ những phần thừa

của nguyên liệu sản xuất chính phẩm với dự kiến rằng có 4 mức tiêu thụ, mà

các số ghi ở bảng sau là lãi thu đƣợc của chính phẩm và phụ phẩm ở mỗi mức


23

Mức tiêu thụ

1 2 3 4

Chính phẩm

Phụ phẩm

2

5

3

-4

-1

3

4

-5

Nếu các mức tiêu thụ đều có khả năng nhƣ nhau thì chiến lƣợc sản xuất

của cơ sở nhƣ thế nào là tối ƣu?

Giải: Chiến lƣợc sản xuất là (p, 1-p), còn chiến lƣợc tiêu thụ, nhƣ đầu bài

đã ra là 1 1 1 1

, , ,4 4 4 4

vậy:

1 1 1 1 1 1 1 1 1M(p,q) = 2p. +3p. p. + 4p. 5(1 p) 4(1 p) 3(1 p) 5(1 p) (9p 1)

4 4 4 4 4 4 4 4 4

2 max,p 1

(p,q) 1min,p 0

4

M

Nhƣ vậy, nếu khả năng tiêu thụ ở các mức là nhƣ nhau thì cơ sở chỉ nên

sản xuất chính phẩm, và lãi trung bình bằng 2.

* Điểm yên ngựa trong chiến lƣợc hỗn hợp

Cặp chiến lƣợc hỗn hợp * *p ,q gọi là điểm yên ngựa của hàm M(p,q)

nếu:

* * * *M(p,q ) M(p ,q ) M(p ,q) tức là khi ngƣời thứ hai đã áp dụng chiến

lƣợc *q thì ngƣời chơi thứ nhất áp dụng bất cứ chiến lƣợc nào cũng không

làm cho thắng lợi trung bình của mình vƣợt quá * *M(p ,q ) ; và khi ngƣời thứ

nhất áp dụng chiến lƣợc *p thì dù ngƣời thứ hai áp dụng bất cứ chiến lƣợc nào

cũng không làm cho thắng lợi trung bình của ngƣời thứ nhất thấp hơn

* *M(p ,q ) .


24

Trò chơi ma trận với tổng 0 có điểm yên ngựa tại các chiến lƣợc hỗn

hợp, tức là tồn tại cặp chiến lƣợc * *(p ,q ) sao cho biểu thức

* * * *M(p,q ) M(p ,q ) M(p ,q) thỏa mãn.

“Thắng lợi” đảm bảo của ngƣời chơi thứ nhất khi sử dụng chiến lƣợc p

là:

2q Tv(p) = minM(p,q) trong đó:

n

2 1 2 n j j

j=1

T = q = q ,q ,...q ;q 0; q =1

Chiến lƣợc *p mà với nó thắng lợi đảm bảo của ngƣời chơi thứ nhất đạt

cực đại gọi là chiến lƣợc tối ƣu của ngƣời thứ nhất. Giá trị của thắng lợi đó là:

1 1 2

*

p T p T q T

v(p ) = max v(p) = max min M(p,q)

trong đó:

m

1 1 2 m i i

i=1

T = p = (p ,p ,..., p );p 0; p =1

“Thất bại” đảm bảo của ngƣời chơi thứ hai khi sử dụng chiến lƣợc q là:

1p T

u(q) = max M(p,q)

Chiến lƣợc *q mà với nó thất bại đảm bảo của ngƣời chơi thứ hai đạt cực

tiểu gọi là chiến lƣợc tối ƣu của ngƣời thứ hai. Giá của thất bại đó là:

2 2 1

*

q T q T p T

u(q ) = min u(q) = min max M(p,q)

Nếu cả hai ngƣời đều chọn chiến lƣợc tối ƣu cho mình thì:

* * *(p ) u(q ) vv

Giá trị *v gọi là giá của cuộc chơi, và cặp chiến lƣợc * *(p ,q ) - điểm yên

ngựa – là chiến lƣợc tối ƣu của cả hai đối thủ.

Mệnh đề: Nếu ma trận A có 2 dòng và n cột, hoặc có m dòng và 2 cột thì

có thể tìm điểm yên ngựa * *(p ,q ) - cặp chiến lƣợc tối ƣu – bằng phƣơng pháp

đồ thị.


25

Để đơn giản ta trình bày phƣơng pháp đồ thị dƣới dạng một số bài

toán sau:

Bài toán 1:

Input: Cho ma trận trò chơi: 3 2 1

A =2 5 3

Out put: Tìm chiến lƣợc tối ƣu của các ngƣời chơi và giá trò chơi.

Thuật toán giải: Đây là ma trận 2 dòng (2 chiến lƣợc của ngƣời thứ nhất ) và

3 cột ( 3 chiến lƣợc của ngƣời chơi thứ hai) nêm các bƣớc giải nhƣ sau:

1. Trong mặt phẳng (op,ov) ta xây dựng các đƣờng thẳng:

j 1j 2 jv = a p+a (1- p)

Đó là các đƣờng thắng lợi trung bình mong đợi của ngƣời chơi thứ nhất

khi sử dụng chiến lƣợc thứ nhất với xác suất (tần suất, tỉ lệ) p (tất nhiên sự

kiện đó dẫn tới sử dụng chiến lƣợc 2 với xác suất (1-p)), còn ngƣời thứ hai sử

dụng chiến lƣợc j.

2. Vẽ mọi đƣờng thẳng đó lên đồ thị và tìm giao điểm các đƣờng thẳng ta

xác định đƣợc j1min v

j n trong mỗi khoảng giá trị của p. Các j

1min v

j n là các đoạn

thẳng nối các giao điểm đó, tạo thành một đƣờng gấp khúc có các đỉnh và

j1

max min vj n

đạt đƣợc hoặc tại một trong các đỉnh đó, hoặc tại p=0 hoặc p=1.

Cực đại đó chính là giá của cuộc chơi, còn (p,1-p) là chiến lƣợc tối ƣu

của ngƣời chơi thứ nhất.

3. Để tìm chiến lƣợc tối ƣu của ngƣời chơi thứ hai ta giải hệ phƣơng

trình:

n

1j j j1j=1

a q = max min vj n

n

2 j j j1j=1

a q = max min vj n

n

j

j=1

q =1


26

Cụ thể với bài toán này ta có hệ phƣơng trình:

1v = 3p+ 2(1- p) = p+ 2

2v = -2p+ 5(1- p) = -7 p+ 5

3v = p+ 3(1- p) = -2p+ 3

1 2v = v : p+ 2 = -7 p+ 5 khi 3

p =8

1 3v = v : p+ 2 = -2p+ 3 khi 1

p =3

2 3v = v : -7 p+ 5 = -2 p+ 3 khi 2

p =5

Hình 1: Đƣờng ABCD là đƣờng đạt j1 3min v

j

Điểm B (1

3p ) thỏa mãn j

1 3max min v (p)

j

7

3 1 3d

Đƣờng đậm nét là đƣờng j1 3min v

j, cụ thể:

v

A

1v

3v

2v

C B

D 1 p O

2

3

5

1

3

3

8

2

5


27

1

j 31 3

2

1v 0

3

1 2min v v

3 5

2v 1

5

j

p

p

p

j1 3

7max min v

3j

đạt tại 1

p3

Vậy giá của cuộc chơi là * 7v

3 ứng với chiến lƣợc tối ƣu của ngƣời thứ nhất

là 1 2

,3 3

.

Để tìm chiến lƣợc tối ƣu của ngƣời thứ hai ta giải hệ phƣơng trình:

1 2 1 2

1 2 1 2

73q 2q 1(1 q q )

3

72q 5q 3(1 q q )

3

Hay 1 2

1 2

42q 3q

3

2q 2q

3

Giải ra ta đƣợc 1

2q =

3 , 2q = 0 ,

3

1q

3

Đánh giá kết quả: Nhƣ vậy chiến lƣợc tối ƣu của ngƣời thứ hai là 2 1

,0,3 3

Ngoài ra ta có thể không cần vẽ đồ thị mà chỉ cần tính:

1 3

1 1 7v = v =

3 3 3 ,

2

1 8v

3 3 ,

j

1 7min v

3 3

1 3

3 3 19v = v =

8 8 8 , 3

3 9v =

8 4 , j

3 9min v

8 4

2 3

2 2 11v = v =

5 5 5 ,

1

2 12v =

5 5 ,

j

2 11min v

5 5

1v (0) = 2 , 2v (0) = 5 , 3v (0) = 3 , jmin v 0 2

1v (1) = 3 , 2v (1) = 2 , 3v (1) = 1 , jmin v 1 2


28

Vậy j

1 3

7max min v (p)

3j

đạt tại 1

p3

Bài toán 2:

Input: cho ma trận: 2 3 3 2

A1 4 2 3

Out put: Tìm chiến lƣợc tối ƣu của ngƣời chơi và giá trò chơi


Đặt chiến lƣợc của ngƣời chơi thứ nhất là (p,1-p) thì:

1v 2p 1(1 p) 3p 1

2v 3p 4(1 p) 7 p 4

3v 3p 2(1 p) 5p 2

4v 2p 3(1 p) 5p 3

Các đƣờng thẳng này cắt nhau tại một điểm duy nhất:

1 2 3 4

1v v v v

2 khi

1p

2

Với 1

0 p2

thì 1 2 3 4 3

1min(v , v , v , v ) v

2

Với 1

p 12

thì 1 2 3 4 2

1min(v , v , v , v ) v

2

Do đó: * 1v

2 là giá cuộc chơi và chiến lƣợc tối ƣu của ngƣời chơi thứ nhất là

1 1,

2 2

Gọi chiến lƣợc tối ƣu của ngƣời chơi thứ hai là 1 2 3 1 2 3q q ,q ,q ,1 q q q

thì q phải thỏa mãn: 1 3 3 1 2 3

12q -3q +3q - 2(1-q -q -q ) =

2

1 2 3 1 2 3

1q 4q 2q 3(1 q q q )

2

Hay 1 2 3

54q q 5q

2

1 2 3

54q q 5q

2


29

Đây là hệ phƣơng trình vô định, do đó có vô số chiến lƣợc tối ƣu của

ngƣời thứ hai, chẳng hạn: 13 1 5

q , ,0,20 10 20

27 2 15q , ,0,

40 10 40

..........................

Các chiến lƣợc thừa (vô ích, vô tác dụng)

Chiến lƣợc 0i đối với ngƣời chơi thứ nhất đƣợc gọi là chiến lƣợc vô tác

dụng nếu:

- Tồn tại chiến lƣợc 1i của ngƣời đó sao cho: 1 0i j i ja a với mọi j =1,n

- Hoặc nếu tồn tại tổ hợp: 0

0

j ij i ja ai i

với mọi j =1,n

trong đó 0i ; 0i i ;0

1i

i i

Tƣơng tự, chiến lƣợc 0j của ngƣời chơi thứ hai gọi là chiến lƣợc thừa

nếu:

- Tồn tại chiến lƣợc 1j sao cho: 1 0ij ija a với mọi i =1,n

- Hoặc nếu tồn tại tổ hợp: 0

0

j ij ija aj j

với mọi i = 1,m

trong đó 0j; 0j j ;

0

1j

j j

Thông thƣờng có thể đơn giản hóa quá trình giải bài toán trò chơi dạng

ma trận bằng cách loại khỏi ma trận những chiến lƣợc thừa vì ngƣời ta chƣng

minh đƣợc rằng trong chiến lƣợc hỗn hợp: 01 2p (p ,p ,.....,p ,....,p )i m của ngƣời

chơi thứ nhất nếu 0i là chiến lƣợc thừa thì sẽ có 0i

p 0 .

Một cách tƣơng tự, nếu 0j là chiến lƣợc thừa của ngƣời chơi thứ hai thì

trong chiến lƣợc hỗn hợp: 01 2q (q ,q ,....,q ,....,q )j n sẽ có

0jq 0


30

Bài toán 3:

Input: Cho ma trận trò chơi:

2 3 1 5 7 4

3 4 6 2 9 1

1 2 4 9 3 10

A

Out put: Tìm chiến lƣợc tối ƣu của các ngƣời chơi và giá của trò chơi


Không có lời giải trong các chiến lƣợc thuần túy, vì:

ij1 3 1 6

v max min max 1, 1,1 1i j

a

ij1 6 1 3

v min max min 3,4,6,9,9,10 3j i

a

Nhƣ vậy v v

Do đó ta tìm đƣợc lời giải trong các chiến lƣợc hỗn hợp. Trƣớc hết ta loại bỏ

các chiến lƣợc thừa:

- So sánh cột 1 và cột 2 ta thấy 2 < 3, 3 < 4, 1 < 2 tức là i1 i2a < a với mọi

i =1,3 . Vậy bỏ cột 2 vì đó là chiến lƣợc thừa của ngƣời 2.

- Vì i1 i5a < a với mọi i =1,3 nên bỏ cột 5 (vì đó cũng là chiến lƣợc thừa

của ngƣời 2).

- Trong ma trận còn lại:

2 1 5 4

3 6 2 1

1 4 9 10

Vì dòng thứ nhất nhỏ hơn ( 1

2 dòng thứ hai +

1

2 dòng thứ ba ) cụ thể:

12 (3 1)

2 ,

11 (6 4)

2 ,

15 (2 9)

2 ,

14 ( 1 10)

2 nên ta loại bỏ dòng 1,

chỉ còn lại ma trận: 3 6 2 1

A1 4 9 10

Nhƣng trong đó vẫn còn cột thứ hai lớn hơn cột thứ nhất ( 6 > 3, 4 > 1),

nên sau khi loại cột thứ hai ta còn ma trận: 3 2 1

A1 9 10

Với ma trận này có thể giải bằng phƣơng pháp đồ thị. Ta có:


31

1v 3p (1 p) 2p 1

2v 2p 9(1 p) 7 p 9

3v p 10(1 p) 11p 10

1 2v = v : 2p 1 7p 9 khi 8

p9

tại đó 1 2

25v = v

9,

3

2v =

9

1 3v = v : 2p 1 11p 10 khi 9

p13

tại đó 1 3

31v = v

13,

2

54v =

13

2 3v = v : 7p 9 11p 10khi 1

p4

tại đó 2 3

29v = v

4,

1

3v =

2

Trên bảng sau với giá trị tăng dần của p:

P 1v 2v 3v

0

1 4

9 13

8 9

1

1

6 4

31 13

25 9

3

9

29 4

54 13

25 9

2

10

29 4

31 13

2 9

1

Ta có: với 9

0 p13

thì 1 1 2 3v min(v , v , v ) và 1 1

9 31max v v

13 13

Với 9

p 113

thì 3 1 2 3v min(v , v , v ) và 3 3

9 31max v v

13 13

Vậy giá cuộc chơi là: j

0 1 1 3

31max min v

13p j

đạt tại 9

p13

Chiến lƣợc tối ƣu của ngƣời thứ nhất :

- Theo ma trận A là 9 4

,13 13


0, ,13 13


32

Để tìm chiến lƣợc tối ƣu của ngƣời thứ hai ta giải hệ:

1 2 1 2

1 2 1 2

313q + 2q (1 q q )

13

31q + 9q 10(1 q q )

13

Giải ra ta đƣợc 1

253q

299 , 2q = 0 ,

3

46q

299

Nhƣ vậy chiến lƣợc tối ƣu của ngƣời thứ hai:


,0,299 299

- Theo ma trận ban đầu A là 253 46

,0,0,0,0,299 299

2.2.3 Lý thuyết trò chơi dƣới dạng qui hoạch tuyến tính

Nếu bài toán lý thuyết trò chơi dƣới dạng ma trận không có lời giải theo

các chiến lƣợc thuần túy và không giải đƣợc bằng phƣơng pháp đồ thị thì để

tìm lời giải thích chính xác của trò chơi ngƣời ta sử dụng phƣơng pháp qui

hoạch tuyến tính.

Gọi: j ij i

1

v a pm

i

; ip 0 ; i

1

p 1m

i

Là thắng lợi đảm bảo trong chiến lƣợc hỗn hợp 1 2(p , p ,..., p )m của ngƣời

chơi thứ nhất, khi ngƣời chơi thứ hai sử dụng chiến lƣợc j ; j 1,n và gọi:

1 2 ij i1

1

v min(v , v ,..., v ) min a p 1m

nj n

i

Thì chiến lƣợc maximin của ngƣời chơi thứ nhất là tìm 1 2(p , p ,..., p )m nhằm

đạt max v

Gọi: i ij j

1

u a qn

j

; jq 0 ; j

1

q 1n

j

Là thất bại đảm bảo với chiến lƣợc 1 2(q ,q ,...,q )n của ngƣời chơi thứ hai,

khi ngƣời chơi thứ nhất sử dụng chiến lƣợc i ; i 1,m và gọi:


33

1 2 ij j1

1

u max(u ,u ,..., u ) max a qn

mi m

j

tức là ij j

1

u a qn

j

với mọi i 1,m thì chiến

lƣợc minimax của ngƣời chơi thứ hai là tìm vectơ 1 2(q ,q ,...,q )n nhằm đạt min

u.

Bài toán cực đại hóa thắng lợi đảm bảo của ngƣời chơi thứ nhất và bài

toán cực tiểu hóa thất bại đảm bảo của ngƣời chơi thứ hai dẫn tới cặp bài toán

đối ngẫu sau đây của qui hoạch tuyến tính.

Với ngƣời thứ nhất Với ngƣời thứ hai

F = v max G = u min

ij i

1

a p vm

i

; j =1,n ij j

1

a q un

j

; i 1,m

i

1

p 1m

i

j

1

q 1n

j

ip 0 ; i 1,m jq 0 ; j =1,n

- Nếu ija 0 với mọi i 1,m và j =1,n thì bằng cách đổi biến:

ii

px =

v ; i 1,m và j

j

qy =

u ; j = 1,n

Quá trình giải bài toán sẽ trở nên đơn giản hơn. Vì

i i

1 1

1 1x = p

v v

m m

i i

; j j

1 1

1 1y = q

u u

n n

j j

ij i ij i

1 1

a p v a xm m

i i

; ij j ij j

1 1

a q u a yn n

j j

Nên cặp bài toán trên trở thành cặp đối ngẫu sau:

i

1

1f x min min

v

m

i

j

1

1g y max max

u

n

j


34

ij i

1

a x 1m

i

; j =1,n ij j

1

a y 1n

j

; i 1,m

ix 0 ; i 1,m jy 0 ; j =1,n

(Vì ija 0 với mọi i và j nên v 0 và u 0 , do đó ix 0 ( i 1,m ) và

jy 0 ( j =1,n )).

- Chiến lƣợc tối ƣu của cả hai ngƣời chơi đều không đổi nếu mọi phần tử ija

của ma trận trò chơi A đều ƣợc công thêm một hằng số C. Giá của trò chơi

trong trƣờng hợp đó tăng thêm một lƣợng C, tức là bằng v + C hay u + C.

Nhƣ vậy nếu trong ma trận A có những ija 0 thì bằng cách lấy:

ij

ija 0

c max a ta đƣa đƣợc ma trận ijA = a về ma trận ijA = a + c trong đó mọi

phần tử đều không âm, do đó áp dụng đƣợc phép đổi biến nhƣ đã nêu ở phần

trên.

Bằng cách giải theo thuật toán đơn hình bài toán dạng chuẩn tắc tức là:

'

j

1

1g g y

u

n

j

thì khi mọi số kiểm tra 0j ta đƣợc phƣơng án tối ƣu

* * *

1 2(y , y ,..., y )n của bài toán g, và do tính chất đối ngẫu ta cũng đƣợc phƣơng án

tối ƣu * * *

1 2(x ,x ,..., x )m của bài toán f nằm trong dòng các số kiểm tra, tất nhiên

lấy dấu ngƣợc lại.

Giá của trò chơi là u – c (nếu cộng thêm vào mỗi phần tử ija của A một

lƣợng c), trong đó '

1u

ming

Trở về công thức đổi biến, chiến lƣợc tối ƣu:

- Của ngƣời thứ nhất là: *

ip uxi ; i 1,m

- Của ngƣời thứ hai là: *

j jq = uy ; j = 1,n

Ví dụ: Hãy tìm chiến lƣợc tối ƣu cho mỗi bên chơi cho biết


35

4 2 7 0

2 1 4 1

1 0 1 2

A

Giải: max( 2, 2, 1) 1v

v min(4,1,7,2) 1

Ma trận A không có điểm yên ngựa. Mặt khác không áp dụng đƣợc

phƣơng pháp đồ thị, vì trong A không có chiến lƣợc thừa để đƣa về 2 dòng

n cột hoặc m dòng 2 cột. Do đó ta giải bằng qui hoạch tuyến tính.

Trong ma trận A ta có: ij

ija 0min a 2 vì vậy đặt c = 2 ta đƣợc

4 2 2 2 7 2 0 2 6 0 9 2

A 2 2 1 2 4 2 1 2 0 3 6 1

1 2 0 2 1 2 2 2 3 2 1 4

Cặp bài toán đối ngẫu là:

Với ngƣời thứ nhất Với ngƣời thứ hai

1 2 3f = x + x + x min 1 2 3 4g = y + y + y + y max

1 36 x 3x 1 1 3 46 y + 9 y + 2 y 1

2 33x 2 x 1 2 3 43y + 6 y + y 1

1 2 39 x 6 x x 1 1 2 3 43y + 2 y + y + 4 y 1

1 2 32 x x 4 x 1 1y 0 ; 2y 0 ; 3y 0 ; 4y 0

1x 0 ; 2x 0 ; 3x 0

Để đơn giản giải bài toán của ngƣời chơi thứ hai. Dạng chuẩn tắc là:

'

1 2 3 4 5 6 7g y y y y +oy +oy +oy min

1 3 4 56 y + 9 y + 2 y + y 1

2 3 4 63y + 6 y + y + y 1

1 2 3 4 73y + 2 y + y + 4 y + y 1

jy 0 ; j =1,7


36

Bảng đơn hình

Hệ

số

Cơ sở Phƣơng

án

-1 -1 -1 -1 0 0 0

1y 2y 3y 4y 5y 6y 7y

0 5y 1 6 0 9 2 1 0 0

0 6y 1 0 3 6 1 0 1 0

0 7y 1 3 2 1 4 0 0 1

0 1 1 1 1 0 0 0

0 5y 1 6 0 9 2 1 0 0

-1 2y 1 3 0 1 2 1 3 0 1 3 0

0 7y 1 3 3 0 -3 10 3 0 2 3 1

1 3 1 0 -1 2 3 0 1 3 0

0 5y 1 3 0 0 15 14 3 1 4 3 -2

-1 2y 1 3 0 1 2 1 3 0 1 3 0

-1 1y 1 9 1 0 -1 10 9 0 2 9 1 3

4 9 0 0 0 4 9 0 1 9 1 3

Mọi số kiểm tra 0j, j =1,7 . Vậy phƣơng án tối ƣu của bài toán dạng

chuẩn tắc là: 1 1 1

, ,0,0, ,0,09 3 3

Từ đó suy ra phƣơng án tối ƣu của bài toán g max là:

1 2 3 4

1 1, ,0,0 (y , y , y , y )

9 3

Các thành phần của phƣơng án tối ƣu của bài toán đối ngẫu f min

đƣợc xác định bởi các số kiểm tra:

5 6 7 1 2 3

1 1( , , ) 0, , (x , x , x )

9 3


37

Vì 4

'

j

1 min

1 1 4max y max = min g

u u 9j

và vì c = 2 nên giá của cuộc chơi

là:

min max

9 1u 2 2 v 2

4 4

Chiến lƣợc tối ƣu của ngƣời thứ nhất là:

1

9p 0. 0

4 ,

2

1 9 1p .

9 4 4 ;

3

1 9 3p .

3 4 4

Chiến lƣợc tối ƣu của ngƣời thứ hai là:

1

1 9 1q .

9 4 4 ;

2

1 9 3q .

3 4 4 ; 3q 0 ; 4q 0

2.2.4 Chiến lƣợc từng bƣớc và phƣơng pháp Brown

Chiến lƣợc từng bƣớc có thể xem là chiến thuật của mỗi ngƣời chơi sau

khi phân tích hành vi của đối phƣơng sẽ cố gắng có biện pháp tốt nhất đáp

ứng lại sao cho thắng lợi của mình lớn nhất hoặc thất bại của mình ít nhất.

Ngƣời chơi thứ nhất (ngƣời đi bƣớc đầu) sử dụng một trong các chiến

lƣợc của mình. Ngƣời chơi thứ hai đáp lại bằng chiến lƣợc sao cho cực tiểu

hóa thắng lợi của ngƣời thứ nhất. Đến lƣợt mình ngƣời thứ nhất lại tìm chiến

lƣợc sao cho cực đại hóa tổng thắng lợi của mình, và ngƣời thứ hai lại tìm

chiến lƣợc sao cho cực tiểu hóa tổng thắng lợi trƣớc đó của ngƣời thứ nhất...

Một cách tổng quát, mỗi ngƣời chơi đều đáp lại từng bƣớc đi của đối

phƣơng bằng chiến lƣợc từng bƣớc của mình sao cho nó là tối ƣu theo nghĩa

là tổng thắng lợi qua các đi trƣớc đó của mình là lớn nhất, hoặc tổng thất bại

của mình nhỏ nhất đối với mọi bƣớc đi trƣớc đó của đối phƣơng.

Phƣơng pháp lặp Brown đƣợc trình bày nhƣ sau:

Cho ma trận trò chơi A có m dòng và n cột:


38

11 12 1j 1n

21 22 2 j 2n

i1 i2 ij in

m1 m2 mj mn

a a ... a ... a

a a ... a ... a

...........................................A =

a a ... a ... a

............................................

a a ... a ... a

1. Giả sử ngƣời thứ nhất chọn dòng 1i . Ta viết dòng 1i xuống dƣới ma

trận A và gọi nó là dòng (m + 1), tức là 1m+1. j i ja = a ; j = 1,n .

2. Để cực tiểu hóa thắng lợi của ngƣời thứ nhất, ngƣời thứ hai chọn cột

1j , trong đó: 1m+1. j m+1. j

1a = min a

j n

Phần tử 1m+1. ja đƣợc đánh dấu thành

'1

*

m+1. ja và cột 1j đƣợc viết vào bên

phải ma trận A thành cột thứ (n + 1), tức là: 1. 1 iji na a , i 1,m

3. Thấy ngƣời thứ hai chọn cột 1j nên để cực đại hóa tổng thắng lợi của

mình sau 2 bƣớc ngƣời thứ nhất chọn dòng 2i mà: 2i .n+1 i.n+1

1a = max a

i m

Phần tử 2i .n+1a đƣợc đánh dấu thành '

2

*

i .n+1a và ta viết thêm một dòng thứ

(m + 2) trong đó: 2m+2. j m+1. j i ja = a + a ; j = 1,n

4. Để cực tiểu hóa tổng thắng lợi của ngƣời thứ nhất qua 2 bƣớc, ở bƣớc

2 của mình ngƣời thứ hai chọn cột 2j , trong đó: 2m+2. j m+2. j

1a = mina

j n

Phần tử 2m+2. ja đƣợc đánh dấu * và ta viết cột thứ (n + 2) (bên phải ma

trận A), trong đó: 2i.n+2 i.n+1 ija = a +a ; i 1,m

5. Tiếp tục ngƣời thứ nhất lại chọn dòng 3i mà: 3i .n+2 i.n+2

1

a = max ai m

và ngƣời

thứ hai chọn cột 3j mà: 3m+3. j m+3. j

1

a = min aj n

Bằng các chiến lƣợc này cả hai bên tham gia trò chơi đã qua 3 bƣớc.

Giả sử trò chơi đƣợc tiếp tục tiến hành cho đến bƣớc thứ (k-1), và dến

bƣớc thứ k là bƣớc kết thúc trò chơi, ngƣời thứ nhất lại áp dụng chiến lƣợc


39

tƣơng tự nhƣ trên sao cho cực đại hóa tổng thắng lợi qua (k-1) bƣớc, ngƣời

thứ hai áp dụng chiến lƣợc cực tiểu hóa tổng thắng lợi của ngƣời thứ 1.

Gọi is ; i 1,m ; là số lần ngƣời chơi thứ nhất áp dụng chiến lƣợc i (dòng

i) trong k bƣớc chơi. Khi đó i

1

s = km

i

và phân phối tần suất: 1 2 ms s s, ,...,

k k k là

chiến lƣợc hỗn hợp xấp xỉ tối ƣu của ngƣời chơi thứ nhất, còn phần tử có dấu

* xác định tổng thắng lợi (có thể có) của ngƣời đó qua k bƣớc.

Tƣơng tự gọi jt ; j = 1,n ; là số lần ngƣời thứ hai áp dụng chiến lƣợc j

(chọn cột j) trong k bƣớc chơi. Khi đó j

1

t kn

j

và phân phối tần suất:

1 2 nt t t, ,...,

k k k là chiến lƣợc hỗn hợp xấp xỉ tối ƣu của ngƣời chơi thứ hai. Gọi

v là tổng thắng lợi của ngƣời thứ nhất qua k bƣớc chơi thì:

k

* *

m+k. j m+k.n+k

1 1(a ) v (a )

k k

Rõ ràng rằng mức xấp xỉ giữa các chiến lƣợc này với chiến lƣợc tối ƣu

phụ thuộc vào bƣớc đi ban đầu (vào việc chọn dòng 1i của ngƣời thứ nhất) và

vào số bƣớc chơi k. Nếu cả hai ngƣời đều tuân thủ qui tắc Brown thì xấp xỉ

càng cao khi k càng tăng lên, nói cách khác, quá trình hội tụ.

Ví dụ:

Input: Cho ma trận trò chơi:

3 2 4 1

A 1 4 2 2

2 3 3 4

Out put: Hãy tìm lời giải xấp xỉ theo phƣơng pháp Brown qua 10 bƣớc

và qua 20 bƣớc, cho biết bƣớc đầu ngƣời chơi thứ nhất chọn chiến lƣợc 1.


Ghi dòng 1 xuống dƣới ma trận A thành dòng 4. Vì trên dòng thứ 4 đó:

min (3,2,4,1) = 1


40

nằm ở cột 4, nên ngƣời 2 chọn cột 4, và số 1 ở dòng 4 dƣợc đánh dấu *. Cột 4

của A đƣợc ghi bên phải của A thành cột 5.

Ngƣời 1 chọn dòng 3 ở bƣớc 2 vì ở cột 5: max (1 , 2, 4) = 4 nằm ở dòng 3, và

số 4 ở cột 5 đƣợc đánh dấu *.

Cộng dòng 3 của A với dòng 4 đƣợc dòng 5.

Ngƣời 2 chọn cột 2 vì ở dòng 5: min (5, -1,4, 5) = -1 nằm ở cột đó. Số -1 ở

dòng 5 đƣợc đánh dấu *.

Cộng cột 2 của A với cột 5 (cột 4 + 1) thành cột 6.

Ngƣời thứ nhất lại thấy trên cột 6: max (3, 6, 1) = 6 nên chọn dòng 2 .v.v..

Tiếp tục quá trình chọn đó cho đến bƣớc thứ 10 và bƣớc thứ 20, ta đƣợc

bảng ở trang 42, trong đó ma trận A nằm ở góc Tây bắc, còn mỗi dòng thêm

là một bƣớc đi của ngƣời 1theo thứ tự từ trên xuống, mỗi cột thêm là một

bƣớc đi của ngƣời 2 theo thứ tự từ trái sang phải.

Nhƣ vậy qua 10 bƣớc thì:15 21

v10 10

Chiến lƣợc của ngƣời thứ nhất là 7 2 1

p , ,10 10 10

Chiến lƣợc của ngƣời thứ hai là 2 2 1 5

q , , ,10 10 10 10

Qua 15 bƣớc thì: 25 30

v15 15

Chiến lƣợc của ngƣời thứ nhất là 9 4 2

p , ,15 15 15

Chiến lƣợc của ngƣời thứ hai là 2 5 1 7

q , , ,15 15 15 15

Qua 20 bƣớc thì: 32 38

v20 20

Chiến lƣợc của ngƣời 1 trong 20 bƣớc là : 12 6 2

p , ,20 20 20

Chiến lƣợc của ngƣời 2 là: 5 5 1 9

q , , ,20 20 20 20


41

Chỉ mô tả sự hội tụ đều của thuật toán lặp Brown trong ví dụ này, ta có:

- Ở bƣớc 10: 21 15

0,6010 10

- Ở bƣớc 15: 30 25

0,3415 15

- Ở bƣớc 20: 38 32

0,3020 20

Hiệu giữa giới hạn trên và giới hạn dƣới của v (khoảng ƣớc lƣợng của v )

giảm đơn điệu.

Đánh giá kết quả:

Phƣơng pháp Brown đƣợc trình bày nhƣ là một phƣơng pháp cạnh tranh

từng bƣớc (có thể kéo dài trong một khoảng thời gian nào đó) giữa hai đối thủ

“cao tay” nhất. Nhƣng nó cũng đƣợc xem là phƣơng pháp tiếp cận dần tới

chiến lƣợc tối ƣu của hai đối thủ. Chẳng hạn, trong sản xuất nông nghiệp đó là

chiến lƣợc gieo trồng của ngƣời nông dân nhằm đạt giá trị sản phẩm đảm bảo

cao nhất, khi thiên nhiên “tinh quái” luôn tác động vào chỗ yếu nhất của mỗi

phƣơng thức gieo trồng.


42

Cột 4 2 2 3 1 1 4 4 4 4 2 2 2 4 4 1 4 1 1 4

3 2 4 1 1 3 5 9* 12* 15* 16* 17* 18* 19 21* 23* 25 26 27 30* 31 34* 37* 38*

Dòng -1 4 -2 2 2 6* 10* 8 7 6 8 10 12 14 18 22 26* 28* 30* 29 31* 30 29 31

2 -3 3 4 4* 1 -2 1 3 5 9 13 17 21* 18 15 12 16 20 22 26 28 30 34

1 3 2 4 1*

3 5 1* 7 5

2 4 3* 5 7

2 3 7 3* 9

1 6* 9 7 10

1 9* 11 11 11

1 12 13 15 12*

1 15 15 19 13*

1 18 17 23 14*

1 21 19 27 15* Bƣớc 10

3 23 16* 30 19

1 26 18* 34 20

1 29 20* 38 21

2 28 24 36 23*

2 27 28 34 25* Bƣớc 15

2 26* 32 32 27

1 29 34 36 28*

2 28* 38 34 30

1 31* 40 38 31

1 34 42 42 32* Bƣớc 20


43

KẾT LUẬN

Qua quá trình nghiên cứu và thực hiện, luận văn đã đạt đƣợc một số kết

quả sau:

- Nghiên cứu và trình bày một cách có hệ thống về lý thuyết trò chơi.

- Nghiên cứu về trò chơi ma trận và các chiến lƣợc trong trò chơi ma trận.

- Giải đƣợc một số bài toán sử dụng các chiến lƣợc trong trò chơi ma trận.

Vì lý thuyết trò chơi là một kiến thức khá rộng và mới mẻ nên sự cảm

nhận của tôi về nó chắc chắn còn rất hạn hẹp. Tuy nhiên đây là đề tài hay,

có ý nghĩa ứng dụng thực tế cao nếu phát triển đƣợc đầy đủ. Rất mong

đƣợc sự quan tâm đóng góp ý kiến của các thầy cô giáo để bài viết đƣợc

hoàn thiện hơn!


44

TÀI LIỆU THAM KHẢO

1. Tô Cẩm Tú (1997), Một số phương pháp tối ưu hóa trong kinh tế, NXB

Khoa học và kỹ thuật.

2. A.M. Brandenburger, Bary J.Nalebuff (2007), Lý thuyết trò chơi trong

kinh doanh, NXB Tri thức

3. Bierman, H. S. and L. Fernandez (1998), Game Theory with economic

applications, Addison-Wesley.

4. Don Ross (2010), Games Theory

5. Fudenberg (1991), Drew and Jean Tirole: Game Theory, MIT Press.

6. Jim Ratliff (1997), Strategic form Games.

7. Osborne (1994), Martin and Ariel Rubinstein: A Course in Game Theory,

MIT Press.

http://www.vinabook.com/tac-gia/am-brandenburger-i906

http://www.vinabook.com/tac-gia/bary-jnalebuff-i1334

http://vi.wikipedia.org/w/index.php?title=Ariel_Rubinstein&action=edit&redlink=1