Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC KHOA HỌC
PHẠM THỊ THU PHƢƠNG
MỘT SỐ THUẬT TOÁN
TRONG LÝ THUYẾT TRÒ CHƠI
Chuyên ngành: TOÁN ỨNG DỤNG
Mã số: 60.46.01.12
LUẬN VĂN THẠC SĨ TOÁN HỌC
NGƢỜI HƢỚNG DẪN KHOA HỌC
TS. VŨ MẠNH XUÂN
THÁI NGUYÊN– 2014
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
MỤC LỤC
MỤC LỤC
LỜI CẢM ƠN ................................................................................................... 1
MỞ ĐẦU ........................................................................................................... 2
Chƣơng 1: SƠ LƢỢC VỀ LÝ THUYẾT TRÒ CHƠI ...................................... 3
1.1 Xuất xứ .................................................................................................... 3
1.2 Một số bài toán ....................................................................................... 6
1.2.1 Bài toán 1 ......................................................................................... 6
1.2.2 Bài toán 2 ......................................................................................... 8
1.3 Một số khái niệm ................................................................................... 10
Chƣơng 2: MỘT SỐ THUẬT TOÁN TRÒ CHƠI ......................................... 14
2.1 Trò chơi ma trận .................................................................................... 14
2.2 Các chiến lƣợc trong trò chơi ma trận ................................................... 16
2.2.1 Các chiến lƣợc thuần túy trong trò chơi ma trận .......................... 16
2.2.2 Các chiến lƣợc hỗn hợp trong trò chơi ma trận ............................ 20
2.2.3 Lý thuyết trò chơi dƣới dạng qui hoạch tuyến tính ........................ 32
2.2.4 Chiến lƣợc từng bƣớc và phƣơng pháp Brown .............................. 37
KẾT LUẬN ..................................................................................................... 43
TÀI LIỆU THAM KHẢO ............................................................................... 44
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
1
LỜI CẢM ƠN
Sau một thời gian nghiên cứu tìm hiểu, em đã hoàn thành Luận văn Thạc
sỹ toán học chuyên ngành Toán ứng dụng với đề tài: “Một số thuật toán
trong lý thuyết trò chơi”.
Lời đầu tiên em xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo TS. Vũ
Mạnh Xuân đã tận tình hƣớng dẫn em trong suốt quá trình nghiên cứu và
thực hiện luận văn. Em cũng xin chân thành cảm ơn Quý thầy cô tham gia
giảng dạy,các thầy cô phòng đào tạo và cô Nguyễn Thị Thu Thủy trƣởng khoa
Toán Tin trƣờng Đại học Khoa học – Đại học Thái Nguyên đã hƣớng dẫn,
truyền đạt kiến thức, tạo mọi điều kiện giúp đỡ cho em trong suốt thời gian
theo học và thực hiện luận văn này.
Qua việc nghiên cứu và hoàn thành luận văn, em đã có thêm nhiều kiến
thức bổ ích trong chuyên môn cũng nhƣ phƣơng pháp luận nghiên cứu khoa
học. Trong khuôn khổ của một luận văn, chắc chắn chƣa đáp ứng đƣợc đầy đủ
những vấn đề đặt ra. Vì điều kiện nghiên cứu còn hạn chế, nên mặc dù đã cố
gắng rất nhiều nhƣng luận văn không tránh khỏi những thiếu sót. Em rất
mong nhận đƣợc sự đóng góp ý kiến, phê bình quý báu của các nhà khoa học,
các thầy cô và các bạn đồng nghiệp.
Một lần nữa em xin chân thành cảm ơn !
Thái Nguyên, tháng 09 năm 2014
Học viên
Phạm Thị Thu Phƣơng
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
2
MỞ ĐẦU
Lý thuyết trò chơi là một nhánh của Toán học ứng dụng. Ngành này
nghiên cứu các tình huống chiến thuật trong đó các đối thủ lựa chọn các hành
động khác nhau để cố gắng làm tối đa kết quả nhận đƣợc. Lý thuyết trò chơi
nghiên cứu các quyết định đƣợc đƣa ra trong một môi trƣờng gồm có các đối
thủ tƣơng tác với nhau và nghiên cứu cách lựa chọn hành vi tối ƣu khi chi phí
và lợi ích của mỗi lựa chọn là không cố định mà phụ thuộc vào lựa chọn của
các cá nhân khác. Mặc dù còn là lĩnh vực khá mới mẻ, song lý thuyết trò chơi
đƣợc sử dụng trong nhiều ngành khoa học, từ Sinh học, Triết học, khoa học
máy tính, kinh tế học... cho đến chính trị, quân sự và văn hóa.
Trong các trƣờng đại học, lý thuyết trò chơi mới chủ yếu đƣợc giới
thiệu sơ lƣợc với một số ngành thuộc lĩnh vực kinh tế.
Mục đích của đề tài này nhằm nghiên cứu khái quát về lý thuyết trò
chơi, một số chiến lƣợc trong trò chơi ma trận và minh họa bằng những ví dụ
cụ thể.
Kết cấu của luận văn ngoài phần mở đầu và kết luận đƣợc chia làm hai
chƣơng nhƣ sau:
Chƣơng 1: Trình bày sơ lƣợc về lý thuyết trò chơi từ sự ra đời và phát
triển cũng nhƣ các lĩnh vực ứng dụng. Một số ví dụ và các khái niệm cơ bản.
Chƣơng 2: Trình bày một số thuật toán trò chơi ma trận và minh họa
trên những ví dụ cụ thể.
Do những hạn chế về thời gian và điều kiện nghiên cứu cũng nhƣ những
khó khăn của bản thân nên luận văn chắc chắn còn nhiều khiếm khuyết.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
3
Chƣơng 1: SƠ LƢỢC VỀ LÝ THUYẾT TRÒ CHƠI
Chƣơng này trình bày về lý thuyết trò chơi và xuất xứ của nó, các bài
toán cũng nhƣ các khái niệm và ứng dụng của lý thuyết trò chơi trong thực tế.
Các kiến thức trong chƣơng đƣợc tham khảo và sử dụng trong các tài liệu:
Don Ross (2010), Games Theory.
Jim Ratliff (1997), Strategic form Games.
Fudenberg (1991), Drew and Jean Tirole: Game Theory, MIT Press.
1.1 Xuất xứ
Lý thuyết trò chơi là một nhánh của Toán học ứng dụng. Ngành này
nghiên cứu các tình huống chiến thuật trong đó các đối thủ lựa chọn các hành
động khác nhau để cố gắng làm tối đa kết quả nhận đƣợc. Việc phân tích các
tình huống cạnh tranh có hai mục tiêu. Mục tiêu thứ nhất là tìm hiểu đƣợc tại
sao các bên tham gia trò chơi trong các tình huống cạnh tranh đó lại ứng xử
nhƣ họ làm. Mục tiêu thứ hai có tính thực dụng hơn là có khả năng gợi ra cho
ngƣời chơi cách chơi cách chơi nào tốt nhất. Mục tiêu thứ nhất đặc biệt quan
trọng khi trò chơi ở mức rộng, có nhiều ngƣời chơi và có các quy tắc chơi
phức tạp. Theo đuổi mục tiêu thứ hai có thể cho phép mô tả cho từng ngƣời
chơi một chiến lƣợc tốt nhất mà ngƣời ta có thể chơi.
Những thảo luận đầu tiên đƣợc biết đến về lý thuyết trò chơi xuất hiện
trong một lá thƣ viết bởi James Waldegrave vào năm 1713. Trong lá thƣ này,
Waldegrave đƣa ra lời giải chiến thuật hỗn hợp minimax cho một trò đánh bài
hai ngƣời chơi Le Her. Chỉ đến khi sự xuất bản “Nghiên cứu về những Định
luật toán học của lý thuyết Tài sản” của Antoine Augustin Cournot vào năm
1838 thì những phân tích chung về lý thuyết trò chơi mới đƣợc theo đuổi.
Mặc dù những phân tích của Cournot là tổng quát hơn là của
Waldegrave, lý thuyết trò chơi chƣa thật sự tồn tại nhƣ là một ngành duy nhất
cho đến khi John von Neumann xuất bản một loạt các bài báo vào năm 1928.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
4
Những kết quả này sau này đƣợc mở rộng thêm ra trong cuốn sách xuất bản
năm 1944 “Lý thuyết trò chơi và các hành vi kinh tế” bởi von Neumann và
Oskar Morgenstern. Tác phẩm uyên thâm này chứa đựng phƣơng pháp tìm
những lời giải tối ƣu cho những trò chơi tổng bằng không với hai ngƣời chơi.
Trong suốt khoảng thời gian này, những tác phẩm về lý thuyết trò chơi chủ
yếu tập trung vào lý thuyết các trò chơi hợp tác, phân tích về những chiến
thuật tối ƣu cho một nhóm các cá nhân, giả sử rằng họ có thể bảo đảm những
thỏa thuận giữ họ với những chiến thuật thích hợp.
Vào năm 1950, thảo luận đầu tiên của Prisoner's dilemma xuất hiện, và
một thí nghiệm đƣợc làm về trò chơi này tại công ty RAND. Vào khoảng
cùng thời gian đó, John Nash phát triển một định nghĩa về một chiến thuật
"tối ƣu" cho các trò chơi với nhiều ngƣời chơi, và đƣợc biết đến nhƣ là cân
bằng Nash. Cân bằng này là đủ tổng quát, cho phép sự phân tích về trò chơi
không hợp tác thêm vào những trò chơi có hợp tác.
Lý thuyết trò chơi trải qua một thời gian sôi động trong những năm
1950, trong những năm đó những khái niệm về cốt lõi, dạng trò chơi bao quát,
trò chơi giả, trò chơi lặp, và giá trị Shapley đƣợc phát triển. Thêm vào đó,
những ứng dụng đầu tiên của lý thuyết trò chơi vào triết học và khoa học
chính trị diễn ra trong thời gian này.
Vào năm 1965, Reinhard Selten giới thiệu khái niệm lời giải của các
cân bằng lý tƣởng của các trò chơi con, làm chính xác thêm cân bằng Nash.
Vào năm 1967, John Harsanyi phát triển các khái niệm thông tin hoàn toàn và
trò chơi Bayesian. Ông ta, cùng với John Nash và Reinhard Selten, đoạt giải
thƣởng Nobel về kinh tế vào năm 1994.
Trong những năm 1970, lý thuyết trò chơi đƣợc áp dụng rộng rãi vào
sinh học, chủ yếu là do kết quả của các công trình của John Maynard Smith
và chiến lƣợc tiến hóa bền vững của ông. Thêm vào đó, những khái niệm về
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
5
cân bằng liên quan, sự hoàn toàn rung tay, và kiến thức chung đƣợc giới thiệu
và phân tích.
Vào năm 2005, những lý thuyết gia trò chơi Thomas Schelling và
Robert Aumann đoạt giải thƣởng Nobel về kinh tế. Schelling là về các mô
hình động, các ví dụ ban đầu của lý thuyết tiến hóa trò chơi. Aumann đóng
góp thêm vào trƣờng cân bằng (equilibrium school), phát triển một cân bằng
làm thô đi những cân bằng liên quan nhau và phát triển các phân tích chi tiết
về giả sử của kiến thức chung.
Năm 2012, hai ngƣời Mỹ là Alvin Roth và Lloyd Shapley cùng đƣợc
trao giải Nobel về kinh tế nhờ những công trình về lý thuyết phân phối ổn
định và thực tiễn tạo lập thị trƣờng, trên cơ sở sử dụng lý thuyết trò chơi và
thực nghiệm.
Ngày nay, trong cuộc sống của chúng ta có rất nhiều ví dụ liên quan đến
áp dụng lý thuyết trò chơi nhƣ:
- Chơi cờ, chơi bài, đánh bạc hoặc chơi xổ số khi nghiên cứu tần số xuất hiện
các con số.
- Thi đấu thể thao
- Chiến thuật, chiến lƣợc quân sự
- Cạnh tranh kinh tế của các doanh nghiệp với nhau hoặc chiến lƣợc sản xuất
khi nghiên cứu thị trƣờng tiêu thụ.
- Cạnh tranh với thời tiết và nói chung với thiên nhiên trong sản xuất nông
nghiệp nói riêng hay trong nền kinh tế nói chung.
- Phƣơng án vận chuyển trên các tuyến đƣờng trong tình thế khẩn cấp với thời
tiết thay đổi. vvv....
Từ đây ta có thể thấy rằng, lý thuyết trò chơi giờ đây đã đƣợc ứng dụng
rộng khắp trong tất cả các lĩnh vực từ văn hóa, chính trị, quân sự, kinh tế cho
đến nhiều ngành khác..
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
6
1.2 Một số bài toán
1.2.1 Bài toán 1
Bài toán trò chơi qua sông:
Giả sử bạn muốn đi ngang qua một con sông và ở đó có ba chiếc cầu
(Giả sử việc bơi, lội, đi thuyền đều không thể đƣợc). Chiếc cầu đầu tiên an
toàn và không có trở ngại gì. Chiếc cầu thứ hai nằm dƣới chân một mỏm đá
trên đó có những tảng đá lớn thỉnh thoảng vẫn rơi xuống. Chiếc cầu thứ ba thì
có những con rắn hổ mang rất độc sống ở đó. Giả sử bạn là ngƣời trốn chạy
và một ngƣời có một khẩu súng đang đợi bạn một bên bờ sông. Hắn ta sẽ đuổi
kịp, và bắn bạn, chúng ta giả định nhƣ vậy, nếu chỉ khi hắn ta đợi ở chiếc cầu
an toàn mà bạn cố vƣợt qua. Vấn đề đặt ra là bạn sẽ chọn cho mình chiếc cầu
nào để vƣợt qua sông?
Bài toán này bạn nhận ra rằng: bạn phải chọn lối đi nào an toàn nhất
cho mình sao cho tránh đƣợc các chƣớng ngại vật cũng nhƣ tránh đƣợc ngƣời
truy đuổi. Dƣờng nhƣ bạn đã bị rơi vào một cái bẫy tình huống không thể
quyết định đƣợc. Toàn bộ những gì an ủi bạn chỉ là: ở bờ sông bên kia ngƣời
săn đuổi bạn cũng bị mắc chính vào cái bẫy khó xử đó, không thể quyết định
đƣợc nên đợi ở cây cầu nào,vì ngay khi hắn ta hình dung phải đợi ở cây cầu
này thì hắn ta lại nhận ra rằng nếu hắn ta có thể tìm ra một lý do tốt hơn để
chọn đƣợc một cây cầu, thì bạn có thể đoán trƣớc đƣợc đúng cái lý do đó và
để rồi lại tránh hắn ta.
Vì trong trò chơi này cả ngƣời chạy trốn lẫn kẻ truy đuổi đều chỉ có
một vận động và mỗi ngƣời lựa chọn vận động của họ mà không hề biết
ngƣời kia lựa chọn vận động nào.
Ba chiến lƣợc của ngƣời chạy – qua chiếc cầu an toàn, những tảng đá
có nguy cơ bị rơi và nguy cơ gặp rắn hổ mang – tạo thành các hàng của ma
trận. Tƣơng tự nhƣ vậy ba chiến lƣợc của ngƣời săn đuổi - đợi ở chiếc cầu an
toàn, đợi ở chiếc cầu có đá rơi, và đợi ở chiếc cầu có rắn hổ mang – tạo thành
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
7
cột của ma trận. Mỗi ô của ma trận chỉ rõ hoặc sẽ chỉ rõ nếu ma trận của
chúng ta hoàn thiện – một kết quả đƣợc xác định trong khuôn khổ những
khoản được trả của ngƣời chơi. Một khoản đƣợc trả của ngƣời chơi đơn giản
là một con số đƣợc ấn định bởi hàm tiện ích thứ tự của ngƣời săn đuổi cho
hiện trạng của các sự kiện phù hợp với kết quả. Đối với mỗi kết quả, khoản
đƣợc trả của Hàng luôn luôn đƣợc kê trƣớc hết, sau đó đến khoản đƣợc trả
của Cột. Vì vậy chẳng hạn nhƣ góc trái ở trên cùng cho thấy rằng khi ngƣời
chạy trốn đi qua chiếc cầu an toàn còn ngƣời săn đuổi cũng đang chờ ở đó thì
ngƣời chạy trốn nhận đƣợc một khoản đƣợc trả bằng 0, và ngƣời săn đuổi
nhận đƣợc khoản đƣợc trả bằng 1. Chúng ta lý giải điều này bằng cách qui
chiếu vào hàm tiện ích của họ mà trong cuộc chơi này là rất đơn giản. Nếu
ngƣời chạy trốn qua sông đƣợc an toàn thì anh ta nhận đƣợc một khoản đƣợc
trả là 1; nếu không an toàn thì anh ta đƣợc 0. Nếu ngƣời chạy trốn không thực
hiện đƣợc vì anh ta bị bắn hoặc bị đá rơi vào hoặc bị rắn hổ mang tấn công thì
ngƣời săn đuổi nhận đƣợc khoản đƣợc trả là 1 và ngƣời chạy trốn là 0.
Bất cứ khi nào ngƣời săn đuổi đợi ở chiếc cầu mà ngƣời chạy trốn lựa
chọn thì ngƣời chạy trốn sẽ bị bắn. Tất cả những kết quả này tạo ra vector của
khoản đƣợc trả là (0, 1). Bạn có thể tìm ra chúng bằng cách vạch chéo xuống
qua ma trận từ góc phía trên bên trái xuống. Bất cứ khi nào mà ngƣời bỏ trốn
chọn chiếc cầu an toàn nhƣng ngƣời săn đuổi lại đợi ở chỗ khác thì ngƣời
chạy trốn qua sông đƣợc an toàn, bằng cách nhận đƣợc khoản đƣợc trả theo
vector (1, 0). Hai kết quả này đƣợc chỉ rõ trong hai ô thứ hai của hàng đầu.
Đến lúc này toàn bộ những ô còn lại đƣợc đánh dấu bằng dấu hỏi. Tại sao?
Vấn đề ở đây là nếu ngƣời bỏ trốn qua sông ở chỗ cây cầu đá rơi hoặc chỗ cây
cầu có rắn hổ mang thì anh ta đã đƣa các yếu tố tham số vào trò chơi. Trong
những trƣờng hợp này anh ta đã hứng lấy rủi ro bị giết, và vì vậy mà tạo ra
vector khoản đƣợc trả là (0,1), có nghĩa là độc lập với bất cứ cái gì ngƣời săn
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
8
đuổi làm. Vậy thì ta có thể minh họa những phân tích ở trên bởi ma trận của
trò chơi nhƣ sau:
0,1 1,0 1,0
? 0,1 ?
? ? 0,1
1.2.2 Bài toán 2
Bài toán tình thế lƣỡng nan của ngƣời tù:
Có hai ngƣời tù A và B bị bắt vì tội cƣớp của. Cảnh sát cách ly A và B
để chúng không thể liên lạc, thông đồng với nhau. Cảnh sát yêu cầu chúng
thành thật khai báo nhận tội, và đƣa ra điều kiện: Nếu anh ta nhận tội và khai
báo ngƣời kia thì sẽ chỉ bị 2 năm tù trong trƣờng hợp ngƣời kia không nhận
tội, và 5 năm tù nếu ngƣời kia cũng nhận tội. Mặt khác, nếu anh ta không
nhận tội mà ngƣời kia nhận tội thì anh ta sẽ bị 10 năm tù. Cuối cùng nếu cả
hai không nhận tội thì cả hai sẽ chỉ bị 2 năm tù.
Bài toán này có thể tóm tắt ở bảng sau:
Tù nhân A không nhận tội Tù nhân A nhận tội
Tù nhân B không nhận
tội Cả hai bị 2 năm tù
B - 10 năm tù
A - 1 năm tù
Tù nhân B nhận tội B - 1 năm tù, A - 10 năm tù Cả hai bị 5 năm tù
Ngƣời săn
Cầu an toàn Cầu có đá rơi Cầu có rắn
hổ mang
Cầu có đá rơi
Cầu có rắn
hổ mang
Kẻ chạy
trốn
Cầu an toàn
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
9
Bài toán này có hai ngƣời tham gia là A và B. Hai ngƣời bị cách ly nên
ngƣời này không biết ngƣời kia chọn điều gì (nhận tội hay không). Vì vậy
tình huống là rất khó xử, nhƣ tên gọi của bài toán.
Ta có thể thấy rằng, ở địa vị A (hoặc B) đều có thể suy nghĩ nếu nhận
tội thì có thể chỉ bị 1 năm tù khi mà B (hoặc A) không nhận tội, còn B (hoặc
A) sẽ chịu 10 năm tù; còn nếu B (hoặc A) cũng thú tội thì bị 5 năm tù. Ý nghĩ
này xuất phát từ mong muốn ích kỷ sao cho mình có thể bị tù ít nhất nên nhận
tội và đào ngũ với bạn. Trƣờng hợp đào ngũ khiến tổng thời gian tù của cả hai
sẽ là 11 năm (trong có kẻ ích kỷ chỉ chịu 1 năm), hoặc là 10 năm (nếu cả hai
cùng suy nghĩ ích kỷ nhƣ nhau) nhiều hơn là khi không nhận tội (hợp tác với
nhau) sẽ cùng bị 2 năm tù, tổng cộng chung cả hai là 4 năm. Nhƣ vậy cả A và
B đều chỉ có hai chiến lƣợc là hợp tác và đào ngũ.
Ta có thể lập ma trận thƣởng - phạt (payoff) nhƣ sau:
Hợp tác Đào ngũ
Hợp tác 2, 2 10, 1
Đào ngũ 1, 10 5, 5
Qua ma trận trên, chúng ta nhận thấy là nếu cả hai chọn chiến lƣợc hợp
tác thì tổng số thiệt hại là nhỏ nhất (2+2=4 năm tù) - ô 1.1 của ma trận trên.
Còn nếu cả hai cùng chọn chiến lƣợc đào ngũ (không hợp tác) thì tổng số thiệt
hại lên tới 10 năm tù (ô 2.2, 5+5=10). Một khi chỉ có một bên chọn chiến lƣợc
hợp tác, thì tổng số thiệt hại chung lên tới 11 năm tù (ô 1.2 và 2.1) trong đó
anh bạn phản bội hƣởng lợi chỉ bị 1 năm tù, còn ngƣời kia chịu tới 10 năm tù.
Trên đây chúng ta chỉ xét bài toán kết thúc sau một bƣớc đi. Ngƣời ta
đã mở rộng bài toán này bằng cách cho ngƣời chơi thực hiện nhiều bƣớc đi và
gọi là bài toán tình thế lƣỡng nan của tù nhân lặp lại. Ngƣời chơi cũng chỉ có
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
10
2 chiến lƣợc là hợp tác và
mỗi bƣớc đi của mình. Bài toán mở rộng này đƣợc Robert Axelrod khảo sát
bài toán này và trình bày trong tác phẩm “Sự tiến hóa của sự hợp tác” (1984)
ông đã mời nhiều nhà nghiên cứu từ khắp thế giới tạo những
. Nhiều chƣơng
trình máy tính với các chiến thuật rất khác nhau với độ phức tạp khác nhau
của thuật toán, mức độ thù địch ban đầu, và khả năng tha thứ… đƣợc gửi tới
ông. Sau một thời gian dài với nhiều ngƣời tham gia cuộc đấu này, kết quả là
những chiến thuật tham lam (đào ngũ) có kết quả thấp hơn các chiến thuật vị
tha (hợp tác). Chiến thuật tốt nhất là ăn miếng trả miếng (tit for tat) do Anatol
Rapoport xây dựng. Chiến thuật này là: bƣớc đi đầu tiên là hợp tác, sau đó chỉ
làm theo đối thủ trong các bƣớc sau, nghĩa là nếu đối thủ đào ngũ thì mình
cũng đào ngũ, còn hợp tác thì mình cũng hợp tác.
Axelrod kết luận rằng “ăn miếng trả miếng” là một chiến thuật đẹp, nó
bắt đầu bằng sự hợp tác, và chỉ đào ngũ nếu đối thủ không hợp tác (đào ngũ).
Vì có nhiều tiếp theo nên ngƣời chơi có thể phản ứng lại ngay và trừng phạt
đối thủ.
1.3 Một số khái niệm
Lý thuyết trò chơi là lý thuyết toán học mô tả và giải quyết các tình thế
đối kháng. Với mỗi “ cuộc chơi ” có thể là:
- Cuộc chơi giữa hai đối thủ ( trò chơi đôi )
- Cuộc chơi giữa n đối thủ ( trò chơi tập thể )
- Cuộc chơi có vô số đối thủ
Hơn nữa, mỗi cuộc chơi đều có thể là:
- Cuộc chơi đối kháng khi quyền lợi giữa các bên tham gia hoàn toàn trái
ngƣợc nhau, thắng lợi của mỗi ngƣời dẫn tới tổn thất của ít nhất một
ngƣời khác.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
11
- Cuộc chơi không hoàng toàn đối kháng, nếu một nhóm trong số những
ngƣời chơi có lợi ích chung ngoài lợi ích riêng.
Đƣơng nhiên là trong mỗi bƣớc đi và trong suốt quá trình chơi mỗi bên
tham gia đều có thể nhận đƣợc những tổn thất và thắng lợi nào đó. Vì vậy
trong quá trình chơi mỗi bên tham gia đều tìm cách sao cho:
- Thắng lợi về phía mình lớn nhất.
- Tổn thất về phía đối phƣơng lớn nhất ( trong trò chơi hoàn toàn đối kháng ),
hoặc tổn thất về phía mình nhỏ nhất (cả trong đối kháng và không đối kháng).
Nền kinh tế thị trƣờng có điều tiết của Nhà nƣớc là một ví dụ về mô hình
của lý thuyết trò chơi không hoàn toàn đối kháng giữa nhiều bên tham gia,
trong đó mỗi bên ngoài việc cực đại hóa lợi ích của mình còn có trách nhiệm
( tự nhiên hoặc cƣỡng chế bằng hệ thống chính sách, luật pháp, thuế khóa, trợ
giá...) nâng cao lợi ích cộng đồng.
Trong lý thuyết trò chơi ngƣời ta sử dụng một số thuật ngữ sau:
Trò chơi liên hiệp: Là trò chơi mà trong đó hành động của những ngƣời
chơi hƣớng tới cực đại hóa lợi ích (thắng lợi) của tập thể (liên hiệp), không
tính đến việc phân tích thắng lợi giữa những ngƣời tham gia.
Trò chơi không liên hiệp: Là trò chơi mà mục đích của mỗi thành viên
là thu về cho bản thân thắng lợi càng lớn càng tốt.
Với tƣ cách là ví dụ về trò chơi không liên hiệp có thể xét nền kinh tế thị
trƣờng hoàn toàn tự phát, tự điều tiết theo quan điểm kinh tế tân – cổ điển.
Chiến lƣợc của ngƣời chơi: Là một tập hợp các quy tắc, các chọn lựa
đƣợc xác định duy nhất trong hành vì của ngƣời chơi ở mỗi bƣớc chơi, phụ
thuộc vào mỗi trạng thái xảy ra trong quá trình chơi. Cũng có thể nói rằng nó
phụ thuộc vào kết quả ở mỗi bƣớc do hành vi của đối phƣơng gây ra.
Tùy thuộc vào số lƣợng các chiến lƣợc có thể mà trò chơi phân thành:
- Trò chơi hữu hạn bƣớc ( nếu chỉ có một số hữu hạn chiến lƣợc )
- Trò chơi vô hạn bƣớc.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
12
Giả sử có I ngƣời tham gia trò chơi. Gọi iT ; i = 1, I ; là tập hợp mọi chiến
lƣợc có thể có của ngƣời chơi thứ i. Khi đó quá trình chơi đƣợc thể hiện ở chỗ
ngƣời chơi thứ i chọn cho mình một chiến lƣợc i it T trong cả quá trình chơi.
Kết quả là đạt đƣợc một trạng thái s, do đó ngƣời chơi i thu đƣợc thành quả (
lợi ích ) iH (s) .
Trò chơi cũng có thể đƣợc tiến hành theo nhiều bƣớc, mà ở bƣớc j ngƣời
chơi i áp dụng chiến lƣợc ij it T . Do xảy ra trạng thái
js ở bƣớc đó mà ngƣời
chơi i thu đƣợc thành quả i jH (s ) , và lại áp dụng chiến lƣợc
i. j+1 it T ở bƣớc
(j+1). Khi đó tổng hợp thành quả của ngƣời chơi i tại mọi bƣớc cho đến khi
kết thúc quá trình chơi hoặc cho đến một bƣớc nào đó sẽ là thành quả của
ngƣời đó trong suốt quá trình chơi.
Với các ký hiệu đã cho thì trò chơi không liên hiệp là tập:
1 2 1 2; , ,..., ; , ,...,I IL I T T T H H H
Trong đó I và iT (i = 1, 2,..., I) là những tập hữu hạn hoặc vô hạn, còn
iH (i = 1, I) là hàm trên tập 1
I
i
i
T t nhận những giá trị thực. Nói cách khác, iH
là thành quả thu đƣợc của ngƣời i ( i I ) do kết quả áp dụng “đồng thời”
chiến lƣợc của mọi ngƣời chơi ở mỗi bƣớc trong cả cuộc chơi.
Trạng thái chấp nhận đƣợc: Trạng thái s trong trò chơi gọi là chấp
nhận đƣợc đối với ngƣời chơi i, nếu trong trạng thái đó ngƣời chơi i có đổi
chiến lƣợc it của mình bằng bất cứ chiến lƣợc '
it nào khác (tất nhiên '
i i it , t T )
cũng không làm tăng thêm thắng lợi bản thân.
Trạng thái cân bằng: Trạng thái s đƣợc gọi là trạng thái cân bằng, nếu
nó là trạng thái chấp nhận đƣợc đối với mọi ngƣời chơi.
Khái niệm trạng thái cân bằng trong lý thuyết trò chơi có ý nghĩa gần
tƣơng tự với điểm Pareto trong kinh tế thị trƣờng (hiệu quả Pareto xảy ra
trong một phân bố xác định tài nguyên hoặc lợi ích giữa các thành viên, mà
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
13
bất cứ một thành viên nào trong đó muốn tăng thêm lợi ích cho mình – tức là
thay đổi phân bố đã có, đều làm giảm lợi ích của ít nhất một thành viên khác).
Ở đây trạng thái cân bằng là trạng thái mà nếu thay đổi nó đi một chút cũng
đều làm giảm thẳng lợi bản thân chấp nhận đƣợc của ít nhất một ngƣời chơi.
Trong trò chơi không liên hiệp thì quá trình giải trò chơi chính là quá
trình tìm trạng thái cân bằng.
Trò chơi với tổng là hằng số: Trò chơi không liên hiệp gọi là trò chơi
với tổng là hằng số, nếu tồn tại một hằng số C sao cho:
I
i
i=1
H (s) = C (1.1)
với mọi trạng thái s S (S là tập mọi trạng thái có thể xảy ra).
Chẳng hạn, gọi I là tập hợp doanh nghiệp và C là mức thuế ấn định của
Nhà nƣớc trong một kỳ ngân sách thì ta có một trò chơi với tổng hằng, dù trò
chơi là liên hiệp hay không liên hiệp.
Trò chơi với tổng không: Là trò chơi với tổng hằng mà C=0 (ở đây ta
xét trò chơi đôi tức 2 đối thủ )
Trò chơi đôi với tổng 0 là trò chơi mà nếu ngƣời này thắng bao nhiêu thì
ngƣời kia thua bấy nhiêu trong mỗi ván chơi.
Chiến lƣợc thuần túy: Là chiến lƣợc xác định riêng biệt và ngƣời chơi
có thể chọn với xác suất bằng 1.
Nếu iT là tập hợp mọi chiến lƣợc có thể của ngƣời chơi i thì mỗi chiến
lƣợc riêng biệt trong đó là một chiến lƣợc thuần túy.
Chiến lƣợc hỗn hợp: Là chiến lƣợc trong đó kết hợp một số chiến lƣợc
thuần túy mà mỗi chiến lƣợc thuần túy này xuất hiện đƣợc sử dụng với một
tần suất ( xác suất ) nào đó.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
14
Chƣơng 2: MỘT SỐ THUẬT TOÁN TRÒ CHƠI
Chƣơng này trình bày về trò chơi ma trận và các thuật toán trong trò
chơi ma trận. Các kiến thức trong chƣơng đƣợc tham khảo và trích dẫn
trong cuốn:
Tô Cẩm Tú (1997), Một số phương pháp tối ưu hóa trong kinh
tế, NXB Khoa học và kỹ thuật.
Bierman, H. S. and L. Fernandez (1998), Game Theory with
economic applications, Addison-Wesley.
2.1 Trò chơi ma trận
Trò chơi đôi với tổng 0 gọi là trò chơi ma trận nếu mỗi ngƣời chơi đều
có một số hữu hạn chiến lƣợc thuần túy. Xét bài toán có hai ngƣời chơi, giả sử
ngƣời chơi thứ nhất có m chiến lƣợc thuần túy, còn ngƣời chơi thứ hai có n
chiến lƣợc thuần túy. Từ đó hình thức trò chơi đôi với tổng 0, trong đó có m
chiến lƣợc thuần túy của ngƣời chơi thứ nhất và n chiến lƣợc thuần túy của
ngƣời chơi thứ hai đƣợc cho bởi ma trận:
111 12
21 22 2
1 2
........
........
.......................
.......
n
n
m m mn
aa a
a a aA
a a a
Trong đó ija là biểu thị thắng lợi của ngƣời chơi thứ nhất ( tƣơng ứng đó
là tổn thất của ngƣời chơi thứ hai ), nếu ngƣời chơi thứ nhất chọn chiến lƣợc
thuần túy i, còn ngƣời chơi thứ hai chọn chiến lƣợc thuần túy j.
Ma trận A gọi là ma trận trò chơi hay ma trận thanh toán nghĩa là với kết
quả thực hiện chiến lƣợc i của ngƣời chơi thứ nhất và chiến lƣợc j của ngƣời
chơi thứ hai thì ngƣời thứ hai phải “trả” cho ngƣời thứ nhất ija .
Cũng có thể gọi A là ma trận thắng của ngƣời thứ nhất, do đó là ma trận
thua của ngƣời thứ hai.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
15
Đƣơng nhiên các thuật ngữ “thắng lợi”, “tổn thất” và “trả” ở đây chuyển
sang nghĩa thông thƣờng nhƣ sau:
- Nếu ija > 0 thì “thắng lợi” đó là thắng lợi thật của ngƣời 1, tức là đƣợc thêm
ija .
- Nếu ija < 0 thì “thắng lợi” của ngƣời 1 đồng nghĩa với ngƣời 1 phải trả cho
ngƣời 2 một lƣợng ija
Mục đích của mỗi ngƣời chơi là cực đại hóa thắng lợi của mình. Muốn
vậy, mỗi ngƣời chơi đều cần tìm xem thắng lợi đảm bảo của mỗi chiến lƣợc
(trong tập hợp mọi chiến lƣợc có thể có của mình) bằng bao nhiêu, do đó áp
dụng chiến lƣợc nào thì thắng lợi đảm bảo lớn nhất.
Vì vậy nội dung đặt ra của bài toán trò chơi là tìm trạng thái cân bằng.
Nếu một đối thủ áp dụng chiến lƣợc nhằm đạt trạng thái cân bằng, mà đối thủ
kia áp dụng chiến lƣợc không nhằm đạt trạng thái đó thì tổn thất của ngƣời
sau sẽ tăng lên.
Trong một số trƣờng hợp trò chơi đôi với tổng hằng số C 0 vẫn có thể
là trò chơi ma trận. Chẳng hạn trò chơi với quy ƣớc:
- Ngƣời chơi thứ nhất phải nộp C nếu ija > 0 khi ngƣời thứ nhất dụng
chiến lƣợc i còn ngƣời thứ hai sử dụng chiến lƣợc j (thông thƣờng phải có ija
> C).
- Ngƣời thứ hai phải nộp C nếu ija < 0
Nhƣ vậy nếu ija > 0 thì ngƣời thứ hai phải thanh toán
ija nhƣng ngƣời
thứ nhất chỉ đƣợc hƣởng ija - C, còn nếu ija < 0 thì ngƣời thứ nhất tổn thất
ij a và ngƣời thứ hai đƣợc lợi ija C .
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
16
2.2 Các chiến lƣợc trong trò chơi ma trận
2.2.1 Các chiến lƣợc thuần túy trong trò chơi ma trận
- Chiến lược maximin của người chơi thứ nhất
Thắng lợi đảm bảo (thắng lợi thấp nhất ) của ngƣời chơi thứ nhất khi
chọn chiến lƣợc i là:
ijmini a
1 j n
Ngƣời chơi thứ nhất, nếu không “mạo hiểm”, cần tìm trong các chiến
lƣợc có thể có của mình chiến lƣợc nào mà thắng lợi đảm bảo lớn nhất.
Đại lƣợng:
ij11 1
max max minii mi m j n
v a gọi là giá dƣới của trò chơi
Chiến lƣợc thuần túy 0i mà với nó:
01
maxi ii m
v
gọi là chiến lƣợc maximin của ngƣời chơi thứ nhất.
- Chiến lược minimax của người chơi thứ hai
Đối lại với chiến lƣợc của ngƣời chơi thứ nhất (tìm chiến lƣợc cực đại
hóa thắng lợi thấp nhất ) ngƣời chơi thứ hai trƣớc hết tìm xem nếu sử dụng
chiến lƣợc j; j =1,n ; thì tổn thất lớn nhất bằng bao nhiêu, nếu ngƣời thứ nhất
có thể dùng bất cứ chiến lƣợc nào trong m chiến lƣợc có thể có, tức là tìm:
ij
1
maxj
i m
a
Hợp lý nhất là ngƣời thứ hai áp dụng chiến lƣợc nhằm cực tiểu hóa tổn
thất lớn nhất của mình (tƣơng ứng với thắng lợi nhất của đối phƣơng), tức là
trong mọi chiến lƣợc 1,j n , tìm chiến lƣợc 0j mà:
0 ij
1 11
min min maxj j
j n i mj n
v a
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
17
Đại lƣợng 0j
v gọi là giá trên của trò chơi
Chiến lƣợc thuần túy 0j mà nhờ nó đạt đƣợc v gọi là chiến lƣợc minimax của
ngƣời chơi thứ hai.
Nếu v v v thì trò chơi có điểm yên ngựa trong các chiến lƣợc thuần
túy, và số v đƣợc gọi là giá hay giá trị của trò chơi.
Nhƣ vậy, trò chơi ma trận có điểm yên ngựa trong các chiến lƣợc thuần
túy khi và chỉ khi tồn tại phần tử 0 0i ja vừa là số nhỏ nhất trong dòng 0i vừa là
số lớn nhất trong cột 0j , tức là:
0 0 0 0ij i j i ja a a (*)
Mọi cặp 0 0(i , j ) tức là mọi ô 0 0(i , j ) trong ma trận có tính chất (*) đƣợc gọi
là các điểm yên ngựa.
Ví dụ: Ta xét bài toán thực tiễn trong nông nghiệp nhƣ sau:
Ở một vùng nào đó có thể trồng ba giống cây 1A , 2A , 3A ; mà năng suất
bình quân của mỗi giống đều phụ thuộc vào thời tiết (chẳng hạn khô hạn, bình
thƣờng và mƣa nhiều). Cần xác định xem phƣơng thức gieo trồng nào cho giá
trị tổng sản lƣợng đảm bảo lớn nhất, biết rằng đơn giá 1 tấn sản phẩm iA là
ip ; i 1,3
Ta có thể đƣa ra mô hình toán học của bài toán nhƣ sau:
Với ngƣời nông dân ( ngƣời chơi thứ nhất ) có ba chiến lƣợc thuần túy là
1A , 2A và 3A . Đối thủ của ngƣời nông dân là thời tiết ( ngƣời chơi thứ hai )
cũng có ba chiến lƣợc thuần túy: khô hạn, bình thƣờng, mƣa nhiều.
Gọi ijt là năng suất cây trồng i với điều kiện thời tiết j; i, j = 1,2,3, với tƣ
cách là thắng lợi của ngƣời chơi thứ nhất ta lấy giá trị sản lƣợng trên 1 đơn vị
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
18
diện tích của ngƣời nông dân khi thu hoạch, thì ma trận trò chơi (ma trận hàm
thu nhập của ngƣời nông dân) là:
1 11 1 12 1 13
2 21 2 22 2 23
3 31 3 32 3 33
p t p t p t
A = p t p t p t
p t p t p t
Bài toán thực tiễn trong thƣơng nghiệp:
Một nhu yếu phẩm có n kiểu mẫu mã. Bài toán đặt ra với một cửa hàng
thƣơng nghiệp là nhập kiểu nào thì hợp lý nhất theo nghĩa sau: nếu hàng hóa
kiểu j; j =1,n ; đƣợc tiêu thụ thì cửa hàng bán nó đƣợc lại jp ; nếu không bán
đƣợc thì cửa hàng tổn thất jq do chi phí bảo quản và tiền mua buôn (ở đây để
đơn giản ta chỉ xét trên một đơn vị nhu yếu phẩm)
Mô hình toán học của bài toán:
Trong điều kiện nhu cầu và thị hiếu của ngƣời tiêu dùng không đƣợc xác
định thì cuộc đụng độ giữa các kiểu hàng nhập vào cửa hàng tạo thành một trò
chơi mà ngƣời chơi thứ nhất là cửa hàng và ngƣời chơi thứ hai là thị hiếu
khách hàng.
Mỗi ngƣời chơi đều có n chiến lƣợc thuần túy;
- Chiến lƣợc i của ngƣời chơi thứ nhất là nhập hàng kiểu i; i =1,n .
- Chiến lƣợc j của ngƣời chơi thứ hai (thị trƣờng) là tiêu thụ hàng hóa
kiểu j; j =1,n .
Ma trận thắng lợi của cửa hàng là:
1 1 1
2 2 2
..........
..........
.....................................
..........n n n
p q q
q p qA
q q p
Từ bài toán tổng quát trên ta xét ma trận sau:
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
19
5 1 4 3 2
6 3 5 0 4
7 2 6 4 5
A
Có điểm yên ngựa là ô (1,2) tại đó;
-1 = min (5, -1, 4, 3, 2) = max (-1, -3, -2)
Nhƣ đã nói, quá trình giải trò chơi chính là quá trình tìm trạng thái cân
bằng. Trong trƣờng hợp ma trận trò chơi A có điểm yên ngựa, thì rõ ràng rằng
điểm đó cho trạng thái cân bằng (ngƣời thứ nhất không thể đƣợc lợi hơn và
ngƣời thứ hai không bị thiệt nhiều hơn). Vì vậy ta có mệnh đề sau:
Mệnh đề: Nếu ma trận A có điểm yên ngựa trong các chiến lƣợc thuần
túy thì quá trình giải trò chơi là quá trình tìm điểm yên ngựa của A.
Chiến lƣợc tối ƣu của ngƣời chơi đƣợc xác định bởi tọa độ 0 0(i , j ) của
điểm yên ngựa của A, còn giá trị của cuộc chơi bằng giá trị 0 0i ja tại điểm
yên ngựa.
Ta xét bài toán sau:
Input: Cho ma trận trò chơi sau:
5 4 1 3 1
A= 1 5 6 4 2
3 2 2 3 5
Out put: Hãy tìm chiến lƣợc tối ƣu của mỗi ngƣời và giá của cuộc chơi.
Thuật toán giải:
1 min(5,4, 1,3,1) 1
2 min(1,5, 6, 4,2) 6
3 min(3,2, 2, 3,5) 3
1 2 3max( , , ) max( 1, 6, 3) 1v
1 max(5,1,3) 5
2 max(4,5,2) 5
3 max( 1, 6, 2) 1
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
20
4 max(3, 4, 3) 3
5 max(1,2,5) 5
1 2 3 4 5min( , , , , ) min(5,5, 1,3,5) 1v
Ma trận A có điểm yên ngựa trong các chiến lƣợc thuần túy, đó là ô
(1,3); tại đó 1v v
Đánh giá kết quả: Chiến lƣợc tối ƣu của ngƣời chơi thứ nhất là chiến lƣợc 1,
và của ngƣời thứ hai là chiến lƣợc 3, với nó thắng lợi đảm bảo của ngƣời thứ
nhất là -1 (ngƣời thứ nhất thua 1 và ngƣời thứ hai đƣợc 1).
Nhìn trên ma trận A ra thấy rõ ràng rằng nếu ngƣời thứ nhất áp dụng
chiến lƣợc 1 thì sẽ thắng :
5 nếu ngƣời thứ hai áp dụng chiến lƣợc 1
4 nếu ngƣời thứ hai áp dụng chiến lƣợc 2
-1 (thua 1) nếu ngƣời thứ hai áp dụng chiến lƣợc 3
3 nếu ngƣời thứ hai áp dụng chiến lƣợc 4
1 nếu ngƣời thứ hai áp dụng chiến lƣợc 5
2.2.2 Các chiến lƣợc hỗn hợp trong trò chơi ma trận
Xét trò chơi có ma trận là:
11 12 1
21 22 2
1 2
....
....A
.............................
....
n
n
mn
m m mn
a a a
a a a
a a a
Ký hiệu: 1 2p (p ,p ,..., p )m ;1
1m
i
i
p , p 0i là vectơ m chiều mà p i
( 1,i m ) là xác suất (tần suất) để ngƣời chơi thứ nhất chọn chiến lƣợc i.
và 1 2q (q ,q ,...,q )n ; 1
1n
j
j
q ; 0jq là vectơ n chiều, trong đó q j là xác
suất (tần suất) để ngƣời chơi thứ hai chọn chiến lƣợc j ; 1,j n
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
21
Các vectơ p và q lần lƣợt đƣợc gọi là chiến lƣợc hỗn hợp của ngƣời chơi
thứ nhất và ngƣời chơi thứ hai.
Nhƣ vậy mỗi ngƣời đều có một tập các chiến lƣợc hỗn hợp.
Gọi iT là tập các chiến lƣợc hỗ hợp của ngƣời chơi thứ i, i=1,2 thì
- Bài toán của ngƣời chơi thứ nhất là chọn chiến lƣợc * * * *
1 2 1p (p ,p ,...,p ) Tm sao
cho cực đại hóa lợi ích của mình khi không có thông tin về việc chọn chiến
lƣợc của ngƣời thứ hai.
- Bài toán của ngƣời chơi thứ hai là chọn chiến lƣợc * * * *
1 2 2q (q ,q ,...,q ) Tn sao
cho cực tiểu hóa thắng lợi của ngƣời thứ nhất khi không có thông tin về hành
vi của ngƣời đó.
Thắng lợi trung bình của ngƣời chơi thứ nhất
Nếu ngƣời thứ nhất chọn chiến lƣợc 1 2p (p ,p ,..., p )m , còn ngƣời thứ hai
chọn chiến lƣợc 1 2q (q ,q ,...,q )n thì thắng lợi trung bình của ngƣời nhất, ký
hiệu M(p,q) bằng:
ij i j
1 1
M(p,q) a p qm n
i j
Thắng lợi M(p,q) gọi là hàm của cuộc chơi.
Ví dụ 1: Trong bài toán với ma trận:
5 3 1 4A
3 1 5 3
Ngƣời chơi thứ nhất có hai chiến lƣợc thuần túy:
(1)p = (1,0) : chỉ sử dụng chiến lƣợc 1
(2)p = (0,1) : chỉ sử dụng chiến lƣợc 2
Và một tập vô hạn các chiến lƣợc hỗn hợp, chẳng hạn:
(3) 1 9p = ,
10 19 cứ 10 lần chơi thì 1 lần sử dụng chiến lƣợc 1 và 9 lần sử
dụng chiến lƣợc 2
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
22
(4) 2 8p = ,
10 10 : tần suất sử dụng chiến lƣợc 1 bằng 0,2 tức là mọi tập:
1 2 1 2 1 2p = (p ,p ) : p 0,p 0,p + p = 1
Ngƣời chơi thứ hai có bốn chiến lƣợc thuần túy
(1)q = (1,0,0,0) : chỉ dùng chiến lƣợc 1
(2)q = (0,1,0,0) : chỉ dùng chiến lƣợc 2
(3)q = (0,0,1,0) : chỉ dùng chiến lƣợc 3
(4)q = (0,0,0,1) : chỉ dùng chiến lƣợc 4
và một tập vô hạn chiến lƣợc hỗn hợp:
4
1 2 3 4 j j
j=1
q = q ,q ,q ,q ;q 0; j =1,4; q =1 chẳng hạn chiến lƣợc:
1 2 2 3q = , , ,
8 8 8 8
Nếu chẳng hạn, ngƣời thứ nhất sử dụng chiến lƣợc:
1 2p = ,
3 3
và ngƣời thứ hai sử dụng chiến lƣợc:
1 4 2 3q = , , ,
10 10 10 10
thì thắng lợi trung bình của ngƣời thứ nhất là:
1 1 1 4 1 2 1 3 2 1 2 4 2 2 2 3 17(p,q) 5. . 3. . 1. . 4. . 3. . 1. . 5. 3. .
3 10 3 10 3 10 3 10 3 10 3 10 3 10 3 10 30M
Nói cách khác, với chiến lƣợc đã sử dụng của ngƣời thứ nhất và chiến
lƣợc tƣơng ứng của ngƣời thứ hai thì ngƣời thứ nhất tổn thất trung bình 17
30 .
Ví dụ 2: Một cơ sở sản xuất chính phẩm và phụ phẩm lấy từ những phần thừa
của nguyên liệu sản xuất chính phẩm với dự kiến rằng có 4 mức tiêu thụ, mà
các số ghi ở bảng sau là lãi thu đƣợc của chính phẩm và phụ phẩm ở mỗi mức
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
23
Mức tiêu thụ
1 2 3 4
Chính phẩm
Phụ phẩm
2
5
3
-4
-1
3
4
-5
Nếu các mức tiêu thụ đều có khả năng nhƣ nhau thì chiến lƣợc sản xuất
của cơ sở nhƣ thế nào là tối ƣu?
Giải: Chiến lƣợc sản xuất là (p, 1-p), còn chiến lƣợc tiêu thụ, nhƣ đầu bài
đã ra là 1 1 1 1
, , ,4 4 4 4
vậy:
1 1 1 1 1 1 1 1 1M(p,q) = 2p. +3p. p. + 4p. 5(1 p) 4(1 p) 3(1 p) 5(1 p) (9p 1)
4 4 4 4 4 4 4 4 4
2 max,p 1
(p,q) 1min,p 0
4
M
Nhƣ vậy, nếu khả năng tiêu thụ ở các mức là nhƣ nhau thì cơ sở chỉ nên
sản xuất chính phẩm, và lãi trung bình bằng 2.
* Điểm yên ngựa trong chiến lƣợc hỗn hợp
Cặp chiến lƣợc hỗn hợp * *p ,q gọi là điểm yên ngựa của hàm M(p,q)
nếu:
* * * *M(p,q ) M(p ,q ) M(p ,q) tức là khi ngƣời thứ hai đã áp dụng chiến
lƣợc *q thì ngƣời chơi thứ nhất áp dụng bất cứ chiến lƣợc nào cũng không
làm cho thắng lợi trung bình của mình vƣợt quá * *M(p ,q ) ; và khi ngƣời thứ
nhất áp dụng chiến lƣợc *p thì dù ngƣời thứ hai áp dụng bất cứ chiến lƣợc nào
cũng không làm cho thắng lợi trung bình của ngƣời thứ nhất thấp hơn
* *M(p ,q ) .
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
24
Trò chơi ma trận với tổng 0 có điểm yên ngựa tại các chiến lƣợc hỗn
hợp, tức là tồn tại cặp chiến lƣợc * *(p ,q ) sao cho biểu thức
* * * *M(p,q ) M(p ,q ) M(p ,q) thỏa mãn.
“Thắng lợi” đảm bảo của ngƣời chơi thứ nhất khi sử dụng chiến lƣợc p
là:
2q Tv(p) = minM(p,q) trong đó:
n
2 1 2 n j j
j=1
T = q = q ,q ,...q ;q 0; q =1
Chiến lƣợc *p mà với nó thắng lợi đảm bảo của ngƣời chơi thứ nhất đạt
cực đại gọi là chiến lƣợc tối ƣu của ngƣời thứ nhất. Giá trị của thắng lợi đó là:
1 1 2
*
p T p T q T
v(p ) = max v(p) = max min M(p,q)
trong đó:
m
1 1 2 m i i
i=1
T = p = (p ,p ,..., p );p 0; p =1
“Thất bại” đảm bảo của ngƣời chơi thứ hai khi sử dụng chiến lƣợc q là:
1p T
u(q) = max M(p,q)
Chiến lƣợc *q mà với nó thất bại đảm bảo của ngƣời chơi thứ hai đạt cực
tiểu gọi là chiến lƣợc tối ƣu của ngƣời thứ hai. Giá của thất bại đó là:
2 2 1
*
q T q T p T
u(q ) = min u(q) = min max M(p,q)
Nếu cả hai ngƣời đều chọn chiến lƣợc tối ƣu cho mình thì:
* * *(p ) u(q ) vv
Giá trị *v gọi là giá của cuộc chơi, và cặp chiến lƣợc * *(p ,q ) - điểm yên
ngựa – là chiến lƣợc tối ƣu của cả hai đối thủ.
Mệnh đề: Nếu ma trận A có 2 dòng và n cột, hoặc có m dòng và 2 cột thì
có thể tìm điểm yên ngựa * *(p ,q ) - cặp chiến lƣợc tối ƣu – bằng phƣơng pháp
đồ thị.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
25
Để đơn giản ta trình bày phƣơng pháp đồ thị dƣới dạng một số bài
toán sau:
Bài toán 1:
Input: Cho ma trận trò chơi: 3 2 1
A =2 5 3
Out put: Tìm chiến lƣợc tối ƣu của các ngƣời chơi và giá trò chơi.
Thuật toán giải: Đây là ma trận 2 dòng (2 chiến lƣợc của ngƣời thứ nhất ) và
3 cột ( 3 chiến lƣợc của ngƣời chơi thứ hai) nêm các bƣớc giải nhƣ sau:
1. Trong mặt phẳng (op,ov) ta xây dựng các đƣờng thẳng:
j 1j 2 jv = a p+a (1- p)
Đó là các đƣờng thắng lợi trung bình mong đợi của ngƣời chơi thứ nhất
khi sử dụng chiến lƣợc thứ nhất với xác suất (tần suất, tỉ lệ) p (tất nhiên sự
kiện đó dẫn tới sử dụng chiến lƣợc 2 với xác suất (1-p)), còn ngƣời thứ hai sử
dụng chiến lƣợc j.
2. Vẽ mọi đƣờng thẳng đó lên đồ thị và tìm giao điểm các đƣờng thẳng ta
xác định đƣợc j1min v
j n trong mỗi khoảng giá trị của p. Các j
1min v
j n là các đoạn
thẳng nối các giao điểm đó, tạo thành một đƣờng gấp khúc có các đỉnh và
j1
max min vj n
đạt đƣợc hoặc tại một trong các đỉnh đó, hoặc tại p=0 hoặc p=1.
Cực đại đó chính là giá của cuộc chơi, còn (p,1-p) là chiến lƣợc tối ƣu
của ngƣời chơi thứ nhất.
3. Để tìm chiến lƣợc tối ƣu của ngƣời chơi thứ hai ta giải hệ phƣơng
trình:
n
1j j j1j=1
a q = max min vj n
n
2 j j j1j=1
a q = max min vj n
n
j
j=1
q =1
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
26
Cụ thể với bài toán này ta có hệ phƣơng trình:
1v = 3p+ 2(1- p) = p+ 2
2v = -2p+ 5(1- p) = -7 p+ 5
3v = p+ 3(1- p) = -2p+ 3
1 2v = v : p+ 2 = -7 p+ 5 khi 3
p =8
1 3v = v : p+ 2 = -2p+ 3 khi 1
p =3
2 3v = v : -7 p+ 5 = -2 p+ 3 khi 2
p =5
Hình 1: Đƣờng ABCD là đƣờng đạt j1 3min v
j
Điểm B (1
3p ) thỏa mãn j
1 3max min v (p)
j
7
3 1 3d
Đƣờng đậm nét là đƣờng j1 3min v
j, cụ thể:
v
A
1v
3v
2v
C B
D 1 p O
2
3
5
1
3
3
8
2
5
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
27
1
j 31 3
2
1v 0
3
1 2min v v
3 5
2v 1
5
j
p
p
p
j1 3
7max min v
3j
đạt tại 1
p3
Vậy giá của cuộc chơi là * 7v
3 ứng với chiến lƣợc tối ƣu của ngƣời thứ nhất
là 1 2
,3 3
.
Để tìm chiến lƣợc tối ƣu của ngƣời thứ hai ta giải hệ phƣơng trình:
1 2 1 2
1 2 1 2
73q 2q 1(1 q q )
3
72q 5q 3(1 q q )
3
Hay 1 2
1 2
42q 3q
3
2q 2q
3
Giải ra ta đƣợc 1
2q =
3 , 2q = 0 ,
3
1q
3
Đánh giá kết quả: Nhƣ vậy chiến lƣợc tối ƣu của ngƣời thứ hai là 2 1
,0,3 3
Ngoài ra ta có thể không cần vẽ đồ thị mà chỉ cần tính:
1 3
1 1 7v = v =
3 3 3 ,
2
1 8v
3 3 ,
j
1 7min v
3 3
1 3
3 3 19v = v =
8 8 8 , 3
3 9v =
8 4 , j
3 9min v
8 4
2 3
2 2 11v = v =
5 5 5 ,
1
2 12v =
5 5 ,
j
2 11min v
5 5
1v (0) = 2 , 2v (0) = 5 , 3v (0) = 3 , jmin v 0 2
1v (1) = 3 , 2v (1) = 2 , 3v (1) = 1 , jmin v 1 2
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
28
Vậy j
1 3
7max min v (p)
3j
đạt tại 1
p3
Bài toán 2:
Input: cho ma trận: 2 3 3 2
A1 4 2 3
Out put: Tìm chiến lƣợc tối ƣu của ngƣời chơi và giá trò chơi
Thuật toán giải:
Đặt chiến lƣợc của ngƣời chơi thứ nhất là (p,1-p) thì:
1v 2p 1(1 p) 3p 1
2v 3p 4(1 p) 7 p 4
3v 3p 2(1 p) 5p 2
4v 2p 3(1 p) 5p 3
Các đƣờng thẳng này cắt nhau tại một điểm duy nhất:
1 2 3 4
1v v v v
2 khi
1p
2
Với 1
0 p2
thì 1 2 3 4 3
1min(v , v , v , v ) v
2
Với 1
p 12
thì 1 2 3 4 2
1min(v , v , v , v ) v
2
Do đó: * 1v
2 là giá cuộc chơi và chiến lƣợc tối ƣu của ngƣời chơi thứ nhất là
1 1,
2 2
Gọi chiến lƣợc tối ƣu của ngƣời chơi thứ hai là 1 2 3 1 2 3q q ,q ,q ,1 q q q
thì q phải thỏa mãn: 1 3 3 1 2 3
12q -3q +3q - 2(1-q -q -q ) =
2
1 2 3 1 2 3
1q 4q 2q 3(1 q q q )
2
Hay 1 2 3
54q q 5q
2
1 2 3
54q q 5q
2
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
29
Đây là hệ phƣơng trình vô định, do đó có vô số chiến lƣợc tối ƣu của
ngƣời thứ hai, chẳng hạn: 13 1 5
q , ,0,20 10 20
27 2 15q , ,0,
40 10 40
..........................
Các chiến lƣợc thừa (vô ích, vô tác dụng)
Chiến lƣợc 0i đối với ngƣời chơi thứ nhất đƣợc gọi là chiến lƣợc vô tác
dụng nếu:
- Tồn tại chiến lƣợc 1i của ngƣời đó sao cho: 1 0i j i ja a với mọi j =1,n
- Hoặc nếu tồn tại tổ hợp: 0
0
j ij i ja ai i
với mọi j =1,n
trong đó 0i ; 0i i ;0
1i
i i
Tƣơng tự, chiến lƣợc 0j của ngƣời chơi thứ hai gọi là chiến lƣợc thừa
nếu:
- Tồn tại chiến lƣợc 1j sao cho: 1 0ij ija a với mọi i =1,n
- Hoặc nếu tồn tại tổ hợp: 0
0
j ij ija aj j
với mọi i = 1,m
trong đó 0j; 0j j ;
0
1j
j j
Thông thƣờng có thể đơn giản hóa quá trình giải bài toán trò chơi dạng
ma trận bằng cách loại khỏi ma trận những chiến lƣợc thừa vì ngƣời ta chƣng
minh đƣợc rằng trong chiến lƣợc hỗn hợp: 01 2p (p ,p ,.....,p ,....,p )i m của ngƣời
chơi thứ nhất nếu 0i là chiến lƣợc thừa thì sẽ có 0i
p 0 .
Một cách tƣơng tự, nếu 0j là chiến lƣợc thừa của ngƣời chơi thứ hai thì
trong chiến lƣợc hỗn hợp: 01 2q (q ,q ,....,q ,....,q )j n sẽ có
0jq 0
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
30
Bài toán 3:
Input: Cho ma trận trò chơi:
2 3 1 5 7 4
3 4 6 2 9 1
1 2 4 9 3 10
A
Out put: Tìm chiến lƣợc tối ƣu của các ngƣời chơi và giá của trò chơi
Thuật toán giải:
Không có lời giải trong các chiến lƣợc thuần túy, vì:
ij1 3 1 6
v max min max 1, 1,1 1i j
a
ij1 6 1 3
v min max min 3,4,6,9,9,10 3j i
a
Nhƣ vậy v v
Do đó ta tìm đƣợc lời giải trong các chiến lƣợc hỗn hợp. Trƣớc hết ta loại bỏ
các chiến lƣợc thừa:
- So sánh cột 1 và cột 2 ta thấy 2 < 3, 3 < 4, 1 < 2 tức là i1 i2a < a với mọi
i =1,3 . Vậy bỏ cột 2 vì đó là chiến lƣợc thừa của ngƣời 2.
- Vì i1 i5a < a với mọi i =1,3 nên bỏ cột 5 (vì đó cũng là chiến lƣợc thừa
của ngƣời 2).
- Trong ma trận còn lại:
2 1 5 4
3 6 2 1
1 4 9 10
Vì dòng thứ nhất nhỏ hơn ( 1
2 dòng thứ hai +
1
2 dòng thứ ba ) cụ thể:
12 (3 1)
2 ,
11 (6 4)
2 ,
15 (2 9)
2 ,
14 ( 1 10)
2 nên ta loại bỏ dòng 1,
chỉ còn lại ma trận: 3 6 2 1
A1 4 9 10
Nhƣng trong đó vẫn còn cột thứ hai lớn hơn cột thứ nhất ( 6 > 3, 4 > 1),
nên sau khi loại cột thứ hai ta còn ma trận: 3 2 1
A1 9 10
Với ma trận này có thể giải bằng phƣơng pháp đồ thị. Ta có:
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
31
1v 3p (1 p) 2p 1
2v 2p 9(1 p) 7 p 9
3v p 10(1 p) 11p 10
1 2v = v : 2p 1 7p 9 khi 8
p9
tại đó 1 2
25v = v
9,
3
2v =
9
1 3v = v : 2p 1 11p 10 khi 9
p13
tại đó 1 3
31v = v
13,
2
54v =
13
2 3v = v : 7p 9 11p 10khi 1
p4
tại đó 2 3
29v = v
4,
1
3v =
2
Trên bảng sau với giá trị tăng dần của p:
P 1v 2v 3v
0
1 4
9 13
8 9
1
1
6 4
31 13
25 9
3
9
29 4
54 13
25 9
2
10
29 4
31 13
2 9
1
Ta có: với 9
0 p13
thì 1 1 2 3v min(v , v , v ) và 1 1
9 31max v v
13 13
Với 9
p 113
thì 3 1 2 3v min(v , v , v ) và 3 3
9 31max v v
13 13
Vậy giá cuộc chơi là: j
0 1 1 3
31max min v
13p j
đạt tại 9
p13
Chiến lƣợc tối ƣu của ngƣời thứ nhất :
- Theo ma trận A là 9 4
,13 13
- Theo ma trận A là 9 4
0, ,13 13
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
32
Để tìm chiến lƣợc tối ƣu của ngƣời thứ hai ta giải hệ:
1 2 1 2
1 2 1 2
313q + 2q (1 q q )
13
31q + 9q 10(1 q q )
13
Giải ra ta đƣợc 1
253q
299 , 2q = 0 ,
3
46q
299
Nhƣ vậy chiến lƣợc tối ƣu của ngƣời thứ hai:
- Theo ma trận A là 253 46
,0,299 299
- Theo ma trận ban đầu A là 253 46
,0,0,0,0,299 299
2.2.3 Lý thuyết trò chơi dƣới dạng qui hoạch tuyến tính
Nếu bài toán lý thuyết trò chơi dƣới dạng ma trận không có lời giải theo
các chiến lƣợc thuần túy và không giải đƣợc bằng phƣơng pháp đồ thị thì để
tìm lời giải thích chính xác của trò chơi ngƣời ta sử dụng phƣơng pháp qui
hoạch tuyến tính.
Gọi: j ij i
1
v a pm
i
; ip 0 ; i
1
p 1m
i
Là thắng lợi đảm bảo trong chiến lƣợc hỗn hợp 1 2(p , p ,..., p )m của ngƣời
chơi thứ nhất, khi ngƣời chơi thứ hai sử dụng chiến lƣợc j ; j 1,n và gọi:
1 2 ij i1
1
v min(v , v ,..., v ) min a p 1m
nj n
i
Thì chiến lƣợc maximin của ngƣời chơi thứ nhất là tìm 1 2(p , p ,..., p )m nhằm
đạt max v
Gọi: i ij j
1
u a qn
j
; jq 0 ; j
1
q 1n
j
Là thất bại đảm bảo với chiến lƣợc 1 2(q ,q ,...,q )n của ngƣời chơi thứ hai,
khi ngƣời chơi thứ nhất sử dụng chiến lƣợc i ; i 1,m và gọi:
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
33
1 2 ij j1
1
u max(u ,u ,..., u ) max a qn
mi m
j
tức là ij j
1
u a qn
j
với mọi i 1,m thì chiến
lƣợc minimax của ngƣời chơi thứ hai là tìm vectơ 1 2(q ,q ,...,q )n nhằm đạt min
u.
Bài toán cực đại hóa thắng lợi đảm bảo của ngƣời chơi thứ nhất và bài
toán cực tiểu hóa thất bại đảm bảo của ngƣời chơi thứ hai dẫn tới cặp bài toán
đối ngẫu sau đây của qui hoạch tuyến tính.
Với ngƣời thứ nhất Với ngƣời thứ hai
F = v max G = u min
ij i
1
a p vm
i
; j =1,n ij j
1
a q un
j
; i 1,m
i
1
p 1m
i
j
1
q 1n
j
ip 0 ; i 1,m jq 0 ; j =1,n
- Nếu ija 0 với mọi i 1,m và j =1,n thì bằng cách đổi biến:
ii
px =
v ; i 1,m và j
j
qy =
u ; j = 1,n
Quá trình giải bài toán sẽ trở nên đơn giản hơn. Vì
i i
1 1
1 1x = p
v v
m m
i i
; j j
1 1
1 1y = q
u u
n n
j j
ij i ij i
1 1
a p v a xm m
i i
; ij j ij j
1 1
a q u a yn n
j j
Nên cặp bài toán trên trở thành cặp đối ngẫu sau:
i
1
1f x min min
v
m
i
j
1
1g y max max
u
n
j
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
34
ij i
1
a x 1m
i
; j =1,n ij j
1
a y 1n
j
; i 1,m
ix 0 ; i 1,m jy 0 ; j =1,n
(Vì ija 0 với mọi i và j nên v 0 và u 0 , do đó ix 0 ( i 1,m ) và
jy 0 ( j =1,n )).
- Chiến lƣợc tối ƣu của cả hai ngƣời chơi đều không đổi nếu mọi phần tử ija
của ma trận trò chơi A đều ƣợc công thêm một hằng số C. Giá của trò chơi
trong trƣờng hợp đó tăng thêm một lƣợng C, tức là bằng v + C hay u + C.
Nhƣ vậy nếu trong ma trận A có những ija 0 thì bằng cách lấy:
ij
ija 0
c max a ta đƣa đƣợc ma trận ijA = a về ma trận ijA = a + c trong đó mọi
phần tử đều không âm, do đó áp dụng đƣợc phép đổi biến nhƣ đã nêu ở phần
trên.
Bằng cách giải theo thuật toán đơn hình bài toán dạng chuẩn tắc tức là:
'
j
1
1g g y
u
n
j
thì khi mọi số kiểm tra 0j ta đƣợc phƣơng án tối ƣu
* * *
1 2(y , y ,..., y )n của bài toán g, và do tính chất đối ngẫu ta cũng đƣợc phƣơng án
tối ƣu * * *
1 2(x ,x ,..., x )m của bài toán f nằm trong dòng các số kiểm tra, tất nhiên
lấy dấu ngƣợc lại.
Giá của trò chơi là u – c (nếu cộng thêm vào mỗi phần tử ija của A một
lƣợng c), trong đó '
1u
ming
Trở về công thức đổi biến, chiến lƣợc tối ƣu:
- Của ngƣời thứ nhất là: *
ip uxi ; i 1,m
- Của ngƣời thứ hai là: *
j jq = uy ; j = 1,n
Ví dụ: Hãy tìm chiến lƣợc tối ƣu cho mỗi bên chơi cho biết
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
35
4 2 7 0
2 1 4 1
1 0 1 2
A
Giải: max( 2, 2, 1) 1v
v min(4,1,7,2) 1
Ma trận A không có điểm yên ngựa. Mặt khác không áp dụng đƣợc
phƣơng pháp đồ thị, vì trong A không có chiến lƣợc thừa để đƣa về 2 dòng
n cột hoặc m dòng 2 cột. Do đó ta giải bằng qui hoạch tuyến tính.
Trong ma trận A ta có: ij
ija 0min a 2 vì vậy đặt c = 2 ta đƣợc
4 2 2 2 7 2 0 2 6 0 9 2
A 2 2 1 2 4 2 1 2 0 3 6 1
1 2 0 2 1 2 2 2 3 2 1 4
Cặp bài toán đối ngẫu là:
Với ngƣời thứ nhất Với ngƣời thứ hai
1 2 3f = x + x + x min 1 2 3 4g = y + y + y + y max
1 36 x 3x 1 1 3 46 y + 9 y + 2 y 1
2 33x 2 x 1 2 3 43y + 6 y + y 1
1 2 39 x 6 x x 1 1 2 3 43y + 2 y + y + 4 y 1
1 2 32 x x 4 x 1 1y 0 ; 2y 0 ; 3y 0 ; 4y 0
1x 0 ; 2x 0 ; 3x 0
Để đơn giản giải bài toán của ngƣời chơi thứ hai. Dạng chuẩn tắc là:
'
1 2 3 4 5 6 7g y y y y +oy +oy +oy min
1 3 4 56 y + 9 y + 2 y + y 1
2 3 4 63y + 6 y + y + y 1
1 2 3 4 73y + 2 y + y + 4 y + y 1
jy 0 ; j =1,7
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
36
Bảng đơn hình
Hệ
số
Cơ sở Phƣơng
án
-1 -1 -1 -1 0 0 0
1y 2y 3y 4y 5y 6y 7y
0 5y 1 6 0 9 2 1 0 0
0 6y 1 0 3 6 1 0 1 0
0 7y 1 3 2 1 4 0 0 1
0 1 1 1 1 0 0 0
0 5y 1 6 0 9 2 1 0 0
-1 2y 1 3 0 1 2 1 3 0 1 3 0
0 7y 1 3 3 0 -3 10 3 0 2 3 1
1 3 1 0 -1 2 3 0 1 3 0
0 5y 1 3 0 0 15 14 3 1 4 3 -2
-1 2y 1 3 0 1 2 1 3 0 1 3 0
-1 1y 1 9 1 0 -1 10 9 0 2 9 1 3
4 9 0 0 0 4 9 0 1 9 1 3
Mọi số kiểm tra 0j, j =1,7 . Vậy phƣơng án tối ƣu của bài toán dạng
chuẩn tắc là: 1 1 1
, ,0,0, ,0,09 3 3
Từ đó suy ra phƣơng án tối ƣu của bài toán g max là:
1 2 3 4
1 1, ,0,0 (y , y , y , y )
9 3
Các thành phần của phƣơng án tối ƣu của bài toán đối ngẫu f min
đƣợc xác định bởi các số kiểm tra:
5 6 7 1 2 3
1 1( , , ) 0, , (x , x , x )
9 3
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
37
Vì 4
'
j
1 min
1 1 4max y max = min g
u u 9j
và vì c = 2 nên giá của cuộc chơi
là:
min max
9 1u 2 2 v 2
4 4
Chiến lƣợc tối ƣu của ngƣời thứ nhất là:
1
9p 0. 0
4 ,
2
1 9 1p .
9 4 4 ;
3
1 9 3p .
3 4 4
Chiến lƣợc tối ƣu của ngƣời thứ hai là:
1
1 9 1q .
9 4 4 ;
2
1 9 3q .
3 4 4 ; 3q 0 ; 4q 0
2.2.4 Chiến lƣợc từng bƣớc và phƣơng pháp Brown
Chiến lƣợc từng bƣớc có thể xem là chiến thuật của mỗi ngƣời chơi sau
khi phân tích hành vi của đối phƣơng sẽ cố gắng có biện pháp tốt nhất đáp
ứng lại sao cho thắng lợi của mình lớn nhất hoặc thất bại của mình ít nhất.
Ngƣời chơi thứ nhất (ngƣời đi bƣớc đầu) sử dụng một trong các chiến
lƣợc của mình. Ngƣời chơi thứ hai đáp lại bằng chiến lƣợc sao cho cực tiểu
hóa thắng lợi của ngƣời thứ nhất. Đến lƣợt mình ngƣời thứ nhất lại tìm chiến
lƣợc sao cho cực đại hóa tổng thắng lợi của mình, và ngƣời thứ hai lại tìm
chiến lƣợc sao cho cực tiểu hóa tổng thắng lợi trƣớc đó của ngƣời thứ nhất...
Một cách tổng quát, mỗi ngƣời chơi đều đáp lại từng bƣớc đi của đối
phƣơng bằng chiến lƣợc từng bƣớc của mình sao cho nó là tối ƣu theo nghĩa
là tổng thắng lợi qua các đi trƣớc đó của mình là lớn nhất, hoặc tổng thất bại
của mình nhỏ nhất đối với mọi bƣớc đi trƣớc đó của đối phƣơng.
Phƣơng pháp lặp Brown đƣợc trình bày nhƣ sau:
Cho ma trận trò chơi A có m dòng và n cột:
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
38
11 12 1j 1n
21 22 2 j 2n
i1 i2 ij in
m1 m2 mj mn
a a ... a ... a
a a ... a ... a
...........................................A =
a a ... a ... a
............................................
a a ... a ... a
1. Giả sử ngƣời thứ nhất chọn dòng 1i . Ta viết dòng 1i xuống dƣới ma
trận A và gọi nó là dòng (m + 1), tức là 1m+1. j i ja = a ; j = 1,n .
2. Để cực tiểu hóa thắng lợi của ngƣời thứ nhất, ngƣời thứ hai chọn cột
1j , trong đó: 1m+1. j m+1. j
1a = min a
j n
Phần tử 1m+1. ja đƣợc đánh dấu thành
'1
*
m+1. ja và cột 1j đƣợc viết vào bên
phải ma trận A thành cột thứ (n + 1), tức là: 1. 1 iji na a , i 1,m
3. Thấy ngƣời thứ hai chọn cột 1j nên để cực đại hóa tổng thắng lợi của
mình sau 2 bƣớc ngƣời thứ nhất chọn dòng 2i mà: 2i .n+1 i.n+1
1a = max a
i m
Phần tử 2i .n+1a đƣợc đánh dấu thành '
2
*
i .n+1a và ta viết thêm một dòng thứ
(m + 2) trong đó: 2m+2. j m+1. j i ja = a + a ; j = 1,n
4. Để cực tiểu hóa tổng thắng lợi của ngƣời thứ nhất qua 2 bƣớc, ở bƣớc
2 của mình ngƣời thứ hai chọn cột 2j , trong đó: 2m+2. j m+2. j
1a = mina
j n
Phần tử 2m+2. ja đƣợc đánh dấu * và ta viết cột thứ (n + 2) (bên phải ma
trận A), trong đó: 2i.n+2 i.n+1 ija = a +a ; i 1,m
5. Tiếp tục ngƣời thứ nhất lại chọn dòng 3i mà: 3i .n+2 i.n+2
1
a = max ai m
và ngƣời
thứ hai chọn cột 3j mà: 3m+3. j m+3. j
1
a = min aj n
Bằng các chiến lƣợc này cả hai bên tham gia trò chơi đã qua 3 bƣớc.
Giả sử trò chơi đƣợc tiếp tục tiến hành cho đến bƣớc thứ (k-1), và dến
bƣớc thứ k là bƣớc kết thúc trò chơi, ngƣời thứ nhất lại áp dụng chiến lƣợc
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
39
tƣơng tự nhƣ trên sao cho cực đại hóa tổng thắng lợi qua (k-1) bƣớc, ngƣời
thứ hai áp dụng chiến lƣợc cực tiểu hóa tổng thắng lợi của ngƣời thứ 1.
Gọi is ; i 1,m ; là số lần ngƣời chơi thứ nhất áp dụng chiến lƣợc i (dòng
i) trong k bƣớc chơi. Khi đó i
1
s = km
i
và phân phối tần suất: 1 2 ms s s, ,...,
k k k là
chiến lƣợc hỗn hợp xấp xỉ tối ƣu của ngƣời chơi thứ nhất, còn phần tử có dấu
* xác định tổng thắng lợi (có thể có) của ngƣời đó qua k bƣớc.
Tƣơng tự gọi jt ; j = 1,n ; là số lần ngƣời thứ hai áp dụng chiến lƣợc j
(chọn cột j) trong k bƣớc chơi. Khi đó j
1
t kn
j
và phân phối tần suất:
1 2 nt t t, ,...,
k k k là chiến lƣợc hỗn hợp xấp xỉ tối ƣu của ngƣời chơi thứ hai. Gọi
v là tổng thắng lợi của ngƣời thứ nhất qua k bƣớc chơi thì:
k
* *
m+k. j m+k.n+k
1 1(a ) v (a )
k k
Rõ ràng rằng mức xấp xỉ giữa các chiến lƣợc này với chiến lƣợc tối ƣu
phụ thuộc vào bƣớc đi ban đầu (vào việc chọn dòng 1i của ngƣời thứ nhất) và
vào số bƣớc chơi k. Nếu cả hai ngƣời đều tuân thủ qui tắc Brown thì xấp xỉ
càng cao khi k càng tăng lên, nói cách khác, quá trình hội tụ.
Ví dụ:
Input: Cho ma trận trò chơi:
3 2 4 1
A 1 4 2 2
2 3 3 4
Out put: Hãy tìm lời giải xấp xỉ theo phƣơng pháp Brown qua 10 bƣớc
và qua 20 bƣớc, cho biết bƣớc đầu ngƣời chơi thứ nhất chọn chiến lƣợc 1.
Thuật toán giải:
Ghi dòng 1 xuống dƣới ma trận A thành dòng 4. Vì trên dòng thứ 4 đó:
min (3,2,4,1) = 1
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
40
nằm ở cột 4, nên ngƣời 2 chọn cột 4, và số 1 ở dòng 4 dƣợc đánh dấu *. Cột 4
của A đƣợc ghi bên phải của A thành cột 5.
Ngƣời 1 chọn dòng 3 ở bƣớc 2 vì ở cột 5: max (1 , 2, 4) = 4 nằm ở dòng 3, và
số 4 ở cột 5 đƣợc đánh dấu *.
Cộng dòng 3 của A với dòng 4 đƣợc dòng 5.
Ngƣời 2 chọn cột 2 vì ở dòng 5: min (5, -1,4, 5) = -1 nằm ở cột đó. Số -1 ở
dòng 5 đƣợc đánh dấu *.
Cộng cột 2 của A với cột 5 (cột 4 + 1) thành cột 6.
Ngƣời thứ nhất lại thấy trên cột 6: max (3, 6, 1) = 6 nên chọn dòng 2 .v.v..
Tiếp tục quá trình chọn đó cho đến bƣớc thứ 10 và bƣớc thứ 20, ta đƣợc
bảng ở trang 42, trong đó ma trận A nằm ở góc Tây bắc, còn mỗi dòng thêm
là một bƣớc đi của ngƣời 1theo thứ tự từ trên xuống, mỗi cột thêm là một
bƣớc đi của ngƣời 2 theo thứ tự từ trái sang phải.
Nhƣ vậy qua 10 bƣớc thì:15 21
v10 10
Chiến lƣợc của ngƣời thứ nhất là 7 2 1
p , ,10 10 10
Chiến lƣợc của ngƣời thứ hai là 2 2 1 5
q , , ,10 10 10 10
Qua 15 bƣớc thì: 25 30
v15 15
Chiến lƣợc của ngƣời thứ nhất là 9 4 2
p , ,15 15 15
Chiến lƣợc của ngƣời thứ hai là 2 5 1 7
q , , ,15 15 15 15
Qua 20 bƣớc thì: 32 38
v20 20
Chiến lƣợc của ngƣời 1 trong 20 bƣớc là : 12 6 2
p , ,20 20 20
Chiến lƣợc của ngƣời 2 là: 5 5 1 9
q , , ,20 20 20 20
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
41
Chỉ mô tả sự hội tụ đều của thuật toán lặp Brown trong ví dụ này, ta có:
- Ở bƣớc 10: 21 15
0,6010 10
- Ở bƣớc 15: 30 25
0,3415 15
- Ở bƣớc 20: 38 32
0,3020 20
Hiệu giữa giới hạn trên và giới hạn dƣới của v (khoảng ƣớc lƣợng của v )
giảm đơn điệu.
Đánh giá kết quả:
Phƣơng pháp Brown đƣợc trình bày nhƣ là một phƣơng pháp cạnh tranh
từng bƣớc (có thể kéo dài trong một khoảng thời gian nào đó) giữa hai đối thủ
“cao tay” nhất. Nhƣng nó cũng đƣợc xem là phƣơng pháp tiếp cận dần tới
chiến lƣợc tối ƣu của hai đối thủ. Chẳng hạn, trong sản xuất nông nghiệp đó là
chiến lƣợc gieo trồng của ngƣời nông dân nhằm đạt giá trị sản phẩm đảm bảo
cao nhất, khi thiên nhiên “tinh quái” luôn tác động vào chỗ yếu nhất của mỗi
phƣơng thức gieo trồng.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
42
Cột 4 2 2 3 1 1 4 4 4 4 2 2 2 4 4 1 4 1 1 4
3 2 4 1 1 3 5 9* 12* 15* 16* 17* 18* 19 21* 23* 25 26 27 30* 31 34* 37* 38*
Dòng -1 4 -2 2 2 6* 10* 8 7 6 8 10 12 14 18 22 26* 28* 30* 29 31* 30 29 31
2 -3 3 4 4* 1 -2 1 3 5 9 13 17 21* 18 15 12 16 20 22 26 28 30 34
1 3 2 4 1*
3 5 1* 7 5
2 4 3* 5 7
2 3 7 3* 9
1 6* 9 7 10
1 9* 11 11 11
1 12 13 15 12*
1 15 15 19 13*
1 18 17 23 14*
1 21 19 27 15* Bƣớc 10
3 23 16* 30 19
1 26 18* 34 20
1 29 20* 38 21
2 28 24 36 23*
2 27 28 34 25* Bƣớc 15
2 26* 32 32 27
1 29 34 36 28*
2 28* 38 34 30
1 31* 40 38 31
1 34 42 42 32* Bƣớc 20
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
43
KẾT LUẬN
Qua quá trình nghiên cứu và thực hiện, luận văn đã đạt đƣợc một số kết
quả sau:
- Nghiên cứu và trình bày một cách có hệ thống về lý thuyết trò chơi.
- Nghiên cứu về trò chơi ma trận và các chiến lƣợc trong trò chơi ma trận.
- Giải đƣợc một số bài toán sử dụng các chiến lƣợc trong trò chơi ma trận.
Vì lý thuyết trò chơi là một kiến thức khá rộng và mới mẻ nên sự cảm
nhận của tôi về nó chắc chắn còn rất hạn hẹp. Tuy nhiên đây là đề tài hay,
có ý nghĩa ứng dụng thực tế cao nếu phát triển đƣợc đầy đủ. Rất mong
đƣợc sự quan tâm đóng góp ý kiến của các thầy cô giáo để bài viết đƣợc
hoàn thiện hơn!
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
44
TÀI LIỆU THAM KHẢO
1. Tô Cẩm Tú (1997), Một số phương pháp tối ưu hóa trong kinh tế, NXB
Khoa học và kỹ thuật.
2. A.M. Brandenburger, Bary J.Nalebuff (2007), Lý thuyết trò chơi trong
kinh doanh, NXB Tri thức
3. Bierman, H. S. and L. Fernandez (1998), Game Theory with economic
applications, Addison-Wesley.
4. Don Ross (2010), Games Theory
5. Fudenberg (1991), Drew and Jean Tirole: Game Theory, MIT Press.
6. Jim Ratliff (1997), Strategic form Games.
7. Osborne (1994), Martin and Ariel Rubinstein: A Course in Game Theory,
MIT Press.