27
WARCABY SAMUELA Andrzej Fałkowski SYSTEMY UCZĄCE SIĘ

Warcaby Samuela

Embed Size (px)

DESCRIPTION

Warcaby Samuela. Systemy uczące się. Andrzej Fałkowski. Arthur Lee Samuel (1901–1990). pionier nauczania maszynowego twórca pierwszego samouczącego się programu MIT, IBM, Stanford. Warcaby Samuela - założenia. początek lat 50. - PowerPoint PPT Presentation

Citation preview

Page 1: Warcaby Samuela

WARCABY SAMUELA

Andrzej Fałkowski

SYSTEMY UCZĄCE SIĘ

Page 2: Warcaby Samuela

Arthur Lee Samuel (1901–1990)• pionier nauczania

maszynowego• twórca pierwszego

samouczącego się programu• MIT, IBM, Stanford

Page 3: Warcaby Samuela

Warcaby Samuela - założenia• początek lat 50.• stworzenie programu komputerowego realizującego

proces uczenia przypominający ten wystepujący w naturze

• “Write a program to play checkers [...] challenge the world champion and beat him.”

Page 4: Warcaby Samuela

Warcaby angielskie (ang. checkers)• dwóch graczy wykonujących ruchy naprzemiennie• plansza 8x8 pól• dwa typy figur – pionki i króle

Page 5: Warcaby Samuela

Warcaby angielskie - cechy• brak algorytmu gwarantującego wygraną lub remis

(przynajmniej w 1959)• ok. 5 × 1020 możliwych pozycji• ok. 1040 możliwych przebiegów gry• zdefiniowany cel gry – zbicie wszystkich figur przeciwnika• stan gry jawny dla wszystkich graczy• brak czynnika losowego• istniejący prosty program – Strachey, 1952

Page 6: Warcaby Samuela

The Basic Checker-Playing Program• reprezentacja stanu gry – pozycje pionów na planszy jako

odpowiednie wartości w ciągu odpowiadającym liście wszystkich pól

• konieczność podjęcia decyzji odnośnie wykonania następnego ruchu

Page 7: Warcaby Samuela

The Basic Checker-Playing Program• looking-ahead – rozważenie wszystkich możliwych

ruchów wychodzących z aktualnego stanu gry i uzyskanie nowych możliwych stanów gry.

Page 8: Warcaby Samuela

The Basic Checker-Playing Program• looking-ahead – zbyt duży rozrost drzewa, by móc

rozważyć wszystkie możliwe kombinacje aż do zakończenia gry

• konieczność ograniczenia poziomów drzewa• idea oceny stanów gry – liści, i wyznaczenie pożądanej

sekwencji ruchów

Page 9: Warcaby Samuela

Ocena stanu gry

• S(s,w) = w1 * x1(s) + w2 * x2(s) + … + wn * xn(s)

• xi – heurystyki Samuela• wi – wagi funkcji oceniającej

• uczenie polega na doborze wag

Page 10: Warcaby Samuela

Ocena stanu gry• Sztywna – ustalana przez programistę – przykład:

• Wartość piona należacego do gracza: 1 pkt• x2 jeśli jest królem• x0.4 jeśli pion zagrożony przez pion przecwinika• x0.8 jeśli pion na linii bocznej• x1.3 jeśli pion zagraża pionowi przeciwnika• x1.2 jeśli pion jest broniony• +0.05 za każdą linię odległości od naszej linii końcowej• piony przeciwnika liczone ujemnie

• Czas oceny – liniowy

Page 11: Warcaby Samuela

Ocena stanu gry• Doświadczenie pokazuje, że dobranie odpowiednich

parametrów funkcji ewaluującej jest czasochłonne i podatne na błędy.

• „A number of schemes of an abstract sort were tried for evaluating board positions without regard to the usual checker concepts, but none of these was successfuI.”

• idea dobrania parametrów korzystając z narzędzi dostarczonych przez sztuczną inteligencję

Page 12: Warcaby Samuela

Ocena stanu gry• dynamiczna – wagi poszczególnych parametrów funkcji

ewaluującej stan gry dobierane na podstawie uczenia • arbitralne dobranie poczatkowych wartości parametrów• proces uczący – wielokrotne gry z klonami jak i

zewnętrznymi przeciwnikami

Page 13: Warcaby Samuela

Temporal-difference learning• nauka na błędach – wsteczna rewaluacja pozycji na

podstawie następującego stanu gry (dobrze oceniany ruch w dalszej perpektywie mógł okazać się katastrofalny)

• cel – zmniejszenie różnicy ocen między kolejnymi ruchami gracza (błąd funkcji oceniającej)

• problem – dobór odległości wpływania ocen dwóch stanów – czy faktycznie dany ruch był gorszy niż wynikałoby z funkcji oceny, czy może błąd został popełniony w innym miejscu?

Page 14: Warcaby Samuela

Temporal-difference learning• Metoda Samuela

• α << 1

Page 15: Warcaby Samuela

Temporal-difference learning• Metoda Widrowa-Hoffa

• = <0,1>

Page 16: Warcaby Samuela

Rote-learning• zapamiętywanie pozycji na planszy wraz z obliczoną

wartością oceny• brak potrzeby ponownej rewaluacji – zyskana moc

obliczeniowa może posłużyć do pogłębienia pozostałych poddrzew

Page 17: Warcaby Samuela

Uczenie ze wzmocnieniem• gra między kopią dynamiczną i statyczną• zmiana parametrów funkcji w sposób zbliżający wartość

oceny danej pozycji, do wartości pozycji osiągniętej kilka ruchów później

• gra klonów z różnymi parametrami – zwyciężca przekazuje swoje parametry do kolejnych rozgrywek

Page 18: Warcaby Samuela

Wybór najlepszego ruchu• trudno oczekiwać, by przeciwnik pozwolił nam osiągnąć

najlepszą możliwą sytuację z dostępnych (prawdopodobnie będzie dążył do jak najgorszej dla nas)

• minimax na drzewie możliwych stanów gry• wybieramy ruch gwarantujący od końca uzyskanie

największego minimum

Page 19: Warcaby Samuela

Dodatkowe techniki usprawniające• księga otwarć• alpha-beta pruning

Page 20: Warcaby Samuela

Księga otwarć• początkowy stan gry wynika z jej zasad i jest

gwarantowany• węższy zbiór możliwych ruchów na poczatku partii• niektóre sekwencje otwarć mogą być ocenione jako

„lepsze” na podstawie wiedzy opartej o obserwację historycznych przebiegów gry

• np. szachy - otwarcie e4 e5

Page 21: Warcaby Samuela

Księga otwarć• roszerzona księga otwarć (np. Deep Blue – 700 000 partii

arcymistrzowskich) – ocena uwzględniająca stosunek gier wygranych i przegranych z danej pozycji, częstość ruchu, klasę graczy i szereg innych czynników

• konieczność przechowywania i przeszukiwania ogromnego zbioru danych

• problem pozyskania

• analogicznie: księga zamknięć dla końcowej fazy rozgrywki

Page 22: Warcaby Samuela

Alpha-beta pruning• Możliwość pominięcia węzła o bardzo niskiej ocenie

Page 23: Warcaby Samuela

Rezultaty• 1962 – Robert Nealy przegrywa z programem;

kontrowersje• spadek zainteresowania problemem – warcaby zostają

niesłusznie uznane za „rozwiązane”• 1963 – rewanż – program nie wygrywa z Nealym żadnej

gry, podobnie w 1965 przeciwko Hellmanowi i Oldbury’emu – 8 przegranych

• program Samuela rozwijany do 1967 roku bez spektakularnych sukcesów

• wiele opracowanych technik używa się w sztucznej inteligencji do dziś

Page 24: Warcaby Samuela

Chinook• kolejny program grający w warcaby, oparty o techniki

sztucznej inteligencji• 1987, Uniwersytet Alberty, zespół pod przewodnictwem

Jonathana Schaeffera• cechy: algorytm przeszukiwania drzewa, własna funkcja

ewaluacji (wagi dobrane przez programistów, nie sztuczną inteligencję), księga otwarć i zamknięć

Page 25: Warcaby Samuela

Chinook• 1992 – mistrz świata Marion Tinsley vs. Chinook – 4/2/33• 1994 – Chinook zdobywa tytuł Man-Machine World

Champion• 2007, lipiec, Science – Checkers is Solved - warcaby

zostają uznane za rozwiązane „słabo”• „Artificial intelligence technology has been used to

generate strong heuristic-based game-playing programs, such as Deep Blue for chess. Solving a game takes this to the next level by replacing the heuristics with perfection.”

Page 26: Warcaby Samuela

Bibliografia• Furnkranz, J.; Machine Learning in Games: A Survey• Samuel, A. L.; Some Studies in Machine Learning Using the

Game of Checkers, IBM Journal 3 (3): 210–229, 1959• Sardag, A.; Learning to Predict by the Methods of TD,

www.cmpe.boun.edu.tr/~akin/robsem/alp/webindex/ppt/Learning_to_Predict_by_the_Methods_of_TD.ppt

• Schaeffer, J.; Lake, R.; Solving the Game of Checkers - Games of No Chance, MSRI Publications, Volume 29, 1996

• Osman, D.; Zastosowanie metody Samuela doboru współczynników funkcji oceniającej w programie grającym w anty-warcaby, www.mini.pw.edu.pl/~mandziuk/15-10-03.pdf 

Page 27: Warcaby Samuela

Dziękuję za uwagę