47
BÚSQUEDA ENTRE ADVERSARIOS 08/05/2014 FCT - UNCA ING. HÉCTOR ESTIGARRIBIA 1 INTELIGENCIA ARTIFICIAL - UNIDAD 6:

Busqueda Entre Adversarios

Embed Size (px)

DESCRIPTION

Material auxiliar para la materia IA de la FCT UNC@

Citation preview

  • 1. BSQUEDA ENTRE ADVERSARIOS 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 1 INTELIGENCIA ARTIFICIAL - UNIDAD 6:

2. JUEGOS En el Captulo 2 se introdujo la diferencia entre entornos multi-agente cooperativos y competitivos. Los entornos competitivos, en los cuales los objetivos del agente estn en conflicto, dan ocasin a problemas de bsqueda entre adversarios a menudo conocidos como juegos. 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 2 3. JUEGOS Implican entornos deterministas, totalmente observables en los cuales hay dos agentes cuyas acciones deben alternar y en los que los valores utilidad, al final de juego, son siempre iguales y opuestos (suma cero). 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 3 4. JUEGOS Por ejemplo: Ajedrez Ganador (+1) Perdedor (-1) 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 4 5. JUEGOS Son interesantes porque son demasiado difciles para resolverlos. Requieren la capacidad de tomar una decisin cuando no se puede calcular la decisin ptima. Castigan la ineficiencia con severidad. 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 5 6. DECISIONES PTIMAS EN JUEGOS Consideraremos juegos con dos jugadores: MAX y MIN MAX mueve primero, luego por turno hasta que el juego se termina. Al final del juego se conceden puntos al ganador y penalizaciones al perdedor. 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 6 7. DECISIONES PTIMAS EN JUEGOS El juego puede definirse como una clase de problemas de bsqueda: Estado inicial Funcin sucesor Test terminal Funcin utilidad El estado inicial y los movimientos para cada lado definen el rbol de juegos 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 7 8. PARTE DEL RBOL DEL TIC TAC TOE 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 8 Desde el estado inicial, MAX tiene nueve movimientos posibles. 9. PARTE DEL RBOL DEL TIC TAC TOE 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 9 El juego alterna entre la colocacin de una X para MAX y la colocacin de un O para min, hasta que alcancemos nodos hoja correspondientes a estados terminales 10. PARTE DEL RBOL DEL TIC TAC TOE 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 10 El juego alterna entre la colocacin de una X para MAX y la colocacin de un O para min, hasta que alcancemos nodos hoja correspondientes a estados terminales, de modo que un jugador tenga tres en raya o todos los cuadrados estn llenos. 11. PARTE DEL RBOL DEL TIC TAC TOE 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 11 12. PARTE DEL RBOL DEL TIC TAC TOE 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 12 13. PARTE DEL RBOL DEL TIC TAC TOE 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 13 El nmero sobre cada nodo hoja indica el valor de utilidad del estado terminal desde el punto de vista de MAX ; se supone que los valores altos son buenos para MAX y malos para min (por eso los nombres de los jugadores). 14. En un problema de bsqueda normal, la solucin ptima sera una secuencia de movi- mientos que conducen a un estado objetivo (un estado terminal que es ganador). En un juego, por otra parte, min tiene algo que decir sobre ello. MAX por lo tanto debe encontrar una estrategia contingente que especifica el movimiento de MAX en cada movimiento. 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 14 ESTRATEGIAS PTIMAS 15. Incluso un juego simple como tc-tac-toe es demasiado complejo para dibujar el rbol de juegos entero, por tanto cambiemos al juego trivial de la Figura: 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 15 ESTRATEGIAS PTIMAS Nodos MAX : Nodos min : Nodos terminales: valor utilidad para MAX 16. 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 16 ESTRATEGIAS PTIMAS Los movimientos posibles para max, en el nodo raz, se etiquetan por a1 a2, y a3. Las respuestas posibles a a1 para min, son b1 b2, b3, etc. Este juego particular finaliza despus de un movimiento para MAX y min. 17. 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 17 VALOR MINIMAX Considerando un rbol de juegos, la estrategia ptima puede determinarse examinando el valor minimax de cada nodo, que escribimos como el VALOR- MINIMAX(n). El valor minimax de un nodo es la utilidad (para MAX) de estar en el estado correspondiente, asumiendo que ambos jugadores juegan ptimamente desde all al final del juego. El valor minimax de un estado terminal es solamente su utilidad. MAX preferir moverse a un estado de valor mximo, mientras que MIN prefiere un estado de valor mnimo. 18. 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 18 VALOR MINIMAX VALOR-MINIMAX(n) = Utilidad(n) Si n es un estado terminal Max s Sucesores(n ) VALOR- MINIMAX(s) SI n es un estado MAX Min s Sucesores(n ) VALOR- MINIMAX(s) SI n es un estado MIN 19. Los nodos terminales se etiquetan por sus valores de utilidad. El primer nodo de min, etiquetado B, tiene tres sucesores con valores 3, 12 y 8 , entonces su valor minimax es 3 Del mismo modo, los otros dos nodos de min tienen un valor minimax de 2. 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 19 VALOR MINIMAX 20. El nodo raz es un nodo MAX; sus sucesores tienen valores minimax de 3, 2 y 2; entonces tiene un valor minimax de 3. Podemos identificar tambin la decisin minimax en la raz: la accin a1 es la opcin ptima para MAX porque conduce al sucesor con el valor minimax ms alto. 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 20 DECISIN MINIMAX 21. PODA ALFA-BETA El problema de la bsqueda minimax es que el nmero de estados que tiene que examinar es exponencial en el nmero de movimientos. Lamentablemente no podemos eliminar el exponente, pero podemos dividirlo, con eficacia, en la mitad. podemos tomar prestada la idea de podar del Captulo 4 a fin de eliminar partes grandes del rbol. Cuando lo aplicamos a un rbol minimax estndar, devuelve el mismo movimiento que devolvera minimax, ya que podar las ramas no puede influir, posiblemente, en la decisin final 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 21 22. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 22 A[- ; + ] 23. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 23 A[- ; + ] B[- ; + ] 24. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 24 A[- ; + ] B[- ; + ] 3 25. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 25 A[- ; + ] B[- ; +3 ] 3 La primera hoja debajo de B tiene el valor 3, entonces B que es un nodo MIN, tiene como valor mximo 3 26. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 26 A[- ; + ] B[- ; +3 ] 3 12 La segunda hoja debajo de B tiene un valor 12; MIN evita este movimiento, por tanto el valor de B es todava como mximo 3 27. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 27 A[- ; + ] B[- ; +3 ] 3 12 8 La tercera hoja debajo de B tiene un valor 8; 28. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 28 A[- ; + ] B[+3 ; +3 ] 3 12 8 La tercera hoja debajo de B tiene un valor 8; hemos visitado todos los sucesores de B, por tanto el valor de B es exactamente 3 29. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 29 A[+3; + ] B[+3 ; +3 ] 3 12 8 Podemos deducir que el valor de la raz es al menos 3 hasta ahora 30. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 30 A[+3; + ] B[+3 ; +3 ] 3 12 8 C[- ; + ] 31. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 31 A[+3; + ] B[+3 ; +3 ] 3 12 8 C 2 [- ; + ] 32. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 32 A[+3; + ] B[+3 ; +3 ] 3 12 8 C 2 [- ; +2 ] La primera hoja debajo de C tiene el valor 2, entonces C que es un nodo MIN tiene como mximo valor 2 33. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 33 A[+3; + ] B[+3 ; +3 ] 3 12 8 C 2 [- ; +2 ] Como sabemos que B vale 3, MAX nunca elegira C, por tanto no hay razn para mirar los otros sucesores de C 34. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 34 A[+3; + ] B[+3 ; +3 ] 3 12 8 C 2 [- ; +2 ] Esto es un ejemplo de poda alfa-beta 35. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 35 A[+3; + ] B[+3 ; +3 ] 3 12 8 C 2 [- ; +2 ] [- ; + ] D 36. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 36 A[+3; + ] B[+3 ; +3 ] 3 12 8 C 2 [- ; +2 ] [- ; + ] D 14 37. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 37 A[+3; + ] B[+3 ; +3 ] 3 12 8 C 2 [- ; +2 ] [- ; +14] D 14 La primera hoja de D vale 14, entonces D vale como mximo 14. Como es mayor que 3 hay que seguir explorando 38. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 38 A[+3; + ] B[+3 ; +3 ] 3 12 8 C 2 [- ; +2 ] [- ; +14] D 14 5 39. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 39 A[+3; + ] B[+3 ; +3 ] 3 12 8 C 2 [- ; +2 ] [- ; +5] D 14 5 La segunda hoja debajo de D vale 5, D como mximo valdr 5 pues es un nodo MIN. Como 5 podra ser el valor de D hay que seguir explorando 40. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 40 A[+3; + ] B[+3 ; +3 ] 3 12 8 C 2 [- ; +2 ] [- ; +5] D 14 5 2 41. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 41 A[+3; + ] B[+3 ; +3 ] 3 12 8 C 2 [- ; +2 ] [- ; +2] D 14 5 2 42. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 42 A[+3; + ] B[+3 ; +3 ] 3 12 8 C 2 [- ; +2 ] [+2 ; +2] D 14 5 2 El tercer y ultimo sucesor de D vale 2, D vale exactamente 2. 43. PODA ALFA-BETA 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 43 A[+3; +3 ] B[+3 ; +3 ] 3 12 8 C 2 [- ; +2 ] [+2 ; +2] D 14 5 2 La decisin de MAX entonces es moverse a B dando un valor de 3 44. La poda alfa-beta consigue su nombre de los dos parmetros que describen los lmites sobre los valores hacia atrs que aparecen a lo largo del camino: = el valor de la mejor opcin (es decir, valor ms alto) que hemos encontrado hasta ahora en cualquier punto elegido a lo largo del camino para MAX = el valor de la mejor opcin (es decir, valor ms bajo) que hemos encontrado hasta ahora en cualquier punto elegido a lo largo del camino para MIN. 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 44 PODA ALFA-BETA 45. La bsqueda alfa-beta actualiza el valor de segn se va recorriendo el rbol y poda las ramas restantes en un nodo tan pronto como el valor del nodo actual es peor que el actual valor para MAX o MIN, respectivamente. La eficacia de la poda alfa-beta es muy dependiente del orden en el que se examinan los sucesores. 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 45 PODA ALFA-BETA 46. EJERCICIO Aplicar la estrategia minimax con poda alfa-beta sobre el siguiente rbol de juego. Mostrar el rbol resultante y los nodos podados. Considera los dos casos: i) los nodos son generados de izquierda a derecha; ii) los nodos son generados de derecha a izquierda. 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 46 2 3 7 2 1 8 5 1 2 4 3 6 47. BIBLIOGRAFA INTELIGENCIA ARTIFICIAL: UN ENFOQUE MODERNO. STUART RUSSELL Y PETER NORVIG. PEARSON EDUCATION 2da Edicin, 2004. 1240 pginas Capitulo 6, Paginas 181 a 215 http://dis.um.es/~ginesgm/files/doc/ejerc7-2.pdf 08/05/2014FCT - UNCA ING. HCTOR ESTIGARRIBIA 47