ReglasAsociacionYArboles

Embed Size (px)

Citation preview

  • 7/21/2019 ReglasAsociacionYArboles

    1/26

    Minera de datos (Reglas de asociacion y arboles de

    decision)

    M. en C. Sergio Luis Perez Perez

    UAM CUAJIMALPA, MEXICO, D. F.Trimestre 14-I.

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 1 / 26

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    2/26

    Reglas de asociacion y dependencia

    Reglas de asociacion y dependenciaI

    Reglas de asociacion

    Permiten expresar patrones de comportamiento entre los datos en

    funcion de su aparicion conjunta, expresando las combinaciones

    de valores de los atributos que ocurren mas veces.

    Formalmente son una proposicion probabilstica sobre laocurrencia de ciertos estados sobre el conjunto de datos.

    Aplicaciones practicas

    Analisis de patrones de compra en los supermercados. (Paramejorar la distribucion de los productos)

    Busqueda de patrones en paginas web. (Conocer la navegacion

    mas frecuente de los usuarios sobre una pagina web)

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 2 / 26

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    3/26

    Reglas de asociacion y dependencia

    Reglas de asociacion y dependenciaII

    Cliente Vino1 Sodas Vino2 Horch. Dulces Galletas Choc.C1 1 1 0 0 0 1 0

    C2 0 1 1 0 0 0 0

    C3 0 0 0 1 1 1 0

    C4

    1 1 0 1 1 1 1

    C5 0 0 0 0 0 1 0

    C6 1 0 0 0 0 1 1

    C7 0 1 1 1 1 0 0

    C8 0 0 0 1 1 1 1

    C9 1 1 0 0 1 0 1C10 0 1 0 0 1 0 0

    SIdulcesYhorchataENTONCESgalletas

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 3 / 26

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    4/26

    Reglas de asociacion y dependencia

    Reglas de asociacion y dependenciaIII

    SeaA={

    a1, . . . , a

    n}un conjunto den=

    |A

    |elementos.

    Xes un conjunto de elementos deAsiXA.

    Del ejemplo anteriorA = {Vino1, Sodas, Vino2, Horchata, Dulces,

    Galletas, Chocolates} y una posibleX ={Vino2, Dulces,Chocolates}.

    Una regla de asociacion puede ser vista como una regla de la

    forma

    SIENTONCES

    Donde, Atal que =

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 4 / 26

    http://goforward/http://find/http://goback/
  • 7/21/2019 ReglasAsociacionYArboles

    5/26

    Reglas de asociacion y dependencia

    Reglas de asociacion y dependenciaIV

    Medidas para conocer la calidad de la regla:

    Cobertura: Es el numero de instancias que la regla predicecorrectamente.

    Confianza: Es el porcentaje de veces que la regla se cumple todavez queesta puede ser aplicada.

    Tipos de reglas aplicables:

    Segun el tipo de valor: Los atributos son binarios, con mas de dosvalores o bien atributos numericos.

    SI DulcesY GalletasENTONCES ChocolatesSI Pas = MexicoENTONCES Corrupcion = Alta

    18 SI Edad 24ENTONCES Estudiando = Universidad

    Multidimensionales: Consiste en agregar diversas categoras auna regla.

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 5 / 26

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    6/26

    Reglas de asociacion y dependencia

    Reglas de asociacion y dependenciaV

    SI Comprar(Vino1)Y Cliente(Juan)Y Tiempo(Diciembre)ENTONCES Comprar(Sodas)

    Incrementar el nivel de abstraccion: Ver un conjunto de artculos

    a un nivel mas general o particular.SI Comprar(BebidaAlcoholica)ENTONCES Comprar(Sodas)

    Instantaneas o secuenciales: Relaciones que ocurren en uninstante de tiempo.

    SI Comprar(Vino1)Y Comprar(Vino2)Y Comprar(Sodas)ENTONCES Comprar(Cigarros)

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 6 / 26

    http://goforward/http://find/http://goback/
  • 7/21/2019 ReglasAsociacionYArboles

    7/26

    Reglas de asociacion y dependencia

    Reglas de asociacion y dependenciaVI

    Algoritmo Apriori

    Es un algoritmo de aprendizaje de reglas de asociacion.

    El algoritmo busca conjuntos de elementos con determinada

    cobertura mnima.Se parte de conjuntos de elementos con un elemento.

    Despues se realiza un proceso incremental hasta que ya no es

    posible construir conjuntos mas grandes.

    Al final se construye el conjunto de reglas a partir de los conjuntos

    devueltos.

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 7 / 26

    R l d i i d d i

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    8/26

    Reglas de asociacion y dependencia

    Reglas de asociacion y dependenciaVII

    Algoritmo Apriori (D: datos,MinC: cobertura mnima)

    i0Inicializa(C0)whileCi= do

    L

    for allxCi doifCobertura(x)MinCthen

    L= L {x}end if

    end for

    ii+1Ci=Selecciona Candidatos(L)

    end while

    returnCi

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 8 / 26

    R l d i i d d i

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    9/26

    Reglas de asociacion y dependencia

    Reglas de asociacion y dependenciaVIII

    Desventajas de las reglas de asociacion

    La desventaja de las reglas de asociacion es que no permiten

    detectar la ausencia de elementos.

    SI Comprar(Tequila)=1Y Comprar(RefrescoToronja)=1

    ENTONCES Comprar(RefrescoCola) = 0

    Estos casos ocurren cuando nos interesa que un elemento pueda

    tomar mas de un valor.

    Se podra extender el algoritmo Apriori si consideramos losdistintos valores que puede tomar un elemento como elementos

    separados.

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 9 / 26

    Reglas de asociacion y dependencia

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    10/26

    Reglas de asociacion y dependencia

    Reglas de asociacion y dependenciaIX

    Reglas de dependencias

    Una regla de dependencia es cualquier conjunto de variables deelementos que son dependientes.

    Dos eventos son independientes si:

    p(A B) =p(A) p(B)

    La dependencia de dos elementos se mide como:

    p(A B)

    p(A) p(B)=X

    Donde siX =1 entonces los elementos son independientes,siX>1 existe una dependencia positiva,

    siX

  • 7/21/2019 ReglasAsociacionYArboles

    11/26

    Arboles de decision

    Arboles de decisionI

    Un Arbol de decisi ones un conjunto de condiciones organizadasen una estructura jerarquica.

    La decision final depende del camino que se toma desde la raz

    del arbol.

    Pueden aplicarse a procedimientos medicos, legales,

    comerciales, etc.

    Las opciones posibles a partir de una condicion son excluyentes.Es decir, en todo momento se llegara a una sola decision.

    El modelo resultante es inteligible para las personas.

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 11 / 26

    Arboles de decision

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    12/26

    Arboles de decision

    Arboles de decisionII

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 12 / 26

    Arboles de decision

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    13/26

    Arboles de decision

    Arboles de decisionIII

    SIAstig= NoY25

  • 7/21/2019 ReglasAsociacionYArboles

    14/26

    Arboles de decision

    Arboles de decisionIV

    Algoritmo Particion (N: nodo,E: conjunto de ejemplos)

    functionPARTICION(N,E)

    iftodos los ejemplos deEson de la misma clase cthen

    Asignar la clasecaN

    else

    Particiones Generar Posibles ParticionesMejorParticion Particionesfor allcondicionide la particion elegidado

    Anadir un hijoiaNy asignar los ejemplos consistentes a

    cada hijoEiParticion (i,Ei)

    end for

    end if

    end function

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 14 / 26

    Arboles de decision

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    15/26

    Arboles de decisionV

    EjemploPaciente Astigmatismo Miopa Edad Operado

    P1 S 3.5 20 S

    P2 S 8 20 No

    P3 No 3.5 16 NoP4 No 2 25 Si

    P5 No 1 26 No

    P6 S 0.5 30 Si

    P7 No 0 28 No

    P8 S 7 25 NoP9 S 1 30 S

    P10 S 3 20 Si

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 15 / 26

    Arboles de decision

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    16/26

    Arboles de decisionVI

    Posibles particiones

    Nominales: Si un atributoxies nominal tendra los posiblesvalores{v1, . . . ,vk}As el arbol no necesariamente sera binario.

    Numericas: Lo mas comun es tomar intervalos debido a que el

    espacio de posibles valores podra ser infinito.

    xia, xi>a

    Dondeaes la constante numerica que toma la instancia.

    El numero de particiones posibles puede ser muy grande.

    Seanel numero de atributos con a lo masmposibles valores, el

    numero de particiones posibles esO(n m).

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 16 / 26

    Arboles de decision

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    17/26

    Arboles de decisionVII

    En cada nodo se pretende buscar particiones que consigan

    nodos mas puros.

    Cualquier criterio busca la particion con el menorEtal que

    E=

    j...

    n

    pj f(p1

    j ,p2

    j , . . . ,pc

    j)

    Dondenes el numero de nodos hijos de la particion,

    pjes la probabilidad de caer en el nodo j,

    pijes la proporcion de elementos de la clase i en el nodo j,

    ces el numero de clasesCriterio f(p1j ,p

    2j , . . . ,p

    cj)

    Error esperado mn(p1,p2, . . . , pc)

    Gini 1

    (pi)2

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 17 / 26

    Sistemas de Reglas

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    18/26

    Sistemas de ReglasI

    Un arbol de decision permite generar un conjunto de reglas.

    Un conjunto de reglas no necesariamente permite construir un

    arbol.

    SIAstig= NoYMiopa>6ENTONCESNoSI2550ENTONCESNo

    SiEdad 25ENTONCESNoSiMiopa>10ENTONCESNo

    EN OTRO CASO S

    Existen metodos que generan reglas siempre que vayan

    cubriendo instancias de manera consistente.

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 18 / 26

    Sistemas de Reglas

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    19/26

    Sistemas de ReglasII

    A este tipo de tecnicas se les llamam etodos por cobertura.

    Una tecnica es elAlgoritmo Cobertura.

    Se aplica para cada clase que se desea obtener en la

    clasificacion.

    Las instancias que pertenecen a la clase de interes se denominan

    ejemplos positivos y todas las demas ejemplos negativos.

    Al final el algoritmo regresa un conjunto de reglas que permitiran

    clasificar las instancias que mejor se adecuan a cada clase.

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 19 / 26

    Sistemas de Reglas

    http://find/http://goback/
  • 7/21/2019 ReglasAsociacionYArboles

    20/26

    Sistemas de ReglasIII

    Algoritmo Cobertura (Epos,Eneg: ejemplos positivos y negativos)

    Reglas whileEpos= y NO ParadaReglasdo

    NuevaRegla Eneg ActEneg

    whileEneg Act= y NO ParadaCondicionesdoCondicion Seleccionar una condicion segun criterioNuevaRegla NuevaRegla {Condicion}Eneg ActEj. negativos consistentes con NuevaRegla

    end while

    Reglas {NuevaRegla}EposEposEjemplos cubiertos por NuevaRegla

    end while

    returnReglas

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 20 / 26

    Sistemas de Reglas

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    21/26

    Sistemas de ReglasIV

    EjemploPaciente Astigmatismo Miopa Edad Operado

    P1 S 3.5 20 S

    P2 S 8 20 No

    P3

    No 3.5 16 No

    P4 No 2 25 Si

    P5 No 1 26 No

    P6 S 0.5 30 Si

    P7 No 0 28 No

    P8 S 7 25 NoP9 S 1 30 S

    P10 S 3 20 Si

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 21 / 26

    Sistemas de Reglas

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    22/26

    Sistemas de ReglasV

    Los metodos por particion de reglas pueden ser mas eficientespues cada particion genera dos o mas reglas, pero pueden

    devolver modelos sobreajustados.

    Los metodos por cobertura son menos exhaustivos pero pueden

    clasificar ejemplos que quiza en realidad sean ruido.

    Ambos metodos se adecuan bastante al conjunto de instancias

    base por lo que pueden funcionar mal para nuevos individuos.

    Para evitar esto se pueden aplicar algunas tecnicas con la

    finalidad de obtener modelos mas generales.

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 22 / 26

    http://find/http://goback/
  • 7/21/2019 ReglasAsociacionYArboles

    23/26

    Sistemas de Reglas

  • 7/21/2019 ReglasAsociacionYArboles

    24/26

    Sistemas de ReglasVII

    Pospoda

    Se aplica sobre el conjunto de reglas generado.

    En el caso de los arboles consiste en eliminar hijos desde las

    hojas hasta un cierto nivel.

    En el caso de los sistemas de reglas se trata de eliminar

    condiciones con la finalidad de tener reglas mas generales.

    La pospoda genera mejores resultados pues se aplica a la vision

    completa del modelo.

    La prepoda no genera nada que luego deba eliminarse

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 24 / 26

    Arboles de decision para regresion

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    25/26

    Arboles de decision para regresionI

    Se construyen de forma similar a los arboles de decision para

    clasificacion.

    La funcion aprendida tiene un dominio real.

    Los nodos hoja del arbol se etiquetan con valores reales.

    Se puede utilizar la varianza como medida de calidad respecto a

    los ejemplos que caen en cierta hoja.

    La idea es modificar adecuadamente la funcion de particion.

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 25 / 26

    Arboles de decision para regresion

    http://find/
  • 7/21/2019 ReglasAsociacionYArboles

    26/26

    Arboles de decision para regresionII

    Sergio Luis Perez (UAM CUAJIMALPA) Curso de minera de datos 26 / 26

    http://find/