29
Tesina de Grado El algoritmo ADIOS: Detalles e Implementación   Director: Dr. Gabriel Infante-Lopez   Grupo de Procesamiento de Lenguaje Natural   Facultad de Matemática, Astronomía y Física   Universidad Nacional de Córdoba   Alumno:  Esteban Ruiz   Lic. en Cs. de la Computación   Fac. de Cs. Exactas, Ing. y Agrim   Univ. Nacional de Rosario

Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Embed Size (px)

Citation preview

Page 1: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Tesina de Grado El algoritmo ADIOS:

Detalles e Implementación

   Director: Dr. Gabriel Infante­Lopez   Grupo de Procesamiento de Lenguaje Natural   Facultad de Matemática, Astronomía y Física   Universidad Nacional de Córdoba 

  Alumno:  Esteban Ruiz  Lic. en Cs. de la Computación  Fac. de Cs. Exactas, Ing. y Agrim  Univ. Nacional de Rosario

Page 2: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Contenido

● El algoritmo ADIOS– Ideas generales

– Sobre este trabajo

– Conceptos útiles, esquema del algoritmo

● Problemas encontrados● El algoritmo reespecificado● Implementación● Conclusiones

Page 3: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

¿Qué es el algoritmo ADIOS?El problema: 

Inferir reglas subyacentes en corpus no anotados.

ADIOS:    Automatic Distillation of StructureZ. Solan, D. Horn, E. Ruppin, S. Edelman (TAU)

Page 4: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Ventajas y característicasVentajas y características● No supervisado● Corpus no estructurado● Combina probabilidades y reglas

Desventajas

● Infiere sólo gramáticas limitadas

Page 5: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Sobre este trabajo

● Estudio del algoritmo● Problemas● El algoritmo ADIOS 

reespecificado● Diseño o implementación

Page 6: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Ideas generales del algoritmoCorpus, léxico, símbolos especiales

Cargar el corpus en un pseudografo

LéxicoDos 

símbolos especiales:

begin

end

begin

Page 7: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Ideas generales del algoritmoEn cada camino:

Detección de patrones y reescritura del grafo 

Detección de patrones más complejos: 

clases de equivalencia y caminos generalizados

Ejemplos: p1, p7 y p16

Page 8: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Conceptos útiles

Definición de PR y P

L

IDEM p/ PL

Page 9: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Más conceptos útiles● Matriz M

● DR y D

L (Relaciones de decrecimiento)

● Prueba de significación

DR(e1;e5) = 1/3

Page 10: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

El procedimiento MEX (simplificado)

Page 11: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Esquema del algoritmo:Inicializacion:Repetir hasta el 

fin del archivo:

● Leer el archivo hasta encontrar el final de una secuencia

● Cargar los símbolos encontrados como un nuevo camino en el pseudografo

Destilación de patronesCon cada camino:

● Ejecutar MEX en ese camino

● Si se obtuvo un patrón reescribir (rewire) el grafo

Page 12: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Esquema del algoritmo:Gen: primer pasoCon cada camino:

● Por cada posición posible de una ventana de largo L:

– Considerar todos los huecos posibles en esa ventana y ejecutar MEX para cada caso

● Seleccionar el mejor patrón encontrado y reescribir el grafo (nueva clase de equiv)

Page 13: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Esquema del algoritmo:Gen: bootstrapCon cada camino:

● Con cada posición de una ventana de largo L

– Construir el camino generalizado

– Reducir el camino generalizado

– Realizar MEX sobre elcamino generalizado reducido

● Si se detectó un patrón:

– ¿nueva clase de equiv?

– Reescribir el grafo

Page 14: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Dificultades● Superposición ● Cálculo de P en caminos generalizados ● Orden y repetición de pasos del algoritmo● Determinación de la significación● Problemas de borde● Comienzo y fin de patrones● Diferencias con ADIOS­Lite● Referencias e índices incorrectos

Page 15: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Superposición

Medidas de similitud de conjuntos

Jaccard:

Overlap:

¡Overlap no sirve!

  

una de

le

les

mes

X Y

J(X,Y) = 2/5 O(X,Y)=2/3

de

le

les

mes

Page 16: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Orden de los pasos

Page 17: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Problemas de bordep8.corpus.txt

p10.corpus.txt

ADIOS­Lite

ADIOS­Lite

Implementación

Implementación

Page 18: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Diferencias con ADIOS­Lite

p25.corpus.txt

Page 19: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Software utilizado

● cvs● eclipse● JDK 6● Libreria graph2 de apache y Jgraph● ArgoUML

Page 20: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Diseño

Page 21: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Diseño

Page 22: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Experiencias de la implementación

● Cálculo de números combinatorios y significación

● Testing● Problemas con la especificación

 ¡de 33 segundos a 4  mili!

Page 23: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Conclusiones

● Distancia entre explicación original e implementación efectiva

● Diseño orientado a objetos y tiempo de ejecución

Page 24: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Trabajo futuro

● Optimización● Contacto con Z. Solan● Adios en acción● Variaciones del algoritmo

Page 25: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

BibliografíaZ. Solan, D. Horn, E. Ruppin and S. Edelman, Unsupervised learning of 

natural languages. Editado por James L. McClelland, Carnegie Mellon University, Pittsburgh, PA, y aprobado June 14, 2005.

D. S. Moore, Estadística aplicada básica, Antoni Bosch editor, 1995.

M. Triola, Estadística elemental, Addison Wesley Longman, 7ma. ed.,  2000.

D. K. Hildebrand, L. Ott, Estadística aplicada a la administración y a la economía, Addison Wesley Longman, 3ra. ed, 1998.

J. Makkonen, H. Ahonen­Myka and Marko Salmenkivi, Applying Semantic Classes in Event Detection and Tracking.

J. Weeds, D. Weir and D. McCarthy, Characterising Measures of Lexical Distributional Similarity.

Page 26: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

BibliografíaJ. Brookshear, Lenguajes formales, autómatas y complejidad. Addison­

Wesley Iberoamericana.

L. A. Ballesteros, Resolving ambiguity for cross­language information retrieval: A dictionary approach, Univ. of Massachusetts, 2001. 

N. K. Bosa, P. Liang, Neural Network Fundamentals with Graphs, Algorithms, and Applications.

P. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987.

C. M. Grinstead, J. L. Snell, Introduction to Probability, AMS, second revised edition, 1997.

G. Infante Lopez, Two level grammars for natural language parsing, Soluciones Gráficas, 2005.

Page 27: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Preguntas

Page 28: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

Agradecimientos

Page 29: Tesina de Grado El algoritmo ADIOS: Detalles e …eruiz0/tesina/transparencias/tesina.pdfP. G. Hoel, S. C. Port, C. J. Stone, Introduction to Stochastic Proceses, Waveland Press, 1987

ADIOS