11
Emiliano González, Gonzalo Castillo, Santiago Avendaño

Emiliano González, Gonzalo Castillo, Santiago Avendaño

Embed Size (px)

Citation preview

Page 1: Emiliano González, Gonzalo Castillo, Santiago Avendaño

Emiliano González, Gonzalo Castillo, Santiago Avendaño

Page 2: Emiliano González, Gonzalo Castillo, Santiago Avendaño

Objetivos

Construir una aplicación para: Brindar información sintetizada al

usuario Brindar la información más relevante Abarcar todas las características

importantes del dominio en cuestión. La aplicación va a estar centrada en

un dominio particular, que son las opiniones sobre restaurantes de la ciudad de Buenos Aires

Page 3: Emiliano González, Gonzalo Castillo, Santiago Avendaño

Módulos El sistema se compone de

módulos El sistema tiene una

arquitectura de tipo pipeline. A continuación, describiremos

cada uno de estos módulos y las operaciones que realizan.

Formater

Fragmenter

Categorizer

Scorer

Filter

Summarizer

Page 4: Emiliano González, Gonzalo Castillo, Santiago Avendaño

Formater

Establece un formato en común para todos los comentarios , quitando: mayúsculas acentos espacios dobles caracteres especiales

Input: un comentario Output: el comentario formateado

Page 5: Emiliano González, Gonzalo Castillo, Santiago Avendaño

Fragmenter Divide un comentario en varios snippets

(fragmentos), en cada: Punto “.” Coma “,” Punto y coma “;” Dos puntos “:” Paréntesis “(” y “)” Signo menos “-” Signo de interrogación “?”

Input: comentario Output: fragmentos de comentario

Page 6: Emiliano González, Gonzalo Castillo, Santiago Avendaño

Categorizer Identifica los fragmentos de comentario

en 6 clases (Comida, Servicio, Ambiente, Precio, Dobles, Otros).

Usamos Weka: Usamos el filtro StringToWordVector para

filtrar los datos. Categorizamos mediante un clasificador Ibk,

entrando con 5000 snippets clasificados.

Input: fragmento de comentario Output: fragmento categorizado

Page 7: Emiliano González, Gonzalo Castillo, Santiago Avendaño

Scorer Asigna un puntaje de relevancia a los

snippets. Usamos 6 diccionarios con puntos (positivos

y negativos) previamente asignados: Adjetivos calificativos de comida, servicio,

ambiente y precio Negadores (“no” y “nada”) Intensificadores

Input: snippet + una categoria Output: score para el snippet.

Page 8: Emiliano González, Gonzalo Castillo, Santiago Avendaño

Filter

Filtra los snippets similares dentro de una misma categoría.

Además filtra aquellos snippets que tengan score CERO.

Input: conjunto de snippets Output: conjunto de snippets

filtrado

Page 9: Emiliano González, Gonzalo Castillo, Santiago Avendaño

Summarizer

Realiza un proceso de selección de aquellos snippets más relevantes dentro de una misma categoría, según distintas estrategias.

Estrategias: Seleccionar N positivos y M negativos (N y M

enteros). Seleccionar aquellos que tengan los N mayores

scores y los M menores. Seleccionar un % de positivos y un % de negativos. Seleccionar los N de mayor valor absoluto de score.

Input: conjunto de snippets (con puntaje) Output: conjunto de snippets

Page 10: Emiliano González, Gonzalo Castillo, Santiago Avendaño

Formater

Fragmenter

Categorizer

Scorer

Filter

Summarizer

La calidad de la comida es buena. En contraparte de la comida, la atención es altamente deficiente,con mucha demora y poco cordial. El ambiente es muy ruidoso.

la calidad de la comida es buena. en contraparte de la comida, la atencion es altamente deficiente, con mucha demora y poco cordial. el ambiente es muy ruidoso.

1: la calidad de la comida es buena2: en contraparte de la comida3: la atencion es altamente deficiente4: con mucha demora y poco cordial5: el ambiente es muy ruidoso

1(Comida): la calidad de la comida es buena2(Comida): en contraparte de la comida3(Servicio): la atencion es altamente deficiente4(Servicio): con mucha demora y poco cordial5(Ambiente): el ambiente es muy ruidoso

1(Comida) (8.0): la calidad de la comida es buena2(Comida) (0.0): en contraparte de la comida3(Servicio) (-16384.0): la atencion es altamente deficiente4(Servicio) (-112.0): con mucha demora y poco cordial5(Ambiente) (-128.0): el ambiente es muy ruidoso

1(Comida)(8.0): la calidad de la comida es buena3(Servicio)(-16384.0): la atencion es altamente deficiente4(Servicio)(-112.0): con mucha demora y poco cordial5(Ambiente)(-128.0): el ambiente es muy ruidoso

la calidad de la comida es buenala atencion es altamente deficienteel ambiente es muy ruidoso

Page 11: Emiliano González, Gonzalo Castillo, Santiago Avendaño

Trabajo a futuro

Obtener resumenes por restaurantes Computar snippets de tipo doble Encontrar sentimientos dentro de la

categoria otros (Ej: “muy recomendado”).

Mejorar la precisión del categorizador Mejorar el módulo de filtrado de

snippets similares. Mejorar performance