Upload
anselmo-sepeda
View
2
Download
0
Embed Size (px)
Citation preview
Emiliano González, Gonzalo Castillo, Santiago Avendaño
Objetivos
Construir una aplicación para: Brindar información sintetizada al
usuario Brindar la información más relevante Abarcar todas las características
importantes del dominio en cuestión. La aplicación va a estar centrada en
un dominio particular, que son las opiniones sobre restaurantes de la ciudad de Buenos Aires
Módulos El sistema se compone de
módulos El sistema tiene una
arquitectura de tipo pipeline. A continuación, describiremos
cada uno de estos módulos y las operaciones que realizan.
Formater
Fragmenter
Categorizer
Scorer
Filter
Summarizer
Formater
Establece un formato en común para todos los comentarios , quitando: mayúsculas acentos espacios dobles caracteres especiales
Input: un comentario Output: el comentario formateado
Fragmenter Divide un comentario en varios snippets
(fragmentos), en cada: Punto “.” Coma “,” Punto y coma “;” Dos puntos “:” Paréntesis “(” y “)” Signo menos “-” Signo de interrogación “?”
Input: comentario Output: fragmentos de comentario
Categorizer Identifica los fragmentos de comentario
en 6 clases (Comida, Servicio, Ambiente, Precio, Dobles, Otros).
Usamos Weka: Usamos el filtro StringToWordVector para
filtrar los datos. Categorizamos mediante un clasificador Ibk,
entrando con 5000 snippets clasificados.
Input: fragmento de comentario Output: fragmento categorizado
Scorer Asigna un puntaje de relevancia a los
snippets. Usamos 6 diccionarios con puntos (positivos
y negativos) previamente asignados: Adjetivos calificativos de comida, servicio,
ambiente y precio Negadores (“no” y “nada”) Intensificadores
Input: snippet + una categoria Output: score para el snippet.
Filter
Filtra los snippets similares dentro de una misma categoría.
Además filtra aquellos snippets que tengan score CERO.
Input: conjunto de snippets Output: conjunto de snippets
filtrado
Summarizer
Realiza un proceso de selección de aquellos snippets más relevantes dentro de una misma categoría, según distintas estrategias.
Estrategias: Seleccionar N positivos y M negativos (N y M
enteros). Seleccionar aquellos que tengan los N mayores
scores y los M menores. Seleccionar un % de positivos y un % de negativos. Seleccionar los N de mayor valor absoluto de score.
Input: conjunto de snippets (con puntaje) Output: conjunto de snippets
Formater
Fragmenter
Categorizer
Scorer
Filter
Summarizer
La calidad de la comida es buena. En contraparte de la comida, la atención es altamente deficiente,con mucha demora y poco cordial. El ambiente es muy ruidoso.
la calidad de la comida es buena. en contraparte de la comida, la atencion es altamente deficiente, con mucha demora y poco cordial. el ambiente es muy ruidoso.
1: la calidad de la comida es buena2: en contraparte de la comida3: la atencion es altamente deficiente4: con mucha demora y poco cordial5: el ambiente es muy ruidoso
1(Comida): la calidad de la comida es buena2(Comida): en contraparte de la comida3(Servicio): la atencion es altamente deficiente4(Servicio): con mucha demora y poco cordial5(Ambiente): el ambiente es muy ruidoso
1(Comida) (8.0): la calidad de la comida es buena2(Comida) (0.0): en contraparte de la comida3(Servicio) (-16384.0): la atencion es altamente deficiente4(Servicio) (-112.0): con mucha demora y poco cordial5(Ambiente) (-128.0): el ambiente es muy ruidoso
1(Comida)(8.0): la calidad de la comida es buena3(Servicio)(-16384.0): la atencion es altamente deficiente4(Servicio)(-112.0): con mucha demora y poco cordial5(Ambiente)(-128.0): el ambiente es muy ruidoso
la calidad de la comida es buenala atencion es altamente deficienteel ambiente es muy ruidoso
Trabajo a futuro
Obtener resumenes por restaurantes Computar snippets de tipo doble Encontrar sentimientos dentro de la
categoria otros (Ej: “muy recomendado”).
Mejorar la precisión del categorizador Mejorar el módulo de filtrado de
snippets similares. Mejorar performance