29
Jose Mauro da Silva Universidade Federal de Goiás Instituto de Informática Defesa de Dissertação de Mestrado

Defesa mestrado

Embed Size (px)

Citation preview

Page 1: Defesa mestrado

Jose Mauro da Silva

Universidade Federal de Goiás

Instituto de Informática

Defesa de Dissertação de Mestrado

Page 2: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 2

Agenda

Problema

Tecnologias KDT

Fundamentos do SINAPSE

Pesquisas em Áreas Relacionadas

Metodologia SINAPSE

Testes e Avaliações

Conclusões

Page 3: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 3

Problema

Page 4: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 4

Problema: Estudo de Caso

População economicamente

ativa

População de aposentados (22 milhões)

57 % aposentáveis

GESTÃO DO CONHECIMENTO

Equilíbrio Previdenciário

Page 5: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 5

Problema Pesquisado

GESTÃO DO CONHECIMENTO KDT

REDUÇÃO DE PROBLEMA

Page 6: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 6

Tecnologias KDT

Abordagens: Estatísticas, Lingüísticas e Híbridas;

Pré-processamento: Itemização, Filtragem, conflação, etc.

Métodos de Mineração de Texto: Classificação: Naive Bayes, K-NN, etc. Agrupamento: Particionamento, Hierárquico, etc. Extração de Informações: CRF, HMM, etc. Etc.

Page 7: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 7

Teoria da Criação do Conhecimento

Organizacional

Ref.: Ikujiro Nonaka e Hiratoka Takeuchi

Page 8: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 8

Percurso Onomasiológico

Ref.: Bernard Pottier

Page 9: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 9

Percurso Semasiológico

Ref.: Bernard Pottier

Referencial

Conceitual

Page 10: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 10

Regra de Formação de Palavras

FORMAÇÃO NORMAL

FORMAÇÃO REVERSA

Ref.: Margarida Basílio REDUÇÃO GRAMATICAL“STEMMING”

Page 11: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 11

Exemplo do Conceito FUTEBOL

Page 12: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 12

Problema: Contextos Conexos

Nível de “Ruído” Introduzido

(CONTEXTO)

Page 13: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 13

Sinonímia e Generalização

Palavras de diferentes grafias com significados semelhantes.

Palavra possui significado mais amplo que outra.

Page 14: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 14

Mapeamento por Conceito - NÍVEIS

Nível das PALAVRAS

Nível dos CONCEITOS

Page 15: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 15

Mapeamento por Conceito - SINAPSE

Page 16: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 16

Mapeamento por Conceito - Protégé

Hierarquia

Identificador do Conceito

Descritores do Conceito

Page 17: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 17

Pesquisas em Áreas Relacionadas

Page 18: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 18

Visão de Alto Nível do SINAPSE

Page 19: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 19

Metodologia Metodologia de Descoberta de Descoberta

de de Conhecimento Conhecimento

em Objetos em Objetos TextuaisTextuais

Metodologia SINAPSE

Page 20: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 20

Matriz Atributo x Valor

CANDIDATOS

CONCEITOS

Page 21: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 21

Resultados e Avaliações do SINAPSE

Variáveis: Corpora; Ontologia Componentes internos (regras, padrões, etc.).

Textos: 81 arquivos ASCII; 11 domínios (pré-categorizados).

Ontologias: Acidentes de trânsito; Engenharia de requisitos; Segurança computacional; Doenças do gado; Corpos celestes; Aquecimento global.

Page 22: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 22

Resultados: Objeto Textual Analisado

6801,72

1882,89

6,28 5,110,00

1000,00

2000,003000,00

4000,005000,00

6000,007000,00

Valores Obtidos

1

Entidades

TEXTO ANALISADO PELO SINAPSE

TOKENS

LÉXICO

CANDIDATOS

CONCEITOS

Page 23: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 23

Resultados: Stemming

VALIDAÇÃO DO STEMMING SINAPSE X RSLP

51

949

1000

0 200 400 600 800 1000 1200

SINAPSE:ERROS

SINAPSE:ACERTOS

RSLP

PA

LA

VR

AS

RE

DU

ZID

AS

ACERTOS E ERROS

Page 24: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 24

Resultados: conceitos por domínio

CONCEITOS DESCOBERTOS X DOMÍNIO

19%

52%

11%

46%

32%

19%

0%

10%

20%

30%

40%

50%

60%

CONHECIMENTO ONTOLÓGICO

PE

RC

EN

TU

AIS

Engenharia deRequisitos

Corpos Celeste

Acidentes de Trânsito

Segurança

Aquecimento Global

Doenças do Gado

DOMÍNIO CONCEITOS CANDIDATOS LÉXICO TOKENS %Engenharia de Requisitos 5,000 7,667 2582,333 11529,667 19%Corpos Celeste 6,333 7,000 1211,333 3113,000 52%Acidentes de Trânsito 2,333 3,667 2053,667 9940,667 11%Segurança 7,333 9,000 1609,333 6319,667 46%Aquecimento Global 6,000 6,333 1880,333 5572,000 32%Doenças do Gado 3,667 4,000 1960,333 4335,333 19%

Percentual = Conceito/Léxico x 100

Page 25: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 25

Resultados: domínios conexos e desconexos

PERTINÊNCIA CONCEITUAL INTERDOMÍNIO

0% 0% 0%

16%

27%

0%0%

5%

10%

15%

20%

25%

30%

1

CONHECIMENTO ONTOLÓGICO

PE

RC

EN

TU

AIS

Engenharia deRequisitos

Corpos Celeste

Acidentes de Trânsito

Segurança

Aquecimento Global

Doenças do Gado

Page 26: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 26

Resultados: classes gramaticais restritas

GRAU DE INDETERMINAÇÃO DE CLASSES GRAMATICAIS RESTRITAS

48%

20%

8%

24%0%

INDETERMINADO SUBSTANTIVO VERBO

PREPOSIÇÃO ADVÉRBIO

Indeterminação I +Indeterminado X

MÉDIA ARITIMÉTICA:FREQÜÊNCIA X CLASSE GRAMATICAL

30%

24%8%

20%

18% 0%

INDETERMINAÇÃO X PREPOSIÇÃO VERBO

SUBSTANTIVO INDETERMINAÇÃO I ADVÉRBIO

Equivale à 80 % dos substantivos esperados.

Page 27: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 27

Resultados: índices de substantivação ISA x ISR

COMPARATIVO ISA X ISR

0

0,2

0,4

0,6

0,8

1

1,2

VALORES DE IMPORTÂNCIA

VA

LO

RE

S E

NT

RE

0 E

1

ISA % ISR %

Page 28: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 28

Conclusões

Hipótese provada

Aplicações: Base de Conhecimento; Índice em sistemas IR; Descritores de Agrupamentos; Resumos de textos; Visualização de Informações; Busca Semântica; Etc.

Contribuições: Metodologia;

Adaptação do uso de Stemming; Métodos ISA e ISR; Casamento ontológico.

Page 29: Defesa mestrado

02/03/15 SINAPSE - JMS - Mestrado INF/UFG 29

Obrigado !