View
5
Download
0
Category
Preview:
Citation preview
Gabrielle K. Canalle Bernadette Farias Lóscio
Ana Carolina Salgado
Universidade Federal de Pernambuco
Centro de Informática
Uma Estratégia para Seleção de
Atributos Relevantes no Processo de
Resolução de Entidades
CIn.ufpe.br
Agenda
Motivação
Estratégia de Seleção de Atributos
Avaliação Experimental
Conclusão e Trabalhos Futuros
2
CIn.ufpe.br
Agenda
Motivação
Estratégia de Seleção de Atributos
Avaliação Experimental
Conclusão e Trabalhos Futuros
3
CIn.ufpe.br
Introdução
4
CIn.ufpe.br
Integração de Dados
Diferentes fontes
de dadosDados Integrados
5
CIn.ufpe.br
Etapas da Integração de Dados
Alinhamento de
Esquemas
Resolução de Entidades
Fusão de Dados
6
CIn.ufpe.br
Etapas da Integração de Dados
Alinhamento de
Esquemas
Resolução de Entidades
Fusão de Dados
7
CIn.ufpe.br
Resolução de Entidades
Blocagem
Correspondência de Pares
Classificação
8
CIn.ufpe.br
Resolução de Entidades
Blocagem
Correspondência de Pares
Classificação
9
CIn.ufpe.br
✔
✖
±
CORRESPONDENTES
NÃO CORRESPONDENTES
POTENCIALMENTE CORRESPONDENTES
Resolução de Entidades
Blocagem
Correspondência de Pares
Classificação
10
CIn.ufpe.br
Cenário Motivacional
11
CIn.ufpe.br
Cenário Motivacional
Não Duplicadas
12
CIn.ufpe.br
Cenário Motivacional
Duplicadas
13
CIn.ufpe.br
Cenário Motivacional
Não Duplicadas
14
CIn.ufpe.br
Como selecionar os atributos mais relevantes
para serem utilizados na fase de correspondência
entre pares do processo de Resolução de
Entidades?
15
CIn.ufpe.br
Agenda
Motivação
Estratégia de Seleção de Atributos
Avaliação Experimental
Conclusão e Trabalhos Futuros
16
CIn.ufpe.br
Visão geral da Estratégia
Classificação ordenada
17
CIn.ufpe.br
Visão geral da Estratégia
E1
E2 E3
a1
a2
a3
a4
a5
a6
a7
a5
Conjunto de Atributos
Comuns
18
CIn.ufpe.br
Visão geral da Estratégia
Conjunto de EntidadesConjunto de Atributos Comuns
Classificação ordenada
19
CIn.ufpe.br
Critérios de Avaliação
20
CIn.ufpe.br
Repetição
Quantidade de vezes que um mesmo valor para um
atributo aparece no conjunto de dados
21
CIn.ufpe.br
Densidade
Percentual de valores na o nulos contidos no conjunto
de valores que descreve um atributo
22
CIn.ufpe.br
Dinamicidade
Grau de dinamicidade dos atributos, ou seja, seu ni vel
de alterac a o ao longo do tempo
23
CIn.ufpe.br
Ruído
Quanto um atributo e suscetível a erros. O rui do e um
erro aleatorio ou variabilidade presente nos valores
de entrada de um atributo.
24
CIn.ufpe.br
Confiabilidade
Grau em que os dados fornecidos por uma
fonte de dados sa o veri dicos e confia veis
– Estimado por meio de metadados de qualidade
associados as fontes de dados
25
CIn.ufpe.br
Cobertura
Percentual de insta ncias que uma fonte de
dados fornece para o conjunto de dados
avaliado
26
CIn.ufpe.br
Análise de Relevância Individual
• Neste trabalho, implementamos os critérios de Repetição e
Densidade
• Repetição –
• Densidade –
• Relevância Individual –
27
CIn.ufpe.br
Análise de Relevância Global
– ponderar a relevancia de um atributo utilizando critérios de qualidade das fontes
– calculo da Relevância Individual, apenas os valores dos dados sao levados emconsiderac ao
• Cobertura
• Qualidade do Conjunto de Fontes de Dados
• Relevância Global
28
CIn.ufpe.br
Agenda
Motivação
Estratégia de Seleção de Atributos
Avaliação Experimental
Conclusão e Trabalhos Futuros
29
CIn.ufpe.br
Hipóteses
H1 - Considerar todos os atributos na fase de comparac ao ocasiona em um resultado com baixo
F-measure.
H2 - Considerar os atributos mais relevantes de acordo com a classificac ao realizada pela
estrategia proposta faz com que o resultado obtido tenha um alto F-measure.
H3 - A medida que atributos menos relevantes sao adicionados ao grupo de atributos
considerados, o numero de corresponde ncias erradas aumenta, diminuindo o F-measure do
resultado.
30
CIn.ufpe.br
Avaliação Experimental
• Dominio de referencias bibliograficas de Ciencia da Computac ao– Base de dados Cora
• 1.879 instâncias
• 15 atributos
• Aproximadamente 90% de duplicação
• Gold Standard
• Particionada em diferentes cenários de duplicação
• Ferramenta para Resolução de Entidades– DuDe – Duplicate Detection
• Java
• Estrutura modular
• Medidas de Qualidade• Revocação(Recall)
• Precisão (Precision)
• Medida F (F-measure)
31
CIn.ufpe.br
Cenário
32
CIn.ufpe.br
Grupos de Atributos
Grupo 1 – dois atributos mais relevantes
Grupo 2 – três atributos mais relevantes
Grupo 3 – quatro atributos mais relevantes
Grupo 4 – oito atributos mais relevantes
33
CIn.ufpe.br
Cenário 1
34
1
0,66 0,66
0
0
CIn.ufpe.br
Cenário 2
35
0,82
0,46
0,33
0
CIn.ufpe.br
Cenário 3
36
0,460,40
0,36
0
0
CIn.ufpe.br
Cenário 4
37
0,98 0,98
0,85
0
CIn.ufpe.br
Agenda
Motivação
Estratégia de Seleção de Atributos
Avaliação Experimental
Conclusão e Trabalhos Futuros
38
CIn.ufpe.br
Conclusão
• A estratégia proposta se mostrou eficiente em todos os
cenários.
• Confirmamos que utilizar uma grande quantidade de atributos
na Resolução de Entidades não é viável.
• Verificamos que, à medida que atributos com menor valor de
relevância são considerados na comparação, o F-measure
diminui.
• Os resultados obtidos por meio dos experimentos validaram
nossas hipóteses.
39
Universidade Federal de Pernambuco
Centro de Informática
Obrigada pela Atenção!
Dúvidas?
gkc@cin.ufpe.br
Recommended