15
Università Degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico TESI DI LAUREA DI PRIMO LIVELLO Anno accademico 2003 – 2004 Sistema Momis: analisi sperimentale dell’integrazione di una nuova sorgente materiale disponibile all’url http://www.dbgroup.unimo.it/tesi/indexNod.html Candidato: Matteo Generali Relatore: Prof. Sonia Bergamaschi

Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

Embed Size (px)

Citation preview

Page 1: Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

Università Degli Studi di Modena e Reggio Emilia

Facoltà di Ingegneria – Sede di ModenaCorso di Laurea in Ingegneria Informatica

Nuovo Ordinamento Didattico

TESI DI LAUREA DI PRIMO LIVELLOAnno accademico 2003 – 2004

Sistema Momis: analisi sperimentale dell’integrazione di una nuova sorgente

materiale disponibile all’url http://www.dbgroup.unimo.it/tesi/indexNod.html

Candidato:

Matteo Generali

Relatore:

Prof. Sonia Bergamaschi

Page 2: Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

SYNSET2

SYNSET#

SYNSET4

SYNSET1

MANUALANNOTATION

SEMI-AUTOMATICANNOTATION

INFERRED RELATIONSHIPS

LEXICON DERIVEDRELATIONSHIPS

SCHEMA DERIVEDRELATIONSHIPS

CommonThesaurus

COMMON THESAURUSGENERATION

USER SUPPLIEDRELATIONSHIPS

ODLI3LOCAL SCHEMA N

WRAPPING

ODLI3LOCAL SCHEMA 1

GVV GENERATION

MAPPING TABLES

GLOBAL CLASSES

clustersgeneration

Structuredsource

RDB

<XML>

<DATA>

Semi-StructuredSource

Sistema MOMIS: Mediator envirOnment for Multiple Information Sources

Page 3: Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

Estrazione delle sorgenti locali

SorgenterelazionaleSorgente

relazionaleWrapper

relazionaleWrapper

relazionaleODLi3ODLi3

SorgenteXML DTDSorgenteXML DTD

WrapperDTD

WrapperDTD

ODLi3ODLi3

SorgenteHTML

SorgenteHTML

WrapperHTML (Lixto)

WrapperHTML (Lixto)

Page 4: Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

Annotazione delle sorgenti locali

Elemento(Classe o Attributo)

Elemento(Classe o Attributo)

WordNetWordNet

Annotazione:• Word form• Significato

Annotazione:• Word form• Significato

Page 5: Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

Generazione del Common Thesaurus

• SYN (Synonim)• BT (Broader Term)• NT (Narrower Term)• RT (Related Term)

Tipi di relazione Origini delle relazioni

• Schema• Lessico• Aggiunte del progettista• ODB-Tools (chiusura

transitiva)

Page 6: Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

Generazione della GVV• Naming Affinity Coefficient (NA)Calcolato considerando i cammini che legano i nomi di due classi

{ } { } { }C

xflagCx

cAcA

nncAacAaanncAacAaaccSA

l

qtl

qtqqtl

qttl 1)(|

)()(

~),(),(|~),(),(|),(

=∈⋅

+

∈∈+∈∈=

• Global Affinity Coefficient (GA)

GA = (NA x wNA) + (SA x wSA)

{ }qtl

qtqt nncAacAaaaC ~),(),(|),( ∈∈= Valori suggeritiwNA = 0,5wSA = 0,5Soglia = 0,5

• Structural Affinity Coefficient (SA)Affinità strutturale fra le descrizioni di due classi

10),( )1(2312 ≤⋅⋅⋅<=′ −ℜℜ mmccNA σσσ K α≥′→ ′ ),( ccNAANDnnse cm

c

0),( =′ccNA negli altri casi

Page 7: Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

Annotazione della GVV

G = <{ class, teaching,course},{class#3,teaching#3, course#1}>G = <{ class, teaching,course},{class#3,teaching#3, course#1}> G = <{ class, teaching,course},{class#3,teaching#3, course#1}>G = <{ class, teaching,course},{class#3,teaching#3, course#1}>

Classe Globale annotataClasse Globale annotata

CS.Class=<class, {class#3}>

UNI.Course=<course,{course#1}>

UNI.Teaching=<teaching,{teaching#3}>

CS.Class=<class, {class#3}>

UNI.Course=<course,{course#1}>

UNI.Teaching=<teaching,{teaching#3}>

Classi Locali annotateClassi Locali annotate

class#3 = course#1 = education imparted in a series of class#3 = course#1 = education imparted in a series of lessons or class meetings lessons or class meetings

teaching#3 = teaching#3 = activities that impart knowledgeactivities that impart knowledge

class#3 = course#1 = education imparted in a series of class#3 = course#1 = education imparted in a series of lessons or class meetings lessons or class meetings

teaching#3 = teaching#3 = activities that impart knowledgeactivities that impart knowledgeSignificatiSignificati

WordNetWordNet

G= {CS.Class, UNI.Course, UNI.Teaching}G= {CS.Class, UNI.Course, UNI.Teaching}

significatisignificati

nominomi

nome più generalenome più generalesignificato più generalesignificato più generale

Relazioni del Common ThesaurusRelazioni del Common Thesaurus

Page 8: Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

Integrazione di una nuova sorgente

oldSource1oldSource1

oldSource2oldSource2

oldSource3oldSource3

newSourcenewSource

newGVV

oldSource1

oldSource2

oldSource3

newSource

Primo approccio

GVVold

oldSource1

oldSource2

oldSource3

newSourcenewSource

Secondo approccio

Page 9: Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

Ricalcolo della GVV sfruttando la GVV precedente

GCnewGCnew GCold LCnew LCnew

GCnewGCnew LCnew LCnew LCnew

GCnewGCnew GCold GCold LCnew

•Caso 1

•Caso 2

•Caso 3

Page 10: Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

SperimentazioneEsperimento 1

• Sperimentazione Caso 1 e Caso 2

• Confronto tra le GVV ottenute

Esperimento 2

• Sperimentazione Caso 3

• Analisi teorica del Caso 3

Page 11: Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

Esperimento 1: esempioIndirizzo Indirizzo(prontocomune) Via Via CAP CAP Regione Regione Comune Comune

Indirizzo Indirizzo(prontocomune) Via Via CAP CAP Regione Regione Comune Comune +

Indirizzo (address, 2) CAP (string) zip_code (1) POSTA-ELETTRONICA (set <str ing>) e-mail (1) FAX (set <string>) fax (1) Via (string) street (1) Regione (string) region (3) TEL (set <string>) telehpone (1) Comune (string) town (1)

Indirizzo (address, 2) CAP (string) zip_code (1) POSTA-ELETTRONICA (set <str ing>) e-mail (1) FAX (set <string>) fax (1) Via (string) street (1) Regione (string) region (3) TEL (set <string>) telehpone (1) Comune (string) town (1)

=Indirizzo Indirizzo(subfor) Indirizzo(prontocomune) Via Via Via TEL TEL POSTA-ELETTRONICA POSTA-ELETTRONICA CAP CAP CAP FAX FAX Regione Regione Regione Comune Comune Comune

Indirizzo Indirizzo(subfor) Indirizzo(prontocomune) Via Via Via TEL TEL POSTA-ELETTRONICA POSTA-ELETTRONICA CAP CAP CAP FAX FAX Regione Regione Regione Comune Comune Comune

GVVold.Indirizzo

subfor.Indirizzo

GVVnew.Indirizzo

Page 12: Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

Confronto tra i due approcci

• Risultati finali confrontabili

• Il primo approccio è più oneroso nel numero delle relazioni

• Il secondo approccio ha un potere espressivo inferiore

• Il secondo approccio si presta a procedure con intervento minimo del progettista, il primo approccio consente maggiore interazione

Page 13: Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

Esperimento 2

• La sua presenza può compromettere la struttura della GVV come vista da applicazioni che svolgono query su di essa

Il terzo caso di integrazione è più complesso:

Page 14: Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

Esperimento 2: esempio

Caso Rel A-C Rel B-C Rel A-B NA(A,B) SA(A,B) NA(A,C) SA(A,C) NA(B,C) SA(B,C) Possibile 1 - - * * 0,5 0 0,5 0 0,5 NO 2 SYN SYN SYN 0,5 * 0,5 0 0,5 0 NO

3-a RT RT RT 0,25 < 0,25 0,25 ≥ 0,25 0,25 ≥ 0,25 SI 3-b RT RT NT/BT 0,4 < 0,1 0,25 ≥ 0,25 0,25 ≥ 0,25 SI 4-a NT NT RT 0,32 < 0,25 0,4 ≥ 0,1 0,4 ≥ 0,1 SI 4-b NT NT NT 0,4 < 0,1 0,4 ≥ 0,1 0,4 ≥ 0,1 SI 5-a SYN RT RT 0,25 < 0,25 0,5 * 0,25 < 0,25 SI 5-b SYN NT NT 0,4 < 0,1 0,5 * 0,4 ≥ 0,1 SI 6 RT NT NT 0,4 < 0,1 0,25 ≥ 0,25 0,4 ≥ 0,1 SI

7-a - - - 0 0,5 0 0,5 0 0,5 NO 7-b - NT - 0 0,1 0 0,5 0,4 ≥ 0,1 SI 8 RT RT RT 0,25 0 0,25 0,25 0,25 0,25 SI

Riepilogo

A B

CNT

NA = 0,4

SA ≥ 0,1

NTNA = 0,4

SA ≥ 0,1

RTNA = 0,32

SA < 0,25

Page 15: Universit à Degli Studi di Modena e Reggio Emilia Facolt à di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico

Esperimento 2: conclusioni

• Il terzo caso di integrazione introduce una possibile inefficacia della GVV

• Solamente casi limite sono impossibili, molti altri sono realizzabili in teoria

• Talvolta è conveniente affrontare il terzo caso come estensione di uno degli altri due