Upload
riccardo-grosso
View
301
Download
0
Embed Size (px)
Citation preview
Esperimenti di estrazione e correlazione di concetti
A cura di Riccardo Grosso
CSI-Piemonte
Esperimenti di estrazione e correlazione di concetti
• Estrarre e derivare conoscenza dai metadati descrittivi degli oggetti dei portali
• Utilizzare criteri di somiglianza per l’estrazione della conoscenza
Esperimenti di estrazione e correlazione di concetti
• Cosa dicono i guru (fonte Zach Wahl)• La nostra interpretazione• Quali strade percorrere ? • Le esperienze fatte coi tool Bicocca in ambito
strutture dati concettuali e fisiche• I punti deboli• Le migliorie per aumentare la “intelligenza”• Le migliorie per generalizzarlo al web
Cosa dicono i guru (fonte Zach Wahl)
Cosa dicono i guru (fonte Zach Wahl)
La nostra interpretazione applicata alle basi dati
• People– Soggetto
• Places– Geografia
• Luogo • Territorio • Urbanistica
• Things– Bene– Documento
GEOGRAFIA LUOGOGEOGRAFIA LUOGO
GEOGRAFIA TERRITORIOGEOGRAFIA TERRITORIO
GEOGRAFIA URBANISTICAGEOGRAFIA URBANISTICA
BENE (COSA)BENE (COSA)
DOCUMENTO (COSA)DOCUMENTO (COSA)
SOGGETTO FISICOSOGGETTO FISICO
SOGGETTO GIURIDICO (IMPRESA)SOGGETTO GIURIDICO (IMPRESA)
SOGGETTO GIURIDICO (IMPRESA)SOGGETTO GIURIDICO (IMPRESA)
Quali strade percorrere ?
• Nelle precedenti trasparenze abbiamo visto come da un singolo concetto (es. SOGGETTO) e’ possibile, con criteri di somiglianza, verificare in quali strutture dati il concetto e’ presente
• Nelle prossime vedremo come, per ogni struttura dati, con gli stessi criteri di somiglianza, e’ possibile risalire ai concetti che la struttura dati contiene
Quali strade percorrere ?
• Ma se il focus e’ sui metadati descrittivi (nomi, descrizioni) ai quali si applicano i criteri di ricerca, cosa c’e’ di diverso tra:– Una struttura dati
• (tavola, campo)
– Un servizio descritto in un portale• (servizio, componente)
– Un filmato• (collezione, prodotto= filmato)
Quali strade percorrere ?
• In altre parole, e’ possibile sofisticare i criteri (usando il text mining ?) per far si che– Incrementando la base di conoscenza concettuale
– Facendo lavorare la base di conoscenza e i criteri su qualsiasi oggetto di portale
• Si giunga al web semantico ?• Meglio non affrettare le conclusioni…
DATA BASE
NOME,DESCTAVOLA
NOME,DESCCAMPO
(Da 1 database recupero N concetti)
CONCETTUALE
FISICO
Soggetto
Cittadino
Soggetto giuridico
Soggetto fisico/Persona fisica
Bene
Tributopaga
like “cittadin” like “tribut”
DATA BASE
NOME,DESCTAVOLA
NOME,DESCCAMPO
(Da 1 database recupero N concetti)
FISICO
CONCETTUALE
Agricoltura
Bovini
PastoriziaAllevamento
Sanità
Vaccinazioni
Text mining retrieval
PORTALEMetadati testualidegli oggetti
CONCETTUALE
FISICO
Soggetto
Cittadino
Soggetto giuridico
Soggetto fisico/Persona fisica
Bene
Tributopaga
Text mining retrieval
Oggetti del portale
PORTALEMetadati testualidegli oggetti
CONCETTUALE
FISICO
Agricoltura
Bovini
PastoriziaAllevamento
Sanità
Vaccinazioni
Text mining retrieval
Oggetti del portale
Generalizzazione
Esempio di schema nel modello Entita’ Relazione
PersonaCodice
Cognome
UomoDonna
ComuneCodiceNomenato
ProvinciaCodiceNome
in in
Le persone si dividono in donne e uomini. Le persone sono descritte da codice e cognomeLe persone sono nate in Comuni, i Comuni sono localizzati in Province e le Province in RegioniComuni, Province e Regioni hanno codice e nome
RegioneCodiceNome
Entita’Relazion
e
Attributo
Dal Cobol,al modello
Entita’ Relazione al linguaggio naturale
PersonaCodice
Cognome
UomoDonna
ComuneCodiceNomenato
ProvinciaCodiceNome
In inRegioneCodiceNome
• DATA DIVISION.
• WORKING-STORAGE SECTION.
• 01 PERSONA.
• 05 UOMo.
• 10 COD-UOMO PIC X(5).
• 10 DESC-UOMO PIC X(80).
• 05 DONNA REDEFINES UOMO.
• 10 TIPO-RECORD PIC X.
• 10 COD-DONNA PIC 9(5).
• 10 DESC-DONNA PIC X(80).
• 01 AMMINISTRAZIONE.
• 05 REGIONE.
• 10 COD-REGIONE PIC X(3).
• 10 COD-DUMMY PIC X(6).
• 10 DES-REGIONE PIC X(80).
• 05 PROVINCIA REDEFINES REGIONE.
• 10 COD-REGIONE PIC X(3).
• 10 COD-PROVINCIA PIC X(3).
• 10 COD-DUMMY2 PIC X(3).
• 10 DES-PROVINCIA PIC X(80).
• 05 COMUNE REDEFINESREGIONE.
• 10 COD-REGIONE PIC X(3).
• 10 COD-PROVINCIA PIC X(3).
• 10 COD-COMUNE PIC X(3).
• 10 DES-COMUNE PIC X(80).
• 01 PERSONA-AMMINISTRAZIONE.
• 05 LEGAME.
• 10 COD-PERSONA PIC X(5).
• 10 COD-AMMIN PIC X(3).
Le persone si dividono in donne e uomini. Le persone sono descritte da codice e cognomeLe persone sono nate in Comuni, i Comuni sono localizzati in Province e le Province in RegioniComuni, Province e Regioni hanno codice e nome
Le esperienze fatte coi tool Bicocca in ambito strutture dati
concettuali e fisiche• Versione client• Versione web (necessario XP 32-
bit)• Screenshot del tool
» screenshot.ppt
I punti deboli
• Il tool grafico scelto, cioe’ erwin– Adatto per strutture dati– Non adatto al web (non consente entita’
cliccabili - ipertesti)– Meglio http://www.musicplasma.com – Meglio ancora http://cmap.ihmc.us/
I punti deboli
• Se i metadati sono poco descritti, la riconcettualizzazione e’ debole
• Quali leve– Migliorare la qualita’ dei metadati aumentando
le descrizioni– Aumentare la base di conoscenza concettuale
del tool, la sua intelligenza, la precisione del retrieval sia sui nomi che sulle descrizioni
I punti di forza del tool
• Import gerarchie
• Presenza sul web
• Java / MySql (open source oriented)
Le migliorie per aumentare l’intelligenza
• import base di conoscenza (PAC, PAL, PAegov, nuova base di conoscenza)– import schemi
• import entita‘– Import attributi
• import generalizzazioni (gia' esistente)
• import relazioni
Parentesi su PAegov
• http://www.diviana.net– http://arianna.diviana.net/Arianna/default.asp
• Registrarsi per vedere i cataloghi oggetti e servizi
Le migliorie per generalizzarlo al web
• A questo punto, se la base di conoscenza "alta" utilizzata per la riconcettualizzazione e' generalizzabile, e' possibile fare riuso anche della parte "bassa" della base di conoscenza, cioe' i metadati descrittivi di tavole e campi.
Le migliorie per generalizzarlo al web
• Cosi' come i criteri di retrieval agiscono su
• - nomi tavole• - descrizioni tavole• - nomi campi• - descrizioni campi• generalizzando possiamo far agire i
criteri su• - nomi <OGGETTI PADRE>• - descrizioni <OGGETTI PADRE>• - nomi <OGGETTI FIGLIO>• - descrizioni <OGGETTI FIGLIO>
Le migliorie per generalizzarlo al web
• PADRE e FIGLIO possono essere oggetti metadatati e correlati censiti in un portale, ad esempio:– SERVIZIO e COMPONENTE
ARCHITETTURALE
Conclusioni
• Si vorrebbe sperimentare la strada della generalizzazione del tool Bicocca (librerie di schemi concettuali usate per il retrieval sui metadati descrittivi degli oggetti dei portali)
• Sofisticando i criteri di “retrieval” con metodi e tools di text mining
• “Accorciando” se necessario le stringhe di retrieval per migliorare il retrieval stesso sui nomi degli oggetti, ove mancano le descrizioni
Conclusioni
• Arricchendo le gerarchie di concetti, e le relazioni, anche al di sotto del valore soglia, fino ad utilizzare per il retrieval le entita’ (e criteri di retrieval associati) degli schemi base PA
• Arricchendo le gerarchie di concetti, e le relazioni, con gli schemi PA egov di Arianna-Diviana