19
Tecniche per Tecniche per l’esecuzione efficiente l’esecuzione efficiente di interrogazioni sul di interrogazioni sul contenuto in collezioni contenuto in collezioni MPEG-7 MPEG-7 Università degli Studi di Modena e Reggio Emilia Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Facoltà di Ingegneria – Sede di Modena Corso di Laurea Specialistica in Ingegneria Corso di Laurea Specialistica in Ingegneria Informatica - Informatica - NOD NOD Relatore: Relatore: Prof. Paolo Tiberio Prof. Paolo Tiberio Correlatori: Correlatori: Dott. Federica Mandreoli Dott. Federica Mandreoli Ing. Riccardo Martoglia Ing. Riccardo Martoglia Anno accademico 2004-2005 Anno accademico 2004-2005 Alessandro Tonelli Alessandro Tonelli

Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

Embed Size (px)

Citation preview

Page 1: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

Tecniche per l’esecuzione Tecniche per l’esecuzione efficiente di efficiente di

interrogazioni sul interrogazioni sul contenuto in collezioni contenuto in collezioni

MPEG-7MPEG-7

Università degli Studi di Modena e Reggio EmiliaUniversità degli Studi di Modena e Reggio Emilia

Facoltà di Ingegneria – Sede di ModenaFacoltà di Ingegneria – Sede di ModenaCorso di Laurea Specialistica in Ingegneria Informatica - Corso di Laurea Specialistica in Ingegneria Informatica - NODNOD

Relatore:Relatore:

Prof. Paolo TiberioProf. Paolo Tiberio

Correlatori:Correlatori:

Dott. Federica MandreoliDott. Federica Mandreoli

Ing. Riccardo MartogliaIng. Riccardo Martoglia

Anno accademico 2004-2005Anno accademico 2004-2005

Alessandro TonelliAlessandro Tonelli

Page 2: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

Ambito di Ambito di ricerca:ricerca:

Progetto europeo DELOS (A Network of Progetto europeo DELOS (A Network of Excellence on Digital Libraries)Excellence on Digital Libraries)

Sviluppo di tecnologie su digital librariesSviluppo di tecnologie su digital libraries

ObiettivoObiettivo

Ambito di indagine Ambito di indagine della tesi:della tesi:

Sviluppo di tecniche che permettano di interrogare Sviluppo di tecniche che permettano di interrogare dati video utilizzando misure di similaritàdati video utilizzando misure di similarità

Interrogazioni sul contenuto in collezioni MPEG-7Interrogazioni sul contenuto in collezioni MPEG-7

ObiettivoObiettivo

Page 3: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

Problematiche affrontateProblematiche affrontate

Analisi stato dell’arteAnalisi stato dell’arte

Ricerche di similaritàRicerche di similarità

Modifiche al sistema XSiterModifiche al sistema XSiter

Page 4: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

MPEG-7MPEG-7

MPEG-7 è uno standard ISO/IEC formalmente MPEG-7 è uno standard ISO/IEC formalmente chiamato “Multimedia Content Description chiamato “Multimedia Content Description Interface”, che fornisce un insieme di specifiche Interface”, che fornisce un insieme di specifiche e strumenti per la descrizione, attraverso e strumenti per la descrizione, attraverso metadatimetadati, di contenuti di tipo multimediale., di contenuti di tipo multimediale.

Esso descrive le informazioni multimediali Esso descrive le informazioni multimediali attraverso una rappresentazione testuale attraverso una rappresentazione testuale ((XMLXML) che facilita l’identificazione, il ) che facilita l’identificazione, il filtraggio, la ricerca, il reperimento e la filtraggio, la ricerca, il reperimento e la gestione dei dati multimediali, siano essi file gestione dei dati multimediali, siano essi file audio, filmati o immagini.audio, filmati o immagini.

Page 5: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

MMDBMSMMDBMS

Un MultiMedia DataBase Management Un MultiMedia DataBase Management System fornisce un ambiente adatto per System fornisce un ambiente adatto per utilizzare e gestire dati multimediali.utilizzare e gestire dati multimediali.

Deve:• fornire mezzi per l’indicizzazione ed il

recupero efficiente delle informazioni• supportare modelli concettuali dei dati

multimediali• gestire l’ottimizzazione delle query e il

processing delle stesse.

Page 6: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

Soluzioni database XMLSoluzioni database XML

nativenative estensioniestensioni

eXcelon XIS

GoXML DB

Infonyte-DB

TEXTML

Tamino

X-Hive/DB

Xindice

eXist

Lore

Natix

TIMBER

IBM DB2 XML Extender

Microsoft SQLXML

Oracle XML DB

ozone/XML

Monet XML

Shimura et al.

XML Cartridge

Oracle XML DB/Structured Mapping

Commercial

Opensource

Nativedatabasesolutions Unstructured storage Structured storage Mapping

Database extensions

dbXML

ResearchPDOM

Page 7: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

Querying di dati MPEG-7Querying di dati MPEG-7

feature-feature-based based

queryingquerying

semantic semantic queryingquerying

si riferisce alle tecniche che si riferisce alle tecniche che si concentrano sulle si concentrano sulle caratteristiche audiovisive di caratteristiche audiovisive di basso livello (colore, forma, basso livello (colore, forma, ecc.) ecc.)

si riferisce all’interrogazione si riferisce all’interrogazione basata su semantiche di livello basata su semantiche di livello più alto che sono più vicine alle più alto che sono più vicine alle interpretazioni dell’utente ed interpretazioni dell’utente ed ai contesti d’uso.ai contesti d’uso.

--

--

Processing di Processing di query…query…

Page 8: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

Problematiche affrontateProblematiche affrontate

Analisi stato dell’arteAnalisi stato dell’arte

Ricerche di similaritàRicerche di similarità

Modifiche al sistema XSiterModifiche al sistema XSiter

Page 9: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

Ricerca di similaritàRicerca di similarità

estrarre da ciascun oggetto N caratteristiche numeriche e mappare gli oggetti in punti di uno spazio vettoriale N-dimensionale

usare una distanza opportuna su tale spazio e cercare oggetti “vicini” usando un indice multi-dimensionale (“spaziale”) (bassa distanza = alta similarità)

Definizione della “similarità” tra due oggetti qualsiasi

Supporto per interrogazioni che richiedono oggetti “simili”

riguarda l’efficacia

riguarda efficacia ed efficienza

Page 10: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

Alberi metriciAlberi metrici

Gli alberi metrici considerano soltanto le Gli alberi metrici considerano soltanto le distanze relativedistanze relative degli oggetti (piuttosto che degli oggetti (piuttosto che le loro posizioni assolute in uno spazio le loro posizioni assolute in uno spazio multidimensionale) per organizzare e multidimensionale) per organizzare e partizionare lo spazio di ricerca e partizionare lo spazio di ricerca e richiedono solo che la richiedono solo che la funzionefunzione usata per usata per misurare la distanza (dissimilarità) fra gli misurare la distanza (dissimilarità) fra gli oggetti sia una oggetti sia una metricametrica di modo che si possa di modo che si possa applicare la proprietà della applicare la proprietà della disuguaglianza disuguaglianza triangolaretriangolare e possa essere usata restringere e possa essere usata restringere lo spazio di ricerca.lo spazio di ricerca.

Page 11: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

M-treeM-tree Rappresenta un albero bilanciato e dinamicoRappresenta un albero bilanciato e dinamico Memorizza tutti gli oggetti nelle foglie dell’alberoMemorizza tutti gli oggetti nelle foglie dell’albero I suoi nodi interni contengono i cosiddetti routing I suoi nodi interni contengono i cosiddetti routing

objectobject

Or (valore del) routing object

ptr(T(Or)) puntatore alla radice of T(Or)

r(Or) covering radius of Or

d(Or, P(Or))distanza di Or dai suoi

genitori

Oj (valore del) DB object

oid(Oj) identificatore dell'oggetto

d(Oj, P(Oj))distanza di Oj dai suoi

genitori

routing object Orouting object Or r

DB object ODB object Oj j

Page 12: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

range queryrange query (tutti i punti aventi una distanza (tutti i punti aventi una distanza dalla query minore di una soglia)dalla query minore di una soglia)

kk nearest neighbor query nearest neighbor query (i (i kk punti più vicini alla punti più vicini alla query)query)

Interrogazioni di Interrogazioni di similaritàsimilarità

r(N)

ONQ

O

d(Q,ON)

d(O,Qd(O,Q) ) ≤ ≤

A

D

C

B

ddminmin(Q,N) minima(Q,N) minima

Page 13: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

Problematiche affrontateProblematiche affrontate

Analisi stato dell’arteAnalisi stato dell’arte

Ricerche di similaritàRicerche di similarità

Modifiche al sistema XSiterModifiche al sistema XSiter

Page 14: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

Architettura di XSiterArchitettura di XSiter

Core System

GUI

Query Importer

Doc Importer Internal Doc Representation

Query Engine

Internal Query Representation

Result Visualizer

Datastore

Query Language

Query Specifier

Doc.xml

Offline Process

Page 15: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

Query Engine

Doc Filter

Range Filter

Query Processor

For Each Document

Scan Range

Results

Query Value Constraints

Document Qualifying Nodes

InputDocuments

InputQuery

FilteredDocuments

Set

Doc Signature

Doc Content BasedIndexes

“...”

Query Engine di XSiterQuery Engine di XSiter

Page 16: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

ContentIndex

InvertedIndex

SimilarityIndex

Modifiche alla struttura Modifiche alla struttura degli indicidegli indici

query query esatteesatte

query query approssimateapprossimate

ContentIndexes

Page 17: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

InterrogazioniInterrogazioni

Setting considerato: Setting considerato:

Digital library multimediale contenente Digital library multimediale contenente video di video di Formula 1 e i loro Formula 1 e i loro metadatimetadati MPEG-7MPEG-7

““Recupera tutti i video clip annotati Recupera tutti i video clip annotati come come camera carscamera cars””

““Recupera tutti i video clip Recupera tutti i video clip riguardanti riguardanti FerrariFerrari camera carscamera cars””

Exact value matchExact value matchSimilarity matchSimilarity match

Page 18: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

Data treeData tree

videovideo

image1image1

scalable scalable colorcolor

dominadominant colornt color

image2image2

colorecolore formaforma

scalablscalable colore color

colorecolore

dominandominant colort color

Twig queryTwig query

videovideo

Interrogazione di Interrogazione di similaritàsimilarità

““Recupera tutti i video clip relativi a Recupera tutti i video clip relativi a camera cars camera cars con auto di colore con auto di colore

rossorosso””

Page 19: Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria

Conclusioni:Conclusioni:Col lavoro di tesi si è avuta la possibilità di studiare concetti Col lavoro di tesi si è avuta la possibilità di studiare concetti legati ai sistemi database multimediali e alla sottomissione legati ai sistemi database multimediali e alla sottomissione ed elaborazione di interrogazioni sugli stessi con ed elaborazione di interrogazioni sugli stessi con particolare attenzione alla ricerca di similarità. Si è quindi particolare attenzione alla ricerca di similarità. Si è quindi proceduto ad estendere un software di notevoli dimensioni proceduto ad estendere un software di notevoli dimensioni (XSiter) con funzionalità di similarità attraverso una (XSiter) con funzionalità di similarità attraverso una minuziosa opera di reingegnerizzazione approfondendo tra minuziosa opera di reingegnerizzazione approfondendo tra l’altro il linguaggio di programmazione Java, la libreria XXL l’altro il linguaggio di programmazione Java, la libreria XXL e gli standard XML e MPEG-7 e gli standard XML e MPEG-7

Sviluppi futuri:Sviluppi futuri:•Miglioramento strategie di inserimento e Miglioramento strategie di inserimento e politiche di splitpolitiche di split•Utilizzo di altre funzioni di distanza Utilizzo di altre funzioni di distanza approssimataapprossimata•Risoluzione di interrogazioni più complesseRisoluzione di interrogazioni più complesse•Estensioni nel sottosistema GUI di XSiterEstensioni nel sottosistema GUI di XSiter•Ulteriori prove sperimentaliUlteriori prove sperimentali