medialab.di.unipi.itmedialab.di.unipi.it/Project/ECD/RendicontoFinale/Relazione finale.doc · Web viewSERVIZIO II – ORGANI DI RICERCA E ATTIVITA’ DI AGENZIA. Sezione Progetti

DIPARTIMENTO ATTIVITA’ SCIENTIFICHE E TECNOLOGICHESERVIZIO II – ORGANI DI RICERCA E ATTIVITA’ DI AGENZIA

Sezione Progetti Attivi di Amministrazioni dello Stato – PAAS

Legge 449/97

Settore “Società dell’Informazione”

Progetto Tecnologie per arricchire e fornire accesso a contenuti – SP2

Relazione Finale

“I concetti di accesso e di rete stanno acquisendo un’importanza crescente, proprio come era accaduto con la nozione di proprietà e mercato agli albori dell’età moderna. Sino alla fine degli anni

Novanta, la parola accesso era usata solo occasionalmente, e, in genere, era riferita a questioni attinenti l’ammissione a spazi fisici determinati. Oggi, accesso è uno dei termini più usati nella vita

sociale: quando lo sentiamo, probabilmente siamo portati a pensare a nuovi universi di possibilità e oppportunità. È diventato il titolo per accedere al progresso e alla soddisfazione personale e possiede una potenza evocativa pari a quella che, per le passate generazioni, ha avuto la visione democratica.

È un vocabolo denso di suggestioni e carico di significati politici. Parlare di accesso, dopotutto, significa parlare di distinzioni e divisioni, di chi sarà incluso e chi sarà escluso. L’accesso sta

diventando un potente strumento concettuale per riformulare una visione del mondo e dell’economia, ed è destinato a diventare la metafora più efficace della nuova era.”

da Jeremy Rifkin, L’era dell’accesso. Mondadori, 2000.

Stato dell’arte Scientifico e ApplicativoLa premessa di Jeremy Rifkin, che veniva citata nelle proposta di progetto quando venne sottoposto circa 6 anni fa, inquadrava la problematica dell’accesso ai contenuti via rete che si intendeva affrontare. Nel corso di questi anni, la questione dell’accesso ai contenuti digitali ha acquisito ancor maggior rilevanza e si è ampliata.

Non vi è ormai più nessun settore in cui la diffusione dei contenuti non avvenga via rete e sotto forma digitale, e raccogliere e convogliare l’enorme massa di contenuti verso una platea sempre più vasta di fruitori, differenziando secondo le loro specifiche esigenze, rimane un problema di vasta portata, ancora tutt’altro che risolto.

Nel corso di questi anni, il ruolo dei motori di ricerca è diventato sempre più dominante, e nel progetto sono state studiate e proposte diverse soluzioni ai problemi relativi alla raccolta, all’indicizzazione e alla fruizione dei contenuti del Web.

L’ambito dei motori di ricerca si è esteso dal tradizionale campo del Web a quello delle librerie digitali, con iniziative quali Google Books o Queiro, che hanno l’intento di creare archivi di tutta la letteratura presente nelle biblioteche mondiali. Analogamente sorgono esigenze di analisi e ricerca su collezioni speciali, con requisiti particolari, ad esempio Google Scholar, riguardante l’ambito delle pubblicazioni tecnico-scientifiche o Google News, riguardante i flussi di notizie in tempo reale da giornali e agenzie di stampa.

Il progetto ha anticipato soluzioni ad alcune problematiche che sono emerse in questi anni. Ad esempio la problematica relativa all’Hidden Web, ossia di raccogliere, per renderlo ricercabile, materiale presente all’interno di archivi esposti sul Web attraverso pagine dinamiche (es. cataloghi di collezioni, di prodotti, di

servizi, ecc.). Il problema è stato affrontato sviluppando tecniche di ricerca partecipativa. Recentemente il motore di ricerca Google, si è mosso in questa direzione, introducendo il servizio Google Base, che consente agli utenti che dispongono di tali dati di trasmetterli a Google, in una forma semi strutturata, al fine di venire indicizzati.

Per la fruizione di flussi di notizie, nel progetto è stata sviluppata una tecnica di clustering gerarchico di frasi, applicabile alla realizzazione di un servizio analogo a Google News, raggruppando per tematiche affini i titoli e le descrizioni di notizie provenienti da centinaia di feed RSS (Really Simple Syndication). Gli RSS feed sono ormai una realtà affermata, utilizzata sia da professionisti e agenzie di stampa che da singoli utenti del Web. Milioni di RSS sono usati per diffondere contenuti organizzati secondo innumerevoli tematiche e inviate a chi si iscrive per riceverli. Gli RSS utilizzano una rappresentazione XML delle notizie, che li rende passibili di trattamento tramite diversi strumenti realizzati nel progetto, quali quelli per l’interrogazione visuale, la compressione e ricerca, la trasformazione da un’ontologia all’altra.

Un altro settore in grande fermento è quello della condivisione ed accesso a materiale multimediale (audio, video e immagini), con fenomeni di massa come il peer-to-peer che hanno assunto risvolti legislativi ed economici. Dal punto di vista tecnico, problemi interessanti emergono nella realizzazione e condivisione di archivi di immagini, come richiesto nei nuovi servizi offerti ad esempio da Flickr e da Piqasa. Nel progetto sono state sviluppate tecniche di classificazione e ricerca di immagini, utilizzate nel prototipo di servizio Photo Book (http://milos.isti.cnr.it/milos/album/).

Sempre maggior rilevanza hanno gli aspetti di personalizzazione dell’informazione. Nel progetto è stata proposta una tecnica che consente di personalizzare dinamicamente siti Web, secondo gli interessi degli utenti in maniera automatica, che non richiede il loro intervento. Analogamente nell’ambito delle Digital Libraries è stato sviluppato il linguaggio Active XQuery, che consente di associare delle regole attive ad una collezione, in modo da presentarne i contenuti in forma personalizzata agli utenti.

Una tematica attualmente di moda in ambito Web è quella relativa la cosiddetto Semantic Web, un’evoluzione del Web in cui i contenuti, anziché essere annotati in forma sintattica con HTML, sono espressi con annotazioni semantiche, tramite linguaggi XML come OWL. Mentre il Semantic Web presuppone che i contneuti siano prodotti direttamente in forma annotata semanticamente, un’alternativa più realistica prevede che le annotazioni semantiche vengano estratte in forma automatica dai contenuti. Nel progetto si è anticipata questa tendenza, sviluppando tecniche in grado di trasformare contenuti HTML in XML, come ad esempio RoadRunner, che riesce a ricavare da un sito la struttura secondo uno schema di rapprestnazione dati. Sono state inoltre sviluppate tecniche in grado di analizzare la parte testuale di pagine Web per ricavarne informazioni semantiche, ad esempio strumenti basati su apprendimento automatico per la Named Entity Recongnition, per estrarre elementi testuali riconoscibili quali persone, organizzazioni località e quantità. Una forma più avanzata di analisi semantica è il compito del Semantic Role Labeling, ossia di estrarre relazioni semantiche tra i costituenti di una frase: ad esempio agente, beneficiario, tempi e modi dell’azione, ecc. L’estrazione di relazioni è uno strumento utile per consentire interrogazioni riguardanti aspetti semantici, anziché limitarsi a ricerche per parole chiave come consentito attualmente dai motori di ricerca e dai sistemi di Information Retrieval.

Il Web Mining era un settore nascente al momento della presentazione della proposta. Nel corso di questi anni è diventato un settore imporotante di ricerca. Il progetto ha fornito contributi principalemente in due aspetti del Web Mining: mining di log e mining di contenuti. Riguardo al mining di log sono sate sviluppate tecniche di caching che sfruttano analisi di log per prevedere con maggiore accuratezza, quali query hanno maggiore probabilità di venire ripetute.

Nel Mining di contenuti, sono state sviluppate tecniche di clustering, applicate ai risultati di motori di ricerca, e a documenti XML, e tecniche di classificazione, applicate per esempio per il filtraggio della posta indesiderata. Un analisi di tipo semantico è effettuata anche nella disambiguazione dei sensi delle parole, con la tecnica automatica sviluppata nell’ambito del sistema XML S3MART.

Inoltre, rientrano tra le tecniche di mining di contenuti le tecniche già citate per l’estrazione di Named Entity e per il Semantic Role Labeling.

È superfluo ribadire la rilevanza di tecniche di compressione, data la sempre crescente mole di dati a disposizione. In questo campo è stata proposta una soluzione originale per la compressione degli indici di un motore di ricerca, basata sul riordinamento delle chiavi assegnate ai singoli documenti. La tecnica proposta si basa sul raggruppamento di documenti per simiglianza. Essa è stata ripresa e portata ad estrema conseguenza da Chris Buckley, che in tal modo ha ottenuto l’indice più compatto alla competizione TREC TeraByte del 2004.

Sono state sviluppate anche tecniche di compressione di testi e di documenti XML che consentono di effettuare ricerche evitando di decomprimere i dati.

Sezione PAAS – Relazione finale 2

http://milos.isti.cnr.it/milos/album/

Obiettivi Scientifici Previsti e RaggiuntiGli obiettivi fondamentali del progetto si riassumono in due aspetti complementari:

1. arricchimento dei contenuti: esso consiste nello sviluppo di tecniche che consentano di arricchire i contenuti mediante metadati, per renderli meglio fruibili agli utenti

2. accesso ai contenuti: sviluppo di forme articolate per la fruizione di contenuti

Questi compiti richiedono lo svolgimento dei seguenti passi:1. identificazione di contenuti presenti su fonti diverse (Digital Libraries, Web, ecc.)2. trasformazione in formati comuni o più facilmente manipolabili3. organizzazione dei contenuti4. aggiunta di metadati e di altre informazioni atte a qualificare i contenuti5. far giungere agli utenti finali il materiale più rilevante ai loro interessi.

Tra le problematiche tecniche da affrontare per il raggiungimento di questi obiettivi, l’attività del progetto si è concentrata su:

1. tecniche di analisi di documenti per: analizzare la struttura delle pagine HTML e ricavarne lo schema XML costruire un’ontologia comune a più raccolte di documenti migliorare le prestazioni dei crawler (per la raccolta) e delle cache (per

l’accesso) al materiale classificare o raggruppare documenti

2. tecniche di organizzazione e raccolta: Multimedia Content Enhancement & Management ricerca su documenti in formato compresso tecniche di High Performance Computing (HPC) per poter trattare vaste moli di materiale e

elevato numero di accessi servizi di ricerca partecipativa e decentralizzata

3. strumenti di fruizione: multimedia data server ricerche su dati XML e in particolare ricerche per similarità linguaggio visuale XQBE di interrogazione di dati XML riformulazione delle query per fornire visione unificata di raccolte eterogenee annotazione e segmentazione di documenti clustering delle risposte alle ricerche

4. costituzione di corpora per la sperimentazione e il benchmarking raccolta di corpora XML realizzazione di un Web Object store

Rilevanza dei risultati

Il progetto ha adottato una impostazione del lavoro consona per assicurare che i risultati potessero essere di efficacia immediata. Per ogni compito del progetto si è sempre fatto in modo che ad un’analisi astratta o teorica del problema fosse affiancata una sperimentazione concreta delle soluzioni proposte. Questo è testimoniato dai numerosi prototipi che sono stati realizzati, che hanno comportato un notevole impegno a tutti i partecipanti. Gran parte delle soluzioni realizzate sono difatti immediatamente utilizzabili in applicazioni pratiche.

Per verificare che gli obiettivi del progetto potessero avere rilevanza e significato in un contesto di applicazinoi industriali, anziché attendere la fine del progetto per presentare i risultati a potenziali utilizzatori, sono state organizzate due giornate di incontri, denomiate Industrial Day, nel corso del primo e del secondo anno del progetto. Nel primo incontro è stato possibile ottenere indicazioni da potenziali partner industriali sugli obiettivi e le direzioni di ricerca adottate nel progetto.

Nel secondo Industrial Day sono stati presentati i primi risultati del progetto e si è ottenuto un riscontro positivo, testimoniato dal seguito che ha avuto l’iniziativa, con la costituzione di uno spin-off in collaborazione tra università e industria e con l’avvio di un progetto industriale tra CNR e industria.

La rilevanza dei risultati è testimoniata dal lungo elenco di pubblicazioni e di prototipi realizzati da tutti i partecipanti. Il dettaglio dei risultati principali, suddiviso per unità operataiva è descritto nelle sezioni seguenti.


A titolo puramente esemplificativo, si segnala l’assegnazione del Best Paper Award alla conferenza 2004 IEEE/WIC/ACM International Conference on Web Intelligence , all’articolo di F. Silvestri e R. Baraglia, “An Online Recommender System for Large Web Sites”, che in seguito ha ottenuto la pubblicazione nelle Communications of the ACM, col titolo “Dynamic Personalization of Web Sites without User Intervention”.

Tra i prototipi realizzati, alcuni come RoadRunner, sono in uso nella pratica in ambito internazionale.

Oltre a citazioni nella letteratura, alcuni lavori hanno suggerito sviluppi ad altri ricercatori, ad esempio il lavoro di F. Silvestri, S. Orlando, R. Perego, “Assigning Identifiers to Documents to Enhance the Clustering Property of Fulltext Indexes” ha portato allo sviluppo di una tecnica tra le migliori per la compressione di indici.

Infine, le attività del progetto hanno dato luogo a seguiti promettenti, in particolare:1. creazione di uno spinoff universitario tra l’Università di Roma 3 ed uno di partner industriali presenti

all’Industrial Day 20052. attivazione del progetto Sintesi, progetto industriale insieme con la società Hit Internet Technologies,

fianziato dal Ministero delle Attività Produttive.

Risultati

I risultati del progetto sono classificabili come pubblicazioni scientifiche e tecniche, prodotti software e prototipi. Per le pubblicazioni si rimanda agli elenchi contenuti negli allegati, mentre riassumiamo qui gli artifatti software utilizzabili e messi a disposizione della comunità.

SoftwareIl progetto ha prodotto alcuni prototipi di sistemi software messi a disposizione come software scaricabile dalla rete. Tra questi citiamo i seguenti, che raggiungono il livello di stato dell’arte nei rispettivi settori:

Cgrep Libreria per effettuare ricerche sofisticate su file di testo compressi. Disponibile in: http://butirro.di.unipi.it/~ferrax/CompressedSearch.

FMindex Libreria che implementa un algoritmo che combina compressione e indicizzazione. Disponibile nel sito: http://butirro.di.unipi.it/~ferrax/fmindex.

LSS Libreria per la costruzione della struttura dati suffix array. Disponibile nel sito: http://www.mfn.unipmn.it/~manzini/lightweight.

YaDT Yet another Decision Tree builder, libreria che implementa un algoritmo efficiente per la costruzione di alberi di decisione basati su entropia. Disponibile in http://kdd.di.unipi.it/YaDT.

Sistemi in usoRoadRunner Il sistema RoadRunner è utilizzato online per generare i wrapper per il bolletino

SIGMOD Record dell’ACM. RoadRunner viene studiato in un corso di Web Data Management all’università dell’Oregon (http://www.cse.ogi.edu/class/cse582).

PrototipiSono stati sviluppati una serie di prototipi, ossia strumenti o implementazioni di algoritmi, usati internamente al progetto per effettuare sperimentazioni e verifiche, ma non ancora rilasciati verso l’esterno. Tra questi si cita:

XML path index prototipo di implementazione di un metodo di accesso per XML path-expression

XML tree signature prototipo di implementazione di un metodo di accesso per la navigazione mediante assi di XPath in un repository XML

XQBE prototipo di traduttore da XQBE a XQuery

RoadRunner prototipo per l’inferenza di wrapper per pagine Web

Labeller prototipo per la annotazione automatica di dati estratti da pagine Web

ParDCI implementazione parallela dell’algoritmo DCI per la determinazione di insiemi frequenti

WINGS protitipo di indicizzatore parallelo di pagine Web


http://www.cse.ogi.edu/class/cse582

http://kdd.di.unipi.it/YaDT

http://www.mfn.unipmn.it/~manzini/lightweight

http://butirro.di.unipi.it/~ferrax/fmindex

http://butirro.di.unipi.it/~ferrax/CompressedSearch

Document clustering algoritmo di clustering per consentire maggiore compressione degli indici

Web Object Store prototipo di collezione Web interfacciata mediante API.

GOV2 collection Raccolta indicizzata di 25 milioni di documenti del dominio .gov.

IXE crawler prototipo di crawler parallelo

DB-Indexer strumento la creazione di indici full-text di dati estratti da basi di dati

SWebCat Prototipo per la categorizzazione automatica di risposte di search engines.

Algoritmo di estrazione di patterns sequenziali da sessioni web.

Prototipo di sistema per il preprocessing di file di log

Suite di programmi di simulazione di strategie di caching

AMCo prototipo di classificatore automatico di messaggi di posta elettronica

Xdist strumento per il calcolo della similarità strutturale di documenti XML

Eureka! Strumento per l’analisi di clustering di dati di grandi dimensioni.

MozillaLabeler Annotazione automatica di dati estratti da pagine web

SUGGEST Raccomandazioni per il caching

Clustering di documenti per comprimere le posting list degli indici.

kDCI Transactional K-means for XML

WINGS Indicizzatore distribuito di documenti

DCI estrattore di closet pattern frequenti da dataset transazionali

AP estrazione approssimata di parttern frequenti da dataset distribuiti

URLIndex indicizzatore di insiemi di URL

KDDML-MQL ambienti di supporto al knowledge discovery

SRL Semantic role labeling di testi in lingua inglese

MILOS Prototipo: sistema di Multimedia Content Management per Biblioteche Digitali XML multimediali

Sito MILOS Servizio: sito di riferimento del sistema MILOS, disponibile all’indirizzo http://milos.isti.cnr.it

demo on-line di MILOS Servizio: disponibile all’indirizzo http://milos.isti.cnr.it:5900/milos.

Photo Book di MILOS Servizio: http://milos.isti.cnr.it/milos/album/

Servizio di supporto per la costruzione di una ontologia comune per i diversi metadati in biblioteche digitali aperte

Servizio di supporto per la riscrittura di query sulla Global Virtual View di una federaione di Digital Library in query sulle singole biblioteche digitali locali

MiSTA v1.0 Prototipo: estrazione approssimata di singole annotazioni, basato su EM

MiSTA v.2.0 Prototipo: estrazione esatta di tutte le annotazioni

SDC Prototipo: sistema di caching dei risultati delle query

Prototipo per il partizionamento ottimale dei termini del lessico di un motore di ricerca

DCIClosed Prototipo: per l’estrazione dei closed pattern frequenti da dataset transazionali

DCIClosed OOC Prototipo: algoritmo Out of Core per l’estrazione dei closed pattern frequenti da dataset transazionali

URLIndex Prototipo: per l’indicizzazione di insiemi di URL.

KDDML-MQL Prototipo: estensione del sistema KDDML-MQL, un ambiente a supporto del processo di knowledge discovery. http://kdd.di.unipi.it/kddml/


http://kdd.di.unipi.it/kddml/


http://milos.isti.cnr.it:5900/milos

http://milos.isti.cnr.it/

Pizzachili Servizio: sito http://pizzachili.di.unipi.it contenente strumenti, dati e letteratura su indici per la ricerca su testi compressi.

MCSRL Prototipo: sistema per il Semantic Role Labeling.

Prototipo: Stumento per il clustering di data streams di dati categorici ad alta dimensionalità.

NER Prototipo: Strumento per il Named Entity Recognition, che implementa il sistema RecBoost.

Prototipo: Strumento di clustering di supporto alla valutazione di espressioni XPath.


http://pizzachili.di.unipi.it/

Azione 1 – Architetture aperte per biblioteche digitali XMLIn questa azione sono stati affrontati i seguenti problemi:

Sviluppo di un’architettura aperta per Biblioteche Digitali distribuite Utilizzo di XML per strutturare documenti ed esprimere metadati Fornire accesso a documenti multimediali nelle Biblioteche Digitali Formulare e rispondere a interrogazioni su schemi XML Sviluppo di ontologie per i contenuti delle Biblioteche Digitali Sviluppare servizi avanzati per gli utenti quali: annotazioni di documenti, notifica, supporto al lavoro

di gruppo.

Durante il primo anno di progetto, era emersa la necessità di riesaminare gli obbiettivi del progetto, in considerazione degli sviluppi nello stato dell’arte e nei panorami applicativi intercorsi dopo la presentazione della proposta stessa. Questo aveva portato a una riformulazione parziale del contenuto degli obbiettivi, pur mantenendo gli scopi originari del progetto.

In particolare, è stato riesaminato il ruolo di una biblioteca digitale multimediale basata su XML e sono state rivalutate le varie funzionalità che possano supportare un accesso efficace a dati XML distribuiti ed eterogenei, originati ai varie applicazioni. Un fattore determinante in questo processo, è stata la crescente rilevanza economica e il crescente impatto organizzativo di XML in vari contesti applicativi, da quelli più tradizionali, come le basi di dati (Snapshot XML da database relazionali) o l’elaborazione di documenti (XML da editori di documenti, spread-sheet, etc.), a quelli più innovativi, come l’eCommerce su Web e le applicazioni multimediali (XML mixed-mode, derivati da standard come SMIL2, MPEG7, MPEG21, DVB/MHP).

Il risultato è stata la definizione di una nuova architettura funzionale complessiva che ha costituito uno dei risultati principali del progetto per l’Azione 1, armonizzando i vari obbiettivi delle varie U.O. coinvolte.

Per il secondo anno di progetto, dopo una serie di riunioni di lavoro, si è deciso di tentare di implementare un Prototipo Integrato per l’Azione 1, allo scopo di dimostrare all’Industrial Day 2004 le funzionalità realizzate dai vari obbiettivi e dalle varie U.O. del progetto in maniera integrata e quindi molto più efficace. La realizzazione di un prototipo integrato è in genere molto più difficoltosa che la realizzazione di prototipi separati, dato il necessario sforzo aggiuntivo a livello implementativi, non banale per prototipi di ricerca. Tuttavia, dato il successo della fase precedente di disegno integrato e dato la maggiore visibilità della dimostrazione di un prototipo integrato, si è deciso di intraprendere questa sfida. Si è inoltre deciso di verificare con potenziali utilizzatori di tali tecnologie le nostre scelte nella definizione delle funzionalità e nella realizzazione degli obbiettivi del progetto. Questo ha portato ad incontri con la Rizzoli a Milano (editoria quotidiani e settimanali) e la RAI a Roma (divisione produzione TV), ed a contatti con la Hit Internet Technologies di Verona (operante nel campo del software XML). La realizzazione del Prototipo Integrato Azione 1 ha richiesto contatti intensi tra i team di realizzazione dei vari componenti, fino ad arrivare ad un Integration Day di vari giorni a Pisa. Il risultato è stato presentato con successo all’Industrial Day di Roma.

L’Architettura del Prototipo Integrato Azione 1 è illustrato nella figura seguente e include le componenti realizzate dalle singole U.O. che implementano, almeno in parte, i rispettivi obbiettivi di progetto:

ISTI-CNR Multimedia Content Enhancement & Management: MILOS (sostituisce OPENLIB in quanto combina le funzionalità tradizionali di una Biblioteca Digitale le funzionalità più complesse di Multimedia Content Management)

o XML-based query processingo Similarity search for multimedia datao Automatic text categorizationo Automatic image categorization

Univ. Modena e R.E. Enhanced Content Integration: SMART Politecnico di Milano Querying Enhanced Content: XQBE Univ. Roma 3 Extracting relevant content from the Web: Roadrunner Univ. Padova Annotating Enhanced Content


Il Prototipo Integrato Azione 1 è stato dimostrato con successo all’Industrial Day di Roma (10/6/2004). La dimostrazione ha riguardato il ciclo completo di operatività del sistema, anche se in maniera semplificata:

Tramite la componente RoadRunner, si sono estratte le informazioni da un sito Web reale (sito FIFA dei mondiali di calcio) e sono state strutturate in XML (dall’HTML originale) e memorizzate sul respository XML gestito da MILOS

Tramite la componente SMART, lo schema di questa nuova applicazione è stato integrato con gli scemi delle applicazioni già presenti in MILOS (news Reuters, foto di agenzia, filmati storici ECHO, bibliografie scientifiche)

Un utente ha poi formulato interrogazioni, tramite l’interfaccia grafica XQBE al contenuto del respository MILOS, comprendente varie applicazioni ma accessibili in maniera integrata.

L’esecuzione delle interrogazioni ha mostrato le potenzialità del sistema di Multimedia Content Management MILOS, in quanto le interrogazioni combinavano richieste su campi strutturati (e.g. data articolo, nome calciatore, etc.) con campi testuali (parale selezionate nel corpo dell’articolo) e campi multimediali (immagine simile a foto nell’articolo)

Annotazione, sia manuale che automatica, del contenuto XML (Questa parte è stata dimostra in maniera separata per limitazioni nell’implementazione attuale del prototipo)


Azione 2 – Mining the WebL’Azione 2 ha perseguito i principali obiettivi del progetto ECD, content enhancement and delivery, in modo complementare all’Azione 1, focalizzandosi sulla restituzione di informazione arricchita verso gli (Comunità di) utenti web:

utilizzando metodi di Web Mining per estrarre conoscenza/modelli per arricchire di informazione semantica i contenuti web allo scopo di migliorare l’efficacia del processo di ricerca di informazione.

fornendo soluzioni efficenti e scalabili per la ricerca, la memorizzazione e la restituzione di contenuti Web.

I partecipanti dell’Azione 2 sono ISTI-CNR di Pisa, Dipartimento di Informatica dell’Università di Pisa ed ICAR-CNR di Cosenza che collaborano in modo sinergico ai seguenti quattro obiettivi:

Web Mining Indexing and compression Managing Terabytes Participatory Search Services

Alla fine del primo anno di lavoro si è individuata una visione di progetto che punta a perseguire un approccio innovativo rispetto al panorama di ricerca internazionale, che si basa sull’idea di analizzare l’uso che una comunità di utenti fa del web per migliorare l’accesso al web di quella stessa comunità. Tale visione si basa sulla convinzione che sia possibile apprendere da un gruppo di utenti web modelli e pattern che in combinazione con l’informazione sul contenuto e la struttura delle pagine web può portare ad un notevole miglioramento dell’accesso ai contenuti web in termini di: servizi di ricerca, categorizzazioni e classificazioni di documenti e servizi di question – answering.

Alla fine del primo anno l’Azione 2 ha individuato come proprio obiettivo quello di utilizzare la combinazione di informazione su contenuto, struttura ed uso di dati web generati da una Organizzazione Virtuale, al fine di migliorare l’efficienza del processo di ricerca e l’efficacia dal punto di vista dell’utente.

Si è partiti dalla premessa che sia possibile restituire contenuti migliori analizzando in modo combinato sia il contenuto dei documenti web, che la struttura che l’uso che gli utenti fanno del web. In sintesi, se un gruppo di utenti sufficientemente ampio accetta di condividere i suoi dati di uso, ovviamente con una modalità che ne garantisca la privacy, allora è possibile in linea di principio apprendere da questi dati nuovi modelli e patterns che in combinazione con l’analisi del contenuto e della struttura possano produrre metodi di accesso e restituzione migliori.

Si è adottato quindi un metodo di lavoro che permettesse da una parte di far convergere le competenze dei singoli gruppi verso la costruzione del prototipo di un sistema che avesse appunto le caratteristiche salienti della visione suddetta, dall’altra di continuare investigazioni più fondazionali con collaborazioni bi/tri laterali tra i vari gruppi sempre nell’ambito della visione delineata e mirate a contribuire in fasi successive al sistema prototipale.

La figura schematizza lo scenario che supporta la visione delineata dalla Azione 2: si raccolgono in modalità privacy preserving le informazioni sulle interazioni della comunità con Internet: dall’uso dà informazioni sui siti preferiti, il contenuto sui documenti acceduti e la struttura ci permette di costruire la connessione tra i documenti.


Individuata questa visione si è prodotto un documento tecnico dal titolo “Enhanced Content Delivery for Communities of web Users” di inquadramento dei diversi contributi nell’ambito della visione strategica complessiva del progetto e si è consolidato come linea guida per il disegno del sistema prototipale. Tale documento è stato adottato dalle singole unità operative come strumento condiviso di lavoro.

Il sistema prototipale è costuito da: una infrastruttura per la memorizzazione, anche in forma compressa, e l’accesso efficiente di dati di

usage, structure e contenuto di informazioni web denominato web object store (WOS) un meccanismo di crawling per raccogliere dati da web, accederli e manutenerli su tale infrastruttura. un insieme di applicazioni di estrazione di informazione mediante algoritmi di mining. un sistema di ricerca partecipativo che utilizza anche l’informazione nascosta resa disponibile dagli

utenti della comunità virtuale.

La figura delinea l’architettura del sistema prototipale sviluppato nell’Azione 2. Le relazioni delle singole unità operative forniscono i dettagli sullo stato del sistema.

Per arrivare a questo risultato, si è svolto un intenso programma di incontri di lavoro durante la seconda fase del progetto che grazie alla vicinanza di due delle tre unità ha permesso di lavorare quasi come unico team.


Unità Operativa ISTI-1

Responsabile: Fausto Rabitti

Risultati ottenuti

Nel primo anno del progetto è stata disegnata una prima versione di un’architettura di sistema, chiamato originariamente OpenLib nella proposta di progetto, per librerie digitali multimediali XML. Il sistema è stato disegnato per essere in grado di gestire qualsiasi documento multimediale e qualsiasi modello di metadati, purché questi metadati siano codificati usando XML.

A partire da questa architettura, orientata principalmente alle funzionalità richieste nelle Digital Libraries, è stata decisa una sua estensione per ottenere le funzionalità di un vero sistema di gestione di contenuti multimediali (Multimedia Content Management System). Tale estensione è originata dal fatto che pur essendo le funzionalità di un sistema di Digital Library molto simili alle funzionalità di un sistema di Content Management, i sistemi di Content Management stanno suscitando un interesse crescente anche in campo industriale, per la gestione di tutti i dati non contenuti nel database dell’azienda e, quindi, per l’estrazione di informazioni rilevanti ai vari profili di utenti nell’ambito aziendale.

Per queste ragioni, nel corso del progetto, abbiamo deciso di disegnare una nuova architettura per un Multimedia Content Management System, passando da OpenLib a MILOS (Multimedia Digital Library for Online Search), le cui caratteristiche fondamentali sono:

XML-based query processing

Similarity search for multimedia data

Automatic text categorization

Automatic image categorization

Una componente particolarmente innovativa di MILOS è il sistema di gestione di dati XML, con speciali caratteristiche per le applicazioni di Digital Library. Tale sistema può memorizzare e fare ricerche su documenti XML validi, senza alcun bisogno di uno schema, e offrendo la possibilità di usare degli indici particolari per migliorare ulteriormente le prestazioni. Una volta che il documento arbitrario di XML è stato inserito nella base di dati che può essere immediatamente richiamato usando XPath o XQuery, in forma limitata. Attraverso questo modulo sono possibili le seguenti funzionalità:

Ricerca su campi attributo

Ricerca di tipo full-text

Ricerca per similarità sul testo

Ricerca per similarità sulle immagini

Classificazione automatica del testo

Classificazione automatica delle immagini

Particolare attenzione è stata data alla fase di implementazione del sistema MILOS. Tutti i componenti dell’architettura sono implementati come Web Services. Come protocollo per gestire la comunicazione tra i vari moduli abbiamo usato SOAP e Java è il linguaggio di programmazione con cui buona parte dei servizi sono stati implementati, solo il modulo che si occupa della gestione della struttura di accesso per le immagini (M-tree) è stato realizzato in C++. L’interfaccia utente è stata sviluppata usando Java Server Pages (JSP). Il framework scelto come Application Server è JAX-RPC di Sun e Tomcat come server http. MILOS è stato testato su piattaforma Microsoft (Windows 2000 e XP) e su piattaforma Linux.Il sistema è accessibile completamente da web, e testata per funzionare correttamente con i browser Internet Explorer (versione 6) e Mozilla (versione 1.7). L’installazione consiste semplicemente nel copiare una directory contenente “tutto l’occorrente”, incluso il runtime di Java e l’application server Tomcat. Una volta copiato il sistema, è possibile eseguirlo ed utilizzarlo immediatamente (a meno di richieste particolari di configurazione).

Il sito di riferimento del progetto MILOS è rintracciabile all’indirizzo: http://milos.isti.cnr.it. Qui si trovano informazioni riguardo al progetto, alle demo attualmente accessibili, alle pubblicazioni di riferimento. La home page delle demo è localizzata all’indirizzo: http://milos.isti.cnr.it:5900/milos.

Attualmente sono accessibili le demo di:

ECHO (43000 documenti XML, 27000 immagini JPEG, 21 GB di filmati MPEG);

Reuters (810.000 documenti XML, dimensione totale 2.6 GB);

Sigmod Record (47 documenti XML, dimensione totale di 1,64 MB);

DBLP, (dimensione totale 162 MB);

Image similarity ed image classification, (1001 immagini JPEG).

In queste applicazioni, dall’interfaccia web è possibile interrogare il database con ricerca su attributi in maniera esatta o approssimata, con ricerca full-text, e possibili loro combinazioni; si possono inoltre fare interrogazioni di similarità di immagini, partendo da un’immagine del database, o da una propria immagine (inviata tramite il form a disposizione), e si può sfruttare la classificazione automatica di immagini.

Figura 1: Home page di MILOS

12



Figura 2: Home page delle demo

Un risultato importante è stato la disseminazione dei risultati del progetto, non solo in termini di risultati scientifici, a livello di consessi internazionali (vedere l’allegata lista di pubblicazioni), ma anche in termini di risultati tecnologici. In seguito alla presentazione del prototipo integrato tra i partner dell’Azione 1 del progetto, di cui MILOS è una componente, in occasione dell’Industrial Day del 16/6/2004 a Roma, si sono stabiliti numerosi contatti con aziende con un potenziale interesse ai vari risultati del progetto. Questo ha portato ad incontri approfonditi della nostra unità operativi con la Rizzoli a Milano (editoria quotidiani e settimanali) e la RAI a Roma (divisione produzione TV), ed con la Hit Internet Technologies di Verona (operante nel campo del software XML).

L’unità di ricerca dell’ISTI-CNR di Pisa ha quindi approfondito i contatti con la Hit Internet Technologies di Verona, interessata alla tecnologia MILOS e questo ha portato ad una proposta congiunta di un progetto industriale al Ministero delle attività produttive, nell’ambito di un bando per la promozione e la diffusione nell’ambito delle piccole e medie imprese dell’innovazione basata sulle tecnologie dell’informazione e delle comunicazione (ICT) al fine del miglioramento della competitività nelle aziende. La proposta di progetto di nome Sintesi riguardava la realizzazione di servizi integrati per la gestione di archivi multimediali eterogenei con classificazione automatica dei contenuti. Tale proposta è stata selezionata per il finanziamento, essendosi classificata entro le prima trenta su oltre 500 domande e il progetto è iniziato nel novembre 2005.

13

Prodotti della ricerca

1. Disegno dell’architettura di un sistema di Multimedia Content Management (MILOS) per Biblioteche Digitali XML multimediali

2. Insieme di corpora di documenti XML per attività di sperimentazione DBLP Sigmod Record Reuters ECHO Audio/Video Immagini foto news Polizze assicurazione (data set sintetico)

3. Implementazione di un prototipo di sistema di Multimedia Content Management (MILOS) per Biblioteche Digitali XML multimediali

4. Il sito di riferimento del sistema MILOS, disponibile all’indirizzo http://milos.isti.cnr.it5. Il sito di riferimento della demo online di MILOS, disponibile all’indirizzo http://milos.isti.cnr.it:5900/milos.6. Il sito di riferimento dell’applicazione Photo Book di MILOS: http://milos.isti.cnr.it/milos/album/

14




7. Pubblicazioni

2003[1] “Processing XML Queries with Tree Signatures” P. Zezula, G. Amato, F. Rabitti, in Intelligent Search on

XML, (to appear)[2] “YAPI: Yet Another Path Index for XML searching”. Giuseppe Amato, Franca Debole, Pavel Zezula and

Fausto Rabitti., to be presented at ECDL 2003, Trondheim, Norway, August 17-22 2003.[3] “A path index for efficient XML path expression processing”. Giuseppe Amato, Franca Debole, Pavel Zezula

and Fausto Rabitti., extended abstract, SEBD 2003, Cetraro (CS), Italy, June 24-27, 2003.[4] “Tree Signatures for XML Querying and Navigation” Giuseppe Amato, Franca Debole, Pavel Zezula and

Fausto Rabitti, to be presented at XSYM 03, XML Database Symposium (XSym 2003) in Conjunction with VLDB 2003, Berlin, Germany, 8 September 2003.

[5] “YAPI: Yet Another Path Index for XML searching”, Giuseppe Amato, Franca Debole, Pavel Zezula and Fausto Rabitti, ISTI-CNR Technical Report, 2003-TR-07

[6] “Tree Signatures for XML Querying and Navigation”, Giuseppe Amato, Franca Debole, Pavel Zezula and Fausto Rabitti, ISTI-CNR Technical Report, 2003-TR-04

[7] V. Dohnal, C. Gennaro, P. Savino, P. Zezula, D-Index: Distance Searching Index for Metric Data Sets, accepted for pubblication to Multimedia Tools and Applications, Kluwer Academic Publishers

[8] C. Gennaro, F. Rabitti, P. Savino, The use of XML in a Video Digital Library , In Intelligent Search on XML, Blanken, Grabs, Schek, Schenkel, Weikum Editors, Springer, to appear

[9] V. Dohnal, C. Gennaro, P. Zezula, A Metric Index for Approximate Text Management, Proceedings of the IASTED International Conference Information Systems and Databases (ISDB 2002), pages 37-42, September 25-27, 2002, Tokyo, Japan.

[10] V. Dohnal, C. Gennaro, P. Savino, P. Zezula, Similarity Join in Metric Spaces, Proceedings of the European Conference on Information Retrieval Research, pages 452-467, Pisa, Italy, April, 14-16, 2003.

[11] V. Dohnal, C. Gennaro, P. Zezula, Similarity Join in Metric Spaces using eD-Index, accepted for publication on Proceedings of the 14th International Conference on Database and Expert Systems Applications - DEXA 2003, Prague, Czech Republic, 1-5 September 2003.

[12] M. Batko, Claudio Gennaro, P. Zezula, Scalable and Distributed Similarity Search in Metric Spaces, 5th Workshop on Distributed Data and Structures – WDAS 2003, Thessaloniki, Greece, June 12-13, 2003.

2004[1] P. Zezula, G. Amato, F. Rabitti, “Processing XML Queries with Tree Signatures”, in Intelligent Search on

XML Data – Applications, Languages, Models, Implementations, and Benchmarks, Henk Blanken, Trosten Grabs, Hans-Jörg Schek, Ralf Schenkel, Cerhard Weikum (Eds.), Springer Verlag, LNCS 2818, 2004

[2] C. Gennaro, F. Rabitti, P. Savino. “The Use of XML in a Video Digital Library”. in Intelligent Search on XML Data – Applications, Languages, Models, Implementations, and Benchmarks, Henk Blanken, Trosten Grabs, Hans-Jörg Schek, Ralf Schenkel, Cerhard Weikum (Eds.), Springer Verlag, LNCS 2818, 2004

[3] G. Amato, C. Gennaro, P. Savino, F. Rabitti. Milos: a Multimedia Content Management System for Digital Library Applications. In Proceedings of the 8th European Conference on Research and Advanced Technology for Digital Libraries (ECDL 2004), Volume 3232 of Lecture Notes in Computer Science, pages 14-25. Springer, September 2004

[4] P. Stanchev, G. Amato, F. Falchi, C. Gennaro, F. Rabitti, P. Savino. Selection of MPEG-7 Image Features for Improving Image Similarity Search on Specific Data Sets. In Proceedings of the 7-th IASTED International Conference on Computer Graphics and Imaging (CGIM 2004), pages 395-400. ACTA Press, August 2004.

[5] Fabrizio Falchi, Claudio Gennaro, Fausto Rabitti, Giuseppe Amato, Pasquale Savino, Peter Stankev. Improving Image Similarity Search Effectiveness in a Multimedia Content Management System. In Proceedings of the 10th Workshop on Multimedia Information Systems (MIS 2004), pages 139-146. August 2004.

[6] G. Amato, P. Bolettieri, F. Debole, F. Falchi, F. Furfari, C. Gennaro. MILOS: a General Purpose Multimedia Content Management System. Technical Report 2004-TR-23, ISTI-CNR, Pisa - Italy, July 2004.

[7] G. Amato, C. Gennaro, F. Rabitti, P. Savino. Milos: A Multimedia Content Management System. In Proceedings of the 12th Italian Symposium on Advanced Database Systems (SEBD 2004) , pages 342-349. LITHOSgrafiche, June 2004.

15

[8] G. Amato, C. Gennaro, P. Savino. MultiMedia Information Retrieval: metodologie ed esperienze internazionali di content-based retrieval per l'informazione e la documentazione, chapter Audio/video digital libraries: the ECHO experience, pages 171-190. AIDA, April 2004.

[9] Giuseppe Amato, Franca Debole, Fausto Rabitti, Pasquale Savino, Pavel Zezula: A Signature-Based Approach for Efficient Relationship Search on XML Data Collections. XSym 2004: 82-96

[10] Bertrand Le Saux, Giuseppe Amato: “Image Classifier for scene analysis”. ICCVG 04, International Conference on Computer Vision and Graphics, Warsaw, Poland September 22-24, 2004

[11] Bertrand Le Saux, Giuseppe Amato: “Image Recognition for Digital Libraries”.MIR 04, 6th ACM SIGMM International Workshop on Multimedia Information Retrieval, New York, NY USA, October 15-16, 2004

2005

[1] P. Zezula., G. Amato., Dohnal, V., Batko, M, Similarity Search, The Metric Space Approach, Series: Advances in Database Systems, Vol. 32, 2006, XVIII, 220 p., Hardcover, ISBN: 0-387-29146-6

[2] Renda, M. Elena and Straccia, Umberto. A personalized collaborative Digital Library environment: a model and an application. In Information Processing & Management, 2005.

[3] F. Falchi, C. Gennaro, P. Zezula. A Content-Addressable Network for Similarity Search in Metric Spaces. In Proceedings of the the 2nd International Workshop on Databases, Information Systems and Peer-to-Peer Computing, Trondheim, Norway, pages 126-137. August 2005.

[4] G. Amato, C. Gennaro, F. Rabitti, P. Savino. Functionalities of a Content Management System specialized for Digital Library Applications. In Proceedings of the the 7th International Workshop of the EU Network of Excellence DELOS on Audio-Visual Content and Information Visualization in Digital Libraries (Avivdilib'05) , pages 47-56. CENTROMEDIA, May 2005.

[5] M. Batko, C. Gennaro, P. Zezula. A Scalable Nearest Neighbor Search in P2P Systems. In Proceedings of the the 2nd International Workshop on Databases, Information Systems and Peer-to-Peer Computing, Toronto, Canada, Volume 3367 of Lecture Notes in Computer Science, pages 79-92. Springer, February 2005.

[6] “MILOS: A multimedia Content Management System for Multimedia Digital Library Applications”, Giuseppe Amato, Claudio. Gennaro, Pasquale. Savino, Fausto Rabitti, First Italian Research Conference on Digital Library Management Systems, Padova, Italy, 28 January, 2005

[7] “A Native XML Database Supporting Approximate Match Search”, Giuseppe Amato, Franca Debole, ECDL 2005, Vienna, Austria, September 18-23, pp 69-80

[8] “MILOS: un sistema di Content Management per lo sviluppo di Biblioteche Digitali” in Contesti di trattamento dell'informazione multimediale e la prospettiva del MultiMedia Information Retrieval edito da AIB Lazio, 2005.

16

http://www.springer.com/sgw/cda/frontpage/0,11855,5-153-69-33109112-0,00.html

Unità Operativa Politecnico di Milano

Responsabile: prof. Letizia Tanca

Principali attività svolte

Le attività di ricerca si sono concentrate principalmente sullo studio di un linguaggio visuale e sulla conseguente realizzazione di una interfaccia grafica per interrogare la biblioteca digitale in modo al tempo stesso flessibile, semplice e intuitivo. La disponibilità di XQuery come linguaggio di interrogazione “general purpose” e di una descrizione XML di ogni documento catalogato suggerisce di affiancare alle maschere di ricerca standard una modalità ibrida di interrogazione ed esplorazione dei documenti e dei loro schemi, basata su una rappresentazione visuale della struttura e del contenuto. Tale rappresentazione permette all'utente di specificare sotto forma di grafo la struttura e i contenuti dei documenti cui è interessato; da tale grafo si deriva poi automaticamente la query XQuery da sottomettere al motore di interrogazione. Il paradigma di interrogazione prevede che nell’area di sinistra l’utente rappresenti graficamente la struttura e le proprietà dei documenti che sono rilevanti per la sua ricerca, specificando eventualmente dei criteri di selezione di tipo comparativo o imponendo dei vincoli sul contenuto di alcune parti; la parte destra è invece deputata a rappresentare la struttura del risultato atteso. Il legame tra le due parti è rappresentato da archi che collegano gli elementi selezionati con quelli da costruire.

Inoltre è stata studiata un’estensione di XQuery, chiamata Active XQuery, per il supporto di regole attive, che hanno dimostrato le loro potenzialità nell'ambito delle basi di dati relazionali e possono diventare uno strumento efficace per realizzare nuovi servizi nel contesto di XML. Nell’ambito delle biblioteche digitali, esempi di applicazione immediata sono la costruzione automatica di metainformazione sui documenti, la loro classificazione automatica, la presentazione dei dati in modo personalizzato, il controllo e il mantenimento dell’integrità dell’informazione, e la notifica agli utenti di eventi rilevanti, quali ad esempio la presenza di un nuovo documento relativo ad un campo di interesse predefinito.

Un'altra importante attività di ricerca si è concentrata sull'estensione di XQuery al supporto di interrogazioni fuzzy. In questo contesto, un’interrogazione può imporre, oltre ai vincoli tradizionali sui dati, anche vincoli topologici e strutturali sul documento da recuperare, per incrementare la potenziale precisione dei risultati delle interrogazioni. Infatti, richiedendo un’esatta corrispondenza con la struttura specificata si potrebbero perdere tutti i documenti anche molto simili ma non identici a quelli richiesti. Per esprimere compiutamente una query, quindi, imponendo vincoli topologici esatti, un utente dovrebbe essere consapevole dell’esatta organizzazione del documento, ma tale condizione si verifica raramente in pratica.

Un ulteriore contributo volto al fine di ottimizzare il processo di interrogazione della collezione di documenti si è concentrato sull'uso di raccolte di dati statistiche. Questa tecnica permette di realizzare delle interrogazioni di tipo aggregato in modo rapido e computazionalmente vantaggioso al prezzo di un (trascurabile) errore di approssimazione. Il metodo si è dimostrato utile anche all'analisi qualitativa della collezione di dati, per capire come è composta ed eventualmente prendere decisioni strategiche circa il suo ampliamento e la sua ristrutturazione (ad esempio capire quali sezioni o argomenti sono sottodimensionati rispetto al resto può aiutare una politica di acquisizione di risorse).

Infine le attività legate al controllo degli accessi e della sicurezza relativamente al linguaggio XQuery si sono invece orientate al problema della verifica e mantenimento dell’integrità di documenti XML. Partendo da Active XQuery è stata definita un'estensione di XMLSchema per esprimere vincoli di integrità simili alle asserzioni in SQL3. Questo risultato è stato ottenuto inserendo interrogazioni XQuery nelle definizioni XML Schema. A questo punto si è mostrato come sia i vincoli nativi di XMLSchema, sia i vincoli generici, possono essere gestiti con un insieme di trigger capaci di intercettare a correggere ogni tipo di violazione di vincolo. Quest’insieme di trigger può essere generato in modo automatico partendo dalla definizione dello schema. L’approccio proposto ha dimostrato di essere molto utile in diversi casi pratici, perché permette di prevenire le modifiche non corrette prima che vengano applicate al documento.

Prodotti realizzati dall’UO Politecnico di Milano

L’UO Politecnico di Milano ha realizzato due prodotti software:

17

Il primo prodotto è un prototipo che consente di specificare interrogazioni su documenti XML attraverso il linguaggio visuale XQBE e di tradurle in modo automatico in XQuery e XSLT. Quanto realizzato permette la formulazione visuale di un’ampia classe di query, partendo eventualmente dalla conoscenza dello schema del documento.

Il software realizzato propone all’utente un’area dello schermo divisa in due porzioni (destra e sinistra) dove l’utente può disegnare le interrogazioni servendosi di una toolbar che mostra i costrutti visuali del linguaggio di interrogazione, che rappresentano i componenti fondamentali del modello dei dati di XML (elementi, attributi e porzioni di testo sono rappresentati come i nodi di un grafo, mentre gli archi che collegano i nodi rappresentano e relazioni tra le varie componenti).

Il paradigma di interrogazione prevede che nell’area di sinistra l’utente rappresenti graficamente la struttura e le proprietà dei documenti che sono rilevanti per la sua ricerca, specificando eventualmente dei criteri di selezione di tipo comparativo o imponendo dei vincoli sul contenuto di alcune parti; la parte destra è invece deputata a rappresentare la struttura del risultato atteso. Il legame tra le due parti è rappresentato da archi che collegano gli elementi selezionati con quelli da costruire.

Il software realizzato mostra poi il risultato delle interrogazioni nella modalità scelta dall’utente.

Il secondo prodotto è un prototipo per l’uso di regole di associazione per estrarre informazione intensionale dai documenti XML. Il prototipo e' realizzato in Java ed è composto di due moduli attualmente non integrati:

1. il primo modulo riceve in ingresso un documento XML e il suo DTD e genera una rappresentazione ad albero del documento. Tale rappresentazione viene visualizzata in formato grafico per consentire all'utente di scegliere il tipo di regole di associazione da estrarre. In particolare l'utente deve selezionare gli elementi di interesse da includere nell'estrazione delle regole indicando eventuali metodi di ottimizzazione da applicare (ad esempio stemming, stopword e discretizzazione).Il modulo converte le porzioni del file XML di interesse nel formato richiesto dall'algoritmo A-priori. Tale algoritmo estrare le regole di associazione rilevanti che vengono memorizzate in una base di dati MySQL.

2. il secondo modulo propone un'interfaccia che consente la sottomissione di query utili ad ottenere informazioni approssimate; tali interrogazioni vengono sottoposte alla base di dati MySQL generata dal primo modulo.

L'interfaccia di interrogazione permette all'utente di scegliere il tipo di interrogazione da effettuare tra un insieme di classi di interrogazioni e permette di rilevare il tempo di esecuzione di ciascuna richiesta.

Intero insieme delle pubblicazioni dal 2002

18

Riviste internazionali

2002

O1.2.2[1] Barbara Oliboni and Letizia Tanca. A visual language should be easy to use: a step forward for XML-GL,

Information Systems Volume 27, Issue 7 , November 2002, Pages 459-486

2005

O1.2.2[1] D. Braga, A. Campi, S. Ceri. XQBE (XQuery By Example): a visual interface to the standard XML query

language. ACM-TODS (Transactions on Database Systems), Vol. 30 (2), June 2005[2] D. Braga, A. Campi. XQBE: A Graphical Environment to Query XML Data. SPRINGER - World Wide Web:

Internet and Web Information Systems, Vol. 8 (3), Sept. '05

Conferenze e workshop internazionali

2002

O1.2.1[1] A. Bonifati, D. Braga, A. Campi, S. Ceri Active XQuery Research Paper in Proceedings of IEEE-ICDE 2002,

San José, California – USA, Feb. 2002 [2] D. Braga, A. Campi, S. Ceri, M. Klemettinen, PL. Lanzi Mining Association Rules from XML Data Research

paper in Proceedings of DEXA 2002 (DaWaK), LNCS 2454, Aix-en-Provence, France, Sep. 2002 [3] D. Braga, A. Campi, S. Ceri, M. Klemettinen, PL. Lanzi A Tool for Extracting XML Association Rules from

XML Documents Research paper in Proceedings of IEEE-ICTAI 2002, Washington DC, USA, Nov. 2002 [4] D. Braga, A. Campi, E. Damiani, G. Pasi, PL. Lanzi FXPath: Flexible Querying of XML Documents Research

paper in Proceedings of EuroFuse 2002, Varenna, Italy, Sep. 2002

O1.2.3

[1] E. Damiani, S. De Capitani di Vimercati, E. Fernandez-Medina, P. Samarati An Access Control System for SVG Documents Research paper in Proc. of the 16th Annual IFIP WG 11.3 Working Conference on Data and Application Security, King's College, University of Cambridge, UK, July 29-31, 2002.

[2] E. Damiani, S. De Capitani di Vimercati Securing XML-based Multimedia Content Research paper in Proc. of the 18th IFIP International Information Security Conference, Athens, Greece, May 26-28, 2003.

2003

O1.2.2[1] D. Braga, A. Campi, S. Ceri, E. Augurusa XQBE: XQuery By Example Poster at ACM-WWW 2003, (in the

elecronic proceedings) Budapest, Hungary, May 2003 Vincitore del premio per il miglior poster presentato da studenti

[2] E. Augurusa, D. Braga, A. Campi, S. Ceri Design and Implementation of a Graphical Interface to XQuery Research paper in Proceedings of ACM-SAC 2003, Melbourne, USA, Mar. 2003

[3] D. Braga, A. Campi, S. Ceri, M. Klemettinen, PL. Lanzi Discovering Interesting Information in XML Data with Association Rules Research paper in Proceedings of ACM-SAC 2003, Melbourne, USA, Mar. 2003

[4] D. Braga, A. Campi. A Graphical Environment to Query XML Data with XQuery. Research paper IEEE-WISE 2003 (International Conference on Web Information Systems Engineering), Rome, Italy, December 2003

19

2004

O1.2.2

[1] E. Baralis, P. Garza, E. Quintarelli, L. Tanca. Answering Queries on XML Data by means of Association Rules. nel Volume 3868 di LNCS, 2004.

[2] D. Braga, A. Campi, S. Ceri. XQBE: A Graphical Interface for XQuery Engines. Demo Presentation EDBT 2004 (Extending Database Technology), Heraklion, Greece, March 2004

[3] D. Braga, A. Campi, S. Ceri. XML Challenges for the Database Community: Past, Present, and Future. Invited talk DataX'04 (International Workshop on Database Technologies for Handling XML information on the Web), Heraklion, Greece, March 2004

2005

O1.2.2[1] D. Braga, A. Campi, R. Cappa, D. Salvi Generating XSL Transformations with XQBE ACM-WWW 2005

(Poster Track), Chiba, Japan, May 2005 [2] D. Braga, A. Campi, S. Ceri, A. Raffio XQBE: a Visual Environment for Learning XML Query Languages

ACM-SIGMOD 2005 (Demo Session), Baltimore, Maryland (USA), June 2005 [3] D. Braga, A. Campi, D. Martinenghi, A. Raffio, D. Salvi XQBE: the Swiss Army Knife for Semi-structured

Data SEBD 2005, Bressanone-Brixen, Italy, June 2005 [4] Simone, Gasparini, Elisa Quintarelli Intensional Query Answering to XQuery Expressions Proceedings of

Database and Expert Systems Applications, 16th International Conference, DEXA 2005. Volume 3588 LNCS, pp. 544-553.

20

Unità Operativa Università di Modena

Responsabile: Prof. Paolo Tiberio

Work Package 1.3: Ontologie XML

Lo scopo principale delle attività dell'Unità di Modena è stato di affrontare le problematiche legate alla possibile presenza nella biblioteca digitale di documenti XML aventi una struttura ed una terminologia di marcatori molto differente, fornendo un adeguato supporto per la costruzione di una ontologia comune per i diversi metadati in biblioteche digitali aperte. Tale ontologia rappresenta la base per il rilassamento delle interrogazioni poste dall'utente sul repository della biblioteca digitale, dove l'obiettivo finale è quello di aumentare l'efficacia del processo di esecuzione delle interrogazioni attraverso una fase di recupero delle informazioni che provvede a riscrivere le interrogazioni in interrogazioni compatibili con gli schemi adottati per memorizzare i dati XML.

In questo ambito, il principale contributo dell’Unità di Modena è stato lo sviluppo del servizio XML S 3MART (XML Semantic Structural Schema Matcher for Automatic query RewriTing), che si inserisce nell'ambito dell’architettura generale per biblioteche digitali definita nel Work Package 1. L’architettura di tale strumento è stata ideata in un’ottica “a strati” che evidenzia come i servizi fondamentali previsti dalle varie unità interagiscono per fornire all’utente le funzionalità di un search engine avanzato. Uno degli aspetti fondamentali su cui ci si è focalizzati è stata la necessità di un accesso efficiente ed efficace ai corpora delle DL. Sfruttando un’interfaccia utente grafica sviluppata dall’unità di Milano, gli utenti possono interrogare i dati XML disegnando le loro richieste su uno degli XML Schema (denominato schema sorgente). Ovviamente, tutti i documenti della DL associati a tale schema possono essere recuperati e proposti direttamente sottoponendo la query al servizio di search engine (data logic). Tuttavia, nella DL tipicamente esistono grandi quantità di documenti che, pur essendo associati a diversi XML Schema, ed essendo quindi incompatibili con la query originaria, possono essere molto utili ed interessanti per la richiesta dell’utente. Il componente XML S3MART rende possibile sfruttare appieno il contenuto della DL, riscrivendo la query in modo da eseguire la ricerca su questo set di documenti esteso. In particolare, la query espressa sullo schema sorgente è automaticamente riscritta in un insieme di query XML, una per ognuno degli XML Schema cui sono associati i documenti utili. Tali schemi vengono chiamati schemi destinazione. Quindi, le query sono sottomesse al sottostante search engine e data manager, sviluppato dall’unità di Pisa. Tale engine accede efficientemente ai dati e restituisce i risultati. Infine, XML S3MART raccoglie ed esegue un ranking dei risultati e li invia al componente dell’interfaccia utente.

Inoltre, durante il secondo anno, l’Unità di Modena, assieme ad altre unità coinvolte nel progetto, ha organizzato un giorno di incontro con la realtà industriale del territorio denominato “Industrial Day 2004” dove è stato dimostrato il funzionamento dell’architettura sopra descritta e di alcuni dei suoi servizi in casi applicativi reali. La giornata ha visto la partecipazione di esponenti dell’industria e di enti pubblici, ed ha avuto il fine di pubblicizzare i risultati finora ottenuti nel progetto, discutere sulla loro applicabilità in vari contesti applicativi e di stabilire collaborazioni per lo sfruttamento di questi risultatati.

21

O.1.3.1: “Studio e prototipazione di un servizio di supporto per la costruzione di una ontologia comune per i diversi metadati in biblioteche digitali aperte”

L'attività del primo anno è stata focalizzata sullo studio di una metodologia di creazione di un’ontologia per Biblioteca Digitale, che utilizzi il linguaggio XML, e che sia atta a rappresentare una GVV delle singole Biblioteche Digitali locali. In particolare, è stata sviluppata una estensione dello studio teorico e della metodologia relativa all'integrazione di sorgenti proposta in MOMIS in modo da superare le nuove problematiche introdotte dal contesto delle Biblioteche Digitali e dall’adozione del linguaggio di riferimento XML.

Durante il secondo anno di attività di ricerca si è provveduto ad una ridefinizione del servizio progettato per fornire un supporto all’interrogazione su dati eterogenei prevedendo, in luogo della costruzione di una vista globale virtuale (GVV), la ricerca e la memorizzazione delle corrispondenze e delle relazioni esistenti (mapping) tra gli elementi degli schemi delle biblioteche digitali locali d'interesse. Nell’architettura globale emersa nel secondo anno di progetto, è infatti risultato chiaro che le interrogazioni non vengono poste tanto rispetto ad uno schema unificato, quanto rispetto ad un particolare schema effettivamente presente della DL, rendendo pertanto inutile e poco conveniente la costruzione ed il mantenimento di una vista globale. Alla luce di questa ridefinizione, è stato prodotto lo strumento XML S3MART, e in particolare il componente di schema matching, di supporto alla costruzione di un mapping tra i diversi schemi per la memorizzazione dei dati XML nella biblioteca digitale.

L’operazione di schema matching è stata articolata in tre sotto-processi, i primi due dei quali, l’espansione strutturale e l’annotazione semantica, sono necessari a massimizzare l’efficacia della terza fase, quella di matching vero e proprio.

Nella fase di espansione strutturale dello schema, la struttura di ogni schema XML è modificata ed espansa, in modo da esplicitare le relazioni strutturali tra gli elementi e riassumere così tutte le possibili varianti della parte strutturale dei documenti XML in accordo con lo schema.

Nella fase di annotazione semantica, ogni termine viene disambiguato, cioè il suo significato è esplicitato così come verrà utilizzato per l’identificazione delle similarità semantiche tra gli elementi e gli attributi degli schemi.

La fase di calcolo del matching esegue infine la vera e propria operazione di matching tra gli schemi espansi ed annotati resi disponibili dai passi precedenti. Per ogni coppia di schemi, vengono identificati i migliori mapping tra gli attributi e gli elementi dei due schemi, considerando sia la struttura dei corrispondenti alberi sia la semantica dei termini coinvolti.

Alla fine dell’operazione di matching, i mapping calcolati e i corrispondenti punteggi di similarità, unitamente alle informazioni sui nodi degli schemi, sono memorizzati in un apposito documento XML che verrà utilizzato nell’operazione di riscrittura.

Nel corso del terzo anno di attività di ricerca si è provveduto ad affinare e ad effettuare ulteriori test sperimentali per le tecniche sopra descritte. In particolare, è stata profondamente rivista la parte di annotazione semantica, che precedentemente era essenzialmente costituita da un processo manuale di associazione ad ogni termine degli schemi del corretto significato, in un’ottica di servizio completamente automatico o, a seconda delle necessità, assistito. E’ stata a questo fine definita una tecnica automatica di word sense disambiguation strutturale per esplicitare il significato dei termini. Tale tecnica è stata implementata in un componente denomintato STRIDER (STRucture-based Information Disambiguation ExpeRt) ed integrata nel componente di annotazione semantica del sistema XML S3MART. La tecnica è del tutto generale e può essere utilizzata non solo con schemi XML ma anche con strutture di documenti XML, directory web, e, in generale, strutture a grafo quali ontologie. Come sorgente di conoscenza esterna si è deciso di sfruttatare una delle più conosciute risorse lessicali disponibili per la lingua inglese, WordNet. L’output del processo di disambiguation è un ranking dei sensi più plausibili di ogni termine; STRIDER è così in grado di supportare sia un’annotazione semantica completamente automatica, semplicemente selezionando il senso in prima posizione nel ranking, sia un’annotazione assistita attraverso una GUI che assiste l’utente fornendo utili suggerimenti.

O1.3.2: “Studio e prototipazione di un servizio di supporto per la riscrittura di query sulla GVV in query sulle singole biblioteche digitali locali”

Nel corso dei tre anni di progetto, nell’ambito del sistema XML S3MART è stato anche definito un web service per la riscrittura di interrogazioni poste su un particolare schema rispetto ad ogni documento della biblioteca digitale utile a soddisfare la richiesta. Sfruttando le sole informazioni di mapping prodotte dalla fase di matching, tale servizio permette la riscrittura delle query (query rewriting) consentendo di riscrivere automaticamente ed efficientemente una data XQuery FLWOR, formulata rispetto ad uno schema sorgente, sugli schemi destinazione disponibili. Ad ogni riscrittura viene inoltre assegnato un punteggio, in modo da ottenere un ranking dei risultati restituiti dall’esecuzione della query.

22

Il funzionamento del componente di riscrittura query può essere così sintetizzato: dopo aver espanso i path contenuti nelle clausole di WHERE e RETURN, sostituendo ogni variabile con il corrispondente path, la query viene riscritta verso ognuno degli schemi destinazione.

Tutti i path della query vengono riscritti, sfruttando le informazioni di mapping disponibili per i nodi dello schema sorgente e degli schemi destinazione.

Viene ricreata una variabile in modo da collegare tutti i path riscritti, il cui valore sarà il più lungo prefisso comune a tutti i path coinvolti. La definizione di tale variabile viene quindi inserita in una nuova clausola FOR, all’inizio della query riscritta.

Viene assegnato un punteggio alla query riscritta, calcolato come la media dei punteggi assegnati ad ogni riscrittura di path, basati a loro volta sulla similarità tra i nodi coinvolti così come specificata nelle informazioni di mapping.

Prodotti della ricerca

1. “Prototipo di un Servizio di supporto per la costruzione di una ontologia comune per i diversi metadati in biblioteche digitali aperte”, Prototipo, O1.3.1

2. “Prototipo di un Servizio di supporto per la riscrittura di query sulla GVV in query sulle singole biblioteche digitali locali”, Prototipo, O1.3.2

3. S. Bergamaschi, D. Beneventano, F. Mandreoli, R. Martoglia, D. Miselli, P. Tiberio, M. Vincini, ” Definizione di un Servizio di supporto per la costruzione di una ontologia comune per i diversi metadati in biblioteche digitali aperte”, Technical Report

23

Pubblicazioni in conferenze nazionali ed internazionali:

[1] F. Mandreoli, R. Martoglia, E. Ronchetti. STRIDER: a Versatile System for Structural Disambiguation. In Proc. of the 10th International Conference on Extending Database Technology (EDBT 2006), Munich, Germany, Marzo 2006.

[2] F. Mandreoli, R. Martoglia, E. Ronchetti. Improving Semantic Awareness of Knowledge-based Applications through Structural Disambiguation. In Proc. of the 2nd Italian Semantic Web Workshop (SWAP 2005), Trento, Italia, Dicembre 2005.

[3] F. Mandreoli, R. Martoglia, E. Ronchetti. Versatile Structural Disambiguation for Semantic-aware Applications. In Proc. of the 14th ACM International Conference on Information Knowledge and Management (ACM CIKM 2005), Bremen, Germany, Novembre 2005.

[4] F. Mandreoli, R. Martoglia, P. Tiberio. Approximate Query Answering for a Heterogeneous XML Document Base. In Proc. of the The 5th International Conference on Web Information Systems Engineering (WISE 2004), Brisbane, Australia, Novembre 2004, Springer Verlag Heidelberg.

[5] F. Mandreoli, R. Martoglia. Exploiting related digital library corpora with query rewriting. In Atti del 12° Convegno Nazionale su Sistemi Evoluti per Basi di Dati (SEBD 2004), S.Margherita di Pula, Italy, Giugno 2004.

[6] F. Mandreoli, R. Martoglia e P. Tiberio. Un Metodo per il Riconoscimento di Duplicati in Collezioni di Documenti.. In Atti dell'Undicesimo Convegno Nazionale su Sistemi Evoluti per Basi di Dati (SEBD 2003), Italia, Giugno 2003.

[7] S. Bergamaschi: Metodi e strumenti per l'integrazione di sorgenti informative eterogenee . In Giornata di studio organizzata dal Gruppo di Lavoro Basi di Dati dell'AICA, Workshop D2I, Italia, Marzo 2003.

[8] F. Mandreoli, R. Martoglia and P. Tiberio. A Syntactic Approach for Searching Similarities within Sentences” In Proceedings of the 11th ACM International Conference on Information Knowledge and Management (ACM CIKM 2002), Washington D.C., USA, Novembre 2002.

[9] D. Beneventano, S. Bergamaschi, S. Castano, V. De Antonellis, A. Ferrara, F. Guerra, F. Mandreoli, G. C. Ornetti, M. Vincini: Semantic Integration and Query Optimization of Heterogeneous Data Sources. In International Conference on Object Oriented Information Systems - Invited paper at OOIS Workshops 2002, Francia, Settembre 2002.

[10] D. Beneventano, S. Bergamaschi, D. Bianco, F. Guerra, M. Vincini: SI-Web: A Web based interface for the MOMIS project, In Atti del Decimo Convegno Nazionale Sistemi di Basi di Dati Evolute (SEBD2002), Italia, Giugno 2002.

24

http://www.isgroup.unimo.it/pub/cikm02.pdf

http://www.isgroup.unimo.it/pub/cikm02.pdf

http://www.isgroup.unimo.it/pub/sebd03.pdf

http://www.isgroup.unimo.it/pub/sebd03.pdf

Unità Operativa Università di Padova

Responsabile: prof. Maristella Agosti

IntroduzioneL’attività di ricerca dell’Unità Operativa (UO) dell’Università di Padova ha affrontato le problematiche connesse alla attuazione e gestione innovativa di annotazioni digitali dei documenti gestiti in una biblioteca digitale.

L’UO ha operato e opera in modo coordinato con le altre UO per raggiungere gli obiettivi della linea di ricerca incentrata sulle tematiche delle biblioteche digitali e, in generale, del progetto complessivo SP 2. Oltre alla attività specifica di ricerca dedicata alle annotazioni, l’UO partecipa, per quanto di sua competenza, alle attività di gestione del progetto; in particolare ha operato per il raggiungimento dell’obiettivo O2.5.1 “Gestione del progetto” del Work Package 2.5.

L’UO ha investito, in questo ultimo anno, in attività di diffusione e trasferimento dei risultati di ricerca raggiunti. In particolare, il trasferimento è avvenuto anche ad altri gruppi di ricerca a livello europeo con i quali sono state avviate attività ulteriori di sviluppo di architetture innovative idonee a supportare, in maniera efficiente, servizi di annotazioni.

Obiettivo O1.4.1

Risultati ottenuti

Modello concettuale e architettura

In relazione alla modellazione delle annotazioni, sono stati prodotti contributi originali per quanto riguarda la possibilità di fornire servizi di annotazioni indipendenti da specifici sistemi di gestione delle informazioni, in particolare da specifici sistemi di gestione di archivi e biblioteche digitali.

Il recupero di annotazioni

Si è esplorata la possibilità di utilizzare le annotazioni come un contesto utile a cercare e recuperare documenti pertinenti alle esigenze informative di un utente. Si è proposto un framework formale che può essere utile nell’affrontare il problema nella sua interezza e complessità. Nel framework formale vengono impiegate tecniche e metodi che sono proprie del reperimento dell’informazione e del settore della fusioni di risultati provenienti da diverse sorgenti.

Classificazione automatica di documenti e annotazioni

Si è cominciata a verificare la possibilità di utilizzare le annotazioni sui documenti come base per la scelta delle caratteristiche di una collezione di documenti, con metodi alternativi a quello dell’analisi del contenuto dei documenti. Questo approccio, ha permesso di adottare una visione più omogenea di una collezione multimediale, perché permettere di operare una classificazione dei documenti più elaborata.

Obiettivo O1.4.2

Risultati ottenuti

Annotazioni di archivi digitali di immagini

25

Come per l’anno precedente, un caso di studio particolarmente utile è stato quello relativo ad archivi contenenti immagini digitali ad alta risoluzione tratte da manoscritti miniati, ad uso di ricercatori e studiosi in particolare di discipline collegate alla Storia dell’Arte. Infatti in questo contesto le annotazioni diventano un valido strumento di lavoro per la ricerca scientifica sulle immagini.

Per questa ragione si è proseguito nello sviluppo dell’archivio digitale, nominato IPSA, già messo a disposizione di un gruppo di studiosi di diverse discipline, legate allo studio dei manoscritti miniati e si è proposta una soluzione per garantire un accesso concorrente da parte di utenti appartenenti a diversi gruppi di ricerca e localizzati geograficamente in luoghi diversi. La soluzione proposta si basa su di un meccanismo di annotazione degli oggetti digitali contenuti nell'archivio. In questo contesto, vengono considerati oggetti annotabili:

i manoscritti completi,

le pagine contenute nei manoscritti e

i dettagli che costituiscono le immagini rappresentate nelle pagine dei manoscritti.

È stato proposto un modello per le annotazioni del materiale contenuto nell'archivio basato sulla creazione di collegamenti ipertestuali tipati tra i diversi oggetti. In pratica, gli studiosi sono in grado di arricchire il contenuto dell'archivio aggiungendo dei collegamenti ipertestuali tra una coppia di oggetti. Ad ogni collegamento l'utente può associare un significato, utilizzando una terminologia stabilita in accordo con utenti finali afferenti a diversi settori scientifico-disciplinari, in modo da esplicitare le motivazioni per cui i due oggetti sono stati messi in relazione. Le annotazioni degli utenti vengono modellate con un grafo orientato, che consente agli utenti di navigare all'interno della collezione di oggetti dell'archivio.

È stata posta attenzione anche alle problematiche legate alla proprietà intellettuale delle annotazioni, a cui viene sempre associato un autore, che deve essere abilitato e che può appartenere ad uno o più gruppi di lavoro con cui condividere le annotazioni poste. In questo modo si viene a realizzare un ambiente collaborativo, che può coinvolgere studiosi di gruppi di ricerca localizzati in diverse aree geografiche.

Pubblicazioni

Agosti, M., Albrechtsen, H., Ferro, N., Frommholz, I., Hansen, P., Orio, N., Panizzi, E., Pejtersen, A. M., and Thiel, U. (2005). DiLAS: a Digital Library Annotation Service. In Boujut, J.-F., editor, International Workshop on Annotation for Collaboration. Methods, Tools, and Practices, pp. 91-101. Paris, November 24-25, 2005.

[11] Agosti, M., Ferro, N., Albrechtsen, H., Frommholz, I., Panizzi, E., and Thiel, U. (2005). Design, Implementation and Evaluation of the Use of Digital Multimedia Annotations in DL Interaction and DL Users Collaboration. In Thanos, C., editor, DELOS Research Activities 2005, pp. 47-48, Gruppo ALI, Pisa, Italy.

[12] Agosti, M. and Ferro, N. (2005). A System Architecture as a Support to a Flexible Annotation Service. In Türker, C., Agosti, M., and Schek, H.-J., editors, Peer-to-Peer, Grid, and Service-Orientation in Digital Library Architectures: 6th Thematic Workshop of the EU Network of Excellence DELOS. Revised Selected Papers, pp. 147-166. Lecture Notes in Computer Science (LNCS) 3664, Springer, Heidelberg, Germany.

[13] Agosti, M., Ferro, N., and Orio, N. (2005). Annotating Illuminated Manuscripts: an Effective Tool for Research and Education. In Marlino, M. Sumner, T., and Shipman, F., editors, Proc. 5th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL 2005), pp. 121-130. ACM Press, New York, USA.

[14] Agosti, M. and Ferro, N. (2005). Annotations as Context for Searching Documents. In Crestani, F., and Ruthven, I., editors, Proc. 5th International Conference on Conceptions of Library and Information Science - Context: nature, impact and role (Colis5), pp. 155-170. Lecture Notes in Computer Science (LNCS) 3507, Springer, Heidelberg, Germany.

[15] Agosti, M., Ferro, N., and Orio, N. (2005). Annotations as a Support to Research Users. In Catarci, T., Christodoulakis, S., Del Bimbo, A., (Eds) , Proc. 7th International Workshop of the EU Network of Excellence DELOS on Audio-Visual Content and Information Visualization in Digital Libraries (AVIVDiLib’05), pp. 117-120, Centromedia, Viareggio, Italy.

26

[16] Agosti, M., Thanos, C. (Eds) (2005). Post-proceedings of the First Italian Research Conference on Digital Library Management Systems (IRCDL 2005). ISTI-CNR at Gruppo ALI, Pisa, Italy, 2005.

[17] Bacchin, M., Ferro, N. and Melucci, M. (2005). A probabilistic model for stemmer generation. Information Processing and Management, 41(1): 121-137.

[18] Di Nunzio, G.M. (2005). 3-D Environment to Represent Textual Documents for Duplicate Detection and Collection Examination. In Catarci, T., Christodoulakis, S., Del Bimbo, A. (Eds), Proc. 7th International Workshop of the EU Network of Excellence DELOS on Audio-Visual Content and Information Visualization in Digital Libraries (AVIVDiLib’05), pp. 12-21, Centromedia, Viareggio, Italy.

[19] Ferro, N. (2005). Design Choices for a Flexible Annotation Service. In Agosti, M. and Thanos, C., editors, Post-proceedings of the First Italian Research Conference on Digital Library Management Systems (IRCDL 2005), pp. 101-110, Gruppo ALI, Pisa, Italy.

[20] Melucci, M. (2005). Context Modeling and Discovery Using Vector Space Bases. In O. Herzog, H.J. Schek, N. Fuhr, A. Chowdhury, W. Teiken, editors, Proceedings of the 14th Conference on Information and Knoweldge Management (CIKM), pp. 808--815, Bremen, Germany, October 31-November 5, 2005.

[21] Türker, C., Agosti, M., and Schek, H.-J., editors (2005), Peer-to-Peer, Grid, and Service-Orientation in Digital Library Architectures: 6th Thematic Workshop of the EU Network of Excellence DELOS. Revised Selected Papers. Lecture Notes in Computer Science (LNCS) 3664, Springer, Heidelberg, Germany.

27

Unità Operativa Università di Roma 3

Responsabile: prof. Paolo Atzeni

Obiettivo principale dell’unità era lo studio di tecniche per la conversione automatica in XML delle pagine HTML offerte da grossi siti web. Il punto cruciale di questo processo consiste nella generazione di programmi, in letteratura chiamati wrapper, che consentano di estrarre i dati dalle pagine HTML e riprodurli in formato XML.

Normalmente, i documenti contenuti in grossi siti HTML sono organizzati in classi di documenti, che corrispondono a diverse categorie di informazioni nella sorgente. Documenti appartenenti alla stessa classe sono simili in struttura (sono stati costruiti a partire da un template comune), ma differiscono nelle informazioni offerti (il template è stato riempito con dati estratti da un database). La tecnica proposta per la generazione automatica del wrapper si basa su una analisi di similarità e differenze presenti nei documenti appartenenti alla stessa classe.

Il punto di partenza dell’approccio studiato è stato un lavoro preliminare realizzato dalla unità (V. Crescenzi, G. Mecca, P. Merialdo “RoadRunner : Towards Automatic Data Extraction from Large Web Site” Proceedings of Int. Conference on Very Large Databases (VLDB’01)) nel quale veniva descritto un algoritmo che dato in input un campione di pagine web appartenenti alla stessa collezione (cioè simili strutturalmente) e produce in output una grammatica regolare che può essere usata per estrarre dati dalle pagine appartenenti alla collezione rappresentata dal campione di ingresso. Il formalismo per descrivere il wrapper adottato in questo lavoro (grammatiche regolari senza unioni) in molti casi risultava poco espressivo.

Un primo obiettivo del progetto è stato quindi quello di studiare soluzioni per aumentare il potere espressivo senza compromettere l’efficienza. A tal fine è stato riprogettato l’algoritmo di inferenza. Nello studio del nuovo algoritmo sono stati conseguiti risultati scientifici di eccellenza. In particolare, in uno studio teorico (Crescenzi, Mecca JACM 2004) sono state dimostrate importanti proprietà computazionali del processo di inferenza di una nuova classe di grammatiche che si presta molto bene a descrivere le pagine HTML.

Un altro limite dell’approccio di partenza consisteva nel fatto che per poter utilizzare i dati estratti da un wrapper generato automaticamente, è necessario associargli un opportuno significato; in pratica, se lo schema estratto viene espresso attraverso un DTD, è necessario dare un nome significativo ad ogni elemento del DTD. Per ovviare questo problema sono state studiate tecniche per l’assegnazione automatica di un nome appropriato a ciascun elemento del DTD ricostruito dall’algoritmo di inferenza. L’idea che si è seguita è stata quella di analizzare i documenti dai quali vengono estratti i dati e di identificare etichette che possono essere associate ai dati estratti.

L’implementazione del nuovo algoritmo e del modulo di annotazione semantica ha portato alla realizzazione di un prototipo software attraverso il quale sono stati condotti numerosi esperimenti su pagine da siti reali.

Tra le sperimentazioni di rilievo segnaliamo la realizzazione dalla versione XML prodotta per la ACM del bollettino SIGMOD Record, e la conversione in XML delle pagine HTML dai siti del Sistema Informativo Unificato per le Soprintendenze Archivistiche (SIUSA) e del Sistema Informativo degli Archivi di Stato (SIAS).

Nell’ultimo anno del progetto sono state condotte numerose sperimentazioni anche in collaborazione con un parter aziendale, che è entrato in contatto con l’unità di ricerca in occasione dell’Industrial Day organizzato a Roma nel secondo anno di attività. E’ importante menzionare il fatto che con tale partner il Dipartimento di Informatica e Automazione dell’Università degli Studi Roma Tre ha avviato un procedimento, prossimo alla concretizzazione finale, per la costituzione di una spin-off universitaria.

28

http://www.vldb.org/conf/2001/P109.pdf



Unità Operativa ISTI-2Responsabile: dr. Raffaele Perego

Le attività dall’Unità Operativa ISTI-2 hanno riguardato l’analisi e l’estrazione di informazioni che possano arricchire e migliorare la qualità dei servizi di accesso al Web. In particolare le attività di ricerca si sono concentrate su:

Sviluppo di tecniche di mining per migliorare le prestazioni e l’efficacia di servizi di ricerca su dati Web, con particolare attenzione a servizi di:

o caching;

o clustering e/o classificazione degli utenti e dei documenti;

o indicizzazione dei documenti.

Sviluppo di tecniche di High Performance Computing per gestire efficientemente

o i processi di ricerca e mining su grandi collezioni di dati;

o un numero elevato di utenti dei servizi.

Gli obiettivi previsti dai WP 2.1 e WP 2.3 in cui il personale di ricerca dell’Unità operativa ISTI-2 è stato coinvolto sono i seguenti:

O2.1.1 Web usage mining per il caching intelligente. Sviluppo di un sistema software di caching intelligente per search engine basato su algoritmi di Web usage mining: implementazione, verifica sperimentale delle prestazioni.

O2.1.2 Web content-structure mining per il page ranking. Studio e progettazione di metodi di analisi combinata della struttura e del contenuto delle pagine (Web content-structure mining) mirate alla definizione di algoritmi evoluti di page ranking.

O2.1.3 Linguaggio e strumenti per lo sviluppo di applicazioni verticali di web mining. Progettazione e sviluppo di un prototipo di un linguaggio e strumenti di supporto per lo sviluppo di applicazioni di Web mining, basato su XML

O2.1.4 Data mining su collezioni di documenti XML. Sviluppo di algoritmi per il mining di pattern frequenti da collezioni di documenti XML: implementazione, verifica sperimentale delle prestazioni, ed eventuali brevetti industriali

O.2.3.1 Acquisizione e deployment di un testbed Acquisizione e deployment di un cluster di workstation, e implementazione di una suite di strumenti software per la sua gestione corredati da relativa documentazione.

O.2.3.2 Progettazione, implementazione e valutazione di un applicazione di Indexing ottimizzata per il testbed. Sviluppo di un sistema per l’indicizzazione parallela e distribuita di documenti Web, valutazione sperimentale e documentazione.

O.2.3.3 Progettazione, implementazione e valutazione di Search Core Services. Sviluppo di componenti software modulari e configurabili per l’implementazione di un broker per WSE in grado di gestire politiche di partizionamento/replicazione dell’indice, politiche di caching e prefetching efficaci ed efficienti, metodi di accesso ai dati basati sull’utilizzo di tecniche di compressione.

O.2.3.4 Progettazione, implementazione e valutazione di algoritmi paralleli di Data/Web Mining. Progetto di algoritmi paralleli e distribuiti innovativi e scalabili per il clustering e la generazione di regole associative da dataset di grandi dimensione, implementazione, valutazione sperimentale e documentazione.

Ricerca di buona, in alcuni casi ottima, qualità è stata condotta in questi tre anni su tutti gli obiettivi inizialmente previsti. I risultati conseguiti sono molteplici e, in molti casi, eccellenti.

Ci preme innanzitutto sottolineare i risultati di fertilizzazione delle attività scientifiche e di amplificazione delle competenze. Da una parte il progetto ha permesso a ricercatori con esperienze e conoscenze diverse e complementari di collaborare su obiettivi comuni. Queste collaborazioni sono state importanti, sia scientificamente che umanamente, e in molti casi continueranno nel tempo a prescindere dalla fine del progetto. I finanziamenti ricevuti hanno inoltre permesso di formare alcuni giovani ricercatori che in alcuni

29

casi sono stati poi assunti in aziende operanti nel settore, ed in altri casi continuano il loro percorso intrapreso nel mondo della ricerca.

Infine i risultati più strettamente scientifici. Numerose sono state le pubblicazioni sia su rivista che su conferenze internazionali prestigiose. Di seguito è riportata la lista completa delle pubblicazioni suddivise per tipo. Significativo anche l’insieme di software realizzati nell’ambito del progetto. Anche di questi software, alcuni dei quali parzialmente ingegnerizzati, nel seguito è riportata la lista completa.

Pubblicazioni su rivista[1] T. Fagni, S. Orlando, F. Silvestri, R. Perego. Boosting the Performance of Web Search Engines:

Caching and Prefetching Query Results by Exploiting Historical Usage Data. ACM Transactions on Information Systems, Vol. 24, n. 1, January 2006.

[2] S. Orlando, C. Lucchese, R. Perego. Fast and Memory Efficient Mining of Frequent Closed Itemsets. IEEE Transactions on Knowledge and Data Engineering, Vol. 18, n. 1, January 2006

[3] Fosca Giannotti, Giuseppe Manco, Franco Turini: Specifying Mining Algorithms with Iterative User-Defined Aggregates. IEEE Transactions on Knowledge and Data Engineering. 16(10): 1232-1246 (2004)

[4] R. Baraglia, F. Silvestri. Dynamic Personalization of Web Sites without User Intervention. To appear in Communications of the ACM (CACM).

[5] R .Baraglia, F. Silvestri. Online Personalization of Very Large and Dynamic Web Sites. Submitted to ACM Transaction on Internet Technologies.

[6] F. Silvestri, R. Baraglia, P. Palmerini, M. Serranò. On-line Generation of Suggestions for Web Users. Journal Of Digital Information Management (JDIM), Vol. 2(2), June 2004, pp. 104-108.

Capitoli di libri[1] Fosca Giannotti, Giuseppe Manco, Franco Turini: Towards a Logic Query Language for Data Mining.

Database Support for Data Mining Applications, LNAI, 2004: 76-94

Atti di Conferenze/Workshop internazionali[1] F. Silvestri, S. Orlando, R. Perego. Assigning Identifiers to Documents to Enhance the Clustering

Property of Fulltext Indexes. Proceedings of the 27th Annual International ACM SIGIR Conference , Sheffield, UK, July 25-29, 2004.

[2] F. Silvestri, R. Baraglia. An Online Recommender System for Large Web Sites. In Proceedings of the 2004 IEEE/WIC/ACM International Conference on Web Intelligence (WI 2004). Bejing, China. September 20-24, 2004. pp 199-206. Best Paper Award.

[3] S. Orlando, C. Lucchese, R. Perego. Mining Frequent Closed Itemsets Out-Of-Core. To appear in the Proceedings of the 2006 SIAM International Conference on Data Mining, April 20-22, 2006 Bethesda, Maryland.

[4] R. Baraglia, Claudio Lucchese, Salvatore Orlando, Massimo Serranò, Fabrizio Silvestri, A Privacy Preserving Web Recommender System, 21st ACM Symposium on Applied Computing, April 23-27, 2006, Dijon, France (accepted paper).

[5] F. Silvestri, R. Baraglia, P. Palmerini. On-line Generation of Suggestions for Web Users. In Proceedings of the 2004 International Conference on Information Technology (ITCC 2004), track on Modern Web and Grid Systems, 5-7 April, 2004, Las Vegas, Nevada, pp. 392-297.

[6] F. Silvestri, R. Baraglia, F. Merlo. An Effective Recommender System for Highly Dynamic and Large Web Site (Demo Paper). In Proceedings of the 8th ECML/PKDD International Conference on Principles and Practice of Knowledge Discovery in Databases. Pisa, Italy. September 20-24, 2004.

[7] Vincenzo Bacarella, Fosca Giannotti, Mirco Nanni, Dino Pedreschi. Discovery of uninteresting web sites through traffic data analysis. In Proceedings of the 9th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery (DMKD 2004), September 2004. ACM Digital Libraries.

[8] Fosca Giannotti, Mirco Nanni, Dino Pedreschi, Fabio Pinelli. Mining Sequences with Temporal Annotations. Proceedings of ACM SAC 2006 (DM Track).

[9] S. Orlando, C. Lucchese, R. Perego. Distributed Mining of Frequent Closed Itemsets: Some Preliminary Results. In Proceedings of the 8th International Workshop on High Performance and Distributed Mining (HPDM '05), in conjunction with SIAM '05. April 23, 2005. Newport Beach, California, USA.

30

[10] S. Orlando, C. Lucchese, R. Perego. DCI Closed: a Fast and Memory Efficient Algorithm to Mine Frequent Closed Itemsets. Proceedings of the Workshop on Frequent Itemset Mining Implementations (FIMI'04), November 1, 2004, Brighton, UK, in conjunction with ICDM'04.

[11] T. Fagni, F. Silvestri, R. Perego. A Highly Scalable Parallel Caching System for Web Search Engine Results. Proceedings of Euro-Par 2004, Pisa, Italy, August 31-September 3, 2004.

[12] F. Silvestri, S. Orlando, R. Perego. WINGS: a parallel indexer for Web contents. Proceedings of the 2004 International Conference on Computational Science (ICCS 2004), June 6-9, 2004, Krakow, Poland.

[13] P. Palmerini, S. Orlando, R. Perego. Statistical Properties of Transactional Databases. Proceedings of the 2004 ACM Symposium on Applied Computing, SAC 2004, special track on Data Mining, March 14-17, 2004, Nicosia, Cyprus, pp. 515-519.

[14] C. Silvestri, S. Orlando, R. Perego. A new algorithm for gap constrained sequence mining. Proceedings of the 2004 ACM Symposium on Applied Computing, SAC 2004, special track on Data Mining, March 14-17, 2004, Nicosia, Cyprus, pp. 540-547.

[15] F. Silvestri, S. Orlando, R. Perego. Assigning Document Identifiers to Enhance Compressibility of Web Indexes. Proceedings of the 2004 ACM Symposium on Applied Computing , SAC 2004, special track on Data Mining, March 14-17, 2004, Nicosia, Cyprus, pp. 600-605.

[16] S. Orlando, C. Lucchese, P. Palmerini, R. Perego, F. Silvestri. kDCI: a Multi-Strategy Algorithm for Mining Frequent Sets. Proceedings of the Workshop on Frequent Itemset Mining Implementations (FIMI'03), in conjunction with ICDM'03. 19 November 2003, Melbourne, Florida, USA.

[17] T. Fagni, S. Orlando, P. Palmerini, R. Perego, F. Silvestri. A Hybrid Strategy for Caching Web Search Engine Results. Poster paper of the Twelfth International World Wide Web Conference (www2003)), May 20-24, 2003, Budapest, Hungary.

[18] F. Giannotti, M. Nanni, D. Pedreschi, F. Samaritani. WebCat: Automatic Categorization of Web Search Results, EFWM Workshop, held in conjunction with the ECML-PKDD Conference, September, 2003, Dubrovnik.

[19] C. Silvestri, S. Orlando. Distributed association mining: an approximate method. Proceedings of the 7th Int. Workshop on High Performance Distributed Mining (HPDM'04), in conjunction with 4th International SIAM Conference on Data Mining, Orlando, Florida.

[20] C. Silvestri, S. Orlando. Distributed Approximate Mining of Frequent Patterns. Proc. of the 2005 ACM Symposium on Applied Computing, SAC 2005, special track on Data Mining.

Atti di Conferenze/Workshop nazionali

[1] Fosca Giannotti, Mirco Nanni, Dino Pedreschi and Fabio Samaritani. WebCat: Automatic Categorization of Web Search Results. SEBD'03, June 2003.

[2] Salvatore Orlando, Raffaele Perego, Fabrizio Silvestri: Assigning Document Identifiers to Enhance Compressibility of Fulltext Indices. SEBD 2004: 222-229

Rapporti tecnici[1] Una proposta di architettura integrata per l’Enhanced Content Delivery.[2] Individuazione e Descrizione delle applicazioni – Progetto ECD. [3] Specifiche per un Web Object Store – Web Log[4] Mirco Nanni, Fabrizio Silvestri, Fosca Giannotti, Dino Pedreschi. The Web Object Store: an

infrastructure for mining semantics from web resources and their usage. Technical Report, ISTI-CNR, Pisa, 2005.

[5] F. Giannotti, D. Pedreschi, C. Renso, F. Sanna, XML and semistructured data: an overview from a mining perspective.

[6] T. Fagni, G. Bartoli, Il cluster ECD, manuale d’uso, rapporto tecnico.[7] T. Fagni, G. Bartoli, Il cluster ECD, configurazione e manuale d’installazione, rapporto tecnico.[8] WINGS, version 1.0, manuale d’uso, rapporto tecnico.[9] C. Agosti, F. Summa, WINGS, test effettauati, rapporto tecnico.

Prototipi di prodotti software realizzati 1. Prototipo: Web Object Store v2.0: http://www-ecd.isti.cnr.it/new/wos.html

31

http://www-ecd.isti.cnr.it/new/wos.html

2. Reccommender system SUGGEST3. Sistema per il preprocessing di file di log di web servers, proxy servers e motori di

ricerca;4. Prototipo WebCat per la categorizzazione automatica di risposte di motori di

ricerca;5. Transactional K-means, algoritmo di clustering per documenti XML6. WINGS, sistema parallelo e distribuito per l’indicizzazione di grosse collezioni di

documenti Web;7. SDC, sistema di caching ibrido per i risultati delle query di motori di ricerca;8. kDCI, algoritmo per l’estrazione di tutti i pattern frequenti da dataset

transazionali;9. ParDCI, versione parallela e distribuita dell’algoritmo kDCI per la determinazione

degli insiemi frequenti in database transazionali di grosse dimensioni;10. DCI_Closed, algoritmo per l’estrazione dei closet pattern frequenti da dataset

transazionali;11. APInterp, algoritmo per l’estrazione approssimata di pattern frequenti da dataset

distribuiti;12. Algoritmo di clustering di documenti Web per la determinazione di un mapping di

doc_id che migliori la compressibilità dell’indice a liste invertite corrispondente;

32

Unità Operativa Università di Pisa

Responsabile: prof. Maria Simi

Per quello che riguarda la tematica del Web Mining, come attività scientifica di disseminazione e confronto possiamo menzionare l’organizzazione del Workshop "Statistical Approaches to Web Mining" nel contesto di ECML/PKDD 2004: The 15th European Conference on Machine Learning (ECML) and The 8th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD), 20-24 Settembre 2004, Pisa.

Off-line caching e algoritmi di classificazione. Sono state valutate su dati di log le performance di strategie di caching off-line proposte in letteratura (FAR, ORCL, BIT, FAULT) o loro varianti. Una strategia off-line ha conoscenza dell’intera sequenza delle richieste, comprese quelle future. Tipicamente l’informazione “futura” da esse utilizzata è la distanza tra la presente e la successiva richiesta di un oggetto. Tale valore può essere approssimato mediante algoritmi di data mining (predizione numerica e/o classificazione) sulla base di attributi conosciuti (tipo di richiesta, dimensione, client, server). È inoltre stato perfezionato un sistema di classificazione, YaDT, che implementa una versione efficiente di un estrattore di alberi di decisione basati su entropia.

Indici su insiemi di URL. In collaborazione con il WP 2.2 (Indicizzazione e compressione) è stato progettato e realizzato il sistema URLIndex per l’indicizzazione di insiemi di URL. Gli indici sono costruiti su campi di ricerca per prefissi e suffissi di parti interessanti di una URL (schema, dominio, path, filename) e risiedono in memoria esterna. L’idea di base del sistema è di mappare una URL in un punto di uno spazio a n dimensioni, dove n sono i possibili campi di ricerca, e, conseguentemente, di mappare la ricerca di URL con determinati prefissi e suffissi nella ricerca dei punti dello spazio che sono all’interno di un ipercubo. Le sperimentazioni condotte confermano l’efficienza teorica del sistema sviluppato rispetto a tecniche tradizionali (B-trees) di indicizzazione di stringhe, sia in termini di CPU che di spazio disco.

L’attività dell’obietivo 2.1.2 ha prodotto il sistema WebCat rivolto alla riorganizzazione tramite clustering transazionale delle risposte fornite da un motore di ricerca. WebCat è basato sulla similarità di snippets e su alcune tipologie di relazioni semantiche tra i termini, quali sinonimia, iper- e iponimia, meronomia. Le sperimentazioni condotte mostrano che, nel caso di segmenti di testo ragionevolmente lunghi e significativi, la qualità dei risultati di WebCat trae giovamento da tutte e quattro le categorie semantiche menzionate.

I risultati ottenuti per gli obiettivi 2.2.1 e 2.2.2 sono numerosi e alcuni di questi sono stati pubblicati sulla più prestigiosa rivista del settore Theory, il Journal of the ACM. Questa linea di ricerca è stata inoltre oggetto di due Plenary Talk, alle conferenze internazionali CPM [F04] e SPIRE [4], e di un Working Group presso il DIMACS [5]. In questo contesto evidenziamo due risultati preminenti:

In [4] abbiamo descritto la struttura dati FM-index [Ferragina-Manzini, IEEE Focs 2000] nel suo dettaglio. Questa è la prima struttura dati che trae vantaggio dalla comprimibilità del testo in input per ridurre lo spazio da essa occupato, senza però pregiudicare in alcun modo l'efficienza delle operazioni di ricerca per sottostringa che possono essere eseguite sul testo indicizzato. Più precisamente, lo spazio totale è funzione dell'entropia della collezione di dati indicizzati e la complessità in tempo delle interrogazioni è paragonabile a quella ottenuta dai migliori indici full-text (Suffix Tree e Array). Particolarmente rilevante in questo contesto è inoltre l’estensione di questi risultati all’indicizzazione e compressione di documenti XML [5].

In [3] abbiamo proposto una tecnica generale di compression boosting per dati testuali. Qualitativamente, essa prende un algoritmo di compressione memoryless (tipo Huffman o Aritmetico) e lo trasforma in un compressore con migliori performance garantite. Questa tecnica offre alcune pregevoli proprietà: (a) può trasformare un qualunque compressore memoryless in un compressore che usa “il miglior contesto possibile”; (b) è molto semplice e ottima in tempo; (c) ammette un algoritmo di decompressione ottimo in tempo; (d) è una tecnica inerentemente combinatoria che non fa alcuna assunzione sul modello probabilistico che emette i dati da comprimere, e non usa alcuna fase di

33

addestramento, apprendimento o stima dei parametri. A questo risultato principale si aggiungono una serie di corollari che hanno permesso di fare luce su diversi problemi aperti del settore Data Compression.

I contributi più significativi relativi al workpackage 2.4 sulla ricerca partecipativa sono stati:

realizzazione di un crawler ad alte prestazioni, utilizzabile per alimentare il Web Object Store del progetto

realizzazione di un prototipo del servizio di ricerca partecipativa.Le prestazioni del crawler realizzato, IXECrawler, sono tali da consentire il pieno utilizzo della banda disponibile (circa 20 MB/s), tasferendo una media di 200 pagine al secondo, per un totale di oltre 15 milioni di pagine al giorno, tramite un singolo PC.Da esperimenti fatti IXE crawler ha prestazioni oltre 20 volte superiori del migliore crawler open source disponibile, Nutch.

La ricerca partecipativa può essere definita come un servizio di ricerca in cui ogni partecipante si occupa di raccogliere, indicizzare e tramettere indici a un servizio centrale dove gli indici sono integrati ed utilizzati per la realizzazione del servizio di ricerca. La ricerca partecipativa costituisce una risposta al problema dell’Hidden Web.Nel secondo anno del progetto abbiamo definito una architettura e realizzato un prototipo di un servizio di ricerca partcipativa. Questo ha comportato:

la definizione di un protocollo aperto per lo scambio di indici (Antix)

la realizzazione di uno strumento di crawling e indicizzazione per la creazione di indici in locale

strumenti per l’estrazione di dati da database o altre sorgenti non direttamente accessibili dal Web (DB-Indexer).

Per rendere possibile l’indicizzazione di documenti in diversi formati, è stata studiata e realizzata un’architettura software flessibile di document reader per IXE (IndeXing Engine).

Riferimenti

[1] P. Ferragina è stato plenary speaker alla Conferenza internazionale Combinatorial Pattern Matching (CPM), svoltasi in Turchia, con un talk dal titolo ``Compression and Indexing: two sides of the same coin''. Proceedings in Lecture Notes in Computer Science, vol. 3109, Springer Verlag.

[2] Ferragina, A. Gullì. A personalized search engine based on web-snippet hierarchical clustering. International World Wide Web Conference (WWW), 801-810, 2005.

[3] P. Ferragina, R. Giancarlo, G. Manzini, M. Sciortino. Compression boosting in optimal linear time. Journal of the ACM, 52(4): 688-713, 2005.

[4] P. Ferragina, G. Manzini. Indexing compressed textual data. Journal of the ACM, 52(4): 552-581, 2005..

[5] P. Ferragina, G. Manzini e S. Muthukrishnan sono stati co-organizzatori del DIMACS Working Group su “The Burrows-Wheeler Transform: Ten years later”, svoltosi presso il DIMACS (Rutgers University) nell’Agosto 2004.

34

Unità Operativa ICAR

Responsabile: Domenico Talia

Obiettivo/i previsto/i:

Gli obiettivi delle attività di ricerca dell’unità ICAR-CNR (già unità ISI nella proposta di progetto) erano:

La progettazione di tecniche di Web usage mining per il caching intelligente tramite algoritmi di Web caching che impiegano modelli predittivi degli accessi al Web.

La progettazione, realizzazione e valutazione di algoritmi paralleli di data/web mining. Lo scopo è quello di costruire sistemi di data mining scalabili e paralleli per dati Web a larga scala in grado di manipolare sorgenti di dati di dimensioni fino ai Tera Byte.

Il Web usage mining ha applicazioni significative nell’ambito della gestione dei siti Web, che variano dalla ristrutturazione adattiva fino all’ottimizzazione del traffico. Un obiettivo di questa attività di ricerca è lo sviluppo di algoritmi di Web caching che impiegano modelli predittivi degli accessi al Web; l’idea è quella di estendere la politica LRU (last recently used) dei Web e Proxy servers rendendola sensibile ai modelli di accesso ai Web estratti dai dati di log mediante tecniche di analisi di data mining. Si studiano due approcci: uno basato su regole di associazione e l’altro su alberi di decisione. I risultati sperimentali dei nuovi algoritmi mostrano miglioramenti sostanziali rispetto alle tecniche tradizionali di caching, in termini di documenti Web direttamente rinvenuti nella cache (hit rate).

Inoltre nell’ambito del progetto l’unità ISI intendeva occuparsi della progettazione di algoritmi paralleli di data/web mining. La crescita esponenziale dei documenti presenti nel Web comporta la necessità di individuare soluzioni altamente scalabili ed efficienti per la realizzazione delle Web Search Engine (WSE). Questo è particolarmente vero se viene adottato un modello di IR che prevede la raccolta centralizzata delle informazioni per l’indicizzazione e la ricerca. Oltre alla riduzione della latenza delle fasi di recupero ed indicizzazione dei documenti tramite parallelizzazione e distribuzione, il sistema di gestione delle interrogazioni deve essere altamente distribuito in modo da garantire espandibilità, affidabilità e soprattutto throughput elevato.

Le esigenze di parallelizzare gli algoritmi di DM per diminuirne i tempi di risposta sono ben noti. L’approccio che si intendeva perseguire in questa ricerca riguardava lo studio di nuovi algoritmi di DM che sfruttassero tecniche implementative efficienti per ridurre l'impatto dell'I/O sulle prestazioni, e che tenessero conto delle nuove problematiche introdotte dallo sfruttamento di testbed paralleli commodity. Lo scopo finale era quello di costruire dimostratori di DM per dati Web a larga scala e paralleli in grado di manipolare sorgenti di dati di dimensioni fino ai Tera Byte.

Riassunto dei risultatiL’unità ICAR-CNR (ex ISI-CNR) si è concentrata principalmente in tre contesti applicativi: Web Usage Mining, Web Content/Structure mining e tecniche per la definizione e/o la valutazione di algoritmi paralleli di data/web mining. Di seguito sono descritti i risultati principali conseguiti dall’ICAR-CNR in seno al progetto.

Web Usage Mining. Il punto di partenza della ricerca dell’ICAR è stato la progettazione di tecniche di Web usage mining per il caching intelligente. A questo proposito, l’ICAR si è concentrato sull’utilizzo di tecniche di clustering per la descrizione di modelli comportamentali da poter utilizzare per la definizione di modelli predittivi per il caching. L’analisi in quest’ambito si è concentrata essenzialmente sul clustering di dati ad altissima dimensionalità. I dati ad altissima dimensionalità hanno una connessione diretta con i dati Web. Ad esempio, le sessioni di utilizzo di un servizio Web possono essere rappresentati come una tupla in uno spazio n-dimensionale dove la dimensione n è altissima (tipicamente, dell’ordine di 106). Ogni dimensione rappresenta una risorsa Web che può essere acceduta: se effettivamente un utente la accede, una tupla che descrive la sessione dell’utente conterrà il valore booleano true in corrispondenza di quella colonna. Viceversa, se la risorsa non viene acceduta, allora la tupla conterrà il valore false.

35

Partendo dallo studio preliminare fatto in [1], in cui vengono analizzate le caratteristiche dei dati ad altissima dimensionalità e si studia l’estensione del k-Means a tale tipo di dati, l’attività di ricerca dell’ICAR procede in due direzioni direzioni principali. Una direzione deriva dall’osservazione che le tecniche in letteratura non prendono in considerazione la similarità di pagine web, sia dal punto di vista dei contenuti e della struttura, sia dal punto di vista comportamentale. Due pagine simili dal punto di vista comportamentale (ovvero, che puntano allo stesso insieme di pagine, o che vengono puntate dallo stesso insieme di pagine), è probabile che siano visitate collegialmente. Da questo punto di vista, si è studiato in [2,3] un approccio differente: di considerare un sottoinsieme di interesse del Web come un grafo ``alla Kleinberg'' (ma senza considerare la struttura a link risultante dalla pagine stesse, quanto piuttosto quella risultante dall'analisi dei logs). Tale approaccio permette di individuare velocemente tali similarità dall'analisi, appunto, del grafo, e consequentemente di tarare le tecniche di caching tradizionali (come LRU, LFU o anche le tecniche di LRU intelligente) affinché prendano in considerazione tali similarità. Il contributo dato in quest’ambito è stato:

Un nuovo schema di clustering per partizionare le sessioni di navigazione degli utenti in gruppi di transazioni simili, che permettano di scoprire e modellare il comportamento navigazionale di un insieme di utenti in termini di medoidi generalizzati (ovvero, patterns sequenziali che occorrono frequentemente nei clusters).

Un nuovo approccio al calcolo della similarità tra transazioni. Tale approccio, originariamente concepito nell’ambito applicativo del Web Caching (e dimostratosi efficace anche in ambito di personalizzazione), prevede di considerare i contesti delle pagine per definire la topologia delle sequenze navigazionali.

Una nozione originale di similarità tra pagine Web, che consideri la prossimità di pagine come il risultato sia di similarità di contenuti che di similarità d’uso.

Una ulteriore direzione studiata [4] è stato lo sviluppo di un approccio completamente automatico al clustering di dati ad altissima dimensionalità. La tecnica è basata su una procedura iterativa in due fasi, ed ha un decorso molto simile a quello dello sviluppo degli alberi di decisione. Il vantaggio principale dell’algoritmo, chiamato AT-DC, è la sua totale automaticità: l’algoritmo non richiede parametri, e dato un database di input restituisce la migliore partizione ottenibile.

Si è infine investigata l’estensione degli approcci descritti a problemi di streaming. Si tratta cioè di problemi in cui i dati disponibili vengono aggiornati di continuo, per cui ci si può aspettare che i modelli estratti abbiano una intrinseca dinamicità. A questo proposito, si è sviluppato un algoritmo incrementale è stato proposto in [16]. L’algoritmo fa uso di una tecnica di indicizzazione basata su tecniche hash, che di fatto rende il processo di clusterizzazione lineare nella dimensione dei dati: in pratica, per ogni nuova tupla che arriva, si riesce a decidere in tempo costante se esiste un cluster a cui associarla, o se viceversa si deve creare un nuovo cluster.

Un aspetto interessante è che le tecniche investigate si prestino non solo al loro utilizzo nell’ambito del Web Caching, ma in generale permettano di approcciare proficuamente il problema della personalizzazione. A questo proposito, si è studiato come la combinazione di informazioni di Content, Usage e Structure permettano la definizione di tecniche estremamente efficaci nel campo della personalizzazione [3,5]. Più in generale, la combinazione di tecniche di analisi di content, usage e structure è stata studiata estensivamente in un caso applicativo: l’erogazione personalizzata di Usenet news [3,6]. Il focus in quest’ambito applicativo è stato in una prospettiva di ottimizzazione: l’adattamento della conoscenza estratta alle richieste, gli interessi e le aspettative degli utenti del servizio, con l’obiettivo di ampliare la loro esperienza navigazionale. L’analisi a portato a nuove tecniche per

la gestione di articoli di news,

la ristrutturazione di thread di Usenet in comunità di articoli correlati, tale da favorire un reperimento più efficace da parte dell’utente dell’informazione desiderata,

il miglioramento dell’accessibilità agli articoli.

Web Content/Structure MiningIn quest’ambito, i contributi principali del gruppo di ricerca dell’ICAR sono essenzialmente due. Il primo riguarda l’analisi dei dati testuali. A questo proposito l’obiettivo principale è stato quello di sfruttare tecniche di Content Mining per la definizione di un sistema di classificazione di messaggi di posta elettronica capace di agostiorganizzare automaticamente i messaggi memorizzati nella mailbox di un utente. La classificazione dei

36

messaggi può essere vista essenzialmente come un problema di Content Mining: dato un insieme di documenti testuali (i.e., i contenuti dei messaggi), l'obiettivo principale è la loro classificazione in base al contenuto. Lo studio si è concentrato prevalentemente sulla possibilità di sfruttare le tecniche di clustering per organizzare in gruppi omogenei i messaggi di posta elettronica rappresentati dalle informazioni strutturate e non strutturate adeguatamente estratte. I contributo principale in quest’ambito è stato il sistema AMCo [8,9], che permette di affrontare l’aggiornamento incrementale dell'organizzazione della mailbox all'arrivo di nuovi messaggi, nonché l’adattamento dell'organizzazione in base al comportamento mostrato dall'utente di fronte alla classificazione dei messaggi, in modo tale che le successive assegnazioni tengano conto anche dell'esigenze e delle preferenze dell'utente.

Un ulteriore contributo nell’ambito del content mining è stata la definizione ed implementazione di un tool di clustering per dati multidimensionali [7]. Il tool implementa una tecnica di clustering visuale particolarmente adatta a dati testuali/web, che permette l’esplorazione dello spazio delle features in maniera guidata e interattiva. Infatti, la tecnica permette di individuare clusters di forma differente o che fanno riferimento a nozioni di similarità variegate. La tecnica effettua una decomposizione SVD (singular value decomposition) di un insieme di dati, per fornire una rappresentazione bidimensionale dei dati particolarmente adatta per essere analizzata in maniera visuale.

Un ulteriore aspetto che si è investigato riguarda lo sviluppo di una tecnica di Named Entity Recognition, basata su un algoritmo di classificazione a regole che ricorsivamente migliora la confidenza nella classificazione arricchendo il dominio in considerazione con la conoscenza che progressivamente scopre. La tecnica è introdotta in [15], ed è basata sul paradigma della progressive classification (ovvero, una classificazione a stadi multipli dove, ad ogni stato intermedio, un classificatore è appreso a analizza i frammenti testuali non riconciliati sinora).

Il secondo filone di investigazione riguarda l’analisi dei dati XML. In quest’ambito, si volevano definire tecniche di data mining per il delivery di informazione sintetizzata da documenti HTML/XML. Si sa che i dati XML/HTML oggi giorno sono ritenuti la sorgente di informazione più ricca sul Web. A questo proposito, l’attività dell’ICAR si è concentrata nel definire tecniche per l’analisi di tali dati. Un primo contributo significativo è stato l’analisi della similarità strutturale di documenti XML [13]. La tecnica sviluppata fa uso di una rappresentazione di un documento XML come serie temporale. L’analisi delle frequenze della serie permette di stabilire, in maniera estremamente efficace, le similarità e differenze tra segnali che rappresentano differenti documenti.

Inoltre, è stata studiata l’applicabilità della tecnica al caso di documenti HTML per l’analisi della loro struttura [14]. In quest’ambito, è stata proposta un’architettura che combina crawling e information extraction di pagine Web. In tale architettura, il ruolo principale è ricoperto da un classificatore distance-based che accomuna pagine con struttura simile da cui quindi è più facile estrarre informazioni. Il classificatore fa uso di una rappresentazione di un documento XML/HTML come serie temporale. L’analisi delle frequenze della serie permette di stabilire, in maniera estremamente efficace, le similarità e differenze tra segnali che rappresentano differenti documenti.

Il concetto di similarità investigato può essere usato proficuamente anche in congiunzione ad algoritmi di clustering di dati XML, che possono essere utilizzati per l’organizzazione e l’indicizzazione delle grandi repositories di dati. A questo proposito, si è studiato il problema del clustering con rappresentanti, fornendo una caratterizzazione teorica e un’implementazione pratica [14]. L’intuizione principale, sulla quale si fonda l’approccio, risiede nella constatazione che un adeguato “rappresentante” possa essere ottenuto come il risultato di un’opportuna sovrapposizione di tutti i documenti contenuti all’interno del cluster, in modo tale che il rappresentante conservi le caratteristiche strutturali comuni ed, allo stesso tempo, sia una rappresentazione compatta. La nozione di “rappresentante” così proposta risulta molto utile nel contesto applicativo preso in considerazione: la valutazione efficiente di espressioni XPath su una repository di documenti. Un prototipo preliminare è stato sviluppato e presentato all’Industrial Day tenutosi a Roma nel giugno 2004.

Studio, definizione ed implementazione di tecniche di data mining parallelePer ciò che riguarda la parallelizzare di algoritmi di DM è stata studiata l'esplicitazione di diverse forme di parallelismo nelle tecniche di data mining e knowledge discovery. Lo scopo è stato quello di analizzare tecniche di data mining su architetture parallele e di mostrare come le applicazioni di data mining e knowledge discovery su grandi moli di dati possono beneficiare delle funzionalità, degli strumenti e delle elevate prestazioni offerte dai sistemi di elaborazione paralleli. Sono state esaminate le problematiche e le tecniche di analisi dei dati e i diversi modi possibili per esplicitare il parallelismo

37

presente in esse. Inoltre sono stati effettuati esperimenti di parallelizzazione di un algoritmo di clustering su macchine parallele di tipo MIMD a memoria distribuita.

La disponibilità di grosse moli di dati ha portato negli ultimi anni ad un crescente interesse nell’ analisi e realizzazione di tecniche di data mining su architetture parallele e nel cercare proprietà in un ambiente con dati e computazione distribuite. Tipicamente gli algoritmi di data mining distribuito fanno una analisi locale dei dati, a cui segue la generazione di un modello globale attraverso la aggregazione dei risultati locali. Esistono varie tecniche per combinare modelli multipli dei dati generati con lo stesso o differenti metodi. Una prima proposta, nota col nome di bagging (bootstrap aggregating) viene dalla statistica e si basa sulla costruzione di bags di dati della stessa grandezza del training set applicando campionamento random con sostituzione. Ogni bag è creato campionando uniformemente le istanze del training set. Questo significa che ogni tupla potrebbe comparire più di una volta in ogni bag mentre altre potrebbero essere assenti. A questo punto un certo numero k di classificatori è generato utilizzando come istanze su cui addestrarsi i vari bag, ed un classificatore finale viene ottenuto combinando i k classificatori applicando una regola di voto per la predizione delle nuove tuple. Breiman stesso ha suggerito che, quando il data set è troppo grande da essere memorizzato in memoria centrale, si potrebbero partizionare i dati in piccoli pezzi e costruire un predittore su ogni pezzo, quindi fondere i vari predittori insieme. Sono state studiate altre tecniche più complesse, quali il boosting che cambia adattativamente la distribuzione del campione in base alla difficoltà di classificare una tupla. Bagging, boosting e varianti sono state studiate e confrontate ed è stato mostrato che esse migliorano l’accuratezza di classificazione. In questo ambito l’unità ICAR-CNR ha realizzato una implementazione parallela della tecnica di bagging in cui, supponendo di avere a disposizione un certo numero p di processori, una certa frazione del data set viene distribuita sui p processori e, su ognuno viene addestrato un classificatore considerando solo i dati locali a disposizione. Quindi i vari classificatori sono scambiati tra i nodi in modo che ognuno abbia a disposizione un ensemble di classificatori. Infine viene applicata un semplice politica di voting a maggioranza per classificare le tuple del test set. Sono stati fatti una serie di esperimenti su alcuni data set ben noti in letteratura supponendo di utilizzare un numero variabile di processori, in particolare 5, 10 15 e considerando su ogni nodo il 5, 10 20 e 50% di tutto il data set. Gli esperimenti hanno mostrato che utilizzando solo un sottoinsieme del data set è possibile ottenere un’accuratezza comparabile con quella che si ha usando l’intero data set. Una descrizione dell’implementazione dell’algoritmo e dei risultati sperimentali si trova in [12].

38

Pubblicazioni:[1] Fosca Giannotti, Cristian Gozzi, Giuseppe Manco: Clustering Transactional Data. PKDD 2002: 175-187[2] Giuseppe Manco, Riccardo Ortale, Domenico Saccà: Similarity-Based Clustering of Web Transactions.

SAC 2003: 1212-1216[3] Riccardo Ortale, Web Mining for Personalization, Ph.D. Thesis, Università della Calabria, 2004.[4] Eugenio Cesario, Giuseppe Manco, Riccardo Ortale: Top-Down Parameter-Free Clustering of high-

dimensional categorical data: RT 2005/02 ICAR-CNR. Submitted to ACM Trans. On Knowledge Discovery in Databases.

[5] Eugenio Cesario, Francesco Folino, Riccardo Ortale: Putting Enhanced Hypermedia Personalization into Practice via Web Mining. DEXA 2004: 947-956

[6] Giuseppe Manco, Riccardo Ortale, Andrea Tagarelli, Providing Personalized Access to Usenet Sites through Web Mining, in A. Scime, editor, “Web Mining: Applications and Techniques”, 2004.

[7] Giuseppe Manco, Clara Pizzuti, Domenico Talia: Eureka!: an interactive and visual knowledge discovery tool. J. Vis. Lang. Comput. 15(1): 1-35 (2004)

[8] Giuseppe Manco, Elio Masciari, Andrea Tagarelli: A Framework for Adaptive Mail Classification. ICTAI 2002: 387-

[9] Giuseppe Manco, Elio Masciari, Andrea Tagarelli: Mining Categories for Emails via Clustering and Pattern Discovery.Submitted to Kluwer Journal of Intelligent Information Systems

[10] Sergio Flesca, Giuseppe Manco, Elio Masciari: Web wrapper induction: a brief survey. AI Commun. 17(2): 57-61 (2004)

[11] Sergio Flesca , Giuseppe Manco, Elio Masciari, Luigi Pontieri, Andrea Pugliese: Fast Detection of XML Structural Similarity. IEEE Trans. Knowl. Data Eng. 17(2): 160-175 (2005)

[12] S. Flesca, G. Manco, E. Masciari, L. Pontieri, A. Pugliese.Exploiting Structural Similarity for Effective Web Information Extraction, Procs. of Dagsthul seminar 2005-06, Foundations of Semi Structured Data. An extended version has been accepted for publication by Elsevier Journal on Data and Knowledge Engineering.

[13] Gianni Costa, Giuseppe Manco, Riccardo Ortale, Andrea Tagarelli: A Tree-Based Approach to Clustering XML Documents by Structure. PKDD 2004: 137-148

[14] Eugenio Cesario, Francesco Folino, Giuseppe Manco, Luigi Pontieri, An Incremental Clustering Scheme for Duplicate Detection in Large Databases, IDEAS 2005: 89-95.

[15] Eugenio Cesario, Francesco Folino, Antonio Locane, Giuseppe Manco, Riccardo Ortale: RecBoost: A supervised approach to text segmentation, Proc. SEBD 2005: 220-231: An extended version submitted to International Journal of Knowledge and Information Systems.

39

http://www.informatik.uni-trier.de/~ley/db/journals/tkde/tkde17.html#FlescaMMPP05

http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/p/Pugliese:Andrea.html

http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/p/Pontieri:Luigi.html

http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/m/Masciari:Elio.html

http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/f/Flesca:Sergio.html