Upload
emanuele-della-valle
View
106
Download
0
Embed Size (px)
DESCRIPTION
Citation preview
Emanuele Della ValleArea Middleware - CEFRIELemail: [email protected] Web: www.cefriel.it/~dellavalle
IDC CMS, 24 Gennaio 2006, Milano
© 2001-2005 E. Della Valle - CEFRIEL© 2001-2005 E. Della Valle - CEFRIEL
Basta cercare,Basta cercare,vogliamo vogliamo trovare!trovare!Content, Document Management & Corporate Portals Conference 2006
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 22 - -
Il successo dei motori di ricercaIl successo dei motori di ricerca
Poco sforzo: interfaccia minimalistica
Un semplice box in cui digitare la richiesta
Segue il processo razionale di capire ciò che si cerca mentre lo si cerca
Si opera per raffinamenti successivi
Risultatirilevanti,
Se si cerca una pagina in Google il risultato è quasi sempre nella parte alta della prima pagina
numerosi, e facilmente utilizzabili
(Cut & Paste !)
Ovvero, forte attenzione alla user experience!
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 33 - -
Cerchiamo di tutto e …Cerchiamo di tutto e …
Pagine di testo L’articolo che descrive Google: “Anatomy of a search engine” http://www.google.it/search?hl=it&q=Anatomy+of+a+search+engine&btnG=Cerca&meta
= Musica
L’mp3 di “Vorrei Cantare Come Biagio” http://www.unitedmusic.it/umshop
Immagini Una foto di “Giorgio Rocca” http://images.google.it/images?svnum=10&hl=it&lr=&q=giorgio+rocca+&btnG=Cerca
Filmati Trailer di Harry Potter and the Goblet of Fire http://emea-search.blinkx.com/
tv/search.do?query=%22harry+Potter%22+%22goblet+of+fire%22&bias=100
Servizi Chi vende online un “router ADSL” http://shopping.kelkoo.it/ctl/do/search?siteSearchQuery=router+adsl
Persone Qualcuno che lavori per IDC http://www.linkedin.com/
Luoghi La posizione dei Musei di New York http://maps.google.com/maps?f=l
MAP
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 44 - -
… … e cerchiamo ovunque, ma …e cerchiamo ovunque, ma …
Sul Web, sul portale aziendale, sul portale intranet, nel sistema di knowledge management
sul nostro desktop, nei file server del nostro team operativo, nei folder condivisi dei nostri colleghi
Anche nella posta perchè avendo poco tempo per fare ordine, ciò che è importante è di sicuro in una mail
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 55 - -
… … ma finiamo per perderci, perché ma finiamo per perderci, perché ……Cercare ha un costo … Un utente medio
fa 2 ricerche al giorno spendendo al più 10 minuti prima di
rinunciare se trova risultati a prima vista interessanti
spende circa 2 min a risultato prima di lasciar perdere e passa al successivo
di solito si tende a scorrere in modo sequenziale i primi 5-10 risultatiIl costo si cercare per un’azienda con N dipendenti è di …
…perciò, se ci vengo ritornati troppi risultatiè facile perdersi e si finisce per trascurare informazione
rilevante.Ma anche trascurare informazione rilevante ha un costo per un azienda è un problema efficienza produttiva, per un cittadino significa recarsi di persona ad uno sportelloper un e-commerce provider significa perdere potenziali acquirenti
significa perdere importanti opportunità.
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 66 - -
… … perché “trovare” è un’altra perché “trovare” è un’altra cosa!cosa!Volendo dare una pagella ai search engine attuali
Pagine di testo 9-Solo se si cercano singole pagine intere
Musica 8 Problemi di © e diritti di accesso
Immagini 7 ½ Bassa precisione e bassa recall
Video 6 Inizio interessante
Persone 6- Spezzettate e di bassa qualità
Servizi 5Ci sarebbe bisogno di aggregare i risultati
Contenuti 4 Non si riesce se non su singoli portali
Dati 3 Impossibile sulla scala di Internet
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 77 - -
… … perché “trovare” è un’altra perché “trovare” è un’altra cosa!cosa!Bassa recallCercando su google images Hermann Maier “discesa libera” ci
vengo ritornate tutte le immagini con cui le parole sci e “discesa libera” sono in relazione, ma non tutte le immagini perché
quelle di siti anglofoni saranno in relazione con downhill quelle di siti tedeschi con abfahrt quelle di siti francesi con descente …
Sapendo tutto ciò si potrebbe chiedere Hermann Maier (“discesa libera” OR downhill OR abfahrt OR
descente)
Bassa precisioneCercando su google images jaguar (avendo in mente la nota
casa automobilistica) si ottiene un mix di immagini di automobili e di giaguari
Discesa libera
downhill
abfahrt
descente
totale
13 47 49 12 121
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 88 - -
… … perché “trovare” è un’altra perché “trovare” è un’altra cosa!cosa!Granularità non appropriataCercando un servizio in cui si mostri la vittoria di Giorgio Rocca a
Wengen, magari si trova il telegiornale in cui è stato trasmesso
Necessità di aggregare i risultati spezzettati Se uno desidera trovare quante più informazioni possibili su una
persona/azienda/luogo deve aggregare manualmente spezzoni di informazione (spesso di bassa qualità), perché
Una persona può aver più volte cambiato ufficio/lavoro/abitazione, ma le informazioni relative non sono state aggiornate
Le informazioni di un’azienda/luogo sono tipicamente frammentarieEs. cerchiamo Toscana
http://www.google.com/search?q=toscana
“Rocca vince il quinto slalom consecutivo: A Wengen rimonta dalla quarta posizione ed eguaglia il primato di Stenmark e Girardelli. Lo sciatore di Livigno si è imposto anche a Wengen …
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 99 - -
Anatomia di un Search engineAnatomia di un Search engine
Sergey Brin, Lawrence Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Networks 30(1-7): 107-117 (1998) http://www-db.stanford.edu/pub/papers/google.pdf
Scovare tutti i contenuti di
possibile interesse per
l’utente
Estrarre le informazioni rilevanti da
ciascun contenuto
Organizzare le informazioni estratte in modo da ottimizzare i tempi di ricerca
Escogitare un metodo per ordinare i risultati
Permettere la ricerca dei risultati e una loro ispezione efficace
Strutturare le informazioni rilevanti
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 1010 - -
Indici
Searcher
Indexer
Ranker
Crawler
Anatomia di un Search engine Anatomia di un Search engine
Scovare tutti i contenuti di
possibile interesse per
l’utente
Estrarre le informazioni rilevanti da
ciascun contenuto
Escogitare un metodo per ordinare i risultati
Metadati
Organizzare le informazioni estratte in modo da ottimizzare i tempi di ricerca
Permettere la ricerca dei risultati e una loro ispezione efficace
Strutturare le informazioni rilevanti
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 1111 - -
Ottima soluzione per trovare pagine Ottima soluzione per trovare pagine WebWeb
Searcher
Indexer
Ranker
CrawlerLe risorse
sono tra loro legate tramite
link ipertestuali
che relativamente
semplice seguire
• Estrarre informazioni dal testo è relativamente facile,
• L’indicizzazione sfrutta a pieno il contenuto è testuale delle pagine Web pesando opportunamente i tag HTML (titolo, href, ect.)
PageRank™ + link + popolarità Chi cerca
esprime a sua volta la ricerca come testo
Il lessico si espande con l’espansione
della conoscenza
umanaIndici
Metadati
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 1212 - -
Problemi con ricerca di risorse Problemi con ricerca di risorse multimedialimultimediali
Searcher
Indexer
Ranker
Crawler
Le risorse multimediali compaiono spesso come contenuti di risorse solo di raro tra loro linkate.
• Estrarre informazioni da contenuti multimediali è estremamente difficile,
• Che tipo di indicizzazione fare? Spesso è limitata ad indicizzare il testo che accompagna il contenuto multimediale o alcune informazioni ad esso associate (metadati)
PageRank™ non funziona perché non ci sono riferimenti espliciti (ma tantissimi sono impliciti!)
Difficoltà di ispezione, specialmente per registrazioni audio/filmati lunghi
Che cos’è l’equivalente del lessico per contenuti multimediali?
Indici
Metadati
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 1313 - -
Il problema è gestire l’ambiguità !Il problema è gestire l’ambiguità !
L’informazione contenuta in molte risorse non è direttamente elaborabile dalle macchine (in particolare se le risorse non sono testo):
è ambigua.Macchine più SmartInsegnare alle macchine ad estrarre informazione dalle risorse
Text processing: natural language processing (NLP), …Audio processing: Acoustic finger prints, Automatic Speech recognition (ASR), …
Image / Video Processing: computer vision, scene change/segment detection
Dati più SmartRendere i contenuti più semplici da trovare, accedere e processare per le macchine Si tratta di
esprimere i dati e il loro significato in formati standards direttamente elaborabili dalle macchine
metadati e ontologieindividuando meccanismi decentralizzati per la loro definizione e gestione.
È il problema affrontato dal Semantic Web
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 1414 - -
Macchine più smartMacchine più smart
Image / Video processing: computer Image / Video processing: computer visionvision
Con buona approssimazione riescono asuddividere immagini in parti sensate
Riconoscere segmenti e cambi di scena
Un servizio che mostra tutte le potenzialità dell’approccio è search by sketch (disponibile on-line a http://labs.systemone.at/retrievr).
Basta disegnare in modo approssimativo quello che si desidera nel box a sinistra perché il sistemi cerchi di ricuperare le immagini che più gli assomigliano.
Ma le difficoltà sono tante Variazione della luce
Variazione del punto di vista
Variazione del soggetto nel tempo
La computer vision escogita metodi per estrarre informazione dalle immagini e dalle sequenze video.
SCENE
SEG
MEN
TI
IPIPVPVP
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 1515 - -
Automatic Speech recognition (ASR) da un po’ di tempo sono disponibili sistemi di dettatura che una volta
addestrati tollerano molto bene il rumore ambientale e i difetti di pronuncia.
la sfida è renderli tolleranti a timbro vocale di chi parla e alla lingua (italiano e
inglese) riconoscendo e associando correttamente chi parla
Es. trascrivere in automatico l’intervista a Christopher Paolini da pubblicare su un servizio come http://www.speakers-corner.it/
Un acoustic fingerprintè un codice univoco generato da un file audio che permette di
distinguere il tipo di file audio: musica, parlato riconoscere un file audio tollerando degradazione del segnale e
interventi umani
Macchine più smartMacchine più smart
Audio processingAudio processing
Intervistatore: Oggi abbiamo qui con noi Christopher Paolini. Welcome Christopher with us!Christopher: thank you.Intervistatrice: per discuterne con noi c’è anche un noto Eragonologo, Giordano Aterini …Giordano: buongiornoIntervistatrice: a cosa ti sei ispirato per creare il personaggio di Eragon? Traduttrice: whom did you get inspiration from …
QuickNamer è una semplice applicazione open source che determina autore e titolo di un mp3 calcolandone l’acoustic fingerprint in formato TRM e confrontandolo con un DB pubblico di codici TR. http://phonascus.sourceforge.net
ASR
Su musipedia è disponibile un motore che cerca canzoni fischiettate dall’utente calcolandone il Parson code 5th sifonia di Beethoven UDUDDUDUDUDDURUhttp://www.musipedia.org/whistle.0.html
APAP
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 1616 - -
Macchine più smartMacchine più smart
Text processingText processing: Natural language : Natural language processing processing Natural language processing (NLP) studia la comprensione e la manipolazione del linguaggio naturale da parte delle macchine,
determinando i confini di un concetto in una frase Es. nome di una persona, data, concetto espresso con più parole
disambiguando il significato di una parola Es. “La vecchia porta cigola” vs. “La vecchia porta la bambina”
cross-referenziando i pronomi Es. Anna è golosa di cioccolato, [lei] lo mangerebbe a tutte le ore
Esistono ottimi strumenti open-source come GATE e …
..motori di ricerca che sfruttano NLP Es. provare a cercare “calcio” su http://www.governo.it/Cerca
http://gate.ac.uk/
NLPNLP
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 1717 - -
Macchine più smart e search Macchine più smart e search engineengine
Searcher
Ranker
Cra
wle
r
Indici
Metadati
Indexer
IP
VP
NLP
AP
Macchine più intelligenti sono in grado di estrarre maggiore informazione dalle risorse. Opportunamente combinate tra loro possono arrivare a
• Segmentare un telegiornale
• Estrarre immagini chiave dalle sequenze
• Catturare i sottotitoli
• Catturare informazioni testuali sullo schermo
• Trascrivere quanto detto dagli speaker
• Indicizzare con tecniche di NLP le trascrizioni
http://www.doc.ic.ac.uk/~mjp3/anses/datesearch.cgi?aetos=
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 1818 - -
Dati più SmartDati più Smart
Il Semantic Web mette a disposizione standard per codificare e trasmettere conoscenza (non informazione!) in modo che sia elaborabile dalle macchine:RDF per veicolare metadatiSKOS per veicolare tassonomieOWL per veicolare Ontologie (modelli della conoscenza necessaria ad una macchina per elaborare i metadati)
tipo
sotto
insie
me
Finanziamenti agevolati
Impianti fotovoltaici
pannelli solariincentivi fiscali
ontologia
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 1919 - -
Dati più smartDati più smart
un motore di ricerca sintattico vs. …un motore di ricerca sintattico vs. …
“incentivi fiscali”“pannelli solari”
Search
ResultNo match found !!
sono syntactic search, basata su keywords
matching
finanza, bla bla bla Finanziamenti agevolati bla; bla bla bla Impianti fo-tovoltaici bla bla bla bla: bla bla bla agevola.
Un certo numero di informazioni addizionali può essere usato per
migliorare la ricerca, ma peggiora la user experience
Motore di ricerca sintattico
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 2020 - -
Dati più smartDati più smart
… … vs. motore di ricerca semanticovs. motore di ricerca semantico
Type
subCla
ssOf
“incentivi fiscali”“pannelli solari”
Search
Result
Finanziamenti agevolati
Impianti fotovoltaici
pannelli solariincentivi fiscali
ontology
Finanziamenti Agevolati
Impianti fotovoltaici
Motore di ricerca semantico
Un motore di ricerca semantico è in grado di trattare sia aspetti linguistici (a livello di terminologia) sia aspetti legati alla conoscenza di dominio (a livello di modello concettuale)
finanza, bla bla blaFinanziamentiagevolati bla; blabla bla Impianti fo-tovoltaici bla blabla bla: bla blabla agevola.
finanza, bla bla blaFinanziamentiagevolati bla; blabla bla Impianti fo-tovoltaici bla blabla bla: bla blabla agevola.
Finanziamenti Agevolati
Impianti fotovoltaici
Macchina Intelligente
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 2121 - -
Dati più smart e search engineDati più smart e search engine
Dati più Intelligenti nella forma di metadati e ontologie possono essere utilizzatiIn fase di crawling per legare tra loro risorse apparentemente diverse
Es. le notizie che parlano di “Giorgio Rocca” prese da siti diversi
In fase di indicizzazione per mettere a disposizione dell’indexer informazione implicita aggiuntiva
Es. nell’indicizzare un mp3 di Alanis Morissette si possono aggiungere i generi rock e pop
In fase di ricerca per presentare all’utente i possibili
significati di quello che sta cercando Es. se cercasse Jaguar
rispondere a domande complesse Es. sciatore che ha vinto 5 gare
consecutive
Searcher
Indexer
Ranker
Crawler
IndiciMetadatiOntologi
eWhat do you mean ?•Jaguar : felin •Jaguar : car vendor
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 2222 - -
Dati più smart e search engineDati più smart e search engine
della musicasfruttando come ontologia della
musica due vaste fonti di conoscenza:
musicbrainz http://musicbrainz.org/ Musicmoz http://musicmoz.org/
Permette ad un utente di trovare mp3 per autore, titolo e genere perché
Suggerisce i possibili significati di una ricerca
Una volta che l’utente ha scelto il significato filtra i risultati (++ precisione)
Suggerisce possibili risultati legati a quello cercato (++ recall)
Genere simileCanzoni dello stesso artistaArtisti collegati
http://squiggle.cefriel.it/music
delle discipline olimpiche invernali
Costruendo un’ontologia a partire dai dati pubblicati sul sito della FIS-SKI http://www.fis-ski.com/
Utilizzando Google ImagesRealizzando un crawler guidato
dall’ontologia Es. per trovare le immagini di
discesa libera di Hermann Maier ha richiesto le immagini usando la parole “discesa libera” in tutte le lingue (downhill, abfahrt, …)
Permette di trovare immagini di atleti che
hanno vinto almeno una medaglia alle olimpiadi o ai campionati del mondo FIS di specialità
suggerendo alternative in casi ambigui e risultati simili.
http://squiggle.cefriel.it/ski
Al CEFRIEL abbiamo realizzato un search engine con le tecnologie del Semantic Web chiamato squiggle e lo abbiamo testato nel contesto
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 2323 - -
Next-generation search engineNext-generation search engine
Searc
her
Ranker
Cra
wle
r
Indici
Indexer
IP
VP
NLP
AP
MetadatiOntologie
VP Video ProcessingIP Image ProcessingAP Audio ProcessingNLP Natural Language Processing
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 2424 - -
ConclusioniConclusioni
Search engine tradizionali +Macchine più smart +
Dati più smart =Next-generation search
engine
Basta cercare, …Basta cercare, ………vogliamo trovare!vogliamo trovare!
IDC CMS, 24 Gennaio 2006, MilanoIDC CMS, 24 Gennaio 2006, Milano © 2001-2005 E. Della Valle - CEFRIEL- - 2525 - -
Grazie mille dell’attenzione
Domande?Domande?
ContattoEmanuele Della ValleArea Middleware - CEFRIELemail:[email protected]
Web:www.cefriel.it/~dellavalleTel: 02 23954-324
Un ringraziamento particolare va ai miei colleghi Irene Celino e Dario Cerizza per le idee che insieme abbiamo elaborato e per il loro supporto
quotidiano.