51
Dal Web 2.0 al Web 3.0 Giacomo Veneri

Dal web 2 al web 3

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Dal web 2 al web 3

Dal Web 2.0 al Web 3.0 Giacomo Veneri

Page 2: Dal web 2 al web 3

Summary

IntroduzioneConcetti base di statistica inferenziale (30min)Pattern recognition short view: SVM, clustering &

Neural Network (30min)Text Mining: ontologie (OWL), Linguistica

computazionale (30min)Bayesian decision framework (30min)Esempi pratici: Bing il nuovo motore microsoft (30

min)Marketing in rete

Page 3: Dal web 2 al web 3

Web

1 HTML, HTTP, XML

RDB,

PSTN

Web

2.0 AJAX, RIA

WS o Servizi Integrati

Social Network

Web

3.0 IA,

Il Web Semantico

GeoSpatial

(il 3D??)

Web 2.0 > Web 3.0 Verso il 3.0

Page 4: Dal web 2 al web 3

Web 3.0 Cosa è?

Web 3.0

Autenticazio

ne Integrata

Web 2.0

Social Net

AJAX e affini

?

Tag C

louding

Page 5: Dal web 2 al web 3

L’aspetto E la grafica?

Grafica Centrico

Interattivo Centrico

ContenutoCentrico

HTML, SWF, …

XML, AJAX, …

XML, OWL, …

Page 6: Dal web 2 al web 3

The Winner Take All Method

Rendere efficiente la prima visita!

OnMinuteSite

Page 7: Dal web 2 al web 3

Foveate Animal

shape from: IntensitiesCM

100 200 300 400 500 600 700 800

50

100

150

200

250

300

350

400

Page 8: Dal web 2 al web 3

The Human Brain

Page 9: Dal web 2 al web 3

Main Blocks

Top Down

Bottom-Up

Saliency of Image/scene Peripheral vision

AttentionInternal statusWorking memory

Page 10: Dal web 2 al web 3

WTA on OneMinute Site

ColorCM

10 20 30 40 50

5

10

1520

25

IntensitiesCM

10 20 30 40 50

5

10

15

2025

OrientationsCM

10 20 30 40 50

5

10

1520

25

Page 11: Dal web 2 al web 3

The first Fixation

shape from: Red/Green (7-3)

100 200 300 400 500 600 700 800

50

100

150

200

250

300

350

400

ColorCM

10 20 30 40 50

5

10

1520

25

IntensitiesCM

10 20 30 40 50

5

10

15

2025

OrientationsCM

10 20 30 40 50

5

10

1520

25

Page 12: Dal web 2 al web 3

La prima fissazione

shape from: Red/Green (7-3)

100 200 300 400 500 600 700 800

50

100

150

200

250

300

350

400

ColorCM

10 20 30 40 50

5

10

1520

25

IntensitiesCM

10 20 30 40 50

5

10

15

2025

OrientationsCM

10 20 30 40 50

5

10

1520

25

Page 13: Dal web 2 al web 3

La seconda fissazione

shape from: Gabor90.0 (8-5)

100 200 300 400 500 600 700 800

50

100

150

200

250

300

350

400

Page 14: Dal web 2 al web 3

La terza fissazione

shape from: Intensity (7-4)

100 200 300 400 500 600 700 800

50

100

150

200

250

300

350

400

Dalla quarta in poi i meccanismi sono altri

Page 15: Dal web 2 al web 3

Aumentare l’efficienza della prima visita

Winner Take Allhttp://ilab.usc.edu/bu/

Page 16: Dal web 2 al web 3

Decidere per una macchina

Perché questa roba noiosa?

Page 17: Dal web 2 al web 3

Perchè

Teorema di Bayes

Statistica inferenziale

Pattern Recognition

Neural network

SVM

Text Mining

Natural LanguageGenetic Algorithm

Web SemanticoWeb Advertising

Page 18: Dal web 2 al web 3

Decidere - Classificare

SI

NOAppartenere alla classe dei SI o dei NO

Page 19: Dal web 2 al web 3

Concetti base di statistica inferenziale

Perché questa roba noiosa?

Page 20: Dal web 2 al web 3

Moda, Media, Mediana e Varianza

La moda è un indice di posizione ed è la modalità del carattere cui corrisponde la massima frequenza.

La mediana è quel valore della variabile che bipartisce la distribuzione ordinata delle modalità di un carattere.

La media aritmetica è l’indice statistico più utilizzato per la facilità di calcolo e per le proprietà di cui gode. Essa esprime la posizione globale di una distribuzione di frequenza.

Lo scostamento quadratico medio o deviazione standard è un indice di variabilità .

L’intervallo di confidenza è uno strumento statistico utilizzato per attribuire un giudizio di validità circa la stima dei parametri.

Page 21: Dal web 2 al web 3

I test di significatività

Ci consentono di vedere se due gruppi sono diversi, in via di massima:

Variabilità tra i gruppi / Variabilità all’interno del gruppo

P = 30% >> 5%

Page 22: Dal web 2 al web 3

Esempio

P = 30% >> 5%

Page 23: Dal web 2 al web 3

I test non parametrici

Primo assunto: l'indipendenza dei gruppi campionari Secondo assunto: normalità delle distribuzioni Terzo assunto: omoschedasticità o omogeneità delle

varianze.

Test di Mann-Whitney (o della somma dei ranghi): due campioni indipendenti; è uno dei test non parametrici più potenti e serve a verificare se due gruppi indipendenti appartengono alla stessa popolazione. È un'alternativa molto valida al test parametrico T-Student, quando non possono considerarsi i postulati del T test, oppure la scala di misura è più debole di una scala ad intervalli.

Page 24: Dal web 2 al web 3

La correlazione statistica

Per correlazione si intende una relazione tra due variabili casuali tale che a ciascun valore della prima variabile corrisponda con una certa regolarità un valore della seconda.

Page 25: Dal web 2 al web 3

Esempio

Page 26: Dal web 2 al web 3

Esercizio

Prendere Excel/SPSS/MatlabInserire dei dati relativi al numero di siti aperti

durante la settimana ordinati per giorniCalcolare, Media, Mediana, Moda, e differenza tra

siti aperti nel WE e non.Cercare la correlazione con i giorni

Page 27: Dal web 2 al web 3

Pattern Recognition

Classificare

Page 28: Dal web 2 al web 3

Il clustering

Tutte le tecniche di clustering si basano sul concetto di distanza tra due elementi.

La bontà delle analisi ottenute dagli algoritmi di clustering dipende molto dalla scelta della metrica, e quindi da come è calcolata la distanza.

Page 29: Dal web 2 al web 3

Tree classifier

Le tecniche di clustering gerarchico non producono un partizionamento flat dei punti, ma una rappresentazione gerarchica ad albero.

Page 30: Dal web 2 al web 3

Esercizio

Page 31: Dal web 2 al web 3

SVM

Una SVM è un classificatore binario che apprende il confine fra esempi appartenenti a due diverse classi.

Funziona proiettando gli esempi in uno spazio multidimensionale e cercando un iperpiano di separazione in questo spazio.

L'iperpiano di separazione massimizza la sua distanza (il “margine”) dagli esempi di training più vicini.

Page 32: Dal web 2 al web 3

K-Mean

Page 33: Dal web 2 al web 3

Neural Network

Una rete neurale artificiale (ANN "Artificial Neural Network" in inglese), normalmente è chiamata solo "rete neurale" (NN "Neural Network" in inglese), ed è un modello matematico/informatico di calcolo basato sulle reti neurali biologiche. Tale modello è costituito da un gruppo di interconnessioni di informazioni costituite da neuroni artificiali e processi che utilizzano un approccio di connessionismo di calcolo. Nella maggior parte dei casi una rete neurale artificiale è un sistema adattivo che cambia la sua struttura basata su informazioni esterne o interne che scorrono attraverso la rete durante la fase di apprendimento.

Page 34: Dal web 2 al web 3

Applicazione pratica - Weka

Weka 3: Data Mining Software in Java

Creare dei servizi Qualificati sulla base del contenuto del sito del cliente

Page 35: Dal web 2 al web 3

Il futuro dei motori di ricerca

L’intelligenza in un sito

Page 36: Dal web 2 al web 3

Bing Alpha

Bing sfrutterà l’inferenza Bayesiana per decidere la pubblicità

Owl vs Bayesian Inference

Page 37: Dal web 2 al web 3

Text Mining

Classificare il testo

Page 38: Dal web 2 al web 3

Concetti Base - NL

Ti racconto quello che mi è successo nella vitaTi racconto il successo che ho avuto nella mia

vitaLemmatizzazione: successo voce del verbo

succedere o successo sostantivoDisambiguazione

Analisi sintattica: «IO» soggetto, «racconto» verbo …

Analisi semantica: successo nel senso di succedere

Page 39: Dal web 2 al web 3

Text Mining

Il text mining è la disciplina che regola l’apprendimento di un testo sulla base di concetti statistici.

Stop word: il, lo, la, i gliVerbi ausiliariFrequenza della parola nel contesto:

«avvenire»,»dare», «lavoro»Keyword: «Pinocchio», «Sintra»

Page 40: Dal web 2 al web 3

Lucene

http://lucene.apache.org

Page 41: Dal web 2 al web 3

Lucene Analyzer

IndexSearcher is = new IndexSearcher(indexDirectory);

Analyzer analyzer = new StandardAnalyzer();

QueryParser parser = new QueryParser("article", analyzer);

Query query = parser.parse(searchCriteria); Hits hits = is.search(query);

for (int i=0; i<hits.length(); i++) { Document doc = hits.doc(i); // display the articles that were found to the user } is.close();

Page 42: Dal web 2 al web 3

Indexer

Document document = new Document(); document.add(Field.Text("author", author)); document.add(Field.Text("title", title)); document.add(Field.Text("topic", topic)); document.add(Field.UnIndexed("url", url)); document.add(Field.Keyword("date", dateWritten)); document.add(Field.UnStored("article", article)); return document;

Analyzer analyzer = new StandardAnalyzer(); IndexWriter writer = new IndexWriter(indexDirectory, analyzer, false); writer.addDocument(document); writer.optimize(); writer.close();

Page 43: Dal web 2 al web 3

Ontology, semantic and text mining

Il web semantico

Page 44: Dal web 2 al web 3

Ontologie come base di conoscenza avente dati strutturati

Estrazione dati Inferire nuova conoscenza

Ragionamento

Ragionamento automatico che sfrutta opportuni linguaggi di query per ontologie (SQL, SeRQL, SPARQL) per estrarre dati e rendere esplicita conoscenza implicita

Ragionamento inteso come inferenza finalizzato a produrre nuova conoscenza attraverso i linguaggi di reasoning dei SW (SWRL, RuleML, Fuzzy RuleML)

Query and Reasoning Tools (Sesame, Jena, Racer, …)

Page 45: Dal web 2 al web 3

I Linguaggi

A livello di sintassi (alberi e non grafi, mentre l’rdf e’ un grafo. si perdono quindi le relazioni fra le risorse)[XQuery ]

A livello di struttura (si interrogano le triple sogg-predicato-oggetto direttamente a livello di data model, ma vengono recuperate dalla query solo asserzioni esplicite) [Squish ]

Page 46: Dal web 2 al web 3

La struttura OWL<?xml version="1.0"?><rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:owl="http://www.w3.org/2002/07/owl#" xmlns="http://www.owl-ontologies.com/unnamed.owl#" xml:base="http://www.owl-ontologies.com/unnamed.owl"> <owl:Ontology rdf:about=""/> <owl:Class rdf:ID="maschio"> <owl:disjointWith> <owl:Class rdf:ID="femmina"/> </owl:disjointWith> <rdfs:subClassOf> <owl:Class rdf:ID="persona"/> </rdfs:subClassOf> </owl:Class> <owl:Class rdf:about="#femmina"> <rdfs:subClassOf rdf:resource="#persona"/> <owl:disjointWith rdf:resource="#maschio"/> </owl:Class> <owl:ObjectProperty rdf:ID="amicoDi"> <rdfs:domain rdf:resource="#persona"/> <rdfs:range rdf:resource="#persona"/> </owl:ObjectProperty>

<owl:ObjectProperty rdf:ID="ama"> <rdfs:domain rdf:resource="#persona"/> <rdfs:range rdf:resource="#persona"/> </owl:ObjectProperty> <persona rdf:ID="John"><amicoDi> <femmina rdf:ID="Susan"> <ama rdf:resource="#Andrea"/> </femmina> </amicoDi> </persona></rdf:RDF>

AMICIZIA(Femmina( AMARE Maschio))

John

<persona rdf:ID="John"> <amicoDi> <femmina rdf:ID =“Susan">

<femmina rdf:ID="Susan"><ama rdf:resource="#Andrea"/>

Page 47: Dal web 2 al web 3

SeRQL (Sesame RDF Query Language)

5 condizioni: SELECT, FROM, WHERE, LIMIT, OFFSET

SELECT-FROM

In una query di select –from si specificano quali valori devono essere restituiti, da dove e in quale ordine.

WHERECondizione opzionale che specifica i paths del grafo RDF che sono rilevanti

nella query

select Churchfrom {Place} test:has_place_name {Church};[test:has_style {Style}]where Style like "Baroque"using namespace mis = <http://www.di.unito.it/~carmagno/mis.txt>

Page 48: Dal web 2 al web 3

OWL

The OWL Web Ontology Language is designed for use by applications that need to process the content of information instead of just presenting information to humans. OWL facilitates greater machine interpretability of Web content than that supported by XML, RDF, and RDF Schema (RDF-S) by providing additional vocabulary along with a formal semantics. OWL has three increasingly-expressive sublanguages: OWL Lite, OWL DL, and OWL Full.

Page 49: Dal web 2 al web 3

Fuzzy Rule ML

• Necessità di gestione dell’incertezza nel Semantic Web.

• In Fuzzy RuleML, si specifica nei fatti un “grado di importanza” (peso) degli antecedenti in relazione al conseguente.

Esempio:

Ricchezza (? p) 0.5 ^ Salute (? p) 0.9 -> Felicità (? p),

dove Ricchezza , Salute e Felicità sono predicati fuzzy

Page 50: Dal web 2 al web 3

Application

OWL API – in JAVA WordNet è un database semantico-lessicale per la lingua inglese elaborato dal linguista

George Armitage Miller presso l'Università di Princeton, che si propone di organizzare, definire e descrivere i concetti espressi dai vocaboli.

• Bossam, a RETE-based rule engine with native supports for reasoning over OWL ontologies, SWRL rules, and RuleML rules. Queries in Buchingae language;

• Hoolet, an implementation of an OWL-DL reasoner (rules encoded in SWRL); • Pellet, an open-source Java OWL DL reasoner (rules encoded in SWRL, queries in

SPARQL); • KAON2 is an infrastructure for managing OWL-DL, SWRL, and F-Logic ontologies (rules

encoded in SWRL, queries in SPARQL); • FaCT, a description logic (DL) classifier e FaCT++, the new generation of FaCT OWL-DL

reasoner; • SweetRules, an integrated set of tools for Semantic web rules and ontologies (rules

encoded in SWRL); RACER PRO , a semantic web reasoning system and information repository; Jena (framework), an open source semantic web framework for Java; Sesame an open source semantic web framework for Java.

Page 51: Dal web 2 al web 3

Dal Web 2.0 al Web 3.0

[email protected]@unisi.it

Giacomo Veneri