33
CORSO DI LAUREA MAGISTRALE in INFORMATICA UMANISTICA (EDITORIA ELETTRONICA) Il web 2.0 e la blogosfera italiana. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari ANNO ACCADEMICO 2014/2015 CANDIDATA RELATORE Dott.ssa Mariagiovanna Scarale Prof. Mirko Tavosanis CONTRORELATORE Prof. Felice Dell’Orletta

Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Embed Size (px)

Citation preview

Page 1: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

CORSO DI LAUREA MAGISTRALE in

INFORMATICA UMANISTICA(EDITORIA ELETTRONICA)

Il web 2.0 e la blogosfera italiana.Metodi statistici applicati

ai corpora dell’italianodei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

CANDIDATA RELATOREDott.ssa Mariagiovanna Scarale Prof. Mirko Tavosanis

CONTRORELATOREProf. Felice Dell’Orletta

Page 2: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

WEB 2.0

Dinamico e

Democratico

Collaborazione

Integrazione

Partecipazione

Intelligenza Collettiva

UTENTEForum

Chat

Wiki

SocialNetwor

k

Mashups

Podcasting

DI COSA STIAMO PARLANDO?

Page 3: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

RICERCA E ANALISI:

-FASE 1: Analisi della blogosfera italiana ed evoluzione del fenomeno dei blog nel corso degli anni;

-FASE 2: Analisi statistica dei corpora dei blog giornalistici e letterari mediante il tool Read-It.

Page 4: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

FASE 1:

CHE COSA?Stabilire una panoramica della blogosfera italiana oggi.

COME?Ricerca e analisi campionaria.

PERCHÉ?Per capire se e come si sta evolvendo il fenomeno dei blog in Italia.

Page 5: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

• Motore di ricerca per blog: Twingly;

• 10 chiavi di ricerca appartenenti al lessico di base dell’italiano: (‘questo’, ‘quello’, ‘quindi’, ‘perché’, ‘comunque’, ‘mio’, ‘di’, ‘invece’, ‘loro’, ‘il’);

• Ultimo risultato di ogni SERP*;

• 50 blog per chiave di ricerca**;

• 500 blog in totale;

• Analisi degli ultimi 10 post per ogni blog*** per un totale di 5000 post;

• Suddivisione in macrocategorie.

*Il browser di riferimento forniva un massimo di 50 pagine per risultato;** I risultati ripetuti sono stati sostituiti con quelli immediatamente precedenti;***In caso di post privi di testo o in lingua straniera si è proceduto con l’analisi del post immediatamente successivo.

IL CAMPIONE:

Page 6: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

•DIARISTICI: blog scritti in prima persona che seguono la tipica struttura del diario (narrazione e descrizione di eventi personali in modo costante);

•TEMATICI: comprendono i blog giornalistici (che trattano notizie) e quelli specialistici (che si occupano di tematiche particolari che non sono definite “notizie”)*;

•LETTERARI: blog che presentano scritti in prosa o poesie;

•INCLASSIFICABILI: blog di citazioni, blog fotografici e blog impossibili da classificare;

* Secondo l’accezione di “notizia” presente sul dizionario De Mauro, versione 2015: “Notizia: 1a. informazione su qcs. o qcn.: non ho più sue notizie da una settimana; 1b. comunicazione di un fatto di pubblico interesse, spec. recente, diffusa attraverso i mezzi di informazione: una importante notizia di prima pagina; 1c. informazione, ragguaglio pubblicato su una rivista specialistica: notizie sugli ultimi ritrovamenti archeologici; 1d. nota apposta dall’autore di un testo per fornire indicazioni o chiarimenti su un’opera: notizie bibliografiche; 2. nozione, conoscenza, dato specifico: ricostruire la storia di un popolo in base a notizie certe”.

LE MACROCATEGORIE:

Page 7: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

Alcuni esempi di blog diaristici:ht

tps:

//pop

a86.

wor

dpre

ss.c

om/

http

s://i

nfug

aper

lavi

ttor

ia.w

ordp

ress

.com

/

Page 8: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

Alcuni esempi di blog tematici

http://aquariusreportages.blogspot.it/

http://francescorubiconto.blogspot.it/

https://lpiersantelli.wordpress.com/

Page 9: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

Alcuni esempi di blog letterari

https://parisigiuseppetesti.wordpress.com/

http

://pa

risi

gius

eppe

test

i.wor

dpre

ss.c

om/

https://anothersea.wordpress.com/

Page 10: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

Alcuni esempi di blog letterariht

tp://

inch

iost

rofu

saed

ragh

i.blo

gspo

t.it/

http

s://p

aris

igiu

sepp

etes

ti.w

ordp

ress

.com

/

Page 11: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

Alcuni esempi di blog inclassificabili:ht

tp://

pazz

oper

repu

bblic

a.bl

ogsp

ot.it

/

http

://its

auro

rabl

r.tum

blr.c

om/

http

://fa

llen-

nefil

im.tu

mbl

r.com

/

Page 12: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

I COMMENTI (se attivi):

DIARISTICI e INCLASSIFICABILI: • unici mezzi di interazione;• scrittura rapida e non revisionata;• espressività grafica (lettura endofasica, abbreviazioni,

variazioni grafiche);

LETTERARI:• community;• scrittura controllata, revisionata, in neostandard;• scrittura rapida e revisionata con espressività grafica;

TEMATICI:• commenti di approfondimento e di chiarimento;• community;• scrittura rapida e non revisionata con espressività grafica;• scrittura revisionata in neostandard;

Page 13: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

ANNO ACCADEMICO 2014/2015

I COMMENTI (se attivi):

http

s://p

aris

igiu

sepp

etes

ti.w

ordp

ress

.com

/

BLOG LETTERARI

http

s://s

cint

illed

anim

a.w

ordp

ress

.com

/

Page 14: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

ANNO ACCADEMICO 2014/2015

I COMMENTI (se attivi):

BLOG TEMATICI

http://www.helptecnoblog.com/

http://guidami.info/

Page 15: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

COSA È EMERSO DALLA PRIMA ANALISI?

RISULTATI GENERALI

DIARISTICO 30 6%

TEMATICO 323 64,6%

LETTERARIO 100 20%

INCLASSIFICABILE 47 9,4%

TOTALE 500 100%

Page 16: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

CATEGORIA N°

BLOG DIARISTICI: 30 Scritti da donne 24 Scritti da uomini 6

BLOG TEMATICI: 323 Blog giornalistici 189 Blog specialistici: 134

- Recensioni 41

- Makeup/ salute/ benessere 13

- Cucina 14

- Spiritualità/ religione 16

- Elettronica (tutorial e altro) 3

- Musica/ teatro (pagine specifiche di gruppi o artisti) 8

- Hobby/ sport 15

- Viaggio/ turismo 7

- Satira 4

- Animali 4

- Sociale/Associazioni/ Enti pubblici 4

- Marketing/ pubblicità/ varie 5 BLOG LETTERARI 100 BLOG INCLASSIFICABILI: 47

Citazione/Fotografici/ Personali/Femminili 26 Citazione/Fotografici/ Personali/Maschili 8 Citazioni (letterarie/ giornalistiche)/Fotografici/Non Personali 13

Le macrocategorie e le sottocategorie nello specifico

Page 17: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

Le ricerche precedenti:• TAVOSANIS (2007): analisi su 100 blog e 100 post;• SCARALE (2013): analisi su 100 blog e 100 post;• SCARALE (2015): analisi su 500 blog e 2000 post;

Prima di procedere è stato necessario normalizzare i dati, che presentano, una diversa numerosità calcolandone le frequenze relative* e trasformandoli in percentuali.

COSA È CAMBIATO NEGLI ANNI?

Page 18: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

ANNO ACCADEMICO 2014/2015

Categoria 2007 2013 2015

Diario 31% 23% 6%

Tematici 59% 62% 65%

Letterari 10% 15% 29%

Page 19: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

FASE 2:

CHE COSA?Analisi statistica dei corpora dei blog giornalistici e letterari.

COME?Mediante il text tool Read-It.

PERCHÉ?Per valutarne la leggibilità, le somiglianze e le differenze dal punto

di vista linguistico.

Page 20: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

• Tratto dai 500 blog analizzati nella Fase 1 della ricerca;

• 100 blog giornalistici (in totale 563.647 parole);

• 100 blog letterari (in totale 302.384 parole);

• Analisi con Read-It degli ultimi 10 post per ogni blog*, per un totale di 2000 post;

• Calcolo della media pesata (il peso è il numero di token di ogni post)** dei risultati di ogni post ;

• Calcolo della media delle medie pesate di ogni post per ogni blog;

• Calcolo della media delle medie di ogni blog per categoria.*In caso di post privi di testo o in lingua straniera si è proceduto con l’analisi del post immediatamente successivo.** il text tool non permetteva di analizzare i corpora al completo, perché costituiti da troppe pagine. Per questo motivo si è optato per l’analisi basata sulle medie pesate di ogni post e di ogni blog.

IL CAMPIONE:

Page 21: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

ANNO ACCADEMICO 2014/2015

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

READ-IT: ANALISI DELLA LEGGIBILITÀ 2.0

Il primo strumento avanzato per la valutazione della leggibilità di testi in lingua italiana;

Classificazione probabilistica basata su algoritmi di apprendimento supervisionato;

A partire da un corpus di addestramento accuratamente selezionato come rappresentativo dei livelli di leggibilità da considerare (es. “semplice” e “complesso”), il sistema “impara” a riconoscere le caratteristiche linguistiche estratte automaticamente dal risultato dell'annotazione linguistica del testo;Il punteggio di leggibilità di un nuovo testo sarà calcolato sulla base della maggior somiglianza del suo profilo linguistico ad uno dei livelli di leggibilità definiti;Analisi sofisticata delle strutture linguistiche sottostanti al testo;

Identificare i luoghi di complessità del testo;

Fornire un supporto utile per la  semplificazione testuale;

Avvicinare anche persone con uno scarso livello di istruzione,  stranieri e persone con disabilità linguistico-cognitive, all’informazione.

Page 22: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

I NOSTRI DATI

Page 23: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

Giornalistici 𝑿 ഥ(𝒙𝒑തതതത) Letterari 𝑿 ഥ(𝒙𝒑തതതത) Giornalistici ( σ )

Letterari ( σ )

Dylan Base 60,41% 16,94% 0,21 0,18 Dylan Lessicale 72,31% 74,43% 0,18 0,20 Dylan Sintattico 83,67% 39,93% 0,12 0,24 Dylan Globale 88,88% 73,44% 0,12 0,19 Gulpease 51,62 82,09 3,91 26,44

Caratteristiche estratte dal testo:

•DYLAN BASE: Misure tradizionali della leggibilità di un testo: lunghezza della frase (n. medio di parole) e lunghezza delle parole (n. medio caratteri). È un’approssimazione dell’indice Gulpease.

•DYLAN LESSICALE: Caratteristiche lessicali del testo: composizione del vocabolario (V) e ricchezza lessicale (R), numero totale di token (N).

•DYLAN SINTATTICO: Caratteristiche grammaticali: tratti morfosintattici e sintattici.

•DYLAN GLOBALE: Combinazione dei tre modelli precedenti.

•GULPEASE: [61;80] difficoltà per chi ha la licenza elementare; [41;60] difficoltà per chi ha la licenza media; [0;40] difficoltà per chi ha un diploma superiore;

Page 24: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

ANNO ACCADEMICO 2014/2015

PROFILO DI BASE Giornalistici 𝑿 ഥ(𝒙𝒑തതതത) Letterari 𝑿 ഥ(𝒙𝒑തതതത) Numero totale periodi in token: 38,30 25,82 Lunghezza media dei periodi: 26,28 15,30 Lunghezza media delle parole in caratteri: 5,12 4,62

Caratteristiche estratte dal testo: Profilo di base

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

Page 25: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

PROFILO LESSICALE Giornalistici 𝑿 ഥ(𝒙𝒑തതതത) Letterari 𝑿 ഥ(𝒙𝒑തതതത) Giornalistici ( σ )

Letterari ( σ )

Composizione del vocabolario Percentuale di lemmi appartenente al VdB: 68,22% 82,47% 0,05 0,44 Lemmi in base al repertorio del VdB: Fondamentale: 80,15% 81,12% 0,03 0,10 Alto uso: 15,24% 12,50% 0,03 0,08 Alta disponibilità: 4,61% 6,96% 0,01 0,10 Rapporto tipo/ unità: 0,70 0,49 0,04 0,22 Densità Lessicale: 0,57 0,56 0,02 0,05

Caratteristiche estratte dal testo: Profilo Lessicale

•VdB:  lessemi che tutti usano in larga misura per costruire qualsiasi tipo di testo. Sono poco meno di 7000 lessemi, suddivisi a loro volta in tre fasce: lessico Fondamentale (2000 lessemi, il 90% di un testo), di Alto Uso (2500-3000 lessemi, con meno frequenza) e di Alta Disponibilità (2300 lessemi con minor frequenza);

•Rapporto Tipo /Unità (TTR): ricchezza lessicale come funzione del numero di parole diverse;

•Densità Lessicale: la proporzione di elementi lessicali - i sostantivi, i verbi e gli aggettivi che sono portatori del significato - rispetto agli elementi grammaticali - le preposizioni, gli avverbi e le congiunzioni che indicano i rapporti sintattici fra gli elementi significativi.

Page 26: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

PROFILO SINTATTICO Giornalistici 𝑿 ഥ(𝒙𝒑തതതത) Letterari 𝑿 ഥ(𝒙𝒑തതതത) Giornalistici ( σ )

Letterari ( σ )

Categorie morfo-sintattiche Sostantivi: 19,53% 20,81% 0,02 0,10 Nomi Propri: 7,18% 2,71% 0,03 0,03 Aggettivi: 6,43% 15,32% 0,01 0,85 Verbi: 13,29% 16,88% 0,02 0,14 Congiunzioni: 4,29% 7,61% 0,01 0,19 Coordinanti: 73,38% 68,38% 0,07 1,14 Subordinanti: 26,26% 30,80% 0,07 0,30 Articolazione interna del periodo: Numero medio di proposizioni per periodo: 2,84 2 0,54 1,32 Proposizioni principali vs subordinate Principali: 65,19% 74,78% 0,07 0,17 Subordinate: 34,81% 25,22% 0,07 0,68 Articolazione interna della proposizione: Numero medio di parole per proposizione: 9,64 7,72 1,57 1,80 Numero medio di dipendenti / testa verbale: 2,03 1,83 0,16 0,78 Profondità dell'albero sintattico: Media delle altezze massime: 6,45 3,95 0,90 1,55 Profondità media strutt. nom. complesse: 1,31 1,14 0,08 0,24 Profondità media catene di subordinazione: 1,19 0,82 0,19 0,42 Lunghezza delle relazioni di dipendenza: Lunghezza media: 2,46 2,20 0,20 0,84 Media delle lunghezze massime: 9,85 9,87 2,03 40,41

Caratteristiche estratte dal testo: Profilo Sintattico

Page 27: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

CONCLUDENDO

Page 28: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

Come si sono evoluti i blog in Italia?

- La maggior parte dei blog italiani è di tipo tematico;

- Crescita di blog tematici (+6% rispetto al 2007) e letterari (+19% rispetto al 2007);

- Battuta d’arresto dei blog diaristici (- 25% rispetto al 2007) colpa dei social network?

Page 29: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

Che tipo di lingua e di errori emergono?

Espedienti Linguistici

‘nn’ per non

‘x’ per per

GIORNALISTICI 1 su 189 0

LETTERARI (tutti nello stesso blog)

10 su 100

1 su 100

• Un nuovo tipo di giornalismo e di letteratura;• Italiano neostandard (blog tematici)• Errori involontari;• Commenti come chat e forum;• Scrittura rapida e abbastanza revisionata;• Espedienti linguistici e fenomeni di compensazione ridotti (espressività grafica e punteggiatura creativa).

GIORNALISTICI E LETTERARI

Page 30: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

ANNO ACCADEMICO 2014/2015

DIFFERENZE

BLOG GIORNALISTICI BLOG LETTERARI

Più curati dal punto di vista grafico, stilistico ed editoriale;

Meno curati dal punto di vista grafico, stilistico ed editoriale;

Coerenza linguistica e tematica tra post diversi (deviazione standard σ minima);

Minore coerenza linguistica e tematica tra post diversi(deviazione standard σ elevata);

Sono più difficili da leggere:- Gulpease 51.62;- Media altezze massime albero sintattico

6.45;- Profondità media catene di

subordinazione 1.19;

Richiedono meno competenze per essere compresi:

- Gulpease 82.09 (σ 26.44);- Media altezze massime albero sintattico

3.95;- Profondità media catene di

subordinazione 0.82;

Post più lunghi:- Lunghezza media periodi 26.28;- Lunghezza media parole in caratteri 5.12;- Num. medio proposizioni per periodo

2.84;- Media altezze massime albero sintattico

6.45;

Hanno post più brevi:- Lunghezza media periodi 15.30 (σ 12.56);- Lunghezza media parole in caratteri 4.62;- Num. medio proposizioni per periodo 2 (σ

1.32);- Media altezze massime albero sintattico

3.95 (σ 1.55);

Nomi propri 7.18%. Sostantivi 20.81%, aggettivi 15.32%, verbi 16.88% e congiunzioni 7.61%;

Lemmi appartenenti al VdB ad Alto Uso: 15.24% Lemmi appartenenti al VdB (Fondamentale 81.12% e ad Alta Disponibilità 6.96%);

Struttura del periodo complessa, con un maggiore incassamento gerarchico delle proposizioni:

- Media altezze massime albero sintattico 6.45;

- Profondità media catene di subordinazione 1.19;

Struttura del periodo più semplice (versi poetici: Read-It considera una frase terminata quando c’è un ritorno a capo o un simbolo di punteggiatura forte):

- Media altezze massime albero sintattico 3.95 (σ 1.55);

- Profondità media catene di subordinazione 0.82;

Page 31: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

ANNO ACCADEMICO 2014/2015

SOMIGLIANZE

BLOG GIORNALISTICI E BLOG LETTERARI

• Periodi paratattici;

• Proposizioni principali - giornalistici 65.19%;- letterari 74.78%;

• Congiunzioni Coordinanti - giornalistici 73.38%;- letterari 68.38%;

• Scrittura rapida e revisionata;

• Scrittura progettata per altri tipi di pubblicazione, in alcuni casi;

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

Page 32: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

Ripetere la ricerca tra qualche anno per stabilire come si sta evolvendo la blogosfera.• I blog diaristici diminuiranno ancora? • I blog letterari aumenteranno?• I blog tematici si stabilizzeranno, diminuiranno o

aumenteranno?

Ripetere la ricerca utilizzando solo i blog letterari, con un nuovo approccio orientato al genere narrativo.

Ripetere lo studio tra qualche anno utilizzando lo stesso campione di blog giornalistici per capire, confermare o confutare l’idea che esista davvero uno standard linguistico coerente nei post dei blog di questa categoria.

Sviluppi futuri?

Page 33: Analisi della blogosfera italiana e analisi statistica dei corpora dei blog giornalistici e letterari mediante il text tool Read-It

Il web 2.0 e il fenomeno dei blog. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari

ANNO ACCADEMICO 2014/2015

Grazie per l’attenzio

ne.Mariagiovanna Scarale