113
Alessia Pierfederici – Mariagiovanna Scarale Seminario di Linguistica italiana II (prof. Mirko Tavoni), a.a. 2012/2013 STRUMENTI STATISTICI PER L’ANALISI DELLA DISTRIBUZIONE DEI FATTI LINGUISTICI

Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

Embed Size (px)

DESCRIPTION

Strumenti statistici per l'analisi dei fenomeni linguistici su un corpus o più corpora dell'italiano contemporaneo.

Citation preview

Page 1: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

Alessia Pierfederici – Mariagiovanna Scarale

Seminario di Linguistica italiana II (prof. Mirko Tavoni),

a.a. 2012/2013

STRUMENTI STATISTICI PER

L’ANALISI DELLA DISTRIBUZIONE

DEI FATTI LINGUISTICI

Page 2: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

SOMMARIO

Preliminari;

Nozioni di Statistica;

Un esperimento di statistica lessicale:

le opere di Alessandro Baricco;

Analisi di un fenomeno nello scritto e

nel parlato;

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 2

Page 3: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 3

Page 4: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

Manlio Cortelazzo, Arjuna Tuzzi,

Metodi statistici applicati all’italiano,

Zanichelli, Bologna, 2008.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 4

Page 5: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

Lo studio della lingua è sempre stato visto, nel corso dei

decenni, come uno studio prevalentemente qualitativo.

Accanto a questo tipo di considerazione non bisogna

sottovalutare che fin dagli antichi Greci era presente l’idea

di uno studio quantitativo, basato sul confronto

numerico delle parole (hapax legoménon).

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 5

Page 6: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

L’analisi quantitativa, però, non può prescindere

dall’analisi qualitativa.

Per compiere uno studio accurato e, soprattutto, veritiero,

occorre sempre creare delle fondamenta qualitative, su cui

poggeranno poi le inferenze quantitative e i relativi

risultati statistici.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 6

Page 7: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

Le indagini di cui si occupa la Statistica prendono campo

attorno ai fenomeni collettivi e di massa (misurabili,

quindi, mediante molteplici osservazioni).

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 7

Page 8: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

Sono state molte le critiche mosse nei confronti dei linguisti che hanno cercato un approccio statistico nei loro studi e molti sono stati i dubbi avanzati circa l’utilità delle applicazioni statistiche ai fenomeni linguistici, che sono visti:

- di natura qualitativa;

- liberi, e quindi lontani dal «determinismo» statistico;

- caratterizzati da accidenti originali e diversi gli uni dagli altri;

- complessi;

- raggiungibili, nell’aspetto numerico, solo grazie a vasti e imponenti studi preliminari.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 8

Page 9: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

A questa serie di obiezioni si può contrapporre

l’affermazione di Guiraud che sostiene, al contrario, che

« l a l i ng u i s t i c a è l a s c i enza s t a t i s t i c a t i po,

g l i s t a t i s t i c i l o s a nno bene ; l a m a g g io r

pa r t e d e i l i ng u i s t i a nco r a l o i g no r a » .

(Tratto da Problèmes et méthodes de la statistique linguistique, Presses

Universitaires de France, Paris, p.15)

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 9

Page 10: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

LA STATISTICA

« S t r u m e n t o p e r l a d e s c r i z i o n e d i u n o S t a t o i n

t u t t e l e s u e p a r t i »

( B e r n a r d o n i , 1 8 1 2 ) .

La statistica per anni ha avuto un ruolo di supporto nei processi

decisionali nell’ambito della pianificazione economica e dell’azione

politica dello Stato.

Solo di recente è diventata parte integrante dei processi produttivi e

strumento di ricerca di molte discipline scientifiche.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 10

Page 11: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

LA STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 11

STATISTICA

DESCRITTIVA

STATISTICA

INFERENZIALE

Page 12: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

LA STATISTICA DESCRITTIVA

Analizza i dati raccolti per offrire un quadro generale, una sorta di

«osservazione da vicino» del campione o della popolazione presi in

esame.

Prende in considerazione gli aspetti di organizzazione, presentazione

(es. tabelle e grafici) e compendio dei dati; vi fanno parte le

statistiche anagrafiche e demografiche.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 12

Page 13: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

LA STATISTICA INFERENZIALE

Nell’ottica inferenziale sono proposti metodi di raccolta per accumulare informazioni su un insieme (campione) ridotto di osservazioni (unità statistiche) e le sintesi per descrivere questo insieme o per inferire caratteristiche degli insiemi più vasti e generali ai quali questo insieme appartiene (popolazione o universo statistico).

Attraverso l’analisi dei dati raccolti stima il livello di alcune variabili nella popolazione di riferimento, verifica la significatività di alcune associazioni ecc.

Si occupa, in sostanza, di come trarre conclusioni riguardanti le popolazioni a partire dallo studio di un campione.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 13

Page 14: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

La statistica moderna opera prevalentemente in condizioni di

incertezza, privilegiando l’interesse per i fenomeni che presentano

una composizione stocasica, cioè probabilistica.

« N e l l a m i s u r a i n c u i l e l e g g i d e l l a m a t e m a t i c a s i

r i f e r i s c o n o a l l a r e a l t à , e s s e n o n s o n o c e r t e ; e

n e l l a m i s u r a i n c u i s o n o c e r t e , e s s e n o n s i

r i f e r i s c o n o a l l a r e a l t à . »

( A . E i n s t e i n , Tr a t t o d a S i d e l i g h t s o n R e l a t i v i t y )

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 14

Page 15: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

È impossibile rilevare statisticamente TUTTE le manifestazioni di un

fenomeno ( a meno che non si tratti di un fenomeno limitato e

circostanziale), quindi l’universo o popolazione (considerando la

statistica demografica per esempio).

Per questo motivo bisogna effettuare un’accurata selezione dei dati

rappresentativi di questo universo, delimitando un campione specifico,

ma allo stesso tempo variegato.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 15

Page 16: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

La lingua (langue de saussuriana), che è il sistema di segni che formano

il codice di un idioma, cioè la parola concreta di una lingua (De

Saussure, Cours de Linguistique Générale, 1916), è un universo statistico e

quindi, dal punto quantitativo sembra irraggiungibile.

Per procedere con uno studio su di essa occorre, quindi, elaborare

un’indispensabile scelta campionaria.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 16

Page 17: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

I campioni linguistici possono essere di due tipi:

dell’intera lingua della comunità;

della lingua del singolo utente;

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 17

Page 18: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

Campioni di Langue e Parole secondo De Saussure:

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 18

LINGUA

Parola 1

Parola 5

Parola 4 Parola 3

Parola 2

… Parola N

CAMPIONE

DI Langue

CAMPIONE

DI Parole

UNIVERSO CAMPIONE

Langue

Parole

Page 19: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

1. PRELIMINARI

La STATISTICA LINGUISTICA ha come obiettivo primario quello

di spiegare i fatti linguistici servendosi delle tecniche e degli

strumenti matematici della Statistica.

Per realizzare questo obiettivo, lo scopo dei linguisti è quello di

raccogliere in modo accurato i campioni, affinché i risultati dedotti

corrispondano a verità e rispecchino le tendenze degli universi ai

quali appartengono.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 19

Page 20: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 20

Page 21: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

LE VARIABILI

Per rilevare i caratteri di interesse dalle unità statistiche occorre servirsi di contenitori dette variabili.

QUALITATIVA: ha un numero finito di modalità, o categorie (ad esempio, la variabile genere ha solo 2 valori, che sono maschio o femmina, che possono essere resi in statistica, come 0 ed 1);

ORDINALE: ha un numero finito di modalità, sulle quali è stabilito un criterio di ordinamento (ad esempio, la variabile titolo di studio ha 5 modalità tra loro ordinabili e cioè: elementare, medio, superiore, laurea, laurea magistrale);

QUANTITATIVA: può avere un numero potenzialmente infinito di valori e può essere dotata di un’unità di misura (ad esempio la variabile peso in Kg).

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 21

Page 22: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

LA MEDIA ARITMETICA (M)

Per applicare a un universo o popolazione i risultati raggiunti mediante

uno studio su un campione, uno strumento fondamentale è la media.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 22

M=𝑥1+𝑥2+⋯+𝑥𝑛

𝑛

M = 𝑥𝑖 𝑛𝑖=1

𝑛=1

𝑛 𝑥𝑖 𝑛𝑖=1

Ovvero:

La somma di tutte le

osservazioni (x) divisa il

loro numero (n)

Page 23: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

LA MEDIA ARITMETICA

La media costituisce la tendenza centrale della distribuzione di un

insieme di dati.

Quando si parla di un campione, si usa il termine MEDIA

CAMPIONARIA.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 23

Page 24: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Un esempio:

In 9 tragedie di Racine compare l’aggettivo heureux (felice) 143 volte:

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 24

M=𝑥1+𝑥2+⋯+𝑥𝑛

𝑛= 143

9= 15,89

Tragedia I II III IV V VI VII VIII IX

Occorrenze 10 11 13 15 16 18 18 19 23

Page 25: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Sembrerebbe un risultato accettabile e logicamente corretto,

ma non è così!!!

In questo caso la Media ha uno scarso significato, perché:

è riferita a componimenti di diversa lunghezza (quindi sarebbe preferibile il calcolo percentuale);

Avremmo avuto lo stesso risultato con una serie qualunque di numeri che sommati dessero 143.

In questo modo, quindi, si perde di vista l’obiettivo primario , cioè l’Opera presa in esame.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 25

M=𝑥1+𝑥2+⋯+𝑥𝑛

𝑛= 143

9= 15,89

Page 26: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Il concetto di Media ha un valore relativo dal punto di vista scientifico.

Un altro esempio:

Se contiamo i versi di 12 canti della Divina Commedia (4 per cantica: il

VII, il VIV, il XXI e il XXVIII) si ottiene una media per canto di 141

versi

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 26

M=𝑥1+𝑥2+⋯+𝑥𝑛

𝑛= 1692

12= 141

Page 27: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 27

M1= 141

Tabella 1 Tabella 2

n Cantica Canto Versi n Cantica Canto Versi

1 Inferno VII 130 1 Inferno VIII 130

2 Inferno XIV 142 2 Inferno XVI 136

3 Inferno XXI 139 3 Inferno XXIV 151

4 Inferno XXVIII 142 4 Inferno XXXII 139

5 Purgatorio VII 136 5 Purgatorio VIII 139

6 Purgatorio XIV 151 6 Purgatorio XVI 145

7 Purgatorio XXI 136 7 Purgatorio XXIV 154

8 Purgatorio XXVIII 148 8 Purgatorio XXXII 160

9 Paradiso VII 148 9 Paradiso VIII 148

10 Paradiso XIV 139 10 Paradiso XVI 154

11 Paradiso XXI 142 11 Paradiso XXIV 154

12 Paradiso XXVIII 139 12 Paradiso XXXII 151

1692 1761

M2= 146,75

Page 28: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

In questo caso particolare, lo scarto tra le medie dei due diversi

campioni è piccolo, quindi, in teoria, se si moltiplica il primo e il

secondo risultato per il numero di versi del canto, si dovrebbe ottenere

il totale, approssimato, dei versi di tutta l’Opera.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 28

Versi1= 141 × 100 = 14.100

Versi2= 146,75 × 100 = 14.675

La Divina Commedia conta complessivamente 14.233 versi.

Page 29: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Esistono casi in cui le valutazioni comprendono elementi non del tutto

regolari.

In questi casi l’uso della Media da dei risultati errati e di molto lontani

da quelli reali.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 29

Page 30: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Analizzando due campioni diversi dell’Orlando Furioso (che presenta

scarti molto forti tra un canto e l’altro), si verifica proprio questo:

La Media falsa i risultati.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 30

Tabella 1

Tabella

2

n Canto Versi n Canto Versi

1 VI 648 1 I 648

2 XII 752 2 VII 640

3 XVIII 1536 3 XIV 1008

4 XXIV 920 4 XXIV 576

5 XXX 760 5 XXVIII 816

6 XXXVI 672 6 XXXV 640

7 XLII 832 7 XLII 832

6120 5160

M1= 874,29 M2= 737

Page 31: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Procedendo parallelamente, come si è fatto nell’esempio precedente

della Divina Commedia, si ottiene:

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 31

Versi1= 874,29 × 46 = 40.217

Versi2= 737,14 × 46 = 33.909

L’Orlando Furioso conta complessivamente 38.672 versi.

Quindi ENTRAMBI i risultati sono errati, perché troppo distanti dai

valori reali.

Page 32: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

LA MEDIANA (m)

Rappresenta la misura della tendenza centrale della sequenza ordinata dei valori presi in esame. Divide le osservazioni in due parti.

Se il numero di osservazioni è dispari, la mediana occupa il valore centrale, se è pari, è rappresentata dalla media dei due valori centrali.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 32

Tragedia I II III IV V VI VII VIII IX

Occorrenze 10 11 13 15 16 18 18 19 23

Tragedia I II III IV V VI VII VIII IX X

Occorrenze 10 11 13 15 16 18 18 19 23 30

𝑀 = 16 + 18

2= 17

Page 33: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 33

Se M < m c’è un accumulo verso l’alto e la distribuzione è asimmetrica a

sinistra (Skewness negativa);

Se M > m c’è un accumulo verso il basso e la distribuzione è asimmetrica a

a destra (Skewness positiva);

Page 34: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

LA MODA

Rappresenta la misura della tendenza dei valori ed è il valore più

frequente di una distribuzione.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 34

Page 35: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

LA MEDIA PONDERATA (Mp)

Si usa quando è fissato un sistema di pesi che danno diversa importanza alle osservazioni. È il metodo usato per la media dei voti registrati su un libretto universitario (il peso in quel caso sono i crediti dell’esame da valutare).

Nella somma il valore di ogni unità statistica viene moltiplicato per il proprio peso e tutto viene diviso per la somma dei pesi.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 35

Mp = 𝑥𝑖 × 𝑝𝑖𝑛𝑖 =1

𝑝𝑖𝑛𝑖 =1

La Media aritmetica è un caso di Mp in cui tutti i pesi sono uguali ad 1.

Page 36: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

La Media Ponderata è molto utile in linguistica per lo studio della

distribuzione di frequenza di un dato fenomeno in un corpus.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 36

Mp = 𝑥𝑖 × 𝑓𝑖𝑛𝑖 =1

𝑓𝑖𝑛𝑖 =1

Con xi che rappresenta la lunghezza dei caratteri (quindi il peso che i

fenomeni analizzati posseggono) e fi che rappresenta la frequenza dei

fenomeni (delle preposizioni nell’esempio che segue) che si vogliono

analizzare nel corpus.

Page 37: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Con questo metodo è stato possibile analizzare, per esempio, la

distribuzione di frequenza di alcune preposizioni in 7 discorsi di fine

anno del Presidente Ciampi.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 37

Mp = 𝑥𝑖 × 𝑓𝑖𝑛𝑖 =1

𝑓𝑖𝑛𝑖 =1

Sempre con xi che rappresenta la lunghezza dei caratteri (quindi il peso

che i fenomeni analizzati posseggono) e fi che rappresenta la frequenza

delle preposizioni (o dei fenomeni in genere) nel corpus.

Page 38: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 38

n Preposizione Lunghezza in caratteri (x1) Frequenza (f1) Prodotti (x1 * f1)

1 di 2 996 1992

2 a 1 397 397

3 in 2 382 764

4 per 3 177 531

5 con 3 127 381

6 da 2 107 214

7 su 2 60 120

8 fra 3 32 96

9 tra 3 21 63

10 verso 5 10 50

11 senza 5 6 30

12 contro 6 5 30

13 dopo 4 5 20

14 oltre 5 5 25

15 attraverso 10 4 40

16 prima (di) 5 3 15

17 più 3 3 9

18 fuori 5 3 15

19 fino 4 2 8

20 durante 7 2 14

21 dentro 6 2 12

22 sino 4 2 8

23 sotto 5 1 5

24 lontano (da) 7 1 7

25 entro 5 1 5

107 2354 4851

Page 39: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 39

Mp = 𝑥𝑖 × 𝑓𝑖𝑛𝑖 =1

𝑓𝑖𝑛𝑖 =1

=4851

2354= 2,06

Si deduce che nel corpus analizzato le proposizioni più frequenti sono

quelle che hanno, in media, una lunghezza di 2,06 caratteri.

Applicando la formula:

Page 40: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

LO SCARTO TIPO (s) O DEVIAZIONE STANDARD

Si usa per valutare quanto determinati valori si discostano dalla media,

per stabilire, cioè, la loro variazione.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 40

Cioè: la radice quadrata della sommatoria di ogni singolo valore (x)

meno il valore medio (M) di tutti i valori al quadrato, fratto la numerosità

(n) del campione meno 1.

s = (𝑥𝑖 − 𝑀)2𝑛𝑖=1

𝑛 − 1

Page 41: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 41

Cioè: la radice quadrata della sommatoria di ogni singolo valore (x)

meno il valore medio (M) di tutti i valori al quadrato, fratto la numerosità

(n) del campione meno 1.

s = (𝑥𝑖 − 𝑀)2𝑛𝑖=1

𝑛 − 1

Page 42: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 42

La deviazione standard o scarto tipo o scarto quadratico

medio è un indice di dispersione (vale a dire una misura di

variabilità di una popolazione o di una variabile casuale) derivato

direttamente dalla varianza (𝒔𝟐). Ha la stessa unità di misura dei valori osservati (mentre la

varianza ha come unità di misura il quadrato dell'unità di misura

dei valori di riferimento) e misura la dispersione dei dati intorno

al valore atteso (M).

Page 43: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 43

s = (𝑥𝑖 − 𝑀)2𝑛𝑖=1

𝑛 − 1

Ricapitolando:

Si divide la somma dei quadrati degli scarti (x-M)2 per il numero di

osservazioni meno 1 (n - 1).

Da questa divisione si ottiene la VARIANZA CAMPIONARIA

(𝑠2) .

Estraendone la radice quadrata, invece, si ottiene lo SCARTO

TIPO CAMPIONARIO o DEVIAZIONE STANDARD(s).

𝑠2 = (𝑥𝑖 − 𝑀)2𝑛𝑖=1

𝑛 − 1

Page 44: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 44

Un esempio:

Valutazione in trentesimi riportata da un campione di 10 studenti.

studente voto (x) voto medio (M)

Scarto dalla

media (x-M)

Quadrato degli

scarti (x-M)𝟐

1 22 26 -4 16

2 23 26 -3 9

3 24 26 -2 4

4 26 26 0 0

5 26 26 0 0

6 27 26 1 1

7 27 26 1 1

8 27 26 1 1

9 28 26 2 4

10 30 26 4 16

260 0 52

Page 45: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 45

s = (𝑥𝑖−𝑀)2𝑛𝑖=1

𝑛−1 =52

9= 2,40

𝑠2 = (𝑥𝑖 −𝑀)2𝑛𝑖=1

𝑛−1 = 52

9= 5,77

Varianza Campionaria

Scarto Tipo Campionario

Il 2,40 degli studenti ha ottenuto un voto che rientra nella media dei

voti del campione.

Page 46: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 46

Questa tecnica può essere usata anche per comparare diversi

campioni e quindi può essere molto utile in campo linguistico

per la comparazione di più corpus.

Page 47: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Tornando ad uno dei primi esempi:

In 9 tragedie di Racine compare l’aggettivo heureux (felice) 143 volte:

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 47

M=𝑥1+𝑥2+⋯+𝑥𝑛

𝑛= 143

9= 15,89

Tragedia I II III IV V VI VII VIII IX

Occorrenze 10 11 13 15 16 18 18 19 23

Page 48: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 48

tragedia frequenza (x) media (M)

Scarto dalla

media (x-M)

Quadrato degli

scarti (x-M)𝟐

1 10 16 -6 36

2 11 16 -5 25

3 13 16 -3 9

4 15 16 -1 1

5 16 16 0 0

6 18 16 2 4

7 18 16 2 4

8 19 16 3 9

9 23 16 7 49

143 0 137

Page 49: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 49

s = (𝑥𝑖−𝑀)2𝑛𝑖=1

𝑛−1 =137

8 ≈ 4

M=𝑥1+𝑥2+⋯+𝑥𝑛

𝑛= 143

9 ≈ 16

La differenza tra il risultato che si ottiene (quello effettivo) e quello

teorico (media) è pari a 4.

In ogni tragedia, rispetto alla media, il numero di heureux si può

discostare mediamente di 4 rispetto alla media(ha una probabile

variabilità pari a 4).

Page 50: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

I QUANTILI

Per la descrizione della distribuzione di un fenomeno quantitativo e

ordinabile è possibile usare i Quantili, che permettono la ripartizione

della distribuzione in parti uguali.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 50

• QUARTILI;

• DECILI;

• PERCENTILI;

Page 51: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

I QUARTILI

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 51

OUTLIERS OUTLIERS

Page 52: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

I DECILI

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 52

Page 53: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

I PERCENTILI

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 53

III Quartile

II Quartile o Mediana

I Quartile

Page 54: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

TABELLA DI FREQUENZE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 54

• FREQUENZA ASSOLUTA (𝒇𝒂): numero di occorrenze

nel corpus;

• FREQUENZA RELATIVA (𝒇𝒓): si ha con il quoziente

ottenuto dividendo 𝑓𝑎 per il numero n di osservazioni;

• FREQUENZA PERCENTUALE (𝒇𝒑): ottenuta con la

moltiplicazione per 100 di 𝑓𝑟.

Page 55: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

TABELLA DI FREQUENZE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 55

𝒇𝒂= conteggio delle occorrenze; 𝒇𝒓=𝑓𝑎

𝑛

𝒇𝒑 = 𝑓𝑟 × 100

Frequenza Assoluta

Frequenza Relativa

Frequenza Percentuale

Page 56: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

TABELLA DI FREQUENZE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 56

Un esempio:

Distribuzione per categorie grammaticali delle occorrenze nei 7

discorsi di Ciampi.

n n(x) 𝒇𝒂 𝒇𝒓 𝒇𝒑

1 aggettivi 1762 0,14 14

2 avverbi 571 0,05 5

3 congiunzioni 628 0,05 5

4 articoli 1210 0,1 10

5 nomi 3187 0,25 25

6 preposizioni 2354 0,19 19

7 pronomi 767 0,06 6

8 verbi 1912 0,15 15

9

altro (nomi propri,

esclamazioni…) 178 0,01 1

260 12569 1 100

Page 57: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

COEFFICIENTE DI VARIAZIONE

Permette di confrontare misure e fenomeni con unità di misura differenti. È un INDICE DI PRECISIONE di una misura.

Due Scarti Tipo possono essere confrontati direttamente fra loro se:

sono espressi nella stessa unità di misura;

l’ordine di grandezza o dimensione della media è simile;

Negli altri casi occorre semplicemente calcolare il rapporto tra lo Scarto Tipo (s) e la Media (M). Il quoziente ottenuto è il Coefficiente di variazione (v):

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 57

v =𝑠

𝑀

Page 58: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Esempio:

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 58

𝑀1 = 8,0

𝑠1 = 2,28

𝑣1 =2,28

8,0= 0,28

𝑀2 = 5,0

𝑠2 = 1,6

𝑣2 =1,6

5,0= 0,32

𝑣1,2 =𝑣1𝑣2=0,28

0,32= 0,88 = 88%

𝑣1,2 𝑣1: 𝑣2 = 88: 100

Come proporzione:

Page 59: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

PUNTEGGIO Z (O SCARTO RIDOTTO)

Il punteggio z è il quoziente fra lo scarto dalla media e lo scarto tipo,

serve a misurare di quanti “scarti tipo” un valore osservato dista

dalla media.

Lo scarto ridotto è importante perché permette di valutare se le

variazioni dalla media siano aleatorie o significativamente distanti.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 59

Page 60: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Per riconoscere quali valori sono da considerare significativi si può

applicare la seguente regola empirica:

- I punteggi z compresi nell’intervallo (-2, +2 ) NON sono

significativi;

- I punteggi superiori a 2 o inferiori a -2 sono considerabili insoliti;

- I punteggi superiori a 3 o inferiori a -3 possono essere considerati

molto insoliti.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 60

Page 61: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

LA STIMA INTERVALLARE

La stima intervallare consiste nel calcolare, sulla base dei dati di un

campione, un intervallo di valori per cui sia possibile dire che il valore di

un parametro cada al suo interno.

L’intervallo rappresenta dunque sia la stima del valore del

parametro sia l’incertezza associata alla stima.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 61

Page 62: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

ERRORE STANDARD (e) E INTERVALLO DI FIDUCIA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 62

Ovvero:

Lo scarto diviso per la

radice quadrata della

dimensione del campione.

𝑒 = 𝑠

𝑛

Page 63: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

TEST SU UN CAMPIONE

Il test statistico è una procedura che utilizza una sintesi dei dati

campionari per saggiare la validità di un’ipotesi su una caratteristica della

popolazione.

In statistica, l’ipotesi che si intende verificare prende il nome di ipotesi

alternativa e si contrappone all’ipotesi nulla.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 63

Page 64: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Se il punteggio z presenta un valore assoluto inferiore a 2 si accetta

l’ipotesi nulla con un valore di significatività del 95%

Viceversa, l’ipotesi nulla verrà rifiutata a vantaggio dell’ipotesi

alternativa.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 64

Page 65: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 65

MODELLI TEORICI PER LE PROPORZIONI

Finora abbiamo preso in considerazione lo scarto tipo di una

distribuzione, ricorrendo a prove concrete, ma è importante anche poter

confrontare i risultati così ottenuti con un modello teorico.

Parleremo quindi, parallelamente allo scarto tipo campionario, di uno

scarto tipo teorico.

Page 66: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Questo comporta due possibilità:

- uno scarto tipo campionario circa uguale allo scarto tipo teorico, in

cui la distribuzione effettiva equivale a una distribuzione casuale;

- uno scarto tipo superiore o inferiore allo scarto tipo teorico, in cui la

distribuzione reale è stata condizionata da cause diverse, che potranno

essere ricercate.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 66

Page 67: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Un esempio:

Calcoliamo i due scarti tipo prendendo come scarto base una traduzione

anonima in veneziano del I canto dell’Orlando furioso. Delle 4896

occorrenze totali del canto, 232 sono che e ch’.

Probabilità d’apparizione di ch(e) nel testo: p = 232/4896 = 0,047

Perciò la possibilità che escano altre parole è: q = 1 – p = 0,953

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 67

Page 68: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Dividiamo poi i 648 versi in 24 gruppi di 27 versi ciascuno (ognuno

avente 204 parole). Il numero di ch(e) in ogni gruppo sarà dunque:

nc = 204 × 0,047 = 9,588

Quindi, secondo la distribuzione Binomiale, il 95% delle osservazioni

dovrebbe stare nell’intervallo da 4 a 16.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 68

Page 69: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 69

n numero di che ( x – y) (x-y)𝟐

1 4 -5,667 32,111

2 4 -5,667 32,111

3 6 -3,667 13,444

4 6 -3,667 13,444

5 6 -3,667 13,444

6 7 -2,667 7,111

7 7 -2,667 7,111

8 8 -1,667 2,778

9 8 -1,667 2,778

10 9 -0,667 0,444

11 9 -0,667 0,444

12 9 -0,667 0,444

13 10 -0,333 0,111

14 10 -0,333 0,111

15 11 1,333 1,778

16 11 1,333 1,778

17 11 1,333 1,778

18 12 2,333 5,444

19 12 2,333 5,444

20 13 3,333 11,111

21 14 4,333 18,778

22 14 4,333 18,778

23 14 4,333 18,778

24 17 7,333 53,778

232 0 263,333

Page 70: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Essendo lo scarto tipo campionario solo leggermente superiore a

quello teorico (determinato da un’estrazione aleatoria) dobbiamo

concludere che l’uso del ch(e) da parte dell’anonimo scrittore

veneziano sia del tutto regolare e non dettato da particolari scelte

stilistiche.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 70

Page 71: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

VALUTARE LA DIFFERENZA TRA CAMPIONI

Spesso può risultare utile o necessario saggiare attraverso un test l’ipotesi

di uguaglianza su due campioni indipendenti al fine di capire se questi

provengano o meno dalla stessa popolazione.

Applicando la solita regola empirica del punteggio z otterremo che, con

valori superiori a 2 possiamo rifiutare l’ipotesi nulla (l’ipotesi nulla in

questo caso è l’uguaglianza tra le due proporzioni, la derivazione unica).

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 71

Page 72: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

IL X² DI PEARSON

Con il test di X² (o test di Pearson) è possibile misurare in probabilità lo

scarto tra un modello teorico e un’osservazione sperimentale.

Avremo la seguente formula:

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 72

E’ uguale alla sommatoria (da 1 a

k) del quadrato della differenza fra

frequenta osservata e frequenza

teorica, fratto la frequenza teorica. 𝑋2 =

(𝑓𝑖 − 𝑓𝑖∗)2

𝑓𝑖∗

𝑘

𝑖=1

Page 73: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

Un esempio:

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 73

Osservato Teorico Scarto Quadrato

dello scarto

Frazione

Fonema i 332 400 -68 4.624 11,56

Altri fonemi 3.538 3.470 +68 4.624 1,33

3.870 3.870 0 12,89

La frequenza del fonema «i» nelle poesie di Gozzano.

Page 74: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2. NOZIONI DI STATISTICA

L’ANALISI BIVARIATA DI VARIABILI QUALITATIVE

Sulle osservazioni di un campione normalmente vengono rilevati più

caratteri e uno degli scopi dell’analisi statistica è verificare l’esistenza di

“relazioni” tra le variabili disponibili.

Il caso più semplice è quello dell’analisi bivariata di caratteri qualitativi,

cioè delle tecniche finalizzate a studiare il grado di associazione tra due

variabili qualitative.

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 74

Page 75: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

2.NOZIONI DI STATISTICA

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 75

INDICI DI CONNESSIONE

L’indice di connessione lessicale corrisponde al rapporto tra la parte

comune del vocabolario (o occorrenze) e il totale del vocabolario

stesso.

Per misurare il grado di connessione lessicale fra due testi è necessario

che essi abbiamo all’incirca la stessa lunghezza.

Page 76: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3.UN ESPERIMENTO DI

STATISTICA LESSICALE:

le opere di Alessandro Baricco

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 76

Page 77: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 77

1. Scelta del testo e individuazione delle unità di analisi;

2. Media e dispersione;

3. Ricchezza lessicale;

4. Valutazione del lessico;

PRIMI PASSI:

Page 78: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 78

Specificare l’edizione del testo che verrà presa in analisi e tutti

i meccanismi di inclusione o esclusione del testo adottati.

Fornire quanta più chiarezza possibile ed obiettività, in modo

da rendere ripetibile l’esperimento e non falsarlo.

1. Scelta del testo e individuazione delle unità d’analisi:

Page 79: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 79

Alessandro Baricco

• Castelli di rabbia, Milano, Rizzoli, 1991. ISBN 88-17-66039-6;

• Oceano mare, Milano, Rizzoli, 1993. ISBN 88-17-66043-4;

• Novecento. Un monologo, Milano, Feltrinelli, 1994. ISBN 88-07-81302-5;

• Seta, Milano, Rizzoli, 1996. ISBN 88-17-66059-0;

• City, Milano, Rizzoli, 1999. ISBN 88-17-86102-2;

• Senza sangue, Milano, Rizzoli, 2002. ISBN 88-17-87017-X;

• Mr Gwyn, Milano, Feltrinelli, 2011. ISBN 88-07-01862-4;

• Tre volte all’alba, Milano, Feltrinelli, 2012. ISBN 88-07-01905-1;

Page 80: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 80

Software open source per il conteggio delle parole:

http://text-analyzer.softonic.it/

Page 81: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 81

NOVECENTO, UN MONOLOGO

Page 82: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 82

Si sono considerate le parole

complessive delle opere in

questione, quindi, sono state

riportante anche eventuali

ripetizioni e omografi.

Page 83: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 83

Percentuale di occorrenze e

d’uso di ogni parola del

corpus.

Page 84: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 84

Lessemi che occorrono in

forma concatenata in tutto il

corpus.

Page 85: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 85

Hapax: lessemi che

occorrono una sola volta in

tutto il corpus.

Page 86: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 86

OPERA ANNO PAROLE (N) PAROLE DIVERSE (V)

Castelli di rabbia 1991 52.989 8.466

Oceano mare 1993 47.395 7.461

Novecento 1994 12.041 2.755

Seta 1996 15.063 3.188

City 1999 87.068 10.875

Senza sangue 2002 15.770 2.920

Mr. Gwyn 2011 40.861 7.242

Tre volte all'alba 2012 15.835 3.016

N= lunghezza del testo, cioè la somma

totale delle frequenze

delle parole, anche se

ripetute. I tempi

composti e le

locuzioni, però, sono

considerati come

un’unica parola;

V= vocabolario,

cioè il numero delle

parole diverse nel

corpus in questione,

senza tener conto

della frequenza;

Page 87: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 87

L= lessico. È la quantità indimostrata di parole che potenzialmente un

individuo conosce;

• Estensione: numero di parole di cui è composto;

• Struttura: rapporto delle frequenze di queste parole;

Ld= lessico disperso. Utilizza quante più possibili parole diverse;

Lc= lessico concentrato. Riutilizza le stesse parole. È fatto di ripetizioni.

Parole forti: hanno un significato autonomo dal contesto (es. sostantivi,

aggettivi, verbi e avverbi);

Parole deboli: parole che acquistano significato in base al contesto in cui si

trovano (es. articoli, preposizioni, pronomi, congiunzioni ecc);

2. Calcolo della dispersione (R) del vocabolario (V):

Page 88: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 88

𝑅 = 𝑉

𝑁

R è l’indice di dispersione;

C è l’indice di concentrazione;

è la somma delle frequenze delle prime 50 parole forti;

N è il numero totale delle parole;

𝑺𝒇𝟓𝟎

𝑅𝑓 = 𝑉

2𝑁 𝐶𝑓 =

𝑆𝑓502𝑁

Per tutte le parole Per le parole forti

𝐶 = 𝑆𝑓50𝑁

Page 89: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 89

𝑅 = 𝑉

𝑁

Applicando la formula a Novecento di Baricco e analizzando tutte le

parole, si ottiene, per esempio, come indice di dispersione:

= 2.755

12.041= 2.755

109,73= 25,10

R da come risultato la dispersione delle parole meno frequenti, che

rappresentano però una misura della ricchezza del vocabolario dal quale

sono tratte. È un fenomeno legato alla caratterizzazione del testo e dipende

dalla misura del corpus.

Empiricamente risulta che, per testi di dimensioni comprese tra

10000 e 50000 occorrenze, R vale circa 22 (Guiraud, P., Les caractères du

vocabolaire. Essays de metodologie, Presses Universitaire de France, Paris, 1954 ).

𝑅𝑓 = 𝑉

2𝑁=

2.755

2 ×12.041= 2.755

155,18=17,75

Page 90: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 90

L’indice di concentrazione, invece, sarà:

= 4.904

2 × 12.041= 4.904

24.082= 0,20

Cioè la concentrazione delle parole più frequenti, o tematiche è

pari a 0,20.

È un fenomeno legato all’argomento del testo e alla motivazione

che lo origina.

(Guiraud).

𝐶𝑓 =𝑆𝑓502 × 𝑁

𝐶 =𝑆𝑓50𝑁

= 4.904

12.041= 0,40

Page 91: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 91

L’indice di ricchezza lessicale RL si ottiene calcolando la differenza

tra l’indice di dispersione R per ogni opera e la sua media totale MR.

3. La ricchezza lessicale:

𝑅𝐿 = 𝑅 −𝑀𝑅

𝑀𝑅 − 𝑅𝐿

Si può valutare quanto questo indice (ricchezza lessicale RL) è

superiore o inferiore alla media, con una semplice operazione:

Page 92: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 92

Per studiare la ricercatezza del linguaggio 𝑹𝟏, invece:

𝑅1 = 𝑉1

𝑖𝑛𝑖=1

𝑉𝑛𝑖=1

Dove 𝑉1sono gli hapax, ossia le parole che occorrono una sola volta

Si usa come un indice di “ricercatezza del linguaggio” solitamente (ma non

sempre) per confrontare testi di pari dimensioni.

Page 93: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 93

Per stabilire l’entità del patrimonio linguistico del lessico, si usa,

invece, la semplice proporzione, in cui l’incognita è rappresentata da

Lx:

MR : ML = R : Lx

Lx sarà uguale alla media del lessico totale (35,86) di ogni opera

moltiplicata per l’indice di dispersione dell’opera specifica da valutare,

il tutto diviso per la media totale (ottenuta dagl’indici di dispersione di

ogni opera).

Per comodità il risultato viene ulteriormente diviso per 1000, in modo

da ottenere un numero gestibile dal punto di vista statistico

Il risultato sarà poi confrontato sia con la media della ricchezza

lessicale MRL sia con la ricchezza lessicale RL .

4. La valutazione del lessico:

Page 94: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 94

Mettendo in pratica queste analisi per tutte le opere analizzate si

otterranno i valori riportati nelle seguenti tabelle:

OPERA ANNO PAROLE (N) PAROLE DIVERSE (V)

Castelli di rabbia 1991 52.989 8.466

Oceano mare 1993 47.395 7.461

Novecento 1994 12.041 2.755

Seta 1996 15.063 3.188

City 1999 87.068 10.875

Senza sangue 2002 15.770 2.920

Mr. Gwyn 2011 40.861 7.242

Tre volte all'alba 2012 15.835 3.016

Page 95: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 95

OPERA ANNO PAROLE (N)

PAROLE DIVERSE

(V)

DISPERSIONE

[R]

DISPERSIONE

[Rf]

MEDIA DI R

[MR]

RICCHEZZA

LESSICALE

RISPETTO

ALLA MEDIA

[RL] HAPAX

RICERCATEZZA

DEL

LINGUAGGIO [R1]

PATRIMONIO

LINGUISTICO

Castelli di

rabbia 1991 52.989 8.466 36,78 26,01 30,25 6,52 4.979 3,14 43,614

Oceano

mare 1993 47.395 7.461 34,27 24,23 4,02 4.298 3,57 40,642

Novecento 1994 12.041 2.755 25,11 17,75 -5,15 1.672 9,66 29,774

Seta 1996 15.063 3.188 25,98 18,37 -4,28 1.830 8,35 30,804

City 1999 87.068 10.875 36,86 26,06 6,60 5.950 2,45 43,706

Senza

sangue 2002 15.770 2.920 23,25 16,44 -7,00 1.618 9,12 27,575

Mr. Gwyn 2011 40.861 7.242 35,83 25,33 5,57 4.541 3,68 42,486

Tre volte

all'alba 2012 15.835 3.016 23,97 16,95 -6,29 1.732 8,83 28,423

Page 96: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 96

Applicando un metodo di astrazione e di inferenza superiore, possiamo

considerare i corpus analizzati come un unico blocco, arrivando così alle

conclusioni (ovviamente in questo caso si parlerà di medie e valori

approssimati, dato che ognuno presenterà uno scarto che lo

differenzierà dagli altri, e non di valori precisi).

Strumento indispensabile per questo passo è un elaboratore di fogli

elettronici, come Microsoft Excel (per Windows) o Open Office (per le

altre piattaforme).

Page 97: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 97

0

10.000

20.000

30.000

40.000

50.000

60.000

70.000

80.000

90.000

100.000

PAROLE (N)

PAROLE DIVERSE (V)

0

10.000

20.000

30.000

40.000

50.000

60.000

70.000

80.000

90.000

100.000

1 2 3 4 5 6 7 8

PAROLE (N)

PAROLE DIVERSE (V)

Il rapporto tra il

Lessico (N) e il

Vocabolario (V).

È evidenziato

l’andamento per ogni

opera (asse x).

L’andamento del

Vocabolario è

pressappoco costante

e non dipende,

apparentemente,

dall’andamento del

Lessico.

Le opere sono

sempre riportate

sull’asse x.

Page 98: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 98

0,00

5,00

10,00

15,00

20,00

25,00

30,00

35,00

40,00

1 2 3 4 5 6 7 8

DISPERSIONE [R]

DISPERSIONE [Rf]

Il rapporto tra

l’indice di

dispersione

complessivo (R) e

l’indice di

dispersione per le

parole forti (Rf).

È evidenziato

l’andamento per ogni

opera (asse x).

Il rapporto l’indice di

dispersione Medio e

la ricchezza lessicale.

0,00

5,00

10,00

15,00

20,00

25,00

30,00

35,00

40,00

1 2 3 4 5 6 7 8

MEDIA DI R [MR]

RAPPORTO DI [RL]

CON LA MEDIA [MR]

Page 99: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 99

0

1.000

2.000

3.000

4.000

5.000

6.000

7.000

1 2 3 4 5 6 7 8

HAPAX

HAPAX

La distribuzione di

frequenza degli hapax

nelle opere.

1 2 3 4 5 6 7 8

ANNO 1991 1993 1994 1996 1999 2002 2011 2012

PATRIMONIO

LINGUISTICO43614 40642 29774 30804 43706 27575 42486 28423

05000

100001500020000250003000035000400004500050000

Patr

imo

nio

Lin

gu

isti

co

Distribuzione del Patrimonio

Linguistico negli anni

La distribuzione del

patrimonio

linguistico dell’autore

nel corso degli anni.

Page 100: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 100

Studi di questo tipo possono essere adeguatamente

«personalizzati» ed adattati alle esigenze del ricercatore con i

più moderni strumenti della Linguistica Computazionale,

disciplina in costante evoluzione.

A tal proposito risulta interessante l’efficacia dell’uso di un

linguaggio di programmazione come il Python, anche se alcune

modalità di ricerca nei corpora risultano ancora acerbe e male

adattate in italiano (ad esempio la ricerca dalle parole forti).

ALTRI STRUMENTI:

LINGUISTICA COMPUTAZIONALE E PYTHON

Page 101: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 101

Page 102: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

3. UN ESPERIMENTO DI STATISTICA LESSICALE

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 102

Page 103: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

4. ANALISI DI UN FENOMENO

NEL PARLATO E NELLO

SCRITTO

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 103

Page 104: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

4. ANALISI DI UN FENOMENO

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 104

OGGETTO DELL’ANALISI

Per prima cosa abbiamo individuato il fenomeno linguistico che ci interessava analizzare all’interno dei corpus.

Abbiamo scelto di analizzare il fenomeno di:

“quello che è” (“quelli che sono”)

utilizzato come RIEMPITIVO all’interno della frase.

Il fenomeno è classificabile come tratto dell’italiano neostandard o substandard.

Page 105: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

4. ANALISI DI UN FENOMENO

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 105

CAMPIONE D’ANALISI

Abbiamo deciso di analizzare il fenomeno sia all’interno della

dimensione dell’italiano scritto (attraverso l’interrogazione di corpora

giornalistici) che nella forma parlata.

Per fare questo ci siamo serviti di due strumenti di analisi che andremo

adesso a presentare.

Page 106: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

4. ANALISI DI UN FENOMENO

ANALISI DEL PARLATO

Per l’analisi del parlato abbiamo utilizzato la risorsa del BADIP (Banca

dati dello italiano parlato), creata e gestita dall’Università di Graz.

All’interno del database si trovano comunicazioni orali ottenute delle

situazioni comunicative più disparate. Comunicazioni a casa, sul luogo

di lavoro e nelle scuole, ma anche telefonate, interviste, convegni,

assemblee studentesche, trasmissioni televisive e radiofoniche.

URL: http://badip.uni-graz.at/

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 106

Page 107: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

4. ANALISI DI UN FENOMENO

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 107

L’interfaccia grafica con cui l’utente si viene a relazionare appare

gradevole e di chiara comprensione.

Page 108: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

4. ANALISI DI UN FENOMENO

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 108

RISULTATI

Totale

occorrenze

Riempitivo Percentuale

Quello che è 0 - -

Quelli che sono 28 19 67,8%

Page 109: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

4. ANALISI DI UN FENOMENO

Provenienza dei parlanti:

47% Milano (Nel campione sono presenti le città di Firenze, Napoli,

Roma e Milano).

Tipologie di comunicazioni:

41,1% scambio comunicativo unidirezionale in presenza del/i

destinatario/i (es. lezioni universitarie, comizi politici, arringhe

giudiziarie).

41,1% scambio comunicativo unidirezionale o bidirezionale a distanza

o differito su testo non scritto (es. trasmissione televisiva o

radiofonica).

17,8% scambio comunicativo bidirezionale con presa di parola non

libera faccia a faccia (es. assemblee, dibattiti, esami universitari).

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 109

Page 110: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

4. ANALISI DI UN FENOMENO

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 110

ANALISI DELLO SCRITTO

Per quanto riguarda la ricerca del fenomeno nella sua dimensione

scritta, abbiamo utilizzato una risorsa nata nel contesto degli studi

linguistici dell’Università di Bologna, risalente al 2011:

Il corpus CORIS (Corpus di italiano scritto), a cui sono stati applicati

gli appositi filtri per consentire una ricerca mirata ai soli articoli di

quotidiani.

URL della risorsa: http://corpora.dslo.unibo.it/TCORIS/

Page 111: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

4. ANALISI DI UN FENOMENO

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 111

L’interfaccia grafica appare anche qui “amichevole” e si presta ad

interrogazioni da parte di varie tipologie di utenti .

Page 112: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

4. ANALISI DI UN FENOMENO

Alessia Pierfederici e Mariagiovanna Scarale,

Linguistica Italiana II a.a. 2012/2013 112

RISULTATI

Totale

occorrenze

Riempitivo Percentuale

Quello che è 471 16 3,4%

Quelli che sono 94 14 14,9%

Page 113: Strumenti statistici per l'analisi della distribuzione dei fatti linguistici

Alessia Pierfederici – Mariagiovanna Scarale

Seminario di Linguistica italiana II (prof. Mirko Tavoni),

a.a. 2012/2013

GRAZIE PER LA VOSTRA

ATTENZIONE