123
STATISTICA DESCRITTIVA Appunti ad uso degli studenti a cura di Giorgio Garau Gennaio 2004

STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

STATISTICA DESCRITTIVA

Appunti ad uso degli studentia cura di Giorgio Garau

Gennaio 2004

Page 2: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente
Page 3: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

1 I metodi quantitativi 31.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Le fonti statistiche . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2.1 I sistemi informativi statistici . . . . . . . . . . . . . . 131.3 Concetti di base . . . . . . . . . . . . . . . . . . . . . . . . . . 181.4 Le rappresentazioni grafiche . . . . . . . . . . . . . . . . . . . 21

1.4.1 Tabelle e grafici per dati quantitativi . . . . . . . . . . 221.4.2 Tabelle e grafici per dati qualitativi . . . . . . . . . . . 31

1.5 Densita di frequenza e funzione diripartizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2 I rapporti statistici 41

3 Gli indici di posizione 453.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.2 Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.2.1 Alcune proprieta della media . . . . . . . . . . . . . . . 513.3 Altri indici di posizione: Moda e

Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4 Misure di variabilita 634.1 Indici di dispersione . . . . . . . . . . . . . . . . . . . . . . . . 634.2 Indici di concentrazione . . . . . . . . . . . . . . . . . . . . . . 71

4.2.1 Rappresentazione grafica: Lorenz (1904) e Gini (1914) 714.3 Asimmetria e Curtosi . . . . . . . . . . . . . . . . . . . . . . . 83

5 I fenomeni bivariati 895.1 La correlazione . . . . . . . . . . . . . . . . . . . . . . . . . . 945.2 La regressione . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

A Soluzione esercizi 111A.1 I metodi quantitativi . . . . . . . . . . . . . . . . . . . . . . . 111A.2 I fenomeni bivariati . . . . . . . . . . . . . . . . . . . . . . . . 117

1

Page 4: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

2

Page 5: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

1.1 Introduzione

There are three kind of lies: lies, damned lies and StatisticsMark Twain

A cosa serve la statistica

La statistica serve ad organizzare i dati e l’informazione numerica, per de-scrivere ed avere intuizioni su come vanno le cose, sulle tendenze, sui rapportitra i fenomeni. Vediamo alcuni esempi.1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente di studiare le serie, cioe di scomporrele diverse componenti, mettendo in evidenza trend, ecc.2. consideriamo alcuni indicatori di fenomeni sociali come la soglia dellapoverta, l’ampiezza delle famiglie o il rapporto tra SAU e superficie comu-nale. Ognuno di essi consente di studiare un fenomeno piu o meno complesso.3. ipotizziamo di fare un sondaggio tra gli studenti (caratteristiche socio eco-nomiche) e spiegare il senso della scelta casuale delle unita e cosa succede sela scelta delle stesse non avviene in modo casuale. La Statistica ci dice comecostruire dei piani di campionamento, come concepire dei questionari e comefare delle stime. E ci aiuta ad interpretare gli errori e a studiarli.

Vediamo di seguito i diversi punti del programma in relazione alle fun-zioni del metodo statistico e allo scopo del corso: fornire allo studente alcunistrumenti quantitativi per poter interpretare la realta.

1. I metodi quantitativi2. L’analisi esplorativa dei dati3. L’analisi bivariata4. Probabilita e variabili casuali5. L’inferenza statistica

Page 6: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

Iniziamo, soffermandoci su alcuni punti. Nelle scienze sociali la statistica hail ruolo di quantificare sotto tre aspetti:

Dal punto di vista descrittivo e chiaro che la traduzione in numeri hauna sua validita legata alla funzione di sintesi (pensate alla estrema sintesidi informazioni contenute in un indicatore come il PIL pro capite, indicatoredel tenore di vita di un paese.

Per quanto riguarda l’osservazione, la raccolta di informazione, e chiaroche l’obiettivita del dato puo essere raggiunta solo attraverso l’adozione diconvenzioni. Inoltre la confrontabilita di informazioni raccolte in posti diversinon puo che basarsi su una definizione quantitativa dei fenomeni (Esempio:confronto della comodita dei trasporti urbani in due citta, si puo calcolare siail numero di corse all’ora, sia la spesa (una quota costante e una proporzionalealla distanza: K + L etc.) per km di linea).

Infine nel trattamento dell’informazione e chiara la necessita diQUANTIFICARE e di tradurre in quantificabile ogni informazione.

Come possono essere ottenute queste informazioni quantitative?

Nelle SCIENZE ESATTE la raccolta dati si fa con esperienze ripetute, rei-terazione di un dato fenomeno in un ambiente costituito. Un altro modo diraccogliere dati puo essere quello tipico in medicina e biologia che utilizzaGRUPPI DI CONTROLLO per verificare se un trattamento e efficace oppureno.

Nelle SCIENZE SOCIALI talvolta si usa il 2◦ modo, ad esempio intro-ducendo delle norme (limitazione di velocita, lancio di prodotti nuovi) incitta-campione prima di estenderle a tutto il territorio nazionale. In generalee pero estremamente difficile controllare i fattori esterni al nostro esperimentoper cui, spesso, la sola possibilita di raccogliere delle informazioni e legataall’OSSERVAZIONE delle UNITA’ STATISTICHE.

Alcune cattive interpretazioni della statistica

Si fa di seguito riferimento ad uno studio sulla discriminazione sessuale neicriteri di ammissione ai corsi post-laurea di una universita italiana. L’analisidei risultati totali ci dice che:

8.442 uomini presentano domanda ed il 44% viene accettato4.321 donne presentano domanda ed il 35% viene accettato

4

Page 7: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

Assumendo che gli uomini e le donne che hanno fatto domanda siano ugual-mente preparati, sembra essere una forte prova empirica del fatto che gliuomini e le donne ricevono un diverso trattamento all’atto dell’ammissione:l’Universita sembra avere una preferenza per gli uomini.

“Apparentemente sembrerebbe che ci sia una discriminazione sessuale mavediamo di porci alcune domande”

Corsi Uomini Donnepost Numero % Numero %

laurea di domande di ammessi di domande di ammessiA 825 62 108 82B 560 63 25 68C 325 37 593 34D 417 33 375 35E 191 28 393 24F 373 6 341 7

Consideriamo ora il problema piu in dettaglio e confrontiamo i tassi di am-missione nei diversi Corsi post-laurea (prendiamo solo i primi 6 Corsi, aiquali si riferiscono oltre un terzo delle domande di ammissione e il cui com-portamento puo essere considerato come quello tipico di tutta l’Universita);

5

Page 8: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

scopriremo che tali tassi si equivalgono, anzi nel corso A sembra vi sia unadiscriminazione nei confronti degli uomini.

Tuttavia, quando si considerano tutti i 6 corsi risulta un tasso di ammis-sione del 44% per gli uomini e del 30% per le donne, una differenza di ben14 punti percentuali. Cio sembra paradossale, ma c’e una spiegazione:

e piu facile entrare nei primi 2 Corsi (A e B), e piu della meta degliuomini vi ha fatto domanda.

e piu difficile entrare negli altri quattro Corsi e piu del 90% delle donnevi ha fatto domanda.

Insomma le donne scelgono studi piu difficili. Nel risultato finale vi e l’influ-enza della scelta dei corsi che si confonde con l’effetto relativo al sesso. Inconclusione si palesa una discriminazione sottile e che consiste nel mantenerebasso il tasso di ammissione nelle materie scelte “naturalmente” dalle donne.

Andiamo un po’ oltre e vediamo come la statistica ci consente di sintetiz-zare i 12 tassi di ammissione. Utilizzeremo il concetto di media che vedremopiu avanti ma potete ora intuire a che cosa serve.

Numero totale di domande

Corsi Numero totaledi domande

A 933B 585C 918D 792E 584F 714

4526

La media ponderata del tasso di ammissione, calcolata usando come pesi ilnumero totale (maschi e femmine) di domande presso ciascun Corso, per gliuomini e:

62 · 933 + 63 · 585 + 37 · 918 + 33 · 792 + 28 · 584 + 6 · 714

4526= 39%

Mentre per le donne . . .

82 · 933 + 68 · 585 + 34 · 918 + 35 · 792 + 24 · 584 + 7 · 714

4526= 43%

SORPRESA: C’e discriminazione nei confronti degli uomini.

6

Page 9: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

1.2 Le fonti statistiche

Come si possono raccogliere le INFORMAZIONI?

• Per rilevazione esaustiva di tutte le unita statistiche che compongonola popolazione (CENSIMENTI);

• Per rilevazione CAMPIONARIA: SONDAGGI.

Vediamo un esempio di questi due tipi di rilevazione che ci aiuteranno anchead entrare “dolcemente” nel mondo dei dati utilizzando qualche “chiave dilettura” che li rendera meno antipatici.

I CENSIMENTI sono una fotografia della Nazione, eseguiti ogni 10 anni, cheforniscono indicazioni dettagliate sulla struttura demografica del paese, con-sentendo di esaminare le seguenti caratteristiche qualitative e quantitative:

• anagrafica: eta, sesso, stato civile, cittadinanza, luogo di nascita, resi-denza.

• condizione della popolazione: attiva e non attiva.

• professione: qualifica tecnologica dell’attivita individuale determinatadal genere di lavoro.

• posizione nella professione (dipendente o indipendente, dirigente o quadrooppure operaio . . . )

• ramo di attivita economica.

7

Page 10: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

alcune osservazioni:

1. le percentuali sono piu utili per effettuare confronti nel tempo e nellospazio;

2. sempre a fini di confronto vi e la necessita di definire univocamente ifenomeni oggetto di studio, ad esempio, la popolazione attiva, e costi-tuita dalle persone con eta maggiore ai 14 anni che risultano:

• occupate: cioe hanno un’occupazione in proprio o alle dipendenzeoppure collaborano senza un regolare rapporto di lavoro con unfamiliare che svolga un’attivita in proprio.

• disoccupate: sono alla ricerca di occupazione (che hanno perdutoprecedentemente). Possono anche essere persone in cerca di prima

8

Page 11: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

occupazione o che hanno cessato un’attivita in proprio per cercareun’occupazione dipendente.

3. la composizione del tasso medio (o generico) di attivita permette diosservare le differenze territoriali:

• nel confronto Nord-Sud il tasso di attivita dipende da:

(a) struttura della popolazione, cioe composizione per eta infattial Sud vi sono piu giovani

(b) tasso di partecipazione, infatti al Sud vi sono piu donne checercano lavoro.

• La differenza tra tasso di attivita e occupati fornisce la disoccu-pazione palese, diversa tra Nord e Sud:

Nord: 0.429-0.393 = 0.036Sud: 0.356-0.264 = 0.092

4. l’analisi di tali rapporti a un livello territoriale piu disaggregato avrebbesicuramente fornito differenze piu accentuate e quindi si puo osservareche:

L’AGGREGAZIONE SMUSSA LE DIFFERENZE

Prima di passare alle indagini campionarie facciamo un’altra osservazione.L’ISTAT fornisce, nell’occasione della Relazione Generale sulla SituazioneEconomica del Paese, delle statistiche ufficiali. Nel 1981, anno di censimento,vi fu tra le 2 fonti una differenza di 1.444.000 nel numero di occupati (in menonel Censimento rispetto alla Relazione). Cio si puo spiegare con la paura deirisvolti fiscali del Censimento che determino una modifica in peggio dellostatus del lavoro al momento della compilazione. Intanto, nei Censimenti lacorrettezza della rilevazione e affidata alla responsabilita del capo-famiglia.

Le indagini campionarie consentono di ottenere risultati simili ai Censi-menti con un notevole risparmio di forze e di soldi. Intanto sono svolte daintervistatori specializzati e cio riduce il rischio appena descritto. Conside-riamo, per effettuare dei confronti con il Censimento, l’Indagine sulle forze dilavoro che l’ISTAT svolge in via ufficiale dal 1958, con cadenza trimestrale,al fine di seguire da vicino gli effetti del divenire economico-sociale su occu-pazione, disoccupazione e atteggiamento della popolazione nei confronti delmercato del lavoro.

I risultati coincidono con quelli dei Censimenti anche se la terminologiae talvolta differente. Si indica ad esempio, con forze di lavoro, nelle indagini

9

Page 12: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

campionarie, cio che si indica con popolazione attiva nelle rilevazione cen-suarie.

Se si trasformano i dati in valori percentuali si vede la differenza tra daticensuari e campionari:

% disoccupatiCensimento Indicatori campionari Differenza

Centro - Nord 1480/36504=0.0405 1036/36308=0.0285 0.012Sud 1846/20053=0.0921 877/19983=0.0439 0.0482

Sulla misura della popolazione (non essendoci timori di risvolti fiscali) gliscarti sono invece veramente minimi:

Centro Nord : 36504/36308 = 1.0054

Sud : 20053/19983 = 1.0035

Entrambi gli scarti sono inferiori all’1% . . .

SORPRESA: il sud fa’ meglio !

10

Page 13: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

Gli archivi integrati

Vediamo ora un altro modo per costruire dei dati interessanti per lo statisticoche studia i fenomeni economico-sociali. Con l’integrazione di archivi, unapratica che sta prendendo piede in questi ultimi anni, accettata a livelloufficiale ISTAT e non, si hanno i seguenti vantaggi:

- costi limitati

- tempestivita senza rinunciare al dettaglio

- qualita delle informazioni raccolte

Facciamo un semplice esempio per chiarire di che cosa si tratta. Supponiamodi avere 2 archivi, costruiti per fini amministrativi. Come si possono utiliz-zare al meglio le informazioni contenute all’interno di questi 2 archivi?

L’integrazione consiste nell’insieme di procedure che ci permettono di ot-tenere l’Archivio Integrato a partire da due archivi originari. Vi sono tut-tavia alcuni punti da individuare: la necessita di normalizzare gli archivi;la ricerca di una chiave per abbinare (linkage) le unita contenute nei duearchivi; la definizione di una probabilita di abbinamento per i legami noncerti (o probabilistici), infine, l’attribuzione dei caratteri piu probabili alleunita dell’Archivio Integrato.

UTILITA’: Un archivio per l’analisi socio-economica di fenomeni del tipo:

- mortalita d’impresa;

- indagini sulla produttivita;

- altri tipi di indagine.

Vediamo di commentare lo schema seguente.

11

Page 14: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

Oggi, comunque, si raccolgono i dati ed e opportuno che questi siano con-siderati come facenti parte di un sistema informativo.

12

Page 15: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

1.2.1 I sistemi informativi statistici

Come abbiamo visto uno degli obiettivi della Statistica e la raccolta delle in-formazioni. Dobbiamo chiederci a questo punto che cos’e una informazionee che cosa rappresenta l’informazione per la Statistica. Possiamo rispondereche e la sua materia prima, il pane quotidiano, l’ingrediente primario. Allorache differenza c’e fra dati ed informazioni? Facciamo un esempio: 19.224.000e semplicemente un numero, non ci da’ alcun apporto informativo, perche puorappresentare il numero di lampadine prodotte in un anno da una fabbrica,il reddito medio di una categoria di persone in un certo anno, la popolazioneoccupata, residente in Italia nel 1981. L’informazione rappresenta un incre-mento di conoscenza, rispetto al dato/numero puro che, calato in un certocontesto come ad esempio quello della popolazione attiva e occupata in Italia,assume un particolare significato ai fini dll’analisi statistica. Esiste infatti unsottile legame tra dati ed informazioni ed e per questo motivo che e necessariocapire come rendere i dati informativi.

In letteratura il Sistema Informativo Statistico (SIS) e un metodo cono-scitivo capace di ridurre l’incertezza della realta e di raccogliere, archiviare,trasformare e diffondere l’informazione statistica.

A cosa serve il SIS? Vediamo un esempio applicato alle strategie di poli-tiche del lavoro. In questo caso il SIS rende efficiente l’uso dell’informazionesu tre livelli distinti. In primo luogo permette di avere una visione com-pleta e coerente di tutte le politiche, nel senso che evidenzia le interazionifra i diversi provvedimenti. E’ importante capire se un provvedimento le-gislativo e influenzato da un altro o se agisce indisturbato. Questo sara in-fatti determinante nella misurazione dell’effetto di quella politica. In secondoluogo il SIS permette di rilevare un inefficiente uso delle risorse a disposizionequalora si verifichi una compresenza di misure riferite agli stessi destinatari.Potrebbe esserci una sovrapposizione delle opportunita di finanziamento cheprovocherebbe cosı uno scoraggiamento da parte delle imprese a presentaredomanda perche gia in graduatoria nell’assegnazione di altri finanziamenti.Il risultato sarebbe uno spreco di risorse finanziarie da parte, nel nostro caso,dell’Assessorato del Lavoro. In terzo luogo il sistema informativo statisticomette in relazione in maniera corretta politiche e risultati riuscendo a misu-rare gli effetti di ogni singolo provvedimento. Il grande vantaggio del SIS equello di eliminare le ridondanze del sistema trovando le giuste relazioni fragli attori.

Cerchiamo di capire come opera il SIS. E’ in primo luogo un sistema in-formativo, cioe analizza la realta oggetto di studio, per esempio il mercatodel lavoro in Sardegna, ed evidenzia i soggetti, che d’ora in poi chiameremoattori , le loro caratteristiche e i processi che li legano. Il SIS ha il pre-

13

Page 16: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

gio, quindi, in primo luogo di mettere in connessione tutte le informazionidisponibili che si riferiscono ad una stessa realta informativa ed in secondoluogo di trattare in maniera integrata i dati raccolti.

Come si fa a concepire un SIS, qual’e il punto di partenza? Il primo passoe quello di definire i requisiti, cioe le informazioni necessarie per descrivere inmodo corretto ed esaustivo la realta di interesse per il sistema informativo.Riferendoci al mercato del lavoro tale tappa coincide con l’individuazionedi tutte le strutture che contribuiscono a dare vita al mercato del lavoro,quindi gli agenti istituzionali, come gli Assessorati, le Province ed i Comuni,i soggetti privati, cioe le imprese.

Il passo successivo e quello della definizione dei suoi confini interni edesterni. Fondamentalmente per fare questo bisogna capire chi e il commit-tente e chi sono gli utenti ultimi del SIS, cioe chi usufruira del prodotto finito.I bisogni dell’utenza sono infatti l’input, i dati in ingresso che devono esserefiltrati dal sistema informativo statistico per renderli informazioni utili percapire la struttura della realta.

Il terzo passo consiste in una esplorazione delle fonti che hanno dato ori-gine al fenomeno studiato. Sempre in riferimento al mercato del lavoro e inquesta fase che viene intrapresa l’analisi della normativa (compresa quella chedefinisce il ruolo degli attori istituzionali). Queste prime tre tappe permet-tono di elaborare un modello concettuale che strutturi la realta individuandogli attori e le loro caratteristiche. Tuttavia lo sforzo che viene richiesto inquesta fase e quello di cogliere anche le relazioni che legano gli attori fradi loro. L’obiettivo e infatti quello di riuscire a cogliere e rappresentare inmodo semplice ed efficace gli aspetti della realta interessanti ai fini dell’analisistatistica.

La modellazione concettuale e l’anello di congiunzione fra analisi dellarealta e progettazione logica e fisica del SIS. Essa coinvolge quindi da un latogli esperti di dominio, cioe gli interlocutori esperti della realta d’interesse, glistatistici, che si occuperanno dell’aspetto piu tecnico di analisi e di misuradelle relazioni e gli informatici che cureranno, invece, la realizzazione fisicadel database o del portale.

14

Page 17: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

Schema SIS

La fase successiva e quella della modellazione logica, cioe della traduzioneformale del modello concettuale. A questo livello si tiene conto del sistemadi gestione (Data Base Management System DBMS) adottato per la realiz-zazione informatica. Il modello piu frequentemente utilizzato e quello deldatabase relazionale che permette di legare singole tabelle (contenenti attorie loro caratteristiche) definendo delle relazioni. Consideriamo uno dei DB re-lazionali di frequente uso come ACCESS, il quale attraverso il sistema dellequery (operazione di interrogazione guidata) consente di mettere in relazioneinformazioni residenti in tabelle diverse. La fase di modellazione logica hal’obiettivo di consentire una maggiore fruibilita del prodotto finito, cioe deldata base.

L’ultima fase prevede la modellazione fisica del modello logico. Questosignifica che lo schema logico deve essere convertito in schema fisico tenendopresente le particolari caratteristiche hardware e software del sistema in-formatico che si intende utilizzare. A questo livello si distingue, ad esempio,l’impostazione client-server nella quale il client puo solo ricevere informazionida quella peer-to-peer nella quale entrambi gli utenti possono scambiarsi leinformazioni.

15

Page 18: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

L’obiettivo della progettazione fisica e l’efficienza della realizzazione fisicadel sistema informatico. Le diverse fasi possono essere riassunte con lo schemaseguente:

Schema progettazione SIS

La fase che maggiormente coinvolge lo statistico, ovviamente e quella cheriguarda il modello concettuale. Vediamo ora come e possibile modellareun SIS di un provvedimento molto importante, cioe quello che riguarda leIniziative locali per lo sviluppo e l’occupazione 1

1Si tratta dell’art. 19 L.R. 37/98

16

Page 19: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

Analizziamo solamente una parte del SIS dell’art. 19 e vediamo come vienestrutturato:

SIS art.19

I rettangoli rappresentano gli attori, mentre le linee rappresentano le relazionifra attori. Dalla lettura dell’articolo di legge possiamo individuare soggetti everbi che in un ottica SIS diventano attori e relazioni. L’esercizio e quello dicapire che tipo di relazione intercorre fra i singoli soggetti, cioe una relazioneuno a molti o uno a uno. L’esperto di dominio aiuta lo statistico in questafase. Ci si chiede se un Comune puo partecipare ai diversi strumenti dellaProgrammazione integrata, legame uno a molti, ma e anche vero che ad unostesso strumento di Programmazione integrata possono accedere piu Comuni,quindi la relazione e di tipo molti a molti.

Studiamo invece la relazione che coinvolge le attivita produttive che va-lorizzano le risorse locali; questo e un chiaro esempio di legame uno a molti,infatti una stessa unita produttiva puo valorizzare piu risorse locali, ma non evera la relazione inversa, cioe che le risorse locali valorizzano tutte le attivitaproduttive.

Se analizziamo, ad esempio, la relazione riferita alle attivita produttiveche generano posti di lavoro possiamo capire come intervenga il ruolo dellostatistico nella misurazione dei posti creati. Attraverso una valutazioned’impatto possiamo capire se i posti di lavoro creati sono da attribuire

17

Page 20: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

all’intervento dell’art.19 o se si sarebbero creati indipendentemente dal provve-dimento normativo. Il vantaggio di aver costruito un SIS sull’art. 19 e proprioquello di riuscire ad attribuire ad ogni politica il suo effetto.

1.3 Concetti di base

La statistica descrittiva si puo definire come un complesso di metodi checomprendono la raccolta, la presentazione e la caratterizzazione di uninsieme di dati con lo scopo di descriverne le varie caratteristiche inmaniera appropriata.

La statistica inferenziale puo essere definita come il complesso dei metodiche consentono di stimare una caratteristica di una popolazione, oppuredi prendere una decisione che concerne l’intera popolazione, sulla basedei soli risultati campionari.

Per chiarire meglio le definizioni, si rendono necessarie alcune ulteriori defi-nizioni.

Una popolazione (o universo) e l’insieme di elementi o delle “cose” che siprendono in considerazione.

Un campione e la porzione della popolazione che si seleziona per l’analisi.

Un parametro e una misura di sintesi che descrive una caratteristica dell’in-tera popolazione.

Una statistica e una misura di sintesi che si calcola per descrivere unacaratteristica soltanto sulla base di un campione della popolazione.

Individuo o unita statistica: e l’unita di base della rilevazione.

Carattere, ciascun tipo di informazione. Esempio: gli studenti che seguonoun corso di statistica compongono la popolazione, mentre i caratteri sono ilsesso, l’eta, la data di nascita, ecc.

Supponete che il preside della vostra facolta voglia condurre un sondaggio perconoscere le impressioni degli studenti sulla qualita della vita universitaria.La popolazione, o universo, in questo caso si compone di tutti gli studentiattualmente iscritti, mentre il campione consiste dei soli studenti selezionatiper partecipare al sondaggio. Lo scopo del sondaggio e descrivere alcune

18

Page 21: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

caratteristiche dell’intera popolazione (i parametri). Questo viene fatto uti-lizzando le statistiche che si ottengono sulla base del campione di studentiper stimare le caratteristiche di interesse nella popolazione. Pertanto, unodegli aspetti principali della statistica inferenziale consiste nell’utilizzo dellestatistiche campionarie per trarre delle conclusioni circa i parametri dellapopolazione.

L’utilita di ricorrere ai metodi della statistica inferenziale deriva dalleopportunita del campionamento. Quando una popolazione e molto ampia,ottenere informazioni dall’intera popolazione diventa troppo costoso e com-plicato, e in certi casi puo rivelarsi materialmente impossibile. Le valutazionisulle caratteristiche della popolazione si devono dunque basare sulle infor-mazioni contenute in un campione estratto dalla popolazione. La teoriadella probabilita e l’anello di congiunzione, perche consente di determinarela probabilita che i risultati provenienti dal campione riflettano i risultatiottenibili dall’intera popolazione.

Tipi di dati

Gli statistici analizzano una varieta di fenomeni o caratteristiche. Tali feno-meni o caratteristiche si chiamano variabili.

Una variabile e una caratteristica che cambia da persona a persona. Inun’indagine, gli intervistatori sottopongono a ogni soggetto una batteriadi domande come: quanti anni ha? Quanti componenti ha il suo nucleofamiliare? Qual’e il reddito totale della sua famiglia? E’ sposato? Haun’occupazione? Le variabili corrispondenti a tali domande saranno rispetti-vamente: eta, numero di componenti della famiglia, reddito familiare, statoconiugale e stato occupazionale. Ad alcune domande si risponde con un nu-mero (es.: eta, numero di componenti della famiglia, reddito familiare), adaltre con una parola o una frase (es.: single, sposato, vedovo, occupato, dis-occupato, non appartenente alla forza lavoro). Le variabili possono esserequindi qualitative o quantitative.

Le variabili qualitative danno luogo a risposte qualitative, non numeriche,come si o no, maschio o femmina, cattolico, protestante o islamico. Unesempio e dato dalla risposta alla domanda: “Possedete attualmentetitoli di stato?”, infatti si puo rispondere solo si o no.

Le variabili quantitative danno luogo a risposte quantitative, ossia all’in-dicazione di grandezze numeriche, come l’altezza in centimetri in rispostaalla domanda “Quanto siete alti?” oppure: “A quante riviste siete ab-bonati?”. Ci sono due tipi di variabili quantitative:

19

Page 22: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Esercizi I metodi quantitativi

variabili discrete producono risposte numeriche che derivano da unprocesso di conteggio. Es.:“Il numero di riviste a cui si e abbonati”perche la risposta e un numero intero.

variabili continue generano risposte che derivano da un processo dimisurazione. Es.: la vostra altezza, perche la risposta puo as-sumere un qualunque valore nel continuo, a seconda della preci-sione dello strumento di misurazione.

Esercizi

1. Per ognuna delle seguenti variabili, dite se sono qualitative o quantita-tive. Se la variabile e quantitativa dite se il fenomeno di interesse e discretoo continuo.

(a) Numero di telefoni per famiglia (g) Possesso di un telefono cellulare(b) Tipo di telefono usato a casa (h) Numero di telefonate locali fatte(c) Numero di telefonate interurbane ogni mese

fatte al mese (i) Durata (in minuti) della telefonata(d) Durata (in minuti) dell’interurbana locale piu lunga fatta ogni mese

piu lunga fatta ogni mese (l) Esistenza di una linea telefonica(e) Colore del telefono usato collegata a un modem

principalmente (m) Esistenza di una linea telefonica(f) Costo mensile (in euro) delle collegata a un fax

telefonate interurbane fatte

2. Supponete che le seguenti informazioni siano ottenute da studenti inter-vistati all’uscita della libreria dell’universita nel corso della prima settimanadi lezione. Indicate quali sono le variabili qualitative.

(a) Ammontare speso per libri (f) Possesso di un personal computer(b) Numero di libri di testo acquistati (g) Possesso di un videoregistratore(c) Tempo dedicato agli acquisti (h) Numero di corsi seguiti nel semestre(d) Corso di laurea seguito attuale(e) Sesso (i) Mezzo di pagamento

3. Classificate ognuna delle seguenti variabili come qualitative o quantitativee, in quest’ultimo caso, come discrete o continue.

(a) occupazione (c) regione di residenza(b) altezza (d) numero di automobili possedute

20

Page 23: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

1.4 Le rappresentazioni grafiche

Le rappresentazioni grafiche illustrano mediante figure, linee, simboli, gli as-petti piu notevoli di un fenomeno reale. Esse consentono una visualizzazioneimmediata della struttura e dell’andamento del fenomeno e il confronto trapiu distribuzioni, mettendo in evidenza valori anomali.

Prima di passare alle rappresentazioni grafiche occorre definire cosa sianole Distribuzioni di frequenza per caratteri qualitativi e quantitativi discreti.Un primo livello di sintesi consiste nell’associare a ciascuna categoria, omodalita, il numero di volte in cui questa compare nei dati; questo numeroviene detto frequenza assoluta o numerosita; l’insieme delle modalita e delleloro frequenze definisce la distribuzione di frequenza. Date N categorie eindicati con k ≤ N i valori diversi fra loro presenti in esse, la distribuzionedi frequenza e la seguente:

Modalita Frequenzex1 n1

x2 n2

. . . . . .xk nk

n1 indica la frequenza assoluta o numerosita di x1;∑

ni = N dove N e ilnumero delle unita classificate. Si definisce quindi frequenza relativa dellamodalita x1 il rapporto tra la frequenza assoluta ni ed il numero complessivodelle osservazioni effettuate N .

fi =ni

N

Dove:

k∑i=1

fi =k∑

i=1

ni

N=

1

N

k∑i=1

ni =1

NN = 1

L’insieme delle modalita e delle frequenze relative viene detto distribuzionedi frequenza. Le distribuzioni di frequenza possono essere facilmente rap-presentate attraverso dei grafici. La rappresentazione utilizzata differisce aseconda della tipologia di dati esaminati.

21

Page 24: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

1.4.1 Tabelle e grafici per dati quantitativi

Il diagramma gambo-foglia

L’utilita del diagramma gambo-foglia consiste nella sua grande immediatezzavisiva, che ci consente di individuare facilmente intorno a quali valori si con-centrano le osservazioni. Il diagramma gambo-foglia si costruisce dividendociascuna osservazione nella sua parte principale (il “gambo” dell’albero) e inquella secondaria (le “foglie” dell’albero). Si analizzino i dati seguenti:

33 31 39 31 42 42 33 31 37 33 47 34 36 33 34 41 38 31 39 43 51 29 32 35 35

Il fatto che 34 appaia una volta e 42 due volte non mi informa correttamentesulla ripartizione per classi d’eta. Sulla scelta delle classi vediamo ora 2proprieta dei dati quantitativi che permetteranno una presentazione dei datipiu ricca:

1. le modalita sono ordinabili

2. la distanza tra due modalita ha un significato e quindi le basi dei ret-tangoli sono confrontabili.

La prima proprieta permette di riordinare i dati e di rappresentarli con undiagramma gambo-foglia (stem and leaf) dove il gambo e la prima cifra e lefoglie le altre cifre.

25-29 2 9

30-34 3− 1 1 1 1 2 3 3 3 3 4 4

35-39 3+ 5 5 6 7 8 9 9

40-44 4− 1 2 2 3 4

45-49 4+ 7

50-55 5 1

In questa rappresentazione si possono osservare le seguenti caratteristiche:

• campo di variazione: 29-51

• concentrazione dei valori: (30-39)

• assenza di buchi

• distribuzione asimmetrica

22

Page 25: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

In tal modo si puo rappresentare la distribuzione dei dati secondo il carattereconsiderato. L’ordinabilita consente inoltre di cumulare le frequenze. Rove-sciando lo stem and leaf si ottiene un diagramma a barre.

Esempio

La tabella seguente riporta la distribuzione delle altezze (comprese tra 165 e180 cm) di 191 tra gli operai di una fabbrica:

Per rappresentare la distribuzione attraverso un grafico a gambo e foglia, sicostruisce una tabella a due colonne. Nella prima colonna, per ogni altezzarappresentata dalle tre cifre dei centimetri, si riportano le cifre corrispondentialle centinaia e alle decine, mentre nella seconda colonna le relative unita,queste ultime sono indicate tante volte quanti sono gli operai con l’altezzaindicata.

Gambo Foglia16 5 5 5 516 6 6 6 6 616 7 7 7 7 7 7 7 716 8 8 8 8 8 8 8 8 8 8 8 816 9 9 9 9 9 9 9 9 9 9 917 0 0 0 0 0 0 0 0 0 0 0 0 0 017 1 1 1 1 1 1 1 1 1 1 1 1 1 1 117 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 217 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 317 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 417 5 5 5 5 5 5 5 517 6 6 6 6 6 6 6 6 6 6 61717 8 8 8 8 8 8 8 8 8 817 9 9 9 9 9 9 9 9 9 9 9 918 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Diagramma a barre

Vediamo un altro esempio. Costruiamo il diagramma a barre relativo alladistribuzione delle famiglie per numero di componenti.

23

Page 26: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

xi ni

1 502 803 2004 2205 100≥6 150

Istogramma

All’aumentare del numero di osservazioni l’ordinamento e il diagramma gambo-foglia diventano inadeguati a rappresentare il fenomeno e diventa necessariosintetizzare ulteriormente i valori, al fine di presentare, analizzare e inter-pretare correttamente i risultati.

I dati vengono opportunamente divisi in classi o categorie e poi riportatiin forma tabellare, ottenendo una distribuzione di frequenze assolute delleosservazioni.

La distribuzione delle frequenze si puo allora riportare in una tabella incui i dati sono organizzati in opportune classi o categorie.

Nella costruzione della tabella una particolare attenzione merita la sceltadel numero di classi e dell’ampiezza di ciascuna di esse nonche la definizionedei confini tra una classe e l’altra.

La distribuzione delle frequenze relative si ottiene rapportando le fre-quenze assolute della distribuzione delle frequenze al numero delle osser-vazioni. La distribuzione delle percentuali si ottiene poi moltiplicando per100 ciascuna frequenza relativa. Si lavora con le frequenze relative o per-centuali quando si devono fare dei confronti tra piu insiemi di dati, ciascunocon un numero differente di osservazioni.

24

Page 27: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

Un altro metodo utile di presentazione dei dati, in grado di facilitarel’analisi e l’interpretazione dei fenomeni, consiste nella tabella della distri-buzione cumulativa. Questa distribuzione si puo ottenere sia a partire dallefrequenze assolute, sia da quelle relative o percentuali.

L’Istogramma e una rappresentazione grafica di caratteri quantitativicontinui con modalita raggruppate in classi. Esso e costituito da una seriedi rettangoli contigui che si sviluppano su un’asse orizzontale e che hanno labase coincidente con l’ampiezza delle classi in cui si suddividono le modalitadel carattere. L’altezza e uguale o proporzionale alle frequenze (assolute orelative) delle unita statistiche di ciascuna classe, l’area e sempre uguale allefrequenze di classe. Anche quando l’altezza e uguale alla frequenza di classe,per assicurare l’uguaglianza tra area e frequenza, si assume come unita dimisura delle basi l’ampiezza di classe.

Negli istogrammi con classi di modalita di uguale ampiezza i rettangolihanno base uguale all’ampiezza di classe e altezza uguale o proporzionale allafrequenza di classe. La figura seguente riporta l’istogramma della popolazionedegli utenti del sistema formativo (dal nido all’Universita) per classi di etain una regione italiana.

Negli istogrammi con classi di modalita di diversa ampiezza i rettangoli hannobase uguale all’ampiezza di classe e altezza uguale alla densita di frequenza,data dal rapporto tra frequenza e ampiezza di classe; l’area rappresentala frequenza di ogni classe.

25

Page 28: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

Esempio

Costruire l’istogramma relativo alla distribuzione delle aziende per classid’investimento (in migliaia di euro), di seguito riportata:

Classi Numerodi investimento di aziende[30, 50) 24[50, 100) 38[100, 200) 26[200, 300) 32[300, 500] 40

Totale 160

Per costruire un istogramma per la rappresentazione di una variabile stati-stica divisa in classi, e necessario, in primo luogo, calcolare l’ampiezza delleclassi, ottenuta come differenza tra il confine superiore e quello inferioredella classe. Quindi, bisogna calcolare la densita di frequenza di ciascunaclasse, ottenuta come rapporto tra la frequenza e l’ampiezza della classe cor-rispondente. Vanno poi riportate, in un sistema di assi cartesiani ortogonali,sull’asse delle ascisse le modalita relative a ciascuna classe e sull’asse delle or-dinate le densita di frequenza corrispondenti. Infine, vanno costruiti per ogniclasse i rettangoli aventi come base l’ampiezza della classe e come altezza ladensita.

Classi Numero Ampiezza Densitadi investimento di aziende delle classi di frequenza[30, 50) 24 20 1.20[50, 100) 38 50 0.76[100, 200) 26 100 0.26[200, 300) 32 100 0.32[300, 500] 40 200 0.20

Totale 160 - -

26

Page 29: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Esercizi I metodi quantitativi

Esercizi

1. Costruite il diagramma gambo-foglia per i seguenti dati di un campionedi 7 risultati ottenuti dagli studenti nell’esame di statistica (voto max 100):

80 54 69 98 53 74 93

2. Sono di seguito rappresentati i book value (valore delle attivita contabilidell’azienda diviso per il numero di azioni in circolazione) di 50 azioni scam-biate sulla borsa di New York:

7 9 8 6 12 6 9 15 9 168 5 14 8 7 6 10 8 11 4

10 6 16 5 10 12 7 10 15 710 8 8 10 18 8 10 11 7 107 8 15 23 13 9 8 9 9 13

a. Ordinate le osservazioni

b. Costruite il diagramma gambo-foglia

c. Sulla base delle informazioni ottenute ai punti a. e b. potete affermarela prevalenza nel campione di azioni con book value modesti oppure diazioni con book value elevati?

27

Page 30: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Esercizi I metodi quantitativi

d. Ritenete piu facile imbattersi in un’azione con un book value inferiorea 10 dollari oppure in una con book value superiore a 20?

3. Costruite l’istogramma relativo alla seguente distribuzione per classi dieta.

xi ni fi ai di Fi hi

0-5 10 10/75 5 2 0.13 0.0265-8 10 0.13 3 3.3 0.26 0.0438-10 5 0.067 2 2.5 0.327 0.03310-20 20 0.267 10 2 0.6 0.02620-50 30 0.39 30 1 1 0.013

n=75 1

4. Nella figura che segue consideriamo un istogramma della pressione san-guinea, in percentuali per millimetro, di un campione di donne, osservatenell’ambito di un’inchiesta.

28

Page 31: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Esercizi I metodi quantitativi

Siete in grado di rispondere alle seguenti domande? (Costruite la tabelladelle frequenze)

a. Percentuale di donne la cui pressione e > 130 mm e piu vicina a 25, 50o 75%?

b. Quale dei due intervalli corrisponde all’effettivo maggiore (quindi condensita maggiore), 112-113 o 137-138?

c. Qual e la percentuale di donne che hanno una pressione compresa tra120 e 135 mm?

d. A quale delle due classi corrisponde l’effettivo maggiore (con densitamaggiore)? (125-130 / 140-150)

5. L’istogramma seguente rappresenta i salari mensili dei lavoratori part-time. Nessuno guadagna piu di 1.000 $ al mese e il rettangolo corrispondentealla classe 200-500 e stato omesso. Quanto deve essere alto?

29

Page 32: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Esercizi I metodi quantitativi

6. Considerate il seguente istogramma:

Tra le aree disegnate valgono le relazioni:

B = 1.7× A C = 1.5×B D = 0.8×B

Calcolate:

a. le frequenze associate ad ogni classe

b. la densita di frequenza

c. la percentuale di persone che hanno un’eta superiore a 18 anni

30

Page 33: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

1.4.2 Tabelle e grafici per dati qualitativi

Diagramma a canne d’organo

Il diagramma a canne d’organo, e una delle possibili rappresentazioni grafichedei caratteri qualitativi. Ciascuna barra del diagramma rappresenta unamodalita della variabile, e la lunghezza della barra e proporzionale alla fre-quenza o alla percentuale di osservazioni caratterizzate dalla modalita con-siderata. La rappresentazione dei valori attraverso il diagramma a barreconsente di confrontare direttamente le percentuali o le frequenze che cor-rispondono a ciascuna modalita. I dati possono essere visualizzati ma poichesono qualitativi non ordinabili, l’ordine nel grafico e arbitrario quindi non eimportante ai fini dell’analisi.

Consideriamo i seguenti dati, che sono il risultato di una elezione allaquale si presentarono 5 candidati. A, B, B, E, A, D,D,E,A, E, E,C.

i xi ni fi : ni/n

1 A 3 3/12=0.25

2 B 2 2/12 =0.17

3 C 1 0.08

4 D 2 0.17

5 E 4 0.33

n = 12 1

le frequenze assolute (ni) ci permettono di individuare la modalita piufrequente;

le frequenze relative (fi) ci consentono di effettuare dei confronti.

31

Page 34: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

Diagramma a torta

Un altro strumento grafico ampiamente utilizzato per rappresentare datiqualitativi da una tabella di sintesi e il diagramma a torta. Si ottiene div-idendo l’angolo di 360◦ in fette la cui dimensione e proporzionale alla per-centuale di osservazioni che cadono in ciascuna categoria. Il diagramma atorta e il piu visivo e maggiormente utilizzato quando si confrontano, adesempio, i risultati delle elezioni in due anni diversi. Nel caso di caratteriquantitativi l’analisi delle frequenze e della loro rappresentazione grafica ne-cessita di un’operazione: il raggruppamento in classi. Esso riveste una certaarbitrarieta che si rivela, pero, utile quando si presentano casi poco frequenti.

32

Page 35: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Esercizi I metodi quantitativi

Esercizi

1. La distribuzione dei residenti di un piccolo comune per titolo di studio ela seguente:

titolo di studio residenti

analfabeti 1alfabeti 10

elementare 50media inf. 220media sup. 125

laurea 16

Si chiede di:a. definire il carattere, le unita statistiche,la popolazione;b. calcolare le frequenze relative (fi) e percentuali (100fi);c. calcolare le frequenze cumulate (Ni);d. calcolare le frequenze retrocumulate (Ri);

2. I tipi di trasporto preferiti dagli ospiti presenti in un villaggio turisticosono i seguenti:

tipo ospiti

auto 25nave 12

camper 23treno 12aereo 55altro 2

Si chiede di:a. definire il carattere, le unita statistiche,la popolazione;b. calcolare le frequenze relative (fi) e percentuali (100fi);c. calcolare le frequenze cumulate (Ni);d. calcolare le frequenze retrocumulate (Ri);

33

Page 36: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

1.5 Densita di frequenza e funzione di

ripartizione

Riprendiamo nell’ordine alcuni concetti utilizzati nella costruzione e nell’ana-lisi dell’istogramma; tali concetti sono alla base dello studio delle distribuzionidi cui l’istogramma costituisce la rappresentazione grafica nel caso di feno-meni reali, cioe osservati.

- frequenza relativa, ni / n

- densita di frequenza, di = ni

ai

- frequenza cumulata,

j∑i=1

fi

Per avere un’idea dell’andamento della frequenza cumulata si usa la funzionedi ripartizione, cosı definita:

F (x) =

0 per x < x1

Fi per xi < x < xi+1

1 per x ≥ xk

Funzione di ripartizione delle famiglie secondo il numero di componenti inPuglia (linea continua) e in Umbria (linea tratteggiata)

34

Page 37: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

Vediamo come la rappresentazione grafica di piu funzioni di ripartizione per-mette di individuare alcune caratteristiche delle distribuzioni. Si puo notareche:

- entrambe le curve sono crescenti

- entrambe le curve variano tra 0 e 1 e presentano dei salti in corrispon-denza di diverse modalita (la funzione e costante per intervalli)

- le curve crescono piu rapidamente nel tratto iniziale e medio in cui siaddensa la maggior parte delle frequenze

- la funzione di ripartizione dell’Umbria non scende mai al di sotto diquella della Puglia. Significa che, in termini relativi, le frequenze as-sociate alle modalita piu basse sono maggiori in Umbria e quindi ladimensione delle famiglie e sistematicamente minore in Umbria.

Perugia Napoliclassi ni Fi ni Fi

0-10 67.126 0.116 552.471 0.18610-20 79.549 0.254 598.262 0.38820-30 76.689 0.384 461.233 0.54430-40 75.968 0.515 383.322 0.67340-50 78.412 0.650 323.248 0.78350-60 83.735 0.794 296.876 0.88360-75 87.727 0.945 265.173 0.97175-100 31.782 1 81.997 1

35

Page 38: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

Il grafico nella figura precedente rappresenta una distribuzione in classi edil valore della funzione di ripartizione e noto solo in corrispondenza degliestremi delle classi; se si fa l’ipotesi di distribuzione uniforme all’internodelle classi, la funzione diviene una spezzata e all’interno della classe si haun’interpolazione lineare. Alcune osservazioni:

• a parita di ascisse la curva per Napoli e sempre piu elevata: indica cioeche la popolazione e sistematicamente piu giovane;

• l’inclinazione di entrambe le curve si attenua come ci si avvicina alleeta avanzate (i.e. nelle ultime classi si hanno meno effettivi).

Esercizio:

La funzione di ripartizione e definita in R , devo cioe calcolare F (x) perx ∈ (−∞, +∞); l’espressione analitica della funzione di ripartizione e:

F (x) =

0 per x < 183/12 per 18 ≤ x < 198/12 per 19 ≤ x < 20

10/12 per 20 ≤ x < 2111/12 per 21 ≤ x < 22

1 per x ≥ 22

Il grafico e:

36

Page 39: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

Come si puo ottenere il numero di studenti di eta superiore a 21 anni? E’sufficiente procedere cosı:Il numero di studenti di eta inferiore a 21 anni = 1 - 10/12 = 2/12Prima di iniziare l’esercizio seguente e necessaria una precisazione; se la vari-abile e continua si hanno 2 possibilita:

• conosciamo il valore di Fi nei punti estremi delle classi;

– supponiamo di avere una ripartizione uniforme delle fi all’internodella classe

– interpoliamo tra Fi e Fi−1 utilizzando la densita di frequenza

• conosciamo il valore di fi e quindi di Fi in ogni punto dell’intervallo.

Utilizziamo i dati della seguente tabella (tempi di percorrenza casa-universita)e calcoliamo la densita (che nel caso di una variabile continua corrispondeall’altezza dell’istogramma o comunque della curva).

tempo freq. relative densita Fi

(yi, yi+1) fi di

(0,10] 1/12 0.0083 1/12(10,20] 3/12 0.025 4/12(20,40] 6/12 0.025 10/12(40,60] 2/12 0.0083 1

Possiamo ora rappresentare la funzione di ripartizione.

37

Page 40: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

Relazione tra funzione di ripartizione (F(x)) e funzione di densita(f(x))

f(x) =d F (x)

dx

La funzione di densita si puo ottenere derivando la funzione di ripartizione.La derivata prima di una funzione, F ′(x) ci informa sull’andamento dellafunzione e cioe:

F ′(x) > 0 ⇔ CRESCE

F ′(x) < 0 ⇔ DECRESCE

38

Page 41: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

Vediamo alcuni esempi.

Funzione lineare: y = a + bxy′ = b

Funzione quadratica: y = a + bx2

y′ = 2bx2−1 = 2bx

39

Page 42: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I metodi quantitativi

Funzione costante: y = ay′ = 0

La derivata seconda ci informa invece su come la funzione cresce (o decresce),cioe sulla concavita della stessa:

F ′ > 0 ⇒ F cresce

F ′′ < 0 ⇒ F cresce, ma sempre meno

E’ chiaro che per avere F ′′ devo avere almeno una funzione di secondo grado,infatti nel caso di funzione lineare (o di primo grado) la derivata secondasara pari a zero.

y = a + bx y′ = b y′′ = 0

40

Page 43: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I rapporti statistici

I rapporti statistici sono rapporti fra due grandezze legate da una relazionelogica, di cui almeno una di natura statistica. Essi vengono prevalentementecalcolati per eliminare l’influenza di circostanze che, altrimenti, non rendereb-bero confrontabili i dati.

Esempio si voglia confrontare, per un dato anno e con riferimento ad undato Paese, il numero di figli in due gruppi famigliari caratterizzati da diversaeta media dei genitori. Si abbiano le seguenti informazioni:

Eta media Numero Numero

genitori famiglie di figli

26-35 3499 4102

46-55 4013 5966

Non e corretto confrontare il numero di figli dei due gruppi famigliari e con-cludere che i genitori nella classe d’eta 46-55 hanno piu figli, perche e diversoil numero di famiglie. Per eliminare l’influenza della diversa numerosita deidue gruppi si possono calcolare due rapporti dividendo il numero di figli peril numero di famiglie. Si tratta di rapporti statistici perche sia il numeratoreche il denominatore sono dati statistici. Si otterra quindi:

R1 =4102

3499= 1, 172 R2 =

5966

4013= 1, 487

Quale informazione forniscono i due rapporti?

R1 indica il numero medio di figli delle famiglie con genitori “giovani”.

R2 indica il numero medio di figli delle famiglie con genitori “adulti”.

Il confronto fra i due valori R1 e R2 consente di concludere che i genitori“adulti” hanno un maggior numero di figli dei genitori “giovani”. Il signi-ficato del rapporto e immediato: esso indica quanta parte del numeratore

Page 44: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I rapporti statistici

spetta idealmente ad una unita del denominatore.

I rapporti statistici piu utilizzati nelle applicazioni sono:

- I rapporti indici (o numeri indici)

- I rapporti di composizione (o di parte al tutto)

- I rapporti di coesistenza

- I rapporti di densita

- I rapporti di derivazione

- I rapporti di durata

- I rapporti di ripetizione

Vediamone alcuni:

I numeri indice

Nel settore dell’analisi economica assume particolare importanza lo studiodelle variazioni dei principali aggregati (reddito, prezzi, quantita, etc.) nellaloro dinamica temporale e/o spaziale. A volte e ancora piu importanteconfrontare le reciproche variazioni, i livelli di interdipendenza fra tassi dicrescita, etc. Scopo principale dei numeri indici e quello di misurare le varia-zioni di aggregati economici in situazioni diverse, secondo un criterio standardche agevoli i confronti spaziali e/o temporali. Sia pt il prezzo rilevato per uncerto bene al tempo t = 0, 1, . . . , n (settimane, mesi, anni, etc.). Dati dueprezzi ps e pt rilevati in due tempi s, t, si definisce numero indice dei prezzial tempo s rispetto al tempo t la quantita:

tIs =ps

pt

· 100

Tale valore sara maggiore di 100 se ps > pt e l’eccedenza a 100 misureral’incremento percentuale dei prezzi nel periodo da t a s. Al contrario nelcaso in cui tIs < 100.

Esempio

Ad esempio se il prezzo del petto di pollo dal 1997 al 1998 e aumentato da13.500 a 14.000, allora si ha:

1997I1998 =14.000

13.500· 100 = 103.7

42

Page 45: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I rapporti statistici

cioe vi e stato un aumento del 3.7%.Al contrario se il prezzo del latte fresco, dal 1997 al 1998 e sceso da 2.050 a1.950 lire al litro, allora si ha:

1997I1998 =1.950

2.050· 100 = 95.1

cioe vi e stata una diminuzione del 4.9%

Notiamo che gli indici sono positivi, anche nell’ipotesi di diminuzione deiprezzi, ed inoltre danno luogo a numeri puri, cioe non dipendono dall’unitadi misura del fenomeno.

Rapporti di durata

Alcuni fenomeni collettivi sono soggetti a rinnovamento periodico a causa diimmissioni e di uscite di unita che avvengono dal loro interno.

ESEMPI: depositi bancari, merce di un magazzino, abitanti di un paese.Per tali fenomeni e interessante conoscere la durata media di permanenzanel collettivo degli elementi omogenei elementari che concorrono nel tempoa costituire il fenomeno collettivo.

Se ammettiamo che in un intervallo di tempo sia costante la consistenzadel fenomeno e sia pure costante la parte del fenomeno che periodicamentee soggetta a rinnovarsi, il rapporto fra tali quantita si chiama rapporto didurata ed esprime la durata media di permanenza nel collettivo delle unitaelementari che costituiscono il suo rinnovamento periodico.

Se indichiamo con:

C0 : consistenza del fenomeno al principio del periodoC1 : consistenza del fenomeno alla fine del periodoE : quantita in ingresso all’inizio del periodoU : quantita in uscita alla fine del periodo

allora, considerate le due quantita:

C0 + C1

2= consistenza media

E + U

2= flusso medio

Il rapporto di durata e dato da:

D =C0+C1

2E+U

2

=C0 + C1

E + U

43

Page 46: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I rapporti statistici

Il reciproco del rapporto di durata si chiama rapporto di ripetizione.

Esempio

In un magazzino in data 01.01.1990 sono presenti merci per un valore di 450milioni di lire; alla data del 31.12.1990 le merci presenti hanno un valore di550 milioni di lire. Nell’anno considerato sono entrate merci per un valoredi 600 milioni e ne sono uscite per un valore di 550 milioni. La permanenzamedia di una lira investita nelle merci del magazzino risulta:

D =450 + 550

600 + 550= 0.8696 anni cioe 317 giorni.

I rapporti di composizione

Sono chiamati anche rapporti di parte al tutto. Si ottengono rapportandouna intensita (o una frequenza) parziale all’intensita (o frequenza) totale. Ilrisultato in genere viene moltiplicato per 100 ottenendo i rapporti percentu-ali.

In una distribuzione di frequenze consentono di confrontare l’incidenza(il contributo) di ciascuna modalita alla numerosita totale. Essi quindi nonsono altro che le frequenze relative.

In una distribuzione di quantita consentono di valutare il contributo allaquantita totale di una categoria, di una classe, ecc.

Esempio

Consumi di energia elettrica per categoria di utilizzatori (milioni di kwh).Italia 1980.

Categorie di utilizzatori Consumi (milioni kwh) Consumi %Agricoltura 2.594 1.59Industria 100.007 61.11Trasporti e telecomunicazioni 5.937 3.63Commercio, servizi e pubblica 14.450 8.83amministrazioneIlluminazione pubblica 2.548 1.56Usi domestici 38.109 23.28Totale 163.645 100.00

I rapporti di composizione permettono, in quanto numeri puri, di fare con-fronti temporali o confronti spaziali.

44

Page 47: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

3.1 Introduzione

La rappresentazione dei dati, sebbene sia una componente essenziale dellastatistica descrittiva, non e di per se esaustiva. Quando si considerano datiquantitativi, non e sufficiente presentare adeguatamente i dati e trarre in-dicazioni su questi a partire dall’osservazione di tali rappresentazioni. Unabuona analisi dei dati richiede anche che le caratteristiche principali delleosservazioni siano sintetizzate con opportune misure e che tali misure sianoadeguatamente analizzate e interpretate.

Molte sono le misure che rappresentano le caratteristiche di posizione, divariabilita e di forma e che quindi possono essere utilizzate in ogni analisi ointerpretazione per riassumere le caratteristiche principali di un insieme didati.

Gli indici di posizione, o medie, sintetizzano la posizione di una distribu-zione di frequenza mediante un valore reale rappresentativo della globalitadel fenomeno e tale da riassumere gli aspetti ritenuti piu importanti. Diseguito si esaminano le misure di posizione: media, mediana e moda.

3.2 Media

DEFINIZIONE: Si dice che M e la media di n dati x1, . . . , xn assume lostesso valore quando al posto di x1, . . . , xn si pone M . Ossia, la media equella quantita che, sostituita a ciascuna modalita del carattere, lascia inal-terata una proprieta. Quindi i dati, a seconda del tipo di media che si vuolcalcolare, saranno legati da una relazione del tipo f(x1, . . . , xn).

Nella Media Aritmetica la relazione e la somma

x1 + x2 + . . . + xn = M + M + . . . + M︸ ︷︷ ︸n V OLTE

Page 48: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

n∑i=1

xi = n ·M

M =

∑xi

nSe alcune modalita si ripetono piu frequentemente di altre si usa la MediaAritmetica ponderata

M =

∑xi · ni

n=

∑xi · fi

Esempio

Calcolare il peso medio di questi quattro sacchi: 10, 12, 20, 26 (misure inKg). Il peso e infatti un carattere additivo (sommabile)

10 + 12 + 20 + 26

4=

68

4= 17 Kg x1 ≤M ≤ xn

Esempio

xi ni fi

1 15 15/804 25 25/806 32 32/807 8 8/80

80 1

M =

∑xi · ni

n=

363

80= 4.5375 Media ponderata

M =1 + 4 + 6 + 7

4=

18

4= 4.5 Media semplice

In questo caso il risultato non e molto diverso, ma se dovessi cambiare i pesi,come nell’esempio successivo, allora i valori sarebbero molto diversi:

xi ni

1 324 256 157 8

80

M =278

80= 3.475

46

Page 49: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

Oltre alla media aritmetica e possibile definirne anche delle altre che di voltain volta lasciano inalterata una proprieta diversa:

La Media Geometrica e utile soprattutto quando si voglia calcolare la me-dia di processi di tipo moltiplicativo (inflazione, remunerazione del capitale,crescita di popolazioni) su vari periodi di tempo.

Nella Media Geometrica la relazione e il prodotto

x1 · x2 · . . . · xn = M ·M · . . . ·M︸ ︷︷ ︸n V OLTE

= Mn

Mediag = n√

x1 · . . . · xn = n

√√√√ n∏i=1

xi

Mediag ponderata = n√

xn11 · . . . · xnn

n

Se si usano le frequenze relative la Mg ponderata diventa:

Mediag ponderata =1

√xf1

1 · . . . · xfnn =

n∏i=1

xfi

i

Esempio

Calcolare il tasso medio di variazione dei prezzi del pane dal 1980 al 1985.

8180

= 1.065 ; 8281

= 1.098 ; 8382

= 1.052 ; 8483

= 1.110 ; 8584

= 1.015

Verifichiamo se le grandezze sono moltiplicative:

V81

V80· V82

V81· V83

V82dopo aver semplificato si ottiene V83

V80che e ancora un numero

indice.

Questa proprieta dei numeri indice si chiama TRANSITIVITA’.

47

Page 50: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

Mg = 5√

1.065 · 1.098 · . . . · 1.015 = 5√

1.38598 = 1.06746→ 6.746%

La Media Armonica si usa, ad esempio, quando si voglia calcolare la ve-locita media in un tragitto, conoscendo le velocita medie tenute sui variintervalli spaziali che costituiscono il tragitto.

Nella Media Armonica la proprieta che rimane inalterata consiste nellasomma dei reciproci. Questo tipo di media si utilizza quando, ad esem-pio, le grandezze sono inversamente proporzionali:

1

x1

+ . . . +1

xn

=1

M+ . . . +

1

M

∑ 1

xi

= n · 1

M=

n

M

Ma =n∑

1xi

Mediaa ponderata =n∑

ni

xi

Esempio

Consideriamo un paniere di n beni con rispettivi n prezzi. Supponendo dispendere sempre S indipendentemente dalle quantita acquistate, e cioe:

p1 =S1

q1

p2 =S2

q2

. . . pn =Sn

qn

ponendo S1 = S2 = . . . = Sn = S

il prezzo medio sara cosı calcolato:

Spesa tot.

Quantita acq.=

STOT

QTOT

=n · S∑

qi

Se si considera che:

∑qi =

S

p1

+ . . . +S

pn

48

Page 51: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

Si ottiene:

n · S∑Spi

=n∑

1pi

che e la media armonica dei prezzi.

In questo primo caso pi e qi sono inversamente proporzionali. Supponiamoora che S sia direttamente proporzionale alla quantita acquistata e cioe sispende: S1 per acquistare una quantita q del bene 1 S2 per acquistare unaquantita q del bene 2 . . . Sn per acquistare una quantita q del bene n.Il prezzo medio sara sempre cosı calcolato:

Prezzo medio =STOT

QTOT

=

∑Si

q + . . . + q=

∑Si

n · q=

p1 · q + . . . + pn · qn · q

poiche q non cambia si puo mettere in evidenza

p =q ·

∑pi

n · q=

∑pi

nmedia aritmetica dei prezzi

Consideriamo infine le Medie Potenziate:

Si definisce media potenziata di ordine r di una variabile quantitativa Xl’espressione:

Mr = {M(Xr)}1r =

{1

n

n∑i=1

xri

} 1r

Ponendo nell’equazione precedente

r = 1r = 2r = -1r → 0

Si ottengono rispettivamente:

la media aritmetica,

49

Page 52: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

la media quadratica,la media armonica,la media geometrica se limr→0 Mr = Mg.

Vediamo la media quadratica:

x21 + . . . + x2

n = M2 + . . . + M2 = n ·M2

∑x2

i

n= M2

Mq =2

√∑x2

i

n

Se invece si considera la somma dei cubi:

x31 + . . . + x3

n = M3 + . . . + M3 = n ·M3

∑x3

i

n= M3

Mc =3

√∑x3

i

n

La media potenziata di ordine k sara:

Mk =k

√∑xk

i

n

Riassumendo, M , la media di n dati x1, . . . , xn e quel valore che sostituitoai singoli x1, . . . , xn lascia inalterata una proprieta.

SOMMA → Media aritmetica

PRODOTTO → Media geometrica

SOMMA DEI RECIPROCI → Media armonica

SOMMA DEI QUADRATI → Media quadratica

SOMMA DEI CUBI → Media cubica

50

Page 53: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

Esempio

A partire dai dati che seguono si calcolino i diversi tipi di medie.

xi ni fi x2i xni

i ni/xi x2i · ni xi · ni

3 1 0.0833 9 3 0.333 9 35 3 0.25 25 125 0.6 75 159 4 0.33 81 6561 0.444 324 3612 2 0.166 144 144 0.166 288 2415 2 0.166 225 225 0.133 450 30

12 1∏n

i=1

∑= 1.676

∑= 1146

∑= 108

M =∑ xi · ni

n=

108

12= 9

Mg = n√

xn11 · . . . · xnn

n =12√

3 · 125 · . . . · 225 =12√

79716 · 106 = 8.09957

Ma =n∑

ni

xi

=12

1.676= 7.1599

Mq =

√∑x2

i · ni

n=

√1146

12=√

95.5 = 9.77241

Tutte le medie sono comprese tra 3 e 15 (valore piu piccolo e valore piugrande delle modalita).

3.2.1 Alcune proprieta della media

La media e un OPERATORE LINEARE:

omogeneita, M(k · x) = k ·M(x)

additivita, M(x + y) = M(x) + M(y)

51

Page 54: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

Dimostrazione:

M(k · x) =

∑k · xi

n= k ·

∑xi

n= k ·M(x)

M(x + y) =

∑(xi + yi)

n=

∑xi

n+

∑yi

n= M(x) + M(y)

Media di una TRASFORMAZIONE LINEARE

Sia y = a + b · x una trasformazione lineare. La media di y sara quindi:

M(y) = a + b ·M(x)

Dimostrazione:

dati i valori x1, . . . , xn allora yi assumera i seguenti valori:

y1 = a + bx1 , . . . , yn = a + bxn

Sommando membro a membro:

y1 + . . . + yn = (a + bx1) + . . . + (a + bxn)

∑yi = a + . . . + a︸ ︷︷ ︸

n volte

+b∑

xi

e dividendo per n si ottiene:

yi

n= n · a

n+ b ·M(x) ⇐⇒ M(y) = a + b ·M(x)

52

Page 55: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Esercizi Gli indici di posizione

Esercizi

1. E’ dato un insieme di 10 valori. Ogni valore puo essere 1, 2, 3. Qualedovrebbe essere questo insieme affinche la media valga 1? E affinche valga3? La media potrebbe valere 4?

2. Quale di questi due insiemi di valori ha la media maggiore? Oppure hannola stessa media? Cercate di rispondere senza effettuare calcoli.

a) 10, 7, 8, 3, 5, 9.

b) 10, 7, 8, 3, 5, 9, 11.

3. 10 persone in una stanza hanno un’altezza media pari a 168 cm. Un’undi-cesima persona, alta 195 entra nella stanza. Trovate la media delle 11 per-sone.

4. Ventuno persone in una stanza hanno un’altezza media pari a 168 cm.Una ventiduesima persona entra nella stanza. Quanto dovrebbe essere altaquesta persona affinche l’altezza media salga di 2 cm?

53

Page 56: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

3.3 Altri indici di posizione: Moda e

Mediana

Il valore modale o moda, e il piu semplice valore di posizione ed e calcolabileper qualunque tipologia di dati considerati.

Per caratteri qualitativi o quantitativi discreti la moda e la modalita a cuie associata la massima frequenza. Se le modalita a cui e associata la massimafrequenza sono due o piu di due, si parlera di distribuzioni bimodali, trimodaliecc.

Nel caso di variabili continue si lavora con dati riclassificati; se le classihanno la stessa ampiezza, si individua la classe modale in corrispondenzadella massima frequenza (fi); se le classi hanno ampiezze diverse si assumecome classe modale quella a cui compete la massima densita di frequenza (di

oppure fi/ai).

Esempio

Nella seguente distribuzione sono indicati gli appartamenti di un condominio(ni) ed il numero di stanze (xi).

xi 1 2 3 4 5 6 7 8 tot

ni 11 49 81 86 38 14 4 3 286

fi 0.038 0.171 0.283 0.301 0.133 0.049 0.014 0.010 1

Considerato che la frequenza massima (86) corrisponde alla modalita 4, siavra che la moda (Mo) = 4.

La media invece si puo calcolare come somma delle frequenze relative (fi):

M = 0.038+0.343+0.850+1.203+0.664+0.294+0.098+0.084 = 3.573

54

Page 57: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

In una sequenza di dati ordinati dal piu piccolo al piu grande la medianao valore mediano, Me, occupa la posizione intermedia. La mediana e quelvalore che bipartisce in parti uguali la totalita delle frequenze; e il valore dixi a cui corrisponde sulla cumulata delle frequenze il valore 0.5.

Utilizzando dati discreti:

se il numero di osservazioni (n) e dispari: il termine mediano (o centrale)e quello che corrisponde all’osservazione di rango (o posizione)(n + 1)/2;

se il numero di osservazioni (n) e pari: sia n = 2h, allora la mediana e,per convenzione, uguale alla media aritmetica dei due termini in posizionecentrale:

h =n

2h + 1 = n

2+ 1 quindi Me = xh+xh+1

2

Utilizzando dati continui raggruppati in classi, si individua innanzitutto laclasse mediana, cioe quella nella quale si arriva al 50% delle frequenze; siopera quindi per interpolazione all’interno della classe mediana, sotto l’ipotesiche al suo interno le frequenze siano ripartite in maniera uniforme. Conside-riamo la seguente distribuzione per classi di eta:

xi ni ci ai di fi Fi

[0-5) 10 2.5 5 0.133 2 0.133[5-8) 10 6.5 3 0.133 3.3 0.266[8-10) 5 9 2 0.067 2.5 0.333[10-20) 20 15 10 0.267 2 0.600[20-50) 30 35 30 0.400 1 1

La media (x)1 per dati raggruppati in classi si calcola sostituendo alle xi ilvalore centrale della classe, ci:

x :∑

ci · fi

x = (2.5 · 10 + 6.5 · 10 + 9 · 5 + 15 · 20 + 35 · 30)/75 =

= 25 + 65 + 455 + 300 + 1050 = 1485/75 = 19.8

Mo = [5− 8) corrisponde alla classe con densita di frequenza maggiore

Me = 75/2 = 37.5 quindi la classe mediana e: [10− 20)

1si indica con x il valore medio di dati campionari.

55

Page 58: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

Interpolazione all’interno della classe mediana

Per le variabili continue, il raggruppamento in classi delle modalita consentedi determinare solo la classe mediana nella quale ricade l’unita statistica chebipartisce la distribuzione ordinata delle modalita. Un singolo indice sinteticopuo essere ottenuto approssimando la funzione di ripartizione attorno allamediana.

Il modo piu semplice e quello di ipotizzare un’approssimazione lineare checonduce alla determinazione della mediana mediante la formula:

Me− xMe−1

xMe − xMe−1

=0.5− FMe−1

FMe − FMe−1

56

Page 59: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

Me− xMe−1 =0.5− FMe−1

FMe − FMe−1

(xMe − xMe−1)

Me = xMe−1 +0.5− FMe−1

FMe − FMe−1

(xMe − xMe−1)

Utilizzando questa regola calcoliamo la Me dell’esercizio precedente.

Me = 10 +0.5− 0.33

0.6− 0.33(20− 10) = 10 +

0.17

0.27· 10 = 10 + 6.29 = 16.29

Quale indicatore utilizzare per sintetizzare un insieme di numeri?MEDIA O MEDIANA?

1 2 3 4 5 1 2 3 4 50 -100 2 3 4 5

M = Me = M = Me = M = Me =

In alcune situazioni e consigliato l’uso della mediana. In particolare quandofanno parte della nostra distribuzione dei dati “strani” o meglioABERRANTI che possono riflettere:

errori di misura

comportamenti anomali

57

Page 60: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

Posizione di Moda, Media e Mediana nelle distribuzioni unimodali

Un altro indice di posizione che considera pero solo i valori estremi presidalla variabile e il Midrange, che e dato dalla media tra la piu piccola e lapiu grande delle osservazioni di un insieme di dati. Si calcola sommando ilvalore piu piccolo e quello piu grande e dividendo per due:

Midrange =Xpiu′ piccola + Xpiu′ grande

2

I quartili sono le misure di posizione non centrale piu ampiamente usate.Vengono impiegati in particolar modo quando si sintetizzano o si descrivonole caratteristiche di ampi insiemi di dati quantitativi. Mentre la mediana eun valore che divide a meta la serie ordinata delle osservazioni, i quartili sonomisure descrittive che dividono i dati ordinati in quattro parti. Altri quantiliusati di frequenza sono i decili, che dividono i dati ordinati in dieci parti, e ipercentili, che dividono i dati ordinati in cento parti.

Il primo quartile, Q1 e il valore tale che il 25% delle osservazioni e piupiccolo di Q1 e il 75% e piu grande di Q1.

Q1 = osservazioni di posto(n + 1)

4nella serie ordinata

58

Page 61: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

Il terzo quartile, Q3 e il valore tale che il 75% delle osservazioni e piupiccolo di Q3 e il 25% delle osservazioni e piu grande di Q3.

Q3 = osservazioni di posto3(n + 1)

4nella serie ordinata

La Media interquartile e una misura di sintesi che viene utilizzata per evitarei problemi che possono sorgere in presenza di valori estremi. La media in-terquartile data dalla media tra il primo e il terzo quartile dell’insieme deidati.

Media interquartile =Q1 + Q3

2

Un modo efficace di rappresentare una distribuzione attraverso solo alcunidei suoi valori e il boxplot o diagramma riassuntivo a 5 valori. Vediamo comesi costruisce:

1. Si calcolano i valori Q0 (= xmin), Q1, Q2 (= Me), Q3, Q4 (= xmax);

2. Si disegna una scatola di estremi Q1 −Q3, tagliata sulla mediana;

3. Si calcolano i valori: a = Q1 − 1.5(Q3 −Q1) e b = Q3 + 1.5(Q3 −Q1)

4. Si calcolano i valori: α = minimo dei valori maggiore di a; β = massimodei valori minori di b

59

Page 62: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

5. Si disegnano i baffi sui valori α e β

6. I valori oltre a e b sono disegnati con dei puntini.

Esempio

Peso delle femmine

49 50 50 51 51 52 52 52 53 53 53 53 55 55 55 55 56 56 57 58 58 60 60 60 6263 63 64 65 65 67 69 69 70 70 78 82

Q0 = 49 ∆Q = 11

Q1 = 53 a = 35.75

Q2 = Me = 57 α = 49

Q3 = 64 b = 81.75

Q4 = 82 β = 78

60

Page 63: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

Peso dei maschi

53 56 60 60 64 65 67 68 68 69 69 70 72 72 72 74 75 75 75 75 78 78 78 78 7980 93 84 88 88 88 92 96 98

Q0 = 53 ∆Q = 12

Q1 = 68 a = 50

Q2 = Me = 75 α = 53

Q3 = 80 b = 98

Q4 = 98 β = 98

61

Page 64: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Gli indici di posizione

62

Page 65: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

4.1 Indici di dispersione

Una caratteristica importante di un insieme di dati e la variabilita. La varia-bilita e la quantita di dispersione presente nei dati. Due insiemi di dati pos-sono differire sia nella posizione che nella variabilita; oppure, come mostratoin figura, possono essere caratterizzati dalla stessa variabilita, ma da diversamisura di posizione;

o ancora, come mostra questa figura, possono essere dotati della stessa misuradi posizione, ma differire notevolmente in termini di variabilita.

Page 66: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

Date le seguenti distribuzioni di voti {1, . . . , 6 }

A Bxi fi xi fi

1 1/40 1 4/402 3/40 2 8/403 16/40 3 8/404 16/40 4 8/405 3/40 5 8/406 1/40 6 4/40

1 1

Le due distribuzioni possono essere confrontate:

secondo la media: A) M=3.5 ; B) M=3.5

secondo la variabilita del carattere intorno alla media.

Il grafico permette di intuire che la distribuzione B e piu dispersa.

Come misurare la variabilita?

Prenderemo in considerazione cinque misure di variabilita: il range, il rangeinterquartile, la varianza, lo scarto quadratico medio e il coefficiente di va-riazione.

Range o campo di variazione

Il range e la differenza tra l’osservazione piu grande e quella piu piccola in uninsieme di dati. E’ importante sottolineare che il range deve assumere semprevalori maggiori di zero. Quindi dobbiamo considerare il valore assoluto:

64

Page 67: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

Range = |Xmin −Xmax|

Il range interquartile e la differenza tra il terzo e il primo quartile in uninsieme di dati:

Range interquartile = |Q3 −Q1|

Varianza e scarto quadratico medio

Sebbene il range sia una misura della dispersione totale e il range interquar-tile una misura della dispersione centrale, nessuna di queste due misure divariabilita tiene conto di come le osservazioni si distribuiscano o si concen-trino intorno a una misura di tendenza centrale, come ad esempio la media.Consideriamo percio due misure della variabilita, la varianza (σ2) e lo scartoquadratico medio ( σ, radice quadrata della varianza), che sintetizzano ladispersione dei valori osservati attorno alla loro media.

σ2 =1

n

n∑i=1

(xi −M)2 σ2 =

∑ni=1(xi −M)2ni∑n

i=1 ni

(La seconda formula si usa quando alcuni scarti si ripetono piu frequente-mente di altri).

Una difficolta nella interpretazione della varianza deriva dal fatto che essa eespressa nell’unita di misura del fenomeno elevato al quadrato. Per questomotivo si usa lo scarto quadratico medio (o deviazione standard) e cosıdefinito:

σ =

√√√√ 1

n

n∑i=1

(xi −M)2

Esempio

Utilizzando le precedenti distribuzioni A) e B) calcoliamo la varianza e loscarto quadratico medio:

65

Page 68: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

Axi fi (xi −M)2 (xi −M)2 · fi

1 0.025 6.25 0.15632 0.075 2.25 0.16883 0.4 0.25 0.14 0.4 0.25 0.15 0.075 2.25 0.16886 0.025 6.25 0.1563

1 0.8502

Bxi fi (xi −M)2 (xi −M)2 · fi

1 0.1 6.25 0.6252 0.2 2.25 0.453 0.2 0.25 0.054 0.2 0.25 0.055 0.2 2.25 0.456 0.1 6.25 0.625

1 2.25

σ2A) = 0.8502 σA) = 0.9221

σ2B) = 2.25 σB) = 1.5

Si puo confermare l’intuizione grafica: nella classe B) i voti sono maggior-mente dispersi intorno alla media.

Coefficiente di variazione

La varianza e lo scarto quadratico medio sono indici assoluti per cui e op-portuno introdurre indici relativi o normalizzati. Un indice relativo moltousato, purche la media sia maggiore di zero (M > 0), e il rapporto tra loscarto quadratico medio σ e la media aritmetica M . Si tratta del coefficientedi variazione CV :

CV =σ

M=

√1n

∑ni=1(xi −M)2

M=

√√√√ 1

n

n∑i=1

(xi −M

M

)2

L’ultima espressione mostra che il coefficiente di variazione puo anche es-sere interpretato come la radice quadrata della media quadratica degli scartirelativi rispetto alla media aritmetica, cioe delle quantita: (Xi−M)

M= ( xi

M)−1.

Scostamento semplice medio dalla media e dalla mediana

Talvolta viene anche proposto lo scostamento semplice medio: S(M) =1n

∑ni=1(xi − M); questa non e pero una buona misura perche la somma

degli scarti positivi annulla quella degli scarti negativi dando sempre luogoad una media nulla1. Questo inconveniente puo essere evitato ignorando tuttii segni negativi e facendo la media dei valori assoluti degli scarti:

S(M) =1

n

n∑i=1

|xi −M |

1S(M) = 1n

∑(xi −M) = 1

n (∑

xi −∑

M) = 1n

∑xi − 1

n (nM) = M −M = 0

66

Page 69: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

∑|xi −M | 6= 0 ma non permette di mettere in evidenza gli scarti maggiori,

percio si usa il quadrato,∑

(xi−M)2 6= 0 e si accentuano gli scarti maggiori.La somma dei quadrati degli scarti e minima quando gli scarti sono calcolatida M .

Dimostrazione:

Sia A 6= M∑(xi −M)2 ≤

∑(xi − A)2

ma∑

(xi − A)2 =∑

[(xi −M) + (M − A)]2

il secondo membro della precedente equazione e uguale a:∑(xi −M)2 +

∑(M − A)2︸ ︷︷ ︸

>0

+ 2 · (M − A) ·∑

(xi −M)︸ ︷︷ ︸=0︸ ︷︷ ︸

=0

quindi∑

(xi − A)2 =∑

(xi −M)2 + . . .︸︷︷︸>0

Come varia∑

(xi − A)2 in funzione di A?

• innanzitutto per valori equidistanti da M ,∑

(xi − A)2 e uguale.

• siccome il valore che si aggiunge e elevato al quadrato la funzione avraun andamento esponenziale.

esempio: xi = {2, 3, 7, 12}; M = 244

= 6

∑(xi − 6)2 = 62

∑(xi − 5)2 =

∑xi − 7)2 = 66

∑(xi − 4)2 =

∑(xi − 8)2 = 78

67

Page 70: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

In conclusione la somma degli scarti al quadrato e un minimo quando gliscarti sono misurati rispetto alla media e cresce esponenzialmente comel’indicatore medio di riferimento cambia.

Si puo anche calcolare lo scostamento semplice medio dalla mediana (semprein valore assoluto):

S(Me) =1

n

n∑i=1

|xi −Me|

che e il minimo fra tutti i possibili scarti assoluti.

Verifica

xi ni Ni xi · ni |xi −Me|4 5 5 20 48 8 13 64 010 2 15 20 214 4 19 56 620 1 20 20 12

20 180

xi |xi −Me|ni |xi −M | |xi −M |ni

4 20 5 258 0 1 810 4 1 214 24 5 2020 12 11 11

60 66

M =

∑xi · ni

n=

180

20= 9 Me =

10◦ + 11◦

2= 8

S(M) =

∑|xi −M | · ni

n= 3.33 S(Me) =

∑|xi −Me| · ni

n= 3

68

Page 71: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

S(Me) < S(M)

Per confrontare la variabilita di due distribuzioni aventi un’unita di misuradiversa oltreche per costruire degli indicatori relativi (vedi coefficienti di va-riazione) si divide l’indice di variabilita per il corrispondente indicatore ditendenza centrale:

S(M)

M=

∑|xi −M |/n∑

xi/n

S(Me)

Me=

∑|xi −Me|/n

Me

Le proprieta della varianza

1) σ2 = M(x2)− [M(x)]2 la varianza e pari alla media aritmetica deiquadrati meno il quadrato della media aritmetica.

Dimostrazione:

σ2 =

∑(xi −M)2

n=

∑[x2

i − (2 · xi ·M) + M2]

n=

=

∑x2

i − 2 ·M ·∑

xi + n ·M2

n=

∑x2

i − 2 ·M · n ·M + n ·M2

n=

=

∑x2

i − 2 · n ·M2 + n ·M2

n=

∑x2

i − n ·M2

n=

∑x2

i

n−M2 =

= M(x2)− [M(x)]2

2) σ2(k) = 0

3) σ2(k · x) = k2 · σ2(x)

Dimostrazione:

σ2(k · x) = M · [k · x−M(k · x)]2 = M · [k · x− k ·M(x)]2 =

= k2 ·M · [x−M(x)]2 = k2 · σ2(x)

69

Page 72: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

4) σ2 · (k + x) = σ2(x)

σ2 · (k + x) = M · [k + x−M(k + x)]2 = M · [k + x− k −M(x)]2 =

M · [x−M(x)]2 = σ2(x)

5) sia y = a + bx

σ2(y) = σ2(a + bx) = σ2(a)︸ ︷︷ ︸=0

+b2 · σ2(x) = b2 · σ2(x)

6) sia z = x + y

σ2(z) = σ2(x) + σ2(y) + 2σxy

Se x e y sono incorrelate, allora σ2(z) = σ2(x) + σ2(y)

Le differenze medie

Le differenze medie sono indici di mutua variabilita che esaminano le dif-ferenze tra le modalita prese a due a due e ne operano una sintesi tramiteuna opportuna media. La differenza semplice media e un indice assoluto dimutua variabilita ottenuto operando i confronti tra le n modalita prese adue a due, non considerando i confronti tra ciascuna modalita e se stessa(n(n− 1) confronti in tutto) e facendo la media aritmetica delle differenze.

∆ =

∑ni=1

∑nj=1 |xi − xj|

n(n− 1)

La differenza semplice media con ripetizione e un indice assoluto di mutuavariabilita ottenuto operando i confronti tra le n modalita a due a due, con-siderando anche i confronti tra ciascuna modalita e se stessa (n2 confronti intutto) e facendo la media aritmetica delle differenze.

∆R =

∑ni=1

∑nj=1 |xi − xj|n2

70

Page 73: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

4.2 Indici di concentrazione

La concentrazione e una misura della mutua variabilita, cioe della variabilitatra ogni possibile modalita di una variabile e tutte le altre. Prima di definirele situazioni limite di concentrazione e necessario sottolineare a quali variabili(e fenomeni) si puo applicare un’analisi di concentrazione.

Una variabile quantitativa si dice trasferibile se puo passare (materialmenteo idealmente) da un possessore ad un altro. Esempi di variabili trasferibilisono il reddito e la popolazione.

Indichiamo con T =∑n

i=1 yi il totale posseduto da n unita statistiche. Laconcentrazione studia il modo in cui l’ammontare totale T si distribuisce frale n classi. E’ utile considerare due situazioni estreme:

concentrazione minima (ovvero equidistribuzione): le n unita statis-tiche possiedono uguale quantita della variabile

yi =T

n=

∑ni=1 yi

n= y

concentrazione massima: una unita possiede il totale e le altre n − 1possiedono un ammontare nullo della variabile

yn = T

yi = 0 (i = 1, . . . , n− 1).

Il reddito di un paese e tanto piu concentrato quanto piu il reddito com-plessivo e posseduto da una frazione modesta delle unita statistiche, ovveroquanto piu poveri vi sono in quel paese. La concentrazione cresce con ilcrescere della frazione di unita statistiche che possiede il carattere in misurainferiore alla media ovvero con il diminuire delle unita statistiche che pos-siedono il carattere in misura superiore alla media; cioe quando da una si-tuazione di maggiore equidistribuzione si passa ad una situazione in cui unpiccolo numero di unita statistiche possiede una parte rilevante del totale.

4.2.1 Rappresentazione grafica: Lorenz (1904) e Gini(1914)

Si consideri una distribuzione unitaria i cui termini sono non negativi e dis-posti in ordine crescente:

0 ≤ a1 ≤ a2 ≤ . . . ≤ ai ≤ . . . ≤ an

71

Page 74: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

Consideriamo le prime unita (i), che saranno le piu povere e confrontiamocio che esse possiedono con cio che ad esse spetterebbe in una situazione diequidistribuzione, in cui ai = µ (ogni unita possiede esattamente il valoremedio). Definiamo2:

Ai = a1 + . . . + ai e A∗i = µ + . . . + µ = iµ

Se dividiamo per l’ammontare complessivo del carattere, An

An = a1 + . . . + ai + . . . + an = nµ = A∗n

si ottiene:

Qi =Ai

An

Pi =A∗

i

An

=iµ

nµ=

i

n

Pi =numero delle unita

unita totaliQi = % del carattere posseduto dalle prime i unita

Vale la relazione:Ai

i︸︷︷︸media sino ad i

≤ An

n︸︷︷︸media generale

Che puo essere cosı trasformata:

iAn

Ai

i≤ An

ni

An

Ai

An≤ i

n

Qi ≤ Pi

Qi e tanto piu vicino a Pi quanto piu siamo prossimi alla situazione di equidis-tribuzione. Consideriamo nel seguente esercizio la concentrazione della popo-lazione tra le 5 province del Lazio (1990):

i ai Ai Pi Qi

Rieti 1 146 146 0.2 0.028

Viterbo 2 278 424 0.4 0.082

Latina 3 471 895 0.6 0.174

Frosinone 4 483 1378 0.8 0.267

Roma 5 3778 5156 1 1

2In generale si indica con un asterisco (*) una situazione ipotetica, virtuale di riferi-mento. In questo caso A∗

i rappresenta cio che spetterebbe alle prime i unita in situazionedi equidistribuzione

72

Page 75: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

Si riportano in un grafico i valori di Pi e Qi ottenendo la spezzata di Lorenz.

Vediamo di seguito come si legge il grafico:

- Sulla bisettrice si trovano i punti tali che pi = qi.

- L’area tra la bisettrice e la spezzata di Lorenz e la curva di concen-trazione.

- Interpretazione dell’area: piu e grande, maggiore e la concentrazione.

- Esempio: nelle 3 province piu piccole risiede il 17.4% contro il 60%(equidistribuzione).

Consideriamo ora il caso in cui il carattere (trasferibile) sia ripartito in classi:e cioe noto l’ammontare Xi del carattere posseduto congiuntamente dalle ni

unita che appartengono alla classe i.

73

Page 76: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

Fatturato ni Xi Ni PN(i) AN(i) QN(i)

(milioni euro)

0–1 144 87 144 0.158 87 0.0158

1–5 457 1168 601 0.660 1255 0.2286

5–10 171 1200 772 0.847 2455 0.4472

10–25 112 1757 884 0.970 4212 0.7672

≥ 25 27 1278 911 1 5490 1

Le aziende della prima classe (cioe il 15.8% delle aziende totali) contribuis-cono solo al 1.58% del fatturato totale.

E’ necessario sottolineare che negli esempi abbiamo considerato 2 fenomenidiversi a cui corrispondono 2 diverse curve di concentrazione tra di loro nonconfrontabili.

Nei due esempi ci si e limitati a considerazioni grafiche che in alcuni casi per-mettono comunque di osservare la dinamica dei fenomeni di concentrazione.E’ tuttavia opportuno affiancare al grafico una misura della concentrazionee nel nostro caso pare naturale una misura dell’area compresa tra la retta diequidistribuzione e la spezzata di Lorenz. Come si procede?

Nel caso di distribuzioni unitarie l’area puo essere scomposta nella sommadi n trapezi; in particolare l’i− esimo trapezio ha basi pari a Pi−1 −Qi−1 ePi −Qi e altezza costante pari a 1

n

74

Page 77: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

Area Si : ((Pi −Qi) + (Pi−1 −Qi−1))︸ ︷︷ ︸somma delle 2 basi

· 1

n︸︷︷︸altezza

·12

Ricorda: Area del trapezio = ((BMA + BMI)× h)/2

La somma delle aree di questi n trapezi puo cosı scriversi:

n∑i=1

[(Pi−Qi) + (Pi−1−Qi−1)]1

n· 12

=1

2n[

n∑i=1

(Pi−Qi) +n−1∑i=0

(Pi−Qi)] =

75

Page 78: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

se si considera che (Pn −Qn) = 0 . . . e anche (P0 −Q0)

=1

2n[n−1∑i=1

(Pi −Qi) +n−1∑i=1

(Pi −Qi)] =1

n

n−1∑i=1

(Pi −Qi)

Se dividiamo S per il valore massimo che puo prendere l’area di concen-trazione si ottiene un indice che varia tra 0 e 1. Qual’e questo valore mas-simo? Corrisponde alla meta dell’area del quadrato di lato unitario, cioe1/2.

Quindi g =2

n

n−1∑i=1

(Pi −Qi)

. . . ma siccome tale area non e proprio uguale a 1/2, divideremo per n-1:

g =2

n− 1

n−1∑i=1

(Pi −Qi)

Riprendiamo ora il primo esercizio, quello sulla concentrazione della popo-lazione, e otteniamo:

g =2

4[(0.2− 0.028) + 0.318 + 0.426 + 0.533] = 0.7245

Questo valore indica un grado di concentrazione molto elevato, pari al 72%della concentrazione massima.

Nel caso di distribuzioni in classi si avra invece un’area, scomposta in unnumero di trapezi uguale al numero delle classi considerate. L’altezza nonsara piu costante ma sara uguale a PN(i) − PN(i−1) = fi︸ ︷︷ ︸

vedi grafico

S sara quindi uguale a:

S =1

2

k∑i=1

[(PN(i) −QN(i)) + (PN(i−1) −QN(i−1))]fi

Anche in questo caso il valore di massima concentrazione puo essere approssi-mato ad 1/2 per cui si puo calcolare un rapporto di concentrazione: R = 2S.Riprendiamo i dati del secondo esempio:

76

Page 79: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

fi PN(i) −QN(i) PN(i−1) −QN(i−1) (B1 + B2) · fi

0.158 0.1422 0 0.022470.502 0.4314 0.1422 0.287950.188 0.4008 0.4314 0.156450.123 0.2028 0.4008 0.074240.029 0 0.2028 0.00588

0.54799 ↔ R

In questo secondo caso la concentrazione e pari al 55% della concentrazionemassima.

Esercizio

Analizzare in quale settore (A o B) vi e maggiore concentrazione degli addettifra le imprese.

settore A settore Bn.addetti n.imprese n.addetti n.imprese

3 5 2 55 5 3 510 4 10 412 5 12 520 1 35 1

20 20

Si legge cosı: nel settore A 5 imprese su 20 hanno 3 addetti; altre 5 ne hanno5 e cosı via.

Calcolate il numero medio di addetti e la varianza.

Indichiamo con:

X = addetti del settore A

Y = addetti del settore B

77

Page 80: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

Xi ni

3 55 510 412 520 1

20

Yi ni

2 53 510 412 535 1

20

M(X) =3× 5 + 5× 5 + . . . + 20× 1

20=

160

20= 8

V (X) =

∑X2

i ·fi︷ ︸︸ ︷M(X2)−(M(X))2 =

=32 · 5 + 52 · 5 + 102 · 4 + 122 · 5 + 202 · 1

20− 82 = 20.5

M(Y ) =10 + 15 + 40 + 60 + 35

20= 8

V (Y ) = M(Y 2)−(M(Y ))2 =4× 5 + 9× 5 + . . .

20−64 = 125.5−64 = 56.5

Le medie sono uguali ma la variabilita e maggiore nel settore B.

Cio e dovuto alla presenza di una impresa con ben 35 addetti. Possiamoquindi supporre che nel settore B ci sara maggiore concentrazione!?!

Riportiamo i dati necessari alla costruzione della curva di concentrazione:

A Bfi Fi(Pi) Qi fi Fi(Pi) Qi

0.25 0.25 15/160 0.25 0.25 10/1600.25 0.50 40/160 0.25 0.50 25/1600.20 0.70 80/160 0.20 0.70 65/1600.25 0.95 140/160 0.25 0.95 125/1600.05 1 1 0.05 1 1

78

Page 81: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

Effettivamente nel settore B vi e maggiore concentrazione (l’area di concen-trazione e piu grande) e in questo caso per confrontare i 2 settori e sufficientecostruire il grafico, non e cioe necessario calcolare R. Consideriamo ora un3◦ settore le cui imprese hanno le seguenti dimensioni (per numero di addetti):

settore Cn.addetti n.imprese

2 55 58 410 543 1

20

La concentrazione degli addetti e maggiore nel settore B o nel settore C?Chiamiamo Z il numero di addetti in C e scriviamo:

79

Page 82: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

Zi ni Fi(Pi) Qi

2 5 0.25 10/1605 5 0.50 35/1608 4 0.70 67/16010 5 0.95 117/16043 1 1 1

M(Z) = (10 + 25 + 32 + 50 + 43)/20 = 8

V (Z) = (20 + 125 + 256 + 500 + 1919)/20− 64 = 141− 64 = 77

In effetti si ha una maggiore variabilita in C piuttosto che in B, ma perquanto riguarda la concentrazione e necessario costruire la curva:

In questo caso le due curve si intersecano, quindi il grafico non basta piu,bisogna calcolare un indice di concentrazione:

B:

fi PN(i) −QN(i) PN(i−1) −QN(i−1) Π0.25 0.25-0.0625 0 0.0460.25 0.50-0.15625 0.1875 0.1320.20 0.70-0.40625 0.34375 0.1160.25 0.95-0.78125 0.29735 0.1150.05 0 0.16875 0.008

R = 0.457

80

Page 83: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

C:

fi PN(i) −QN(i) PN(i−1) −QN(i−1) Π0.25 0.25-0.0625 0 0.0460.25 0.50-0.2187 0.1875 0.1170.20 0.70-0.4187 0.2813 0.1120.25 0.95-0.7312 0.2813 0.1250.05 0 0.2188 0.01

R = 0.401

In effetti, anche se di poco, nel settore B si osserva una maggior concen-trazione che nel settore C.

Le aziende di un settore sono classificate per classi di fatturato e formagiuridica:

y SPA SNC SAS altrex1-5 0 122 15 23 1605-10 3 87 45 35 17010-30 25 1 10 14 5030-50 12 0 0 8 20

40 210 70 80 400

Confrontiamo la concentrazione del fatturato nelle SPA e nelle SNC. At-tenzione, conosciamo il numero di aziende che appartiene ad ogni classe difatturato ma non il loro fatturato che puo essere stimato, come?

Ricordatevi dell’ipotesi che usualmente si fa quando si calcola la media perdati raggruppati in classi. Si ipotizza che vi sia una distribuzione uniformecon densita uguale in tutto l’intervallo e si prende come rappresentativo dellaclasse il punto centrale della stessa. Con tali ipotesi si ottiene:

81

Page 84: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

SPA

f in

iN

iP

Ni

xi

AN

iQ

Ni

PN

i−

QN

iP

Ni−

1−

QN

i−1

(B+

b)·h

1-5

00

00

00

00

00

5-10

0.07

53

30.

075

22.5

22.5

0.02

20.

053

00.

0039

10-3

00.

625

2528

0.7

500

522.

50.

521

0.17

90.

053

0.14

4930

-50

0.3

1240

148

010

02.5

10

0.17

90.

0537

R=

0.20

25

SN

Cf i

ni

Ni

PN

ix

iA

Ni

QN

iP

Ni−

QN

iP

Ni−

1−

QN

i−1

(B+

b)·h

1-5

0.58

112

212

20.

581

366

366

0.35

20.

229

00.

1328

5-10

0.41

487

209

0.99

565

2.5

1018

.50.

981

0.01

40.

229

0.10

0910

-30

0.00

51

210

120

1038

.51

00.

014

030

-50

00

210

10

1038

.51

00

0R

=0.

2337

82

Page 85: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

4.3 Asimmetria e Curtosi

Per un insieme comprendente un numero n di dati (xi), e possibile esprimerelo scostamento della distribuzione dei dati, rispetto alla distribuzione gaus-siana teorica, ricorrendo al coefficiente di asimmetria g1 e al coefficiente dicurtosi g2:

asimmetria negativa (g1 < 0) cioe coda destra della distribuzione eccessi-vamente lunga;

asimmetria positiva (g1 > 0) cioe coda sinistra della distribuzione ecces-sivamente lunga;

platicurtosi (g2 < 0) cioe distribuzione eccessivamente appiattita, con codetroppo corte;

leptocurtosi (g2 > 0) cioe distribuzione eccessivamente alta, con code trop-po lunghe;

normocurtosi (g2 = 0) cioe “piatta” come una normale.

Gli indici di forma si calcolano basandosi sul metodo dei “momenti attornoalla media”. In statistica i “momenti” sono dei parametri che caratterizzanola distribuzione. Utilizziamo ora i primi quattro momenti attorno alla media:

- momento di ordine primo (m1): e dato dalla sommatoria degli scartidalla media elevati per 1 ed il risultato e diviso per n (la numerositacampionaria).

m1 =

∑(xi − x)1

n= 0

Il momento di ordine primo (m1) vale sempre zero, abbiamo gia vistocome la sommatoria degli scarti della media da come risultato zero.

- momento di ordine secondo (m2): e uguale alla “varianza non corretta”;si ottiene dalla sommatoria degli scarti dalla media elevati per 2 ed ilrisultato e diviso per n (la numerosita del campione).

m2 =

∑(xi − x)2

n

- momento di ordine terzo (m3): e dato dalla sommatoria degli scartidalla media elevati per 3 ed il risultato e diviso per n, la numerositadel campione. In una curva simmetrica m3 = 0, mentre in una curva

83

Page 86: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

asimmetrica m3 puo assumere un segno positivo o negativo. Se m3 epositivo (+m3) indica che la sommatoria degli scarti positivi e maggioredella sommatoria degli scarti negativi: questo indica una asimmetriasinistra con la coda piu lunga che cade a destra. Se m3 e negativo (−m3)indica che la sommatoria degli scarti negativi e superiore a quella degliscarti positivi: questo indica una asimmetria destra con la coda piulunga che cade a sinistra.

m3 =

∑(xi − x)3

n

- momento di ordine quarto (m4): e dato dalla sommatoria degli scartidalla media elevati per 4 ed il risultato e diviso per n (la numerositadel campione). E’ il parametro attraverso il quale analizziamo le carat-teristiche della curtosi.

m4 =

∑(xi − x)4

n

Conoscendo il momento di ordine secondo (m2), il momento di ordine terzo(m3) e il momento di ordine quarto (m4) intorno alla media, e possibilecalcolare i valori del coefficiente di asimmetria e del coefficiente di curtosi:

coefficiente di asimmetria: g1 =m3

m2 ·√

m2

coefficiente di curtosi: g2 =m4

(m2)2− 3

L’errore standard (s1) del coefficiente di asimmetria e l’errore standard (s2)del coefficiente di curtosi sono calcolate rispettivamente come:

s1 =

√6

n; s2 =

√24

n

Il coefficiente di asimmetria, se positivo, indica una coda sinistra eccessiva-mente lunga, se negativo indica una coda destra eccessivamente lunga. Pervalutarne la significativita si impiega il rapporto fra il coefficiente di asimme-tria ed il suo errore standard: se e maggiore di 2 l’asimmetria va consideratacome significativa.

Il coefficiente di curtosi, se positivo, indica una distribuzione eccessiva-mente alta, con code troppo lunghe, se negativo indica una distribuzioneeccessivamente appiattita, con code troppo corte. Per valutarne la signi-ficativita si impiega il rapporto fra il coefficiente di curtosi ed il suo errorestandard: se e maggiore di 2 la curtosi va considerata come significativa.

84

Page 87: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

Vediamo qualche esempio grafico

Se la coda piu lunga e a sinistra della media, cioe esistono molti valori conforti scarti negativi e pochi valori con deboli scarti positivi, si parla di asim-metria negativa e si vuole che il valore dell’indice di asimmetria assuma segnonegativo.

Nel caso opposto (molti valori con forti scarti positivi, pochi con deboli scartinegativi), si parla di asimmetria positiva e si vuole che il valore dell’indice diasimmetria assuma segno positivo.

Quando invece gli scarti negativi sono bilanciati da quelli positivi avremouna distribuzione simmetrica che avra un indice di asimmetria uguale a 0.

85

Page 88: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

Vediamo un esempio di curtosi negativa (platicurtica)

ed ora un esempio di curtosi positiva (leptocurtica)

. . . ancora un altro esempio

86

Page 89: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

87

Page 90: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Misure di variabilita

Utilizzando i dati della tabella precedente calcoliamo gli indici di asimmetriae di curtosi e valutiamo la loro significativita. Innanzitutto calcoliamo x chee uguale a 53.6. Calcoliamo quindi i vari momenti. Il momento di ordinesecondo:

m2 =

∑(xi − x)2

n=

57840.32

50= 1156.806

Il momento di ordine terzo:

m3 =

∑(xi − x)3

n=

4148723.482

50= 82974.47

Possiamo ora calcolare il coefficiente di asimmetria g1:

m3

m2 ·√

m2

=82974.47

1156.806 ·√

1156.806= 2.109

Il coefficiente di asimmetria e positivo quindi la distribuzione mostra unaasimmetria positiva. Per valutarne la significativita dobbiamo pero calco-lare il rapporto con la sua deviazione standard. La deviazione standard delcoefficiente di asimmetria si calcola con la seguente formula:

s1 =

√6

n=

√6

50= 0.346

il rapportog1

s1

=2.109

0.346= 6.09 > 2

Calcoliamo adesso il momento di ordine quarto:

m4 =

∑(xi − x)4

n=

586095182.1

50= 11721903.64

Possiamo ora calcolare il coefficiente di curtosi:

g2 =m4

(m2)2− 3 =

11721903.64

(1156.806)2− 3 = 5.759

Il coefficiente di curtosi e positivo quindi la distribuzione mostra un anda-mento leptocurtico. Pero per valutarne la significativita dobbiamo calcolareil rapporto con la sua deviazione standard. La deviazione standard del coef-ficiente di curtosi si calcola con la seguente formula:

s2 =

√24

n=

√24

50= 0.693

da cui si ottiene il rapporto:

g2

s2

=5.759

0.693= 8.313 > 2

88

Page 91: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

Iniziamo lo studio dei fenomeni bivariati cioe di quei fenomeni che possonoessere caratterizzati studiando congiuntamente due variabili (X,Y). Vediamoinnanzitutto a cosa corrisponde graficamente:

Nel grafico ogni individuo e rappresentato da un punto avente due coordinate.

Page 92: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

In questo grafico, invece, si rappresenta nella terza dimensione l’intensita ofrequenza associata ad ogni punto (che in questo caso ha due coordinate).Andiamo con ordine, innanzitutto si rilevano, per ogni unita statistica, 2caratteri e poi si ordinano i dati in tabelle a doppia entrata:

y1 . . . yi . . . yq

x1 n11 . . . n1i . . . n1q...

...xi ni1 . . . nii . . . niq...

...xp np1 . . . npi . . . npq

di dimensioni p × q, dove nij ∈ N rappresentano le frequenze congiunteassolute e vale:

∑i

∑j

nij =∑

j

∑i

nij = N

Le modalita dei caratteri xi , yi possono essere di tipo qualitativo o quantita-tivo; se X e Y sono entrambe quantitative si parla di tabella di correlazione,altrimenti si parla di tabella di contingenza.

Procediamo con un esempio. Consideriamo le 2 distribuzioni doppie, riferitea 2 collettivita:

collettivita (a)X Y2 12 12 14 24 24 24 26 36 36 3

collettivita (b)X Y2 12 12 24 14 24 24 36 26 36 3

Le modalita possono essere tabulate in tabelle a doppia entrata:

90

Page 93: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

(a)y 1 2 3

x2 3 0 0 34 0 4 0 46 0 0 3 3

3 4 3 10

(b)y 1 2 3

x2 2 1 0 34 1 2 1 46 0 1 2 3

3 4 3 10

Come si possono evidenziare le frequenze congiunte?

Sui margini ritroviamo le distribuzioni di frequenza dei 2 caratteri X,Y epossiamo cosı calcolarci alcune statistiche descrittive ormai note:

xa = (2 · 3 + 4 · 4 + 6 · 3)/10 = 4

xb = (2 · 3 + 4 · 4 + 6 · 3)/10 = 4

ya = (1 · 3 + 2 · 4 + 3 · 3)/10 = 2

yb = (1 · 3 + 2 · 4 + 3 · 3)/10 = 2

σ2xa

= M(x2a)− (M(xa))

2 =

184︷ ︸︸ ︷(4 · 3 + 16 · 4 + 36 · 3)

10− 16 = 2.4

σ2xb

= M(x2b)− (M(xb))

2 = 2.4

σxa = 1.549 = σxb

σ2ya

= M(y2a)− (M(ya))

2 =

46︷ ︸︸ ︷(1 · 3 + 4 · 4 + 9 · 3) /10− 4 = 0.6

σ2yb

= 0.6

σya = σyb= 0.775

Vediamo di rappresentare graficamente i 2 casi indicando con cerchi di di-ametro maggiore i punti cui corrispondono frequenze maggiori:

91

Page 94: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

Dal disegno si vede che in (a) la connessione tra i 2 caratteri e maggiore chein (b), ma come si puo misurare la connessione?

Analizziamo la variabilita congiunta di X e Y; innanzitutto spostiamo l’originedegli assi nel punto (x, y) di modo che nel nuovo sistema le coordinate deipunti saranno xi − x, yi − y e vediamo 3 casi limite:

Consideriamo la somma dei prodotti∑

i(xi − x)(yi − y); nel caso (1) questasomma sara > 0 perche i punti sono tutti in I dove moltiplico scarti entrambipositivi o in IV dove moltiplico scarti entrambi negativi; nel caso (2) talesomma sara invece < 0 perche’ sia in II che in III moltiplico scarti positivicon scarti negativi . . . e nel caso (3) tale somma avra un valore prossimo a 0.

Ma, come si puo confrontare tale valore nei 2 casi seguenti (4) e (5)?

92

Page 95: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

. . . bisogna semplicemente dividere il tutto per la numerosita rispettiva, siottiene allora, la covarianza:

cov(x, y) = σxy =

∑(xi − x)(yi − y)

N

oppure utilizzando le frequenze congiunte di una tabella a doppia entrata:

cov(x, y) =

∑i

∑j(xi − x)(yj − y)nij

N

La covarianza non e altro che una media dei prodotti degli scarti di x e ydalle rispettive medie, calcoliamola:

(a) :

−2︷ ︸︸ ︷(2− 4)

−1︷ ︸︸ ︷(1− 2) ·3+(4−4)(2−2)·4+

2︷ ︸︸ ︷(6− 4)

1︷ ︸︸ ︷(3− 2) ·3 = (6+0+6)/10 = 1.2

(b) :

−2︷ ︸︸ ︷(2− 4)

−1︷ ︸︸ ︷(1− 2) ·2+(2−4)

0︷ ︸︸ ︷(2− 2) ·2+

0︷ ︸︸ ︷(4− 4)(1−2)·1+

0︷ ︸︸ ︷(4− 4)(2−2)·2+. . . +

(6− 4)(2− 2) · 1 +

2︷ ︸︸ ︷(6− 4)

1︷ ︸︸ ︷(3− 2) ·2 = (4 + 4)10 = 0.8

In questo caso, 2 collettivita di dimensioni uguali, la covarianza permettedi misurare la connessione dei 2 caratteri e come avevamo “intuito”, nellacollettivita (a) tale connessione e maggiore che in (b). Se le modalita hannoinvece dimensioni diverse, allora la covarianza e una misura inefficiente.

93

Page 96: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

5.1 La correlazione

L’idea e di “standardizzare” le covarianze per avere una misura della con-nessione che non dipenda dalle dimensioni di X e Y (vedi coefficiente divariazione) e cio puo essere ottenuto calcolando il coefficiente di correlazionelineare (di Bravais - Pearson):

ryx =

∑i(xi − x)(yi − y)

Nσxσy

oppure, considerando la tabella e doppia entrata:

ryx =

∑i

∑j(xi − x)(yj − y)fij

σxσy

∑i

∑j fij

Calcoliamo il coefficiente nei due casi:

(a) :1.2

1.549× 0.775' 1 (b) :

0.8

1.549× 0.775' 0.667

In pratica mentre cov(x, y) ∈ (−∞, +∞), rxy ∈ [−1, 1]; chiaramente pero secov(x, y) = 0 allora rxy = 0 e in questo caso si dice che non vi e correlazionelineare tra X e Y.

In sintesi:

per r = 1 si ha il massimo di correlazione diretta

per r = -1 si ha il massimo di correlazione inversa

per r = 0 non si ha correlazione

La correlazione si dice diretta se ai valori crescenti di una variabile corrispon-dono valori pure crescenti dell’altra variabile, ad esempio reddito e consumi,altezza e peso. La correlazione si dice inversa se ai valori crescenti di unavariabile corrispondono valori decrescenti dell’altra variabile, ad esempio al-titudine e pressione atmosferica.

Ritorniamo ora alle tabelle a doppia entrata e consideriamo le medie con-dizionate, cioe:

M(x/y = 1) = ? → estraiamo la colonna corrispondente a y=1

94

Page 97: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

(a):

x fi

2 34 06 0

M(x/y = 1) = (6 + 0 + 0)/3 = 2

(b):

x fi

2 24 16 0

M(x/y = 1) = (4 + 4 + 0)/3 = 8/3 ' 3

in effetti se vi e connessione tra le 2 variabili la media condizionata (con lacondizione) sara diversa dalla media non condizionata, nel caso in cui invecetali medie coincidano; questo significa che l’imposizione di una condizionesul calcolo della media non modifica il risultato del calcolo e si potra quindiconcludere circa l’indipendenza delle 2 variabili.

Presentiamo ora una maniera statistica per decidere sulla dipendenza oindipendenza di 2 caratteri, non necessariamente quantitativi. Consideriamoad esempio la collettivita in (b) rappresentata nella tabella a doppia entrata(pag. 88); si tratta di una tabella di frequenze osservate. Posso ora immag-inare di costruire una tabella di frequenze teoriche, che corrisponderebbe alcaso in cui vi sia perfetta indipendenza dei 2 caratteri e poi, per finire possocostruirmi una misura della ”distanza” tra queste 2 tabelle per verificare setale distanza sia frutto del caso o sia sistematica; in questo secondo casorivelerebbe un legame tra i 2 caratteri.

Andiamo in ordine. Per costruire la tavola teorica si utilizza la condizione difattorizzazione:

fij = fi · fj ∀i, j

che mi dice che le frequenze congiunte possono essere ottenute come prodottodelle frequenze marginali.

N.B. Quando vedremo le principali regole del calcolo delle probabilita,sentirete parlare di indipendenza stocastica o di regola del prodotto. Inquesto caso se 2 eventi sono indipendenti la probabilita che si verifichino en-trambi e data dal prodotto delle probabilita associate ai singoli eventi.

Esempio: (dal Cicchitelli/Perrone)

Si consideri la seguente distribuzione secondo il sesso e l’atteggiamento neiconfronti del fumo dedotta da un indagine effettuata su 191 soggetti.

95

Page 98: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

AtteggiamentoSesso Favorevoli Contrari Indifferenti

M 9 55 19 83F 10 71 27 108

19 126 46 191

Costruiamo innanzitutto la tabella delle frequenze teoriche:

Sesso Favorevoli Contrari IndifferentiM (19 · 83)/191 = 8.26 54.75 19.99 83F 10.74 71.25 26.01 108

19 126 46 191

Distanza tra le 2 tabelle; in generale la misura della distanza e un numeroreale (∈ R) che riassume la vicinanza o similarita di due punti. Nel nostrocaso per misurare la distanza tra due tabelle cioe tra i diversi elementi di 2tabelle, si utilizza la distanza del χ2 cosı definita:

χ2 =∑

i

∑j

(nij − nij)2

nij

dove nij sono le frequenze teoriche. Il χ2 e allora uguale a:

(9− 8.26)2

8.26+

(55− 54.75)2

54.75+

(19− 19.99)2

19.99+

(10− 10.74)2

10.74+

+(71− 71.25)2

71.25+

(27− 26.01)2

26.01= 0.21

Se dividiamo questo valore per 191 (totale delle frequenze) si ottiene l’indicedel χ2, che risulta essere pari a 0.0011. Questo valore indica una connessionemolto debole, praticamente inesistente, tra i due caratteri.

96

Page 99: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

5.2 La regressione

Regredire significa “variare in conseguenza di”; la regressione di y rispettoad x significa studiare la relazione y = f(x). Si studia la regressione linearesemplice, cioe il modello di regressione rappresentato dalla forma:

y = a + bx

dove a e l’intercetta e b e il coefficiente angolare della retta y. Il modello ecio che permette di spiegare la realta, cioe i dati che si osservano ma e chiaroquindi che a meno di casi molto fortunati si avra:

y = a + bx + e

dove e rappresenta l’errore. Questo termine, come vedremo in seguito, sin-tetizza errori sulla forma funzionale scelta e sulle variabili esplicative con-siderate. Questo significa che i punti non giaciono esattamente sulla retta,o in altri termini, che il modello spiega la y a meno di un errore la cui en-tita determinera poi la affidabilita dello stesso. Vediamo di esemplificaregraficamente

In a) e rappresentato il caso piu frequente in cui i punti (di coordinate x ey) si disperdono nello spazio assumendo una forma di nuvola. In b) invecee rappresentato il caso molto fortunato in cui i punti si allineano lungo unaretta.

Piu generalmente, nel caso della regressione multipla si ha:

y = f︸︷︷︸qualsiasi

(x1, . . . , xn)← numero di regressori o variabili indipendenti

97

Page 100: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

Ritorniamo al caso della regressione lineare semplice e puntualizziamo: comela nuvola di punti puo essere approssimata da una retta o in altri terminicome si puo far passare una retta in una nuvola di punti e come la stessa puomigliorare la capacita di rappresentarli tutti?

Di seguito sono rappresentate due rette diverse che passano attraverso unastessa nuvola di punti

L’esempio grafico sottolinea che se non si utilizza un criterio, risulta impos-sibile scegliere tra le due rette. Come primo criterio consideriamo la mini-mizzazione della distanza tra i punti osservati e i punti sulla retta o puntistimati.

i) Min∑

(yi − yi) = Min∑

ui (residui)

In questo caso il criterio adottato ci farebbe scegliere b) (perche la sommadegli errori positivi compensa quella degli errori negativi). Scegliamo alloraun altro criterio:

ii) Min∑

i

|yi − yi|

98

Page 101: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

In tal caso b) sarebbe preferito (la somma vale 3 che e minore di 4) anche see evidente che e preferibile a) perche la retta passa in mezzo alla nuvola dipunti. Consideriamo ora il criterio dei minimi quadrati ordinari (M.Q.O.).

Min∑

(yi − yi)2 = Min

∑(yi − a− bxi)

2 = Min S

si calcolano le derivate rispetto ad a e b e si eguagliano a zero.

∂aS = −2

∑(yi − a− bxi) = 0

∂bS = −2

∑[xi(yi − a− bxi)] = 0

La soluzione di questo sistema (due equazioni e due incognite) permette diottenere i seguenti valori di a e b:

b =

∑(xi − x)(yi − y)∑

(xi − x)2⇔ σx,y

σ2x

a = y − bx.

Interpretazione dei coefficienti.

a e l’intercetta della retta, e quel valore di y quando x = 0, su di essa siscarica gran parte della nostra ignoranza (sulla forma funzionale cosıcome sui regressori).

b e il coefficiente di regressione che ci informa su come varia y al variaredi x.

99

Page 102: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

Esempio

Per interpretare i coefficienti vediamo un esercizio sulla relazione tra prezzodel pane (xi) e il prezzo della pasta (yi). I dati si riferiscono a 20 regionid’Italia; i valori medi e i parametri della retta sono:

x = 582; y = 619;

b = 0.1252; a = y − bx = 619− 0.1252(582) = 546.13

⇒ y = 546.13 + 0.1252 · xe cioe il prezzo della pasta e “composto” di una parte costante (' 546.16lire) e una parte che dipende (' 13%) dal prezzo del pane.

Vediamo di seguito alcuni casi particolari:

1. In presenza di “outliers” (dati aberranti), bisogna fare molta attenzioneall’uso della retta in termini previsivi. La soluzione consiste in:

a) Eliminazione del dato

b) Tecniche di regressione robusta, basata sul concetto di mediana piut-tosto che su quello di media.

100

Page 103: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

2. Pericolo di estrapolazione (quando supponiamo che il modello sia lineareanche se in effetti non lo e):

a)

b)

In questo caso si parla di regressione degenerata; il punto a destra attira laretta ma potrebbe anche rappresentare un errore di misura.

101

Page 104: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

Concludiamo ora sulla valutazione dei risultati e un primo aspetto importantee quello legato a R2, coefficiente di determinazione, che fornisce una misuradella qualita dell’aggiustamento della retta sui dati. In riferimento al graficosi puo considerare la yi come somma delle due componenti yi e ui :

yi = yi + ui oppure yi − yi = ui

yi = valore effettivo; yi = valore teorico; ui = errore.

Tutto cio e vero anche per dati centrati (rispetto al valore medio):

yi = y − y (vedi operazioni di standardizzazione)

se eleviamo al quadrato e sommiamo, si ottiene:

∑y2

i =∑

(y2i + 2yiui + u2

i ), consideriamo∑

yiui

∑yiui =

∑yi(yi − yi) =

∑yiyi −

∑y2

i

102

Page 105: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

ma se i dati sono centrati si ha yi = bxi (si dimostra graficamente)

per cui∑yiyi = b

∑xiyi e

∑y2

i = b2∑

x2i

si ha

∑yiui = b

∑xiyi − b2

∑x2

i ma∑

xiyi = b∑

x2i(

perche b =

∑xiyi∑x2

i

)percio∑

yiui = b · b∑

x2i − b2

∑x2

i = 0

e infine si puo scrivere:

∑y2

i =∑

y2i +

∑u2

i ; divido per N

103

Page 106: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

∑y2

i

N=

∑y2

i

N+

∑u2

i

N

↓∑(yi − y)2

N

varianza y = varianza di y + varianzaspiegata dalla dei

retta di residuiregressione

σ2y = σ2

y + σ2u divido per σ2

y

1 =σ2

y

σ2y

+σ2

u

σ2y

(% di varianza spiegata dal modello)

σ2y

σ2y

= 1− σ2u

σ2y

= R2 coefficiente di determinazione

(% varianza residua)

0 ≤ R2 ≤ 1

R2 e uguale ad 1 se il secondo termine (varianza residua) e uguale a 0. In talcaso il modello spiega tutto.

R2 e uguale a 0 se il secondo termine e uguale ad 1 e cio significa (σ2u = σ2

y)che la varianza residua e uguale alla varianza totale.

Un altro aspetto della regressione che ci aiuta a valutare la bonta dei risultatie l’analisi dei residui, ui, che ci permette di individuare dei comportamentitipici degli errori e quindi di rimettere in discussione le ipotesi sul loro com-portamento. Si suppone infatti che E(u2

i ) = σ2u, ∀i, che la varianza dei residui

sia costante e indipendente da xi, che non vi sia cioe relazione tra il valoreche prende la variabile esplicativa e l’ampiezza dell’errore. Se invece vi e tale

104

Page 107: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

relazione si parla di eteroschedasticita e il grafico dei residui si presentacosı:

Un caso tipo di eteroschedasticita si ha quando si stimano i consumi dellefamiglie

Ci = a + bRi + ui

bilanci delle famiglie

perche effettivamente la dispersione delle spese aumenta all’aumentare delreddito. Se supponiamo che tale aumento sia proporzionale alla varianza:

E(u2i /Ri) = R2

i σ2, ∀i

si puo ritrovare l’omoschedasticita dividendo per Ri e cioe stimando:

Ci

Ri

=a

Ri

+ b +ui

Ri︸︷︷︸vi(

e si avrebbe E(vi) = E(

ui

Ri

)= 1

RiE(ui) = 0

E(u2i ) = 1

R2iE(u2

i ) = 1R2

i·R2

i · σ2 = σ2, ∀i)

Diversamente dall’analisi della correlazione, in cui si considera solo la forzadel legame tra le variabili, nell’analisi di regressione e importante il senso(verso) della causalita che fa si che una volta scelta la variabile indipen-dente, uguale a x per convenzione, e la variabile dipendente, uguale a y perconvenzione, la retta da stimare sia:

y = a + bx

105

Page 108: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

In altri termini mentre posso sempre scrivere:

x = a1 + b1y

e un po piu difficile pensare di invertire il senso di una relazione funzionale,in economia come in ogni altro campo.

C = f(y) e non y = f(C)

con C = consumo e y = reddito.

Esempio

xi yi

1 2.52 4.53 6.54 8.5

Disegniamo i punti su un piano cartesiano:

Calcoliamo x e y:

x = 2.5; y = 5.5

106

Page 109: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

poi calcoliamo a, b e y

xi yi xi − x (xi − x)2 yi − y (yi − y)2 (xi − x)(yi − y) yi ui

1 2.5 -1.5 2.25 -3 9 4.5 2.5 0

2 4.5 -0.5 0.25 -1 1 0.5 4.5 0

3 6.5 0.5 0.25 1 1 0.5 6.5 0

4 8.5 1.5 2.25 3 9 4.5 8.5 0∑= 5

∑= 20

∑= 10

b =

∑(xi − x)(yi − y)∑

(xi − x2) =

10

5= 2 a = y − bx = 5.5− 2 · 2.5 = 0.5

ui = yi − yi σ2u =

∑(yi − yi)

2

N= 0 y = 0.5 + 2 · x

R2 = 1− σ2u

σ2y

= 1− 0

5= 1 il modello spiega perfettamente tutto

Proviamo adesso ad aggiungere un punto per vedere cosa succede:

107

Page 110: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

I fenomeni bivariati

xi yi xi − x (xi − x)2 yi − y (yi − y)2 (xi − x)(yi − y) yi (y − y)2

1 2.5 -1.7 2.89 -2.9 8.41 4.93 2.59 0.01

2 4.5 -0.7 0.49 -0.9 0.81 0.63 4.24 0.07

3 6.5 0.3 0.09 1.1 1.21 0.33 5.90 0.36

3.5 5 0.8 0.64 -0.4 0.16 -0.32 6.72 2.97

4 8.5 1.3 1.69 3.1 9.61 4.03 7.55 0.90∑= 5.8

∑= 20.2

∑= 9.6 4.31

x = 2.7; y = 5.4; σ2y =

∑(y − y)2

5= 4.04 σ2

x =

∑(x− x)2

5= 1.16

b =9.6

5.8= 1.66; a = 0.93; σ2

u =

∑(y − y)2

5= 0.86

R2 = 1− σ2u

σ2y

= 0.79 y = 0.93 + 1.66 · x

108

Page 111: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Esercizi I fenomeni bivariati

Esercizio 1.

Su un campione di individui maschi (della stessa eta) partecipanti ad uncorso di cultura fisica, si sono rilevate le seguenti variabili:

Y = tempo impiegato per correre un percorso di 2.400 metri (in minuti)X = peso corporeo (in Kg)

individui Y XA 12.37 81.47B 8.85 68.84C 13.08 83.32D 14.03 87.66E 10.05 71.45F 12.12 79.15G 10.54 73.32

a) Si determini la retta di regressione lineare tra i due fenomeni aventesignificato logico e se ne illustri la validita;

b) Si commenti il tempo di percorrenza teorico per un individuo di 0 kg

109

Page 112: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Esercizi I fenomeni bivariati

110

Page 113: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Soluzione esercizi

Soluzione esercizi

A.1 I metodi quantitativi

Tipi di dati

Esercizio 1

(a) quantitativa discreta (g) qualitativa(b) qualitativa (h) quantitativa discreta(c) quantitativa discreta (i) quantitativa continua(d) quantitativa continua (l) qualitativa(e) qualitativa (m) qualitativa(f) quantitativa continua

Tabelle e grafici per dati quantitativi

Esercizio 1

5 3 46 97 48 09 3 8

n = 7

Esercizio 2

a. Ordinamento

4 5 5 6 6 6 6 7 7 7 7 7 7 8 88 8 8 8 8 8 8 9 9 9 9 9 9 10 10

10 10 10 10 10 10 11 11 12 12 13 13 14 15 1515 16 16 18 23

Page 114: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Soluzione esercizi

b. Diagramma gambo-foglia dei book value:

0 4 5 5 6 6 6 6 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 9 9 9 9 9 91 0 0 0 0 0 0 0 0 1 1 2 2 3 3 4 5 5 5 6 6 82 3

c. Sono piu frequenti i valori meno elevati, infatti l’intera distribuzione siconcentra sotto i 10 dollari. Piu della meta delle azioni del campione ha unbook value inferiore ai 10 dollari.

d. E’ molto piu facile trovare un’azione con un book value inferiore a 10dollari, piuttosto che superiore a 20. Infatti 28 delle 50 azioni del campionehanno un book value inferiore a 10,mentre una sola azione ha un valore su-periore a 20 dollari.

Esercizio 3

Esercizio 4

In questo esercizio si dispone della rappresentazione grafica ma per risponderealle domande bisogna ricostruire la tabella delle frequenze.

112

Page 115: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Soluzione esercizi

xi hi = fi/ai ai fi = hi · ai

∑fi = Fi

90-100 1% 10 10% 10100-110 1.5% 10 15% 25110-115 3% 5 15% 40115-120 4% 5 20% 60120-125 2% 5 10% 70125-130 1.5% 5 7.5% 77.5130-140 1% 10 10% 87.5140-150 0.75% 10 7.5% 95150-160 0.5% 10 5% 100

Ecco le risposte:

1. 100%-77.5%=22.5%Tale percentuale e quindi piu vicina a 25%.

2. 112-113 poiche tale intervallo appartiene a un rettangolo caratterizzatoda una maggior densita di frequenza:110-115=3% ; 130-140=1%

3. 120-135 : 120-125=10% +125-130=7.5% +1/2(130− 140) = 5% data l’ipotesi di uguale ripartizione

Totale: 22.5%

4. 125-130 ⇒ 7.5%140-150 ⇒ 7.5 %Nei due casi trattati l’effettivo e uguale.

Esercizio 5

0-1 = 10%1-2 = 20%5-10 = 5%× 5 = 25%

La somma dei rettangoli disegnati vale il 55%, quindi rimane il 45%.

⇒ 45%

3︸︷︷︸ampiezza della base

= 15%

Page 116: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Soluzione esercizi

Esercizio 6

a.

A+B+C+D = A+1.7A+[1.5(1.7A)]+[0.8(1.7A)] = A+1.7A+2.55A+1.36A = 6.61A

A = 1006.61

= 15.13

b.xi fi di

5-10 0.1513 0.1513/5 = 0.030

15-20 0.3858 0.3858/5 = 0.077

20-22 0.2058 0.2058/2 = 0.103

22-30 0.2572 0.2572/8 = 0.032

c.

3

5× 0.3858 = 0.2315; 0.1513 + 0.2315 = 0.3828; 1− 0.3828 = 0.6172

la percentuale di persone che hanno piu di 18 anni e 61.72%.

114

Page 117: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Soluzione esercizi

Tabelle e grafici per dati qualitativi

Esercizio 1

a. Il carattere X = titolo di studio e di tipo qualitativo rettilineo; la popo-lazione di riferimento e formata da tutti i residenti nel comune; l’unita stati-stica e rappresentata dal singolo residente.

b. L’ampiezza di classe si ottiene dalla differenza tra il limite superiore ed illimite inferiore delle classi; le frequenze specifiche (o ridotte) sono date dalrapporto tra frequenza assoluta e ampiezza di classe. Le frequenze relative siottengono rapportando ciascuna frequenza assoluta al totale delle frequenze;il totale delle frequenze relative e pari a uno. Le frequenze percentuali siottengono moltiplicando per 100 ciascuna frequenza relativa; il totale dellefrequenze percentuali e pari a 100.

c. Le frequenze cumulate si ottengono sommando successivamente dall’altoverso il basso le frequenze di classe.

d. Le frequenze retrocumulate si ottengono sommando successivamente dalbasso verso l’alto le frequenze di classe.

xi ni Ni Ri fi 100fi

analfabeti 1 1 422 0.002 0.2alfabeti 10 11 421 0.024 2.4elementare 50 61 411 0.119 11.9media inf. 220 281 361 0.521 52.1media sup. 125 406 141 0.296 29.6laurea 16 422 16 0.038 3.8

Page 118: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Soluzione esercizi

Esercizio 2

a. Il carattere X = tipo di trasporto e di tipo qualitativo sconnesso; lapopolazione di riferimento e formata da tutti gli ospiti del villaggio; l’unitastatistica e rappresentata dal singolo ospite.

b. Le frequenze relative si ottengono rapportando ciascuna frequenza asso-luta al totale delle frequenze; il totale delle frequenze relative e pari a uno. Lefrequenze percentuali si ottengono moltiplicando per 100 ciascuna frequenzarelativa; il totale delle frequenze percentuali e pari a 100.

c. Le frequenze cumulate si ottengono sommando successivamente dall’altoverso il basso le frequenze di classe.

d. Le frequenze retrocumulate si ottengono sommando successivamente dalbasso verso l’alto le frequenze di classe.

xi ni Ni Ri fi 100fi

auto 25 25 129 0.194 19.4nave 12 37 104 0.093 9.3

camper 23 60 92 0.178 17.8treno 12 72 69 0.093 9.3aereo 55 127 57 0.426 4.26altro 2 129 2 0.016 1.6

129 1 100

116

Page 119: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Soluzione esercizi

A.2 I fenomeni bivariati

La regressione

Esercizio 1.

a) Nel caso in esame, appare del tutto naturale considerare il peso corporeo(X) come variabile esplicativa ed il tempo impiegato per correre il percorso(Y) come variabile dipendente. Si considera quindi la retta di regressione:

yi = a + bxi i = 1, 2, . . . , 7

che esprime il tempo impiegato come funzione (lineare) del peso dell’in-dividuo. Per stimare i parametri, occorre calcolare:

x = 77.887 y = 11.577

yi xi x− x (x− x)2 y − y (y − y)2 σxy y (y − y)2

12.37 81.47 3.583 12.48 0.793 0.629 2.84 12.52 0.0248.85 68.84 -9.047 81.85 -2.727 7.437 24.67 9.19 0.11413.08 83.32 5.433 29.57 1.503 2.259 8.16 13.01 0.00514.03 87.66 9.773 95.51 2.453 6.017 23.97 14.16 0.01610.05 71.45 -6.437 41.44 -1.527 2.332 9.83 9.88 0.03012.12 79.15 1.263 1.59 0.543 0.295 0.69 11.91 0.04410.54 73.32 -4.567 20.86 -1.037 1.076 4.74 10.37 0.029

283.60 20.044 74.90 0.261

σ2x =

(x− x)2

7= 40.51; σx =

√40.51 = 6.365

Page 120: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Soluzione esercizi

σxy =(x− x)(y − y)

7= 10.7004

Di conseguenza si ottiene:

b =10.7004

40.51= 0.2641 a = 11.577− 0.2641 · 77.887 = −8.994

La retta di regressione adattata con il metodo dei minimi quadrati risultaquindi:

yi = −8.994 + 0.2641xi i = 1, 2, . . . , 7

Il coefficiente di regressione segnala che, all’aumentare di un kg del pesocorporeo, si osserva in media un incremento nel tempo di percorrenza pari acirca 0.26 minuti (cioe circa 16 secondi).

L’intercetta corrisponderebbe invece al tempo di percorrenza stimato perun individuo di peso nullo. Ovviamente,nel presente contesto, tale valore nonpresenta alcun significato interpretativo, in quanto non e possibile ipotizzareche un soggetto abbia peso pari a zero.

Per valutare la bonta della regressione occorre dapprima calcolare loscostamento quadratico medio della variabile dipendente, che risulta:

σy =

√(y − y)2

7= 1.692

Si ricava quindi:

R2 = 1− σ2u

σ2y

= 0.987

Lo stesso risultato si puo ottenere anche cosı:

rxy =σxy

σx · σy

= 0.9935; R2 = (0.9935)2 = 0.987

L’adattamento della retta di regressione ai dati risulta quasi perfetto: la re-lazione con il peso corporeo spiega infatti il 98.7% della varianza dei tempidi percorrenza.

b) Fissando il valore y = 60, si ottiene:

y(60) = −8.994 + 0.2641 · 60 = 6.852

Il valore stimato del tempo di percorrenza per un individuo di 60 kg risultaquindi pari a 6.852 minuti (cioe a 6 minuti e 51 secondi circa). Si osservi

118

Page 121: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Soluzione esercizi

tuttavia che, pur essendo il coefficiente di determinazione molto prossimo a1, si tratta di una proiezione di limitata attendibilita, in quanto il valorex = 60 risulta esterno al campo di osservazione dei valori rilevati. Infatti,il modello adattato puo ritenersi appropriato solo per rappresentare i tempidi percorrenza degli individui (iscritti al corso di cultura fisica) con pesocorporeo compreso tra 68.84 e 87.66 kg.

Page 122: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Soluzione esercizi

120

Page 123: STATISTICA DESCRITTIVA · tra i fenomeni. Vediamo alcuni esempi. 1. consideriamo una serie storica dei quotidiani venduti o del numero di con-flitti nel mondo. La Statistica consente

Bibliografia

Wonnacott T.H., Wonnacott R.J. (1995) Introduzione alla statistica, FrancoAngeli Milano.

Freedman D., Pisani R., Purves R. (1998) Statistica, Mc Graw - Hill, Milano.

Piccolo D., Vitale C., (1984) Metodi statistici per l’analisi economica, IlMulino, Bologna.