15
B000319 - Statistica I Leonardo Grilli [email protected] http://local.disia.unifi.it/grilli Università di Firenze Corso di laurea in Statistica A.A. 2019/2020 MOODLE: https://e-l.unifi.it/course/view.php?id=10553 Programma di Statistica I Statistica descrittiva univariata Nozioni di base Distribuzioni, rappresentazioni grafiche Medie Indici di variabilità, indici di forma Statistica descrittiva bivariata Distribuzioni doppie Connessione, dipendenza in media Correlazione Regressione SD: Statistica Descrittiva Probabilità Definizione e principali approcci Regole di calcolo Probabilità condizionata, indipendenza, formula di Bayes Variabili aleatorie Definizioni e nozioni di base Variabili aleatorie doppie e multiple Modelli di variabili aleatorie discrete: Bernoulli, binomiale, Poisson Modelli di variabili aleatorie continue: Uniforme, Normale, Chi‐quadrato, Esponenziale Legge dei grandi numeri, teorema limite centrale CP: Calcolo delle Probabilità Dopo Statistica I I fondamenti della statistica sono trattati in due corsi: B000319 – Statistica I (9 cfu), 1° semestre, Prof. Leonardo Grilli Statistica descrittiva, probabilità, variabili aleatorie B029699 – Statistica II (9 cfu), 2° semestre, Prof. Marco Barnabani Campionamento, inferenza statistica Il corso di Statistica I si inquadra nel settore scientifico‐disciplinare SECS‐S/01. L’esame può essere verbalizzato a partire dall’appello di gennaio. PROPEDEUTICITÀ: è necessario superare l’esame di Statistica I per poter sostenere gli esami dei settori SECS‐S/01 (Statistica), SECS‐S/02 (Statistica per la ricerca sperimentale), SECS‐S/03 (Statistica economica), SECS‐S04 (Demografia), SECS‐S05 (Statistica sociale), ad eccezione di Gestione informatica dei dati e Laboratorio. Libri Libro consigliato: G. Cicchitelli, P. D'Urso, M. Minozzo. Statistica: principi e metodi (Terza Edizione) Pearson Italia, Milano, 2017 Sulle differenze rispetto alla Seconda edizione si veda la pagina Moodle del corso. Questo è il testo di riferimento anche per il corso di Statistica II del secondo semestre. Libri di utile consultazione: Borra S., Di Ciaccio A. (2014) Statistica. Metodologie per le scienze economiche e sociali, Terza edizione, McGraw‐Hill. Agresti A., Franklin C.A. (2016) Statistica: l’arte e la scienza d’imparare dai dati. Pearson. Moore D.S. (2013) Statistica di base. Seconda edizione. Apogeo. Newbold P., Carlson W.L., Thorne B. (2010) Statistica. Seconda edizione. Pearson / Prentice Hall.

Dopo Statistica I Libri - UniFII fondamenti della statistica sono trattati in due corsi: B000319 –Statistica I (9cfu), 1 semestre, Prof. Leonardo Grilli •Statistica descrittiva,

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

  • B000319 - Statistica I

    Leonardo [email protected]

    http://local.disia.unifi.it/grilli

    Università di FirenzeCorso di laurea in Statistica

    A.A. 2019/2020

    MOODLE: https://e-l.unifi.it/course/view.php?id=10553

    Programma di Statistica I Statistica descrittiva univariata

    • Nozioni di base• Distribuzioni, 

    rappresentazioni grafiche• Medie• Indici di variabilità, indici di 

    forma

    Statistica descrittiva bivariata• Distribuzioni doppie• Connessione, dipendenza in 

    media• Correlazione• Regressione

    SD: Statistica Descrittiva

    Probabilità• Definizione e principali approcci• Regole di calcolo• Probabilità condizionata, indipendenza, 

    formula di Bayes Variabili aleatorie

    • Definizioni e nozioni di base• Variabili aleatorie doppie e multiple• Modelli di variabili aleatorie discrete: 

    Bernoulli, binomiale, Poisson• Modelli di variabili aleatorie continue: 

    Uniforme, Normale, Chi‐quadrato, Esponenziale

    • Legge dei grandi numeri, teorema limite centrale

    CP: Calcolo delle Probabilità

    Dopo Statistica II fondamenti della statistica sono trattati in due corsi: B000319 – Statistica I (9 cfu), 1° semestre, Prof. Leonardo Grilli 

    • Statistica descrittiva, probabilità, variabili aleatorie B029699 – Statistica II (9 cfu), 2° semestre, Prof. Marco Barnabani

    • Campionamento, inferenza statistica

    Il corso di Statistica I si inquadra nel settore scientifico‐disciplinare SECS‐S/01. L’esame può essere verbalizzato a partire dall’appello di gennaio.

    PROPEDEUTICITÀ: è necessario superare l’esame di Statistica I per poter sostenere gli esami dei settori SECS‐S/01 (Statistica), SECS‐S/02 (Statistica per la ricerca sperimentale), SECS‐S/03 (Statistica economica), SECS‐S04 (Demografia), SECS‐S05 (Statistica sociale), ad eccezione di Gestione informatica dei dati e Laboratorio.

    LibriLibro consigliato:

    G. Cicchitelli, P. D'Urso, M. Minozzo. Statistica: principi e metodi (Terza Edizione) Pearson Italia, Milano, 2017

    Sulle differenze rispetto alla Seconda edizione si veda la pagina Moodle del corso.

    Questo è il testo di riferimento anche per il corso di Statistica II del secondo semestre.

    Libri di utile consultazione:• Borra S., Di Ciaccio A. (2014) Statistica. Metodologie per le scienze 

    economiche e sociali, Terza edizione, McGraw‐Hill.• Agresti A., Franklin C.A. (2016) Statistica: l’arte e la scienza d’imparare dai 

    dati. Pearson.• Moore D.S. (2013) Statistica di base. Seconda edizione. Apogeo. • Newbold P., Carlson W.L., Thorne B. (2010) Statistica. Seconda edizione. 

    Pearson / Prentice Hall.

  • PearsonMyLabAl libro di testo è associata la piattaforma web Pearson MyLabche consente di effettuare esercitazioni individuali guidate:http://www.pearson.it/placePer accedere alla piattaforma è necessario inserire un codice personale che si trova sul libro o che può essere acquistato a parte.

    Una volta entrati in MyLab ci si deve iscrivere al corso denominato «Statistica 1 a.a. 2019/20 ‐ Leonardo Grilli» che ha il seguente codice classe: M754BFXJ 

    Tramite questa piattaforma web verranno assegnate delle esercitazioni (circa 17 in totale). Per ogni esercitazione svolta entro la scadenza e con almeno il 50% di risposte esatte verrà assegnato un decimo di punto (se si conclude l’esame entro febbraio)

    Esame (scritto + orale)SCRITTO

    Vi sono 6 appelli (gennaio, febbraio, giugno, luglio, settembre, dicembre), il primo appello utile è quello di gennaio. Il compito è composto da due parti autonome (SD: Statistica Descrittiva; CP: Calcolo delle Probabilità). Posto che si è ammessi all'esame orale quando si ha un voto sufficiente in entrambe le parti, ad ogni compito si può scegliere di fare entrambe le parti o una sola. In ogni caso, se il voto di una parte è sufficiente viene conservato. In aggiunta ai 6 appelli, vengono svolte due prove parziali (una a inizio novembre su SD e una a dicembre su CP). E' sempre possibile rifiutare il voto di una parte (svolta alla prova parziale o all'appello) e ripeterla.

    VOTO DI AMMISSIONE ALL'ESAME ORALE (se votoSD>17 e votoCP>17) :

    voto ammissione = votoSD*0.6+ votoCP*0.4 + puntiMyLab

    ORALE

    Una volta ottenuta la sufficienza in entrambe le parti, si deve fare l'esame orale, che non può essere posticipato. Eccezioni: (i) chi ottiene la sufficienza in entrambe le parti con le prove parziali può fare l'esame orale all'appello di gennaio oppure a febbraio; (ii) che ottiene la sufficienza in entrambe le parti all'appello di gennaio può rinviare l'esame orale all'appello di febbraio.

    Quali prospettive di lavoro? Alta probabilità di ottenere un lavoro di qualità

    o Nelle classifiche sulla qualità del lavoro stilate dal sito americano CareerCastai primi posti troviamo le professioni di Statistico, e quelle affini di Matematico, di Data Scientist e di Attuario 

    http://www.careercast.com/jobs-rated/2018-jobs-rated-report

    I keep saying the sexy job in the next ten years will be statisticians. The ability to take data—to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it—that’s going to be a hugely important skill in the next decades, not only at the professional level but even at the educational level for elementary school kids, for high school kids, for college kids. Because now we really do have essentially free and ubiquitous data. So the complimentary scarce factor is the ability to understand that data and extract value from it.

    Hal VarianProfessor of information sciences, business, and economics at the University of California at 

    Berkeley and Google's chief economistMcKinseyQuarterly, January 2009

    Sulle prospettive di carriera:    http://thisisstatistics.org

    Origini della Statistica Il termine “statistica” deriva da “stato”: all’inizio la statistica riguardava la raccolta di dati relativi allo stato (numerosità della popolazione, numero di cannoni, quantità di raccolto di grano …)• Nel XVIII secolo nasce il calcolo delle probabilità (strumento essenziale per la statistica moderna)

    La formalizzazione matematica della statistica è recente• prima metà del XX secolo: inferenza statistica, disegno degli esperimenti, campionamento

    • anni 40 ‐ anni 70: sviluppi teorici• dagli anni 70: sviluppi legati alle capacità di calcolo dei computer

    http://it.wikipedia.org/wiki/Storia_della_statistica

  • La Statistica modernaIn origine la Statistica era una disciplina arida che consisteva nel manipolare lunghe sequenze di numeri (senza l’aiuto di calcolatrici!)

    Molti credono che sia ancora oggi così …

    … ma la Statistica è diventata una disciplina assai diversa: ai calcoli ci pensa il computer, lo statistico è un investigatore che usa la metodologia statistica e la tecnologia informatica per individuare degli ‘andamenti’, delle ‘regolarità’ nella complessa realtà fisica, biologica, sociale, economica …

    Come i telescopi, i microscopi, i raggi X e i radar, la Statistica moderna consente di vedere cose invisibili a occhio nudo.   David Hand

    L’ubiquità della StatisticaLa Statistica entra in molti aspetti della vita moderna, spesso in modo decisivo (anche se poco appariscente)

    • GOVERNO: le politiche efficaci si basano sull’analisi statistica dei dati relativi alla società e all’economia

    • IMPRESE: le decisioni su cosa e quanto produrre si basano su ricerche di mercato e analisi di dati economici; i rischi di banche e assicurazioni sono valutati tramite modelli statistici (es. sistemi di credit scoring per valutare preventivamente la rischiosità di un prestito)

    • INFORMATICA: la statistica è fondamentale per lo sviluppo dei sistemi di apprendimento automatico (machine learning), ad esempio: filtri anti‐spam per l’email, riconoscimento automatico delle parole, riconoscimento automatico delle immagini (come i volti umani), personalizzazione dei suggerimenti di acquisto (come fanno Amazon, Netflix etc.)

    L’ubiquità della Statistica   /cont.La Statistica entra in molti aspetti della vita moderna, spesso in modo decisivo (anche se poco appariscente)

    • AMBIENTE: l’inquinamento viene monitorato da sistemi geo‐statistici; il cambiamento climatico viene valutato analizzando dati di varia natura, dai carotaggi nei ghiacci alle radiazioni misurate dai satelliti 

    • MEDICINA: l’efficacia dei farmaci è testata tramite esperimenti clinici pianificati con criteri statistici; la diffusione delle epidemie viene monitorata da sistemi geo‐statistici

    Gruppo dell’Organizzazione Mondiale della Sanità per il contrasto dell’epidemia di Ebola  http://www.who.int/ebola/en   http://www.imperial.ac.uk/people/c.donnelly 

    Stima della concentrazione di CO2 nell’atmosfera tramite le radiazioni captate dai satelliti  http://niasra.uow.edu.au/cei/research/UOW202714

    Cos’è la Statistica? Statistica: l’arte e la scienza di imparare dai dati

    Esistono molte definizioni formali, gli ingredienti essenziali sono  i dati l’uso di strumenti di analisi di tipo quantitativo la finalità di conoscenza o supporto alle decisioni

    “E’ facile mentire con la statistica, ma è più facile mentire senza la statistica”

    Cfr. D. Huff (1954) How to lie with statistics (tradotto in italiano: Come mentire con la statistica)

  • La logica della Statistica

    contesto astrazione contesto

    Scelta dei dati Metodo di analisi Interpretazione

    Apprendimento e valutazione del metodo prescindono dal tipo di applicazione. 

    Ad es. come indice di posizione possiamo scegliere la media aritmetica oppure la mediana: per fare una buona scelta dobbiamo conoscere le proprietà di questi indici intesi come strumenti matematici, quindi prescindendo dal contesto applicativo (le proprietà della media aritmetica o della mediana non dipendono dal fatto di applicarla al numero di figli o al reddito o alla temperatura)

    Statistica e MatematicaLa statistica è una scienza quantitativa, ma il modo di pensare ‘statistico’ è diverso da quello ‘matematico’ per almeno 2 aspetti la statistica non può prescindere dal contesto (dati) la logica dell’inferenza statistica non è basata sulla deduzione (come la matematica) ma sull’induzione: dal particolare (ciò che si è osservato) al generale

    La matematica ha un ruolo strumentale, cioè consente di costruire gli strumenti che permettono l’analisi statistica (la matematica sta alla statistica come il martello sta al fabbro)

    Statistica e Informatica La statistica moderna è legata all’informatica: Programmazione di algoritmi di analisi (R, Python …) Database relazionali (Access, MySQL) Data mining, Machine learning (Weka, Pentaho)

    Oggi sono disponibili insiemi di dati giganteschi, chiamati Big Data (www.sobigdata.eu), es. Attività sui social network: es. Voices from the Blogs analizza l’opinione degli italiani espressa tramite i tweet(http://voicesfromtheblogs.com) Tabulati telefonici Dati GPS sui movimenti di persone o automobili

    Acquisire nuova conoscenza con la statistica

  • Terminologia essenzialePopolazione o Collettivo statistico: insieme che interessa studiare

    Unità statistica: elemento della popolazione

    Dati: risultato della rilevazione‐misurazione di caratteristiche delle unità statistiche

    Variabile o Carattere: caratteristica rilevata‐misurata sulle unità statistiche

    Modalità: valori distinti assunti da una variabile

    Campione: sottoinsieme della popolazione oggetto della rilevazione

    Unità Statistiche 

    Una personaUn soldatoUn albero

    Una famigliaUn reggimentoUn bosco 

    semplici composte

    POPOLAZIONEinsieme di elementi di qualsiasi natura

    Attenzione: le definizioni spesso sono complesse!  Alcune definizioni adottate dall’Istat sono consultabili suwww3.istat.it/servizi/studenti/binariodie/CorsoExcel/Glossario.htmFAMIGLIA: Insieme di persone legate da vincoli di matrimonio, parentela, affinità, adozione, tutela o vincoli affettivi, coabitanti e aventi dimora abituale nello stesso comune (anche se non sono ancora iscritte nell’anagrafe della popolazione residente del comune medesimo). Una famiglia può essere costituita anche da una sola persona. L’assente temporaneo non cessa di appartenere alla propria famiglia sia che si trovi presso altro alloggio (o convivenza) dello stesso comune, sia che si trovi in un altro comune.

    Unità statistiche

    Statistica, dati, variabilitàLa Statistica è una scienza che mira ad estrarre informazioni dai dati

    La ragione della Statistica risiede nella variabilità: i caratteri assumono valori diversi nelle unità statistiche  es. il carattere «Altezza» presenta i valori 158, 159 …  es. con riferimento al carattere «Esito dell’esame», alcuni presentano la modalità “Promosso”, altri la modalità “Respinto”

    Se il mondo fosse perfettamente prevedibile e non ci fosse variabilità, non ci sarebbe bisogno della Statistica

    Fonti di variabilitàMisurazioni ripetute della stessa unità statistica: errore di misurazione (es. due provette di sangue della stessa persona prelevate nello stesso momento forniscono valori leggermente diversi del livello di colesterolo)

    Misurazione di diverse unità statistiche: variabilità del carattere nella popolazione (es. il livello di colesterolo di due persone, oppure il livello di colesterolo della stessa persona in due momenti diversi) 

    Risultati di processi casuali (es. lanci di una moneta), in particolare nel caso di diverse estrazioni di un campione casuale si parla di variabilità campionaria

  • Errori di misurazioneGli errori di misurazione riguardano, ad esempio,

    gli strumenti fisici che misurano quantità come il livello di colesterolo nel sangue, la concentrazione di anidride carbonica nell’aria, la velocità di un’automobile …

    i test psicometrici, es. i test per valutare il quoziente intellettivo o il benessere psico‐fisico

    i questionari di rilevazione, es. chiedendo a distanza di tempo ad una persona di indicare la superficie della propria abitazione potremmo ottenere risultati diversi se, anziché leggere i dati catastali, effettua stime estemporanee

    D’ora in avanti ignoreremo l’errore di misurazione, cioè assumeremo che sia trascurabile (ciò è plausibile in molti contesti)

    Le aree scure indicano le contee degli Stati Uniti che hanno registrato, nel periodo 1980‐1989, i più bassi tassi di mortalità per cancro al rene (10% inferiore, tassi relativi ai maschi e standardizzati per età).

    Queste contee salutari si trovano principalmente nelle aree rurali del Midwest, Sud e Ovest. Perché in tali contee i tassi sono più bassi?

    In questa figura, invece, le aree scure indicano le contee degli Stati Uniti che hanno registrato, nel periodo 1980‐1989, i più alti tassi di mortalità per cancro al rene (10% superiore, tassi relativi ai maschi e standardizzati per età).

    Anche le contee insalubri si trovano principalmente nelle aree rurali del Midwest, Sud e Ovest. Com’è possibile???

    Ah, la diversa variabilità!Le aree rurali includono sia le contee con il più basso rischio che quelle con il più alto rischio  lo stile di vita rurale non può essere il motivo dei rischi particolarmente bassi o altiIl motivo è semplicemente statistico: le contee delle aree rurali hanno minore popolazione e quindi sono soggette a maggiore variabilitàEsempio: quanto si modifica il tasso con un caso in più?

    regione grande: 1 𝑝𝑒𝑟 𝑚𝑖𝑙𝑙𝑒un caso in più  ≅ 1 𝑝𝑒𝑟 𝑚𝑖𝑙𝑙𝑒

    regione piccola: 1 𝑝𝑒𝑟 𝑚𝑖𝑙𝑙𝑒un caso in più  2 𝑝𝑒𝑟 𝑚𝑖𝑙𝑙𝑒 doppio!

    quasi invariato

  • La variabilità dei tassi degli eventi rari

    Il 25 luglio 2000 l’aereo supersonico Concorde ebbe un incidente fatale

    Prima di quell’episodio il Concorde non aveva fatto registrare incidenti  il tasso era zero era l’aereo meno rischioso, seguito dal Boeing 737 con un tasso di 0.33 incidenti per milione di voli (avendo effettuato 31 milioni di voli) e dall’Airbus 320 con un tasso di 0.55incidenti per milione di voli (avendo effettuato 7.3 milioni di voli)

    A causa del basso numero di voli effettuati (80000, cioè meno di 1/10 di milione), dopo l’incidente il Concorde era l’aereo più rischioso, con un tasso di 1/80000, ovvero 12.5 per milione di voli

    Nella maggior parte delle applicazioni un campione di 80000 osservazioni consente stime di altissima precisione ed è molto più grande del necessario. Tuttavia, per un evento rarissimo, come un incidente aereo, un campione di 80000 osservazioni non consente una stima attendibile del tasso!

    Misurazione dei caratteri

    Cicchitelli par. 1.7

    Variabili e modalità

    Variabile (o Carattere)caratteristica delle unità statistiche che al variare delle unità può assumere almeno due valori (es. «Numero di componenti della famiglia»)

    Una variabile viene indicata con una lettera maiuscola es.X, Y, Z …

    mentre le modalità vengono indicate con la corrispondente lettera minuscolax, y, z, …

    Modalitàvalori assumibili da una variabile (es. la variabile «Numero di componenti della famiglia» ha come modalità 1, 2, 3 etc.)

    Tipi di variabiliLe variabili QUANTITATIVE (o NUMERICHE) misurano caratteristiche numeriche: es. il numero di figli e l’altezza di una persona

    Le variabili QUALITATIVE (o CATEGORICHE) misurano delle qualità: es. la provincia di residenza e il colore degli occhi

    • In particolare le variabili dicotomiche o binarie sono variabili qualitative con due sole modalità: es. la variabile sesso assume le modalità maschio e femmina

    Altre distinzioni: caratteri di stato o di movimento, caratteri trasferibili o non trasferibili

    La tipologia di una variabile dipende dal tipo di misurazione: ad es. il colore è solitamente rilevato attraverso un insieme di categorie ( qualitativa), ma in esperimento di fisica potrebbe essere misurato in termini di lunghezza dell’onda elettromagnetica ( quantitativa)

  • Codifica numerica delle modalitàSpesso nella matrice dei dati le modalità delle variabili qualitative sono espresse tramite numeri (es. 1 per maschio, 2 per femmina)

    Questi numeri NON sono quantità ma sono dei CODICI che facilitano la registrazione dei dati

    Attenzione: poiché la codifica è arbitraria è importante associare alla matrice dei dati un documento con la codifica (tracciato record)

    Il mondo espresso in numeriLa statistica si occupa essenzialmente dell’analisi di dati numerici, per cui in alcuni casi è necessario un pre‐processing per trasformare le informazioni in numeri (passare dalla versione «analogica» alla versione «digitale»)

    • Le immagini (quadri, foto satellitari, immagini di un organo da risonanza magnetica …) sono trasformate in numeri attraverso le intensità dei colori primari dei pixel

    • I testi (tweet, annunci pubblicitari, referti medici …) sono trasformati in frequenze di apparizione delle parole

    Classificazione delle variabili

    QUALITATIVE

    SCONNESSEo NOMINALI ORDINALI

    Modalità non ordinabili

    Modalità ordinabili

    sessoresidenzaprofessione

    liv. istruzioneliv. soddisfazionescala Mercalli

    QUANTITATIVE

    DISCRETE CONTINUEInsieme modalità finito o numerabile

    Insieme modalità infinito non numerabile

    n. figlin. stanzen. ripetizioni di

    una parolan. globuli rossi

    duratalunghezzaredditoluminosità di un

    pixel

    Modalità espresse da nomi, aggettivi, attributi

    Modalità espresse da numeri

    Scala di intervalli vs scala di rapportiLe variabili quantitative possono essere classificate anche in base alla scala di misurazione

    Scala di rapporti (lo 0 significa assenza del carattere)• Es. il peso: se A pesa 50kg e B pesa 100kg, allora B pesa il doppio di A

    Scala di intervalli (lo 0 è arbitrario)• Es. la temperatura in gradi Celsius o Fahrenheit: se A ha una temperatura di 10°C e B di 20°C, non si può dire che B ha una temperatura doppia di A (infatti in gradi Fahrenheit A ha una temperatura di 50°F e B di 68°F)

    • Es. se in un test di intelligenza Tizio ottiene 100 e Caio 50 non si può dire che Tizio è doppiamente intelligente

    (9 / 5) 32 F C

    Dunque se una variabile è misurata in scala di intervalli ha senso calcolare differenze ma non rapporti

  • Scale di misurazione e trasformazioni

    Le scale di misurazione sono in ordine crescente di contenuto informativo:    nominale  ordinale  intervalli  rapporti

    Si può passare da una scala più informativa ad una meno informativa (perdendo qualcosa), ma non viceversa (se non facendo ipotesi non verificabili)

    • il peso in kg (scala di rapporti) può essere convertito in una variabile qualitativa con modalità ‘sottopeso’, ‘normopeso’ e ‘sovrappeso’ (scala ordinale), ma non viceversa

    Talvolta le variabili ordinali vengono trasformate in quantitative tramite un sistema di punteggi (scoring)

    • il livello di soddisfazione {basso, medio, alto} può essere convertito in una variabile quantitativa (con scala a intervalli) scegliendo un sistema di punteggi, es. {basso=1, medio=2, alto=3} – ogni sistema di punteggi però è arbitrario e non vi è modo di stabilire se è migliore di altri, es. {basso=1, medio=6, alto=10}, per cui occorre molta cautela

    Avvertenze sui tipi di variabiliLa distinzione tra variabili qualitative e quantitative è importante per scegliere il metodo di analisi da utilizzareTalvolta la classificazione di una variabile dipende da come viene misurataUna variabile che assume valori numerici corrispondenti a codici (es. CAP) è qualitativaLa variabile continua è un concetto astratto: qualunque sia la precisione dello strumento, il numero di modalità ottenibili è discreto; ogni modalità corrisponde ad un intervallo di valori possibili (intervallo di tolleranza)

    • Es. una bilancia che misura alla precisione dell’hg fornisce valori come 66.0 kg, 66.1 kg, 66.2 kg …  i valori osservabili sono un insieme discreto ma il carattere peso è continuo; se si osserva 66.1 l’intervallo di tolleranza è (66.05, 66.15)

    Errore frequente: affermare che un carattere continuo (peso, tempo …) è discreto in quanto si osserva un insieme discreto di valori

    Genesi dei dati statistici

    Cicchitelli par. 1.9

    Pianificazione dello studio Individuazione del fenomeno

    Individuazione della popolazione di riferimento e delle unità che la compongono

    Individuazione delle variabili rilevanti e loro definizione operativa

    fenomeno

    popolazione

    variabili {X, Y, Z,…}

    u1u2

    …U={u}

    Ad esempio, il tasso di criminalità può essere definito in vari modi, facendo riferimento ai «crimini denunciati» da statistiche ufficiali, oppure ai «crimini subìti» intervistando un campione di abitanti.Le scelte di pianificazione dipendono dalle finalità e dalle risorse (tra cui la disponibilità di dati). Le scelte determinano l’interpretazione dei dati.

  • Genesi dei dati statistici

    I dati statistici possono essere rilevati con varie modalità, le principali sono• Indagini statistiche• Esperimenti• Studi osservazionali

    La modalità di rilevazione è fondamentale perché determina il contenuto informativo dei dati: i metodi statistici consentono di estrarre informazione dai dati, e metodi migliori estraggono più informazione, ma ovviamente non si può estrarre informazione che non è nei dati (nessun apparecchio per l’estrazione di succo può estrarre succo di arancia da una carota!)

    Indagini statistiche

    La modalità di rilevazione denominata indagine statistica si riferisce a situazioni in cui interessa studiare una popolazione finita, cioè le unità sono individuate da un criterio rigoroso e sono in numero finito (es. i cittadini italiani al 31 dicembre 2017)

    L’indagine può essere censuaria (si intende osservare tutte le unità, anche se spesso non ci si riesce) o campionaria (si seleziona un sottoinsieme di unità  inferenza statistica)

    La maggiore difficoltà è legata all’ottenimento della lista, cioè l’elenco nominativo delle unità con le informazioni per il contatto

    Si pensi ad un esercizio commerciale che vuole condurre un’indagine statistica per valutare la soddisfazione dei proprio clienti: come si definisce la popolazione? Come si ottiene una lista? (suggerimento: si pensi a diverse tipologie come un bar, un supermercato, un negozio web)

    Esperimenti e studi osservazionali

    Studio osservazionale

    Il ricercatore non interviene ma si limita ad osservare ciò che accade (es. quello che accade ai pazienti che hanno scelto di fumare)

    Esperimento

    Il ricercatore interviene manipolando la realtà (es. assegna un paziente alla terapia A piuttosto che alla B)

    La strategia di acquisizione dei dati determina la distinzione tra osservazione e sperimentazione 

    Esperimento vs studio osservazionale

    40

    Esperimento

    es. efficacia di un fertilizzante

    Trattamento: fertilizzante

    Risposta: quantità prodotto

    Assegnazione casuale dei lotti al trattamento

    Fonti di variabilità sotto controllo

    Le differenze sistematiche nelle risposte sono (a meno di un piccolo margine di errore calcolabile) dovute al trattamento (fertilizzante)

    Studio osservazionale

    es. danni del fumo

    Trattamento: fumo

    Risposta: sviluppo malattie respiratorie

    Auto‐selezione degli individui al trattamento

    Le differenze sistematiche nelle risposte sono dovute al trattamento (fumo) e/o ad altri fattori non controllati (fattori ereditari, età, sesso)

  • Esempio di valutazione

    Viene offerto un corso di formazione gratuito ai disoccupati

    La partecipazione è libera

    Un anno dopo il termine del corso il 60% dei partecipanti è occupato

    Il corso è stato efficace?

    Matrice dei dati

    Cicchitelli par. 1.10

    Matrice dei dati I dati sono di solito sistemati in una matrice in cui

    • ogni riga corrisponde ad una unità di osservazione• ogni colonna corrisponde ad una variabile

    Es. si intervistano 39 persone con un questionario di 4 domande  39 osservazioni × 4 variabili

    Matrice dei dati: esempio

    id Età (anni) Peso (kg) Altezza (cm) Collo (cm) Torace (cm) Addome (cm)

    1 22 79 184 38.5 94 832 22 70 168 34.0 96 883 23 70 172 36.2 93 854 23 90 187 42.1 100 895 23 73 184 35.5 92 776 23 85 197 38.0 97 857 24 84 181 34.4 97 1008 24 95 190 39.0 105 949 24 71 180 35.7 93 82

    10 24 95 185 39.2 102 99

    Nota: l’identificativo (id) non è una variabileNota: è importante specificare l’unità di misura (qui è a fianco del nome della variabile, altrimenti va specificata in una legenda)

    10 unità statistiche x 6 variabili

  • Statistica descrittiva vs inferenza statistica

    Cicchitelli par. 1.11

    Statistica descrittiva vs inferenzialeStatistica Descrittiva 

    Metodi di

    • raccolta• presentazione (grafici)• caratterizzazione (statistiche)di un insieme di dati allo scopo di descriverne le caratteristiche

    Statistica Inferenziale

    Metodi di stima di una particolare caratteristica relativa alla popolazione di interesse, sulla base dell’osservazione di un campione, allo scopo di generalizzare il risultato all’intera collettività

    Esempio di inferenza statisticaQual è la proporzione di cittadini che hanno fiducia nel primo ministro?

    N= numero di cittadini; F= numero di cittadini che hanno fiducia 

    Dunque, quanto vale p =F/N nell’intera popolazione?

    Se in un campione di 1000 persone, 550 dichiarano di aver fiducia, allora la stima è

    Ripendo l’estrazione del campione otterremmo un diverso insieme di persone e un diverso numero di coloro che dichiarano fiducia  i possibili campioni forniscono stime in generale diverse (errore di campionamento) per cui 

    0.550 550/1000 ˆ p

    pp ˆInferenza statistica  quantificazione dell’errore

    0.519;0.580pEs. con un livello di confidenza del 95% si può affermare che

    Differenze relative e rapporti statistici

    Cicchitelli par. 1.12

  • Differenze e rapportiSe A e B sono i livelli di un certo fenomeno, espressi nella stessa unità di misura, ma riferiti a situazioni diverse, il confronto può essere effettuato in vari modi, ad esempio

    ‐ differenza assoluta A‐B

    ‐ differenza relativa (A‐B)/A

    ‐ rapporto A/B 

    ‐ rapporto B/A

    Rapporti statistici

    R = ABR indica quanta parte dell’intensità di A compete, in media, ad ogni unità di B

    A seconda della relazione che intercorre tra A e B si hanno diversi tipi di rapporti statistici (di composizione, di densità ecc.)

    L’unità di misura di R è il rapporto delle unità di misura di A e B(es. A= raccolto in quintali e B= superficie coltivata in ettari  R è espresso in quintali/ettaro); se A e B hanno la stessa unità di misura, R è non ha unità di misura, è un numero puro  (es. A= raccolto in quintali della Toscana e B= raccolto in quintali dell’Italia  R è la proporzione di raccolto della Toscana e non ha unità di misura)

    Alcuni rapporti statistici

    Rapporti di composizione (di parte al tutto)

    Rapporti di densità

    Rapporti di derivazione

    Numeri indici (capitolo 8 del libro di Cicchitelli, ma non sono in programma!)

    Rapporti di composizioneR = A/B dove A è una parte di B

    Il rapporto R sta nell’intervallo [0,1] ma di solito viene espresso in percentuale – in tal caso sta in [0,100]

    Esempio:A= n. pernottamenti per vacanza

    B= n. totale pernottamenti

    R= tasso di turismo proprio (TTP, in percentuale)

    TTP esprime quanti pernottamenti turistici in senso proprio si hanno ogni 100 pernottamenti

    Città Pernottamenti al 1991 TTP 100*A/B A: Vacanza Altri motivi B: Totale Lione 222872 2563028 2785900 8 Roma 9494633 2523890 12018523 79

    Nota: le frequenze relative (cfr. cap. 2) sono rapporti di composizione

  • Rapporti di densitàR = A/B dove B è una misura di superficie o volume

    Esempio:   A= popolazione residente   B= superficie

    Ripartiz A pop B

    superf (kmq)

    R=A/B I=B/A

    NO 14984766 57950.05 259 3.87

    NE 10694115 61981.40 173 5.80

    Centro 10946174 58379.55 188 5.33 Sud isole 20532353 123024.98 167 5.99

    TOT 57157408 301335.98 190 5.27

    R=A/B abitanti per kmq

    I=1000*B/A Kmq per 1000 abitanti

    Fonte: ISTAT 2003

    Rapporti di derivazioneR=A/B

    A deriva logicamente da  B  (B produce A)

    Esempio: A= n. vacanze brevi (1‐3 gg)  B= popolazione residente

    RIPARTIZIONE GEOGRAFICA

    Popolazione residente (migliaia)

    B

    n. vacanze brevi (1-3 gg)

    (migliaia) A

    Vacanze brevi per 100 residenti

    Nord 25910 20399 78.7

    Centro 11046 7540 68.3

    Sud 20581 10131 49.2

    Italia 57537 38069 66.2

    R: n. vacanze brevi per residente

    (in tabella moltiplicato per 100  n. vacanze brevi per 100 residenti)

    Definire un rapporto di derivazione

    In un rapporto di derivazione A/B in molti casi il numeratore A è un fenomeno di movimento (flusso), cioè misurato in un intervallo di tempo, es. numero di nati in un anno

    il denominatore B è un fenomeno di stato (stock), cioè misurato in un istante temporale, es. numero di donne in età fertile

    Spesso la scelta di B è difficile• Nei casi in cui il denominatore è un fenomeno di stato, questo in generale varia nell’intervallo di osservazione, es. nel tasso di fertilità il numero di donne potrebbe variare nel corso dell’anno  una soluzione consiste nel definire B come la media del numero di donne a inizio anno e a fine anno

    Definire un rapporto di derivazione Spesso la scelta di B è difficile

    • Es. nel rapporto di natalità il denominatore dovrebbe essere il numero di donne fertili, ma siccome non è un dato noto si usa il numero di donne in età fertile (secondo convenzione)

    • Talvolta la scelta del denominatore è controversa, es. se A è il numero di incidenti aerei, B potrebbe essere il n. di km percorsi, il numero di ore di volo, oppure il numero di viaggi …

    cfr. l’articolo «Ma è proprio vero che le donne guidano meglio?» di Enzo Ballatori  http://sis‐statistica.it/magazine

    Nf = numero di incidenti in un anno con conducente femmina

    Nm = numero di incidenti in un anno con conducente maschio

    Come costruire un rapporto di derivazione che consenta un confronto equo?

  • Alcune avvertenze sui valori percentuali

    Una percentuale corrispondente ad un rapporto di composizione (parte al tutto) è necessariamente compresa tra 0% e 100%

    La situazione è diversa quando una percentuale si riferisce ad una variazione: una variazione percentuale in aumento può essere maggiore di +100%

    • 2 euro  4 euro: +100% 2 euro  6 euro: +200%Se il fenomeno assume valori non‐negativi (come accade spesso), una variazione percentuale in diminuzione non può essere inferiore a 100% (poiché questo significa azzerare la quantità iniziale)

    • 4 euro  1 euro: 75% 4 euro  0 euro: 100%Le percentuali si possono sommare o sottrarre se si riferiscono alla stessa base

    • Tassa statale 5%, tassa comunale 2%  tassa complessiva 7%• Problema: un investimento in azioni fa registrare una perdita del 40% 

    nel primo anno e un guadagno del 60% nel secondo anno – qual è il risultato complessivo? (non è certo +20%)

    Rapporto o differenza?Il confronto fra due tassi si può fare per rapporto o per differenza… in generale si ottengono impressioni diverse!

    Es. il tasso di mortalità con il farmaco nuovo (N) è ¼ del tasso con il farmaco standard (S): mN/mS = ¼. Sembra che il farmaco abbia un effetto strepitoso, tuttavia per valutarne l’impatto occorre conoscere entrambi i tassi 

    A. L’effetto è enorme se il tasso passa da 8 su 1000 a 2 su 1000, corrispondente a una differenza mS‐mN = 6/1000

    B. Invece l’effetto è modesto se il tasso passa da 8 su 1000000 a 2 su 1000000, corrispondente a una differenza mS‐mN = 6/1000000

    Su un ipotetica popolazione di 1000000 di persone, nel caso A il farmaco salva 6000 persone, nel caso B solo 6.

    Vari esperimenti hanno dimostrato che medici e dirigenti sanitari, posti di fronte a ipotetiche decisioni in merito all’adozione di un nuovo farmaco, effettuano scelte in parte diverse a seconda del modo in cui vengono presentati i dati sull’efficacia del farmaco (rapporto tra tassi, differenza tra tassi, numero di persone salvate)