Upload
raffaella-marconi
View
213
Download
0
Embed Size (px)
Citation preview
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -1-
““Il sistema scolastico come Il sistema scolastico come sistema complesso: qualità delle sistema complesso: qualità delle
rilevazioni e modelli di rilevazioni e modelli di interpretazione dei risultatiinterpretazione dei risultati””
Dipartimento di Statistica e Matematica per la Ricerca Economica Università degli Studi di Napoli "Parthenope"
QUALITÀ DEI DATI,
ANALISI E SUGGERIMENTI
PER LA RILEVAZIONE
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -2-
Errare è umano, perdonare è
divino, includere gli errori in
un’indagine….è statistico
(Kish, 1978)
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -3-
TEMPESTIVITÁ
QUALITQUALITÁÁ DEI DATIDEI DATI
RILEVANZAACCURATEZZA
COERENZA ACCESSIBILITÁ
LA QUALITÁ DEI DATI
è
Un concetto multidimensionale….multidimensionale….
...che EUROSTAT declina in base ad un set di criteri
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -4-
L’ L’ ACCURATEZZA rappresenta la chiave di rappresenta la chiave di volta nel quadro generale della qualità volta nel quadro generale della qualità
dell’informazione statistica.dell’informazione statistica.
Infatti...
Se il dato disponibile è un dato statisticamente non “accurato”Se il dato disponibile è un dato statisticamente non “accurato”
L’ACCURATEZZAL’ACCURATEZZA
Le altre proprietà che lo caratterizzano passano automaticamente
in secondo piano (Olson, 2003)
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -5-
DEFINIZIONEDEFINIZIONEL'accuratezza delle informazioni statistiche è il L'accuratezza delle informazioni statistiche è il grado di corrispondenza tra la stima ottenuta grado di corrispondenza tra la stima ottenuta dall'indagine e il vero (ma ignoto) valore della dall'indagine e il vero (ma ignoto) valore della
caratteristica in oggetto nella popolazione caratteristica in oggetto nella popolazione obiettivo.obiettivo.
L’ACCURATEZZA È DESCRITTA IN TERMINI DI ERRORE L’ACCURATEZZA È DESCRITTA IN TERMINI DI ERRORE DELLE STIME STATISTICHEDELLE STIME STATISTICHE
Descrive l'influenza Descrive l'influenza indotta indotta
dall'operazione di dall'operazione di campionamento sulla campionamento sulla
varianza e sulla varianza e sulla distorsione delle distorsione delle
stimestime
ERRORE TOTALE
Errore Errore non campionarionon campionario
Errore Errore campionariocampionario Errore Errore
da NON RISPOSTAda NON RISPOSTA
Errore Errore di MISURAdi MISURA
Errore Errore di COPERTURAdi COPERTURA
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -6-
DESCRIZIONE ATTIVITÀ DI RICERCA- I ANNO -
Analisi descrittiva della struttura dei dati mancanti in modo da quantificare l’intensità e la portata del fenomeno; Cercando di valutare l’eventuale presenza di fattori condizionanti del meccanismo di mancata risposta
Progettazione di un sistema di correzione e controllo che consenta di realizzare l’obiettivo di una gestione ottimale del problema dei dati anomali, ai fini di un conseguente miglioramento della qualità dell’informazione statistica finale.
RILEVAZIONE APPRENDIMENTI
QUESTIONARIO SISTEMA
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -7-
VAR00005100,0080,0060,0040,0020,000,00
Fre
qu
en
cy
500
400
300
200
100
0
Histogram
UNA PROCEDURA DI CONTROLLO E CORREZIONE DEGLI OUTLIER
avergita100806040200
Fre
qu
en
cy
1.250
1.000
750
500
250
0
HistogramPUNTEGGI MEDI DI CLASSE - MATEMATICA A.S. 2004/05
III CLASSE SECONDARIA DI II GRADO
I CLASSE SECONDARIA DI II GRADO
I CLASSE SECONDARIA
DI I GRADO
IV CLASSE PRIMARIA
avergita100806040200
Fre
qu
ency
1.250
1.000
750
500
250
0
Histogram
II CLASSE PRIMARIA
VAR00005100,0080,0060,0040,0020,000,00
Fre
qu
en
cy
500
400
300
200
100
0
Histogram
VAR00002100,0080,0060,0040,0020,000,00
Fre
qu
en
cy
2.000
1.500
1.000
500
0
Histogram
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -8-
LA PROCEDURA È LA PROCEDURA È
STATA PROGETTATA STATA PROGETTATA
ED IMPLEMENTATA ED IMPLEMENTATA
PER I DATIPER I DATI
Tutte le tre discipline oggetto di valutazione
(italiano, matematica e scienze)
In totale sono state analizzate e “trattate” In totale sono state analizzate e “trattate” 12 basi di dati12 basi di dati
II e IV classe primaria
Anni scolastici2004/05 e 2005/06
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -9-
FASI DELLA PROCEDURAFASI DELLA PROCEDURA
Identificazione dati anomali e Identificazione dati anomali e sperimentazione di un fattore di sperimentazione di un fattore di
ponderazione in grado di correggere ponderazione in grado di correggere l’impatto degli l’impatto degli outlieroutlier
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Preparazione delle basi di dati (Preparazione delle basi di dati (data data cleaningcleaning) e la predisposizione di set di ) e la predisposizione di set di
indicatori sintetici a livello di classeindicatori sintetici a livello di classe1
LA PROCEDURA DI EDITING HA PREVISTO:LA PROCEDURA DI EDITING HA PREVISTO:
2
[ ]
[ ]
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -10-
Percentuale di unità compresa tra il 9% ed il 16%, Percentuale di unità compresa tra il 9% ed il 16%, maggiore presenza nelle classi della scuola secondaria di II gradomaggiore presenza nelle classi della scuola secondaria di II grado
FASE IFASE I
Eliminazione delle unità a livello micro (studenti) considerateEliminazione delle unità a livello micro (studenti) considerate
Studenti che, per ogni dataset presentano un dato mancante rispetto alla variabile che esprime il punteggio di valutazione
alla prova somministrata
““PSEUDO NON RISPONDENTI”PSEUDO NON RISPONDENTI”
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -11-
Punteggio medio per classePunteggio medio per classe ::
N j
iji 1
jj
p
pN
COSTRUZIONE DI INDICATORI A COSTRUZIONE DI INDICATORI A LIVELLO DI CLASSELIVELLO DI CLASSE
PUNTEGGIO DELL’I-ESIMO ALUNNO PUNTEGGIO DELL’I-ESIMO ALUNNO DELLA J-ESIMADELLA J-ESIMA
AMPIEZZA DELLA J-ESIMA CLASSEAMPIEZZA DELLA J-ESIMA CLASSE
Per ogni classe di studenti sono stati Per ogni classe di studenti sono stati calcolati i seguenti indicatori:calcolati i seguenti indicatori:
Scarto quadratico medioScarto quadratico medio del del punteggio per classepunteggio per classe : :
N j 2
jiji 1
jj
p p
N
N j
iji 1
jj
M
MCN Q
Tasso di mancata Tasso di mancata compilazione per classecompilazione per classe::
NUMERO DI RISPOSTE MANCANTI O NON NUMERO DI RISPOSTE MANCANTI O NON VALIDE RISCONTRATE PER L’I-ESIMO VALIDE RISCONTRATE PER L’I-ESIMO
ALUNNO DELLA J-ESIMA CLASSEALUNNO DELLA J-ESIMA CLASSE
AMPIEZZA DELLA J-ESIMA CLASSEAMPIEZZA DELLA J-ESIMA CLASSE
NUMERO DI QUESITI SOMMINISTRATI ALLA CLASSE J-ESIMA
Q
sjs 1
J
E
EQ
Indice medio di omogeneitàIndice medio di omogeneitàdelle rispostedelle risposte
INDICE DI ETEROGENEITÀ DELLE RISPOSTE DATE DAGLI STUDENTI DELLA J-ESIMA CLASSE AL S-ESIMO QUESITO
RIEPILOGORIEPILOGO
La prima fase della La prima fase della procedura di procedura di editingediting ha ha
previsto l’eliminazione, da previsto l’eliminazione, da ognuno dei 12 dataset, delle ognuno dei 12 dataset, delle unità pseudo non rispondenti unità pseudo non rispondenti
ed il calcolo dei seguenti ed il calcolo dei seguenti indicatori a livello di classe:indicatori a livello di classe:
Punteggio medio per classe Punteggio medio per classe
Scarto quadratico medio Scarto quadratico medio del punteggio per classedel punteggio per classe
Tasso di mancata Tasso di mancata compilazione per classecompilazione per classe
Indice medio di omogeneità Indice medio di omogeneità delle risposte per classedelle risposte per classe
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -12-
ANALISI IN COMPONENTI ANALISI IN COMPONENTI PRINCIPALI (ACP)PRINCIPALI (ACP)
Il ricorso all’Analisi in Componenti Principali (ACP) ha permesso di ridurre il numero di indicatori che esprimono il comportamento di
risposta a solo due variabili
CONTRAPPOSIZIONE
Prima componente
Seconda componente
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -13-
Permette di semplificare la procedura di editing e di isolare, graficamente, le classi
anomale
ANALISI IN COMPONENTI ANALISI IN COMPONENTI PRINCIPALI (ACP)PRINCIPALI (ACP)
Proiezione delle classi di
studenti sui due assi fattoriali
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -14-
Produzione di una Produzione di una matrice dei matrice dei gradi di appartenenzagradi di appartenenza dove dove
per ogni classe di studenti (righe per ogni classe di studenti (righe della matrice) viene calcolata la della matrice) viene calcolata la probabilità di appartenenza ad probabilità di appartenenza ad ognuno degli 8 gruppi (colonne ognuno degli 8 gruppi (colonne
della matrice)della matrice)
IL METODO DELLE K MEDIE IL METODO DELLE K MEDIE SFOCATOSFOCATO
-FUZZY K-MEANSFUZZY K-MEANS--
In base alle due componenti In base alle due componenti principali sono state principali sono state
classificate le classi di classificate le classi di studenti in 8 gruppi mediante studenti in 8 gruppi mediante
un algoritmo diun algoritmo di FUZZY CLUSTERINGFUZZY CLUSTERING
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -15-
IDENTIFICARE IL CLUSTER IDENTIFICARE IL CLUSTER DI UNITÀ ANOMALEDI UNITÀ ANOMALE
Mediante la proiezione sugli assi fattoriali dei centroidi di ognuno Mediante la proiezione sugli assi fattoriali dei centroidi di ognuno degli 8 gruppi è possibile identificare il degli 8 gruppi è possibile identificare il clustercluster di unità anomale di unità anomaleValori negativi elevati rispetto Valori negativi elevati rispetto
alla I componente principale, alla I componente principale, che indica un punteggio medio che indica un punteggio medio
molto elevato e una scarsa molto elevato e una scarsa variabilità interna sia rispetto al variabilità interna sia rispetto al
punteggio sia rispetto punteggio sia rispetto all’eterogeneità delle risposteall’eterogeneità delle risposte
Gruppo di OUTLIER
Punteggi fattoriali prossimi allo Punteggi fattoriali prossimi allo zero rispetto alla II componente zero rispetto alla II componente
principale che indicano una principale che indicano una presenza trascurabile di valori presenza trascurabile di valori
mancanti (mancanti (missing datamissing data))
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -16-
Si potrà interpretare il grado di appartenenza di ogni unità al cluster
individuato:
µia
Lo stesso indice può essere interpretato, in alternativa, come una misura del livello di
anomalia di ogni classe i-esima
come la probabilità per ogni classe di studenti di essere considerata un
outlier
IDENTIFICARE IL CLUSTER IDENTIFICARE IL CLUSTER DI UNITÀ ANOMALEDI UNITÀ ANOMALE
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -17-
WWii assumerà valori prossimi allo zero se l’unità è assumerà valori prossimi allo zero se l’unità è
classificata con una probabilità elevata tra gli classificata con una probabilità elevata tra gli outlieroutlier, , viceversa assumerà valori vicini all’unità se la classe non viceversa assumerà valori vicini all’unità se la classe non
può essere considerata anomalapuò essere considerata anomala
CORREZIONE DEI DATI CORREZIONE DEI DATI ANOMALIANOMALI
Sulla base del grado di appartenenza al Sulla base del grado di appartenenza al clustercluster di unità di unità anomale è possibile correggere i punteggi medi di ogni anomale è possibile correggere i punteggi medi di ogni
classe ricorrendo ad un fattore di ponderazione classe ricorrendo ad un fattore di ponderazione wwii
WWi i =1 -=1 - µ µiaiaFattore di correzione
Probabilità di essere un outlier
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -18-
LA LOGICA DI FONDOLA LOGICA DI FONDO
Il criterio ispiratore dell’intera procedura di correzione è Il criterio ispiratore dell’intera procedura di correzione è quello di attribuire ad ogni unità un peso diverso quello di attribuire ad ogni unità un peso diverso
determinato dal complemento ad uno della probabilità di determinato dal complemento ad uno della probabilità di appartenere al appartenere al clustercluster di unità anomale. di unità anomale.
Si supera il limite della logica dicotomica di classificare in Si supera il limite della logica dicotomica di classificare in modo “drastico” un’osservazione come modo “drastico” un’osservazione come outlieroutlier o meno ( o meno (hard hard
clusteringclustering), a favore di un approccio sfumato (), a favore di un approccio sfumato (fuzzyfuzzy) che ) che permette di quantificare, rispetto ad ogni classe, il livello di permette di quantificare, rispetto ad ogni classe, il livello di anomalia e conseguentemente di tarare adeguatamente anomalia e conseguentemente di tarare adeguatamente
l’intervento correttivo.l’intervento correttivo.
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -19-
EFFETTI CORREZIONEEFFETTI CORREZIONE
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope"
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -20-
CARATTERIZZAZIONE TERRITORIALE DEL CARATTERIZZAZIONE TERRITORIALE DEL FENOMENO DEI DATI ANOMALIFENOMENO DEI DATI ANOMALI
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -21-
Escludendo Escludendo dall’analisi le dall’analisi le
regioni del Sud, si regioni del Sud, si noterà l’attenuarsi noterà l’attenuarsi delle anomalie che delle anomalie che
sono state sono state riscontrate rispetto riscontrate rispetto
alle distribuzioni alle distribuzioni calcolate calcolate
sull’insieme dei dati sull’insieme dei dati italianiitaliani
CARATTERIZZAZIONE TERRITORIALE CARATTERIZZAZIONE TERRITORIALE DEL FENOMENO DEI DATI ANOMALIDEL FENOMENO DEI DATI ANOMALI
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -22-
PUNTEGGI MEDI PER PUNTEGGI MEDI PER REGIONEREGIONE
50
52
54
56
58
60
62
64
66
68
70
72
74
76
78
80
82
84
86
Piem
onte
Vall
e D'A
osta
Lom
bard
ia
Tre
ntino
Alto
Adig
e
Ven
eto
Friu
li Ven
ezia
Giulia
Ligu
ria
Em
ilia R
omag
na
Tos
cana
Um
bria
Mar
che
Laz
io
Abr
uzzo
Moli
se
Cam
pania
Pug
lia
Bas
ilicat
a
Cala
bria
Sici
lia
Sar
degn
a
Media
II elem MAT 0405
50
52
54
56
58
60
62
64
66
68
70
72
74
76
78
80
82
84
86
Piem
onte
Vall
e D'A
osta
Lom
bard
ia
Tre
ntino
Alto
Adig
e
Ven
eto
Friu
li Ven
ezia
Giulia
Ligu
ria
Em
ilia R
omag
na
Tos
cana
Um
bria
Mar
che
Laz
io
Abr
uzzo
Moli
se
Cam
pania
Pug
lia
Bas
ilicat
a
Cala
bria
Sici
lia
Sar
degn
a
Media ponderata
II elem MAT 0405
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -23-
QUESTIONARIO DI SISTEMA E QUESTIONARIO DI SISTEMA E DATI MANCANTIDATI MANCANTI
Analisi della presenza dei Analisi della presenza dei missing datamissing data nell’indagine di nell’indagine di sistema che l’INVALSI ha condotto sulle scuole delsistema che l’INVALSI ha condotto sulle scuole del
I ciclo nell’a.s. 2005/06I ciclo nell’a.s. 2005/06
EE
XX
AA
NN
TT
EE
Individuare punti di criticità del Individuare punti di criticità del modulo di rilevazione e fornire modulo di rilevazione e fornire una panoramica dei fattori che una panoramica dei fattori che condizionano maggiormente la condizionano maggiormente la collaborazione all’indagine in collaborazione all’indagine in modo da poter migliorare il modo da poter migliorare il processo di processo di data capturingdata capturing
nelle edizioni successive della nelle edizioni successive della rilevazionerilevazione
EE
XX
PPOOSSTT
Acquisire gli elementi per Acquisire gli elementi per valutare la possibilità di valutare la possibilità di
implementare un metodo di implementare un metodo di ricostruzione delle ricostruzione delle
informazioni mancantiinformazioni mancanti
OBIETTIVI
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -24-
PROFILI SCOLASTICIPROFILI SCOLASTICI
Per rendere più snello il lavoro di analisi si è proceduto ad una Per rendere più snello il lavoro di analisi si è proceduto ad una suddivisione della matrice dei dati in modo da ottenere un suddivisione della matrice dei dati in modo da ottenere un datasetdataset
specifico per ogni profilo scolastico (inteso come tipologia di livello di specifico per ogni profilo scolastico (inteso come tipologia di livello di istruzione che ogni istituzione presenta)istruzione che ogni istituzione presenta)
Profilo Tipologia di istituzione scolastica
Numero istituzioni scolastiche presenti
nel profilo
Valoriassoluti
Valori percentuali
ProfiloS_INF
Scuola dell'infanzia non statale 2.025 21,25
ProfiloS_PRIM
Scuola primaria 261 2,74
ProfiloS_SEC
Scuola secondaria di I grado 1.439 15,10
ProfiloM_INF_PRIM
Scuola dell'infanzia e scuola primaria(circolo didattico)
2.531 26,56
ProfiloM_PRIM_SEC
Scuola primaria e scuola secondaria di I grado 490 5,14
ProfiloINF_PRIM_SEC
Scuola dell'infanzia, scuola primaria e scuola secondaria di I grado (istituto comprensivo)
2.784 29,21
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -25-
Il ricorso ai profili di istituzione scolastica ha permesso di distinguere le variabili espressamente “dedicate” ad una
determinata tipologia scolastica da quelle non indirizzate alla stessa, definite “variabili
non applicabili per il profilo scolastico”La suddivisione in profili stata effettuata in base ad un criterio
di “AUTOREFERENZIALITÀ”ogni istituzione è stata
considerata appartenente ad un determinato profilo, non in base alle informazioni contenute nella
lista di riferimento, bensì osservando la tipologia di
domande a cui la stessa scuola ha fornita risposta
PROFILI PROFILI SCOLASTISCOLASTI
CICI
Sono stati estratti dal questionario generale, e conseguentemente dalla
matrice dei dati, tanti subset di quesiti, e di variabili, quanti sono i profili di istituzioni scolastiche individuate
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -26-
LE MANCATE RISPOSTELE MANCATE RISPOSTE
I DATI MANCANTI SI I DATI MANCANTI SI CLASSIFICANO INCLASSIFICANO IN
NON RISPOSTENON RISPOSTEquando l’istituzione scolastica non ha quando l’istituzione scolastica non ha
fornito il dato richiestofornito il dato richiesto
RRISPOSTA NON VALIDAISPOSTA NON VALIDAquando il dato ottenuto non corrisponde quando il dato ottenuto non corrisponde
all’informazione richiestaall’informazione richiesta
RISPOSTA NON APPLICABILERISPOSTA NON APPLICABILEquando non è possibile per l’istituzione quando non è possibile per l’istituzione scolastica fornire una risposta poiché la scolastica fornire una risposta poiché la
domanda che è stata posta nel domanda che è stata posta nel questionario non “fa al caso”questionario non “fa al caso”
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -27-
N
p ijj 1
p
m
N
N
p ijj 1
p
na
N
N
p ijj 1
p
e
N
Totale delle non risposte individuate rispetto all’i-esima istituzione del p-esimo profilo
Numero di variabili indirizzate al p-esimo profilo
Totale delle risposte non valide individuate rispetto all’i-esima istituzione del p-esimo profilo
Numero di variabili indirizzate al p-esimo profilo
Totale delle risposte non applic. individuate rispetto all’i-esima istituzione del p-esimo profilo
Numero di variabili indirizzate al p-esimo profilo
INDICATORI DI MANCATA RISPOSTA
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -28-
DATI NON APPLICABILIDATI NON APPLICABILI
0,3500,3000,2500,2000,1500,1000,0500,000
700
600
500
400
300
200
100
0
Media 0,059
Moda 0,042
Varianza 0,045
Minimo 0,002
Massimo 0,303
Primo quartile
0,025
Mediana 0,046
Terzo quartile 0,083
Oltre la metà del collettivo non supera il 5% di dati non applicabili; mentre, soltanto 95 unità (1%) hanno compilato il questionario con una quota di dati non applicabili compresa tra il 20% ed il 40%.
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -29-
TASSI DI RISPOSTA NON TASSI DI RISPOSTA NON APPLICABILEAPPLICABILE
Pie
mo
nte
Va
lle D
'Ao
sta
Lo
mb
ard
ia
Tre
ntin
o A
lto A
dig
e
Ve
ne
to
Friu
li V
en
ezi
a G
iulia
Lig
uria
Em
ilia
Ro
ma
gn
a
To
sca
na
Um
bria
Ma
rch
e
La
zio
Ab
ruzz
o
Mo
lise
Ca
mp
an
ia
Pu
glia
Ba
silic
ata
Ca
lab
ria
Sic
ilia
Sa
rde
gn
a
-0 ,0 4
-0 ,0 2
0 ,0 0
0 ,0 2
0 ,0 4
0 ,0 6
0 ,0 8
0 ,1 0
0 ,1 2
0 ,1 4
0 ,1 6
0 ,1 8
0 ,2 0
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -30-
Poiché numerosi quesiti sono indirizzati a istituzioni scolastiche che possono essere definite “complesse” dal punto di vista delle attività svolte (partecipazione a progetti, presenza di esperti esterni, stipula di convenzioni con altri enti, etc..), delle strutture (sedi e laboratori attivati) e del numero di allievi e di unità di personale.
Prim
aria
Infa
nzia
Circ
olo
dida
ttic
o
Prim
aria
e s
econ
dar
ia
Infa
nzia
, P
rimar
ia e
Sec
onda
ria
Sec
onda
ria
-0 ,0 2
0 ,0 0
0 ,0 2
0 ,0 4
0 ,0 6
0 ,0 8
0 ,1 0
0 ,1 2
0 ,1 4
0 ,1 6
0 ,1 8
0 ,2 0
0 ,2 2
0 ,2 4
Ta
sso
di r
isp
ost
a n
on
ap
plic
ab
ile
Scuole secondarie di I grado interessate in misura minore dal
fenomeno della non applicabilità dei
quesiti
TASSI DI RISPOSTA NON TASSI DI RISPOSTA NON APPLICABILEAPPLICABILE
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -31-
la riprogettazione dei questionari di indagine, costruendo moduli specifici per ogni livello
scolastico, comporterebbe un incremento dei costi e dei tempi dell’intero processo di indagine non giustificato dalla scarsa intensità del fenomeno
anche le scuole maggiormente interessate dalla presenza di questa tipologia di dati mancanti, con valori mediani compresi
tra il 6% e l’8%, non superano soglie preoccupanti che consiglierebbero una rimodulazione del modulo di rilevazione1
SI RITIENE CHE UN SIMILE ANDAMENTO DEI TASSI DI RISPOSTA NON
APPLICABILE SIA DA CONSIDERARSI FISIOLOGICO QUANDO LE UNITÀ DI
INDAGINE SONO ETEROGENEE E COMPLESSE COME LE ISTITUZIONI
SCOLASTICHE
2
[ ]
[ ]
TASSI DI RISPOSTA NON TASSI DI RISPOSTA NON APPLICABILEAPPLICABILE
TALE ANDAMENTO NON COSTITUISCE UN FATTORE DI CRITICITÀ DELLA RILEVAZIONE PER DUE ORDINI DI MOTIVI
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -32-
0,600,500,400,300,200,100,00
tasso_miss_semplice
3.000
2.500
2.000
1.500
1.000
500
0
Fre
qu
en
cy
Mean = 0,0533Std. Dev. = 0,06573N = 9.530
Histogram
Media 0,053
Moda 0,000
Varianza 0,004
Minimo 0,000
Massimo 0,784
Primo quartile 0,013
Mediana 0,034
Terzo quartile 0,070
TASSI DI NON RISPOSTATASSI DI NON RISPOSTA
Il tasso di non risposta è riconducibile ad una mancata collaborazione da parte dell’intervistato a fornire le informazioni richieste
A differenza della non applicabilità, tale fenomeno può essere soltanto in parte controllato e prevenuto dall’ente che predispone l’indagine.
La presenza di mancate risposte, si è attestata su livelli soddisfacenti evidenziati da un tasso medio di mancate risposte pari
al 5% ed una variabilità limitata prossima allo zero (σ2=0,004)
DA UN’ANALISI UNIVARIATA DEI TASSI DI NON RISPOSTA SI EVINCE UN DA UN’ANALISI UNIVARIATA DEI TASSI DI NON RISPOSTA SI EVINCE UN FORTE SPIRITO COLLABORATIVO ALL’INDAGINE DI SISTEMAFORTE SPIRITO COLLABORATIVO ALL’INDAGINE DI SISTEMA
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -33-
TASSO NETTO DI NON RIPOSTA SUPERIORE O UGUALE AL 10%
Profilo scolastico
Numero istituzioni scolastiche con elevata propensione alla non collaborazione(Tasso netto di non risposta ≥ 0,1) Numero
istituzioni scolastiche presenti nel
profilo[3]
Intensità nel profilo (*)[1] / [3]Valori assoluti
[1]Valori percentuali
[2]
Primaria 71 4,58% 261 27,20%
Primaria e secondaria
118 7,61% 490 24,08%
Infanzia, primaria e secondaria
459 29,59% 2.784 16,49%
Infanzia e primaria
363 23,40% 2.531 14,34%
Infanzia non statale
270 17,41% 2.025 13,33%
Secondaria 143 17,41% 1.439 9,93%
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -34-
TASSI DI NON RISPOSTA PER TASSI DI NON RISPOSTA PER LIVELLI SCOLASTICILIVELLI SCOLASTICI
Pri
ma
ria
Pri
ma
ria
e s
eco
nd
ari
a
Infa
nzi
a, P
rim
ari
a e
Se
con
da
ria
Cir
colo
did
atti
co
Se
con
da
ria
Infa
nzi
a
-0 ,0 2
0 ,0 0
0 ,0 2
0 ,0 4
0 ,0 6
0 ,0 8
0 ,1 0
0 ,1 2
0 ,1 4
0 ,1 6
0 ,1 8
0 ,2 0
0 ,2 2
Ta
sso
ne
tto d
i no
n r
isp
ost
a
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -35-
Fin
o a
50
stu
de
nti
Da
51
a 1
00
stu
de
nti
Da
10
1 a
20
0 s
tud
en
ti
Da
20
1 a
30
0 s
tud
en
ti
Da
30
1 a
40
0 s
tud
en
ti
Più
di 4
00
stu
de
nti-0 ,0 4
0 ,0 0
0 ,0 4
0 ,0 8
0 ,1 2
0 ,1 6
0 ,2 0
INFANZIA
TASSI DI NON RISPOSTATASSI DI NON RISPOSTANUMERO STUDENTINUMERO STUDENTI
Fin
o a
10
0 s
tud
en
ti
Da
10
1 a
20
0 s
tud
en
ti
Da
20
1 a
30
0 s
tud
en
ti
Da
30
1 a
40
0 s
tud
en
ti
Da
40
1 a
50
0 s
tud
en
ti
Da
50
1 a
60
0 s
tud
en
ti
Da
60
1 a
70
0 s
tud
en
ti
Da
70
1 a
80
0 s
tud
en
ti
Più
di 8
00
stu
de
nti-0 ,0 4
0 ,0 0
0 ,0 4
0 ,0 8
0 ,1 2
0 ,1 6
0 ,2 0
PRIMARIA
Fin
o a
10
0 s
tud
en
ti
Da
10
1 a
20
0 s
tud
en
ti
Da
20
1 a
30
0 s
tud
en
ti
Da
30
1 a
40
0 s
tud
en
ti
Da
40
1 a
50
0 s
tud
en
ti
Da
50
1 a
60
0 s
tud
en
ti
Da
60
1 a
70
0 s
tud
en
ti
Da
70
1 a
80
0 s
tud
en
ti
Più
di 8
00
stu
de
nti-0 ,0 4
0 ,0 0
0 ,0 4
0 ,0 8
0 ,1 2
0 ,1 6
0 ,2 0
SECONDARIA
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -36-
UN’ANALISI PER SEZIONI DEL UN’ANALISI PER SEZIONI DEL QUESTIONARIOQUESTIONARIO
Per ogni profilo scolastico è stato calcolato
un indice di Mancata Compilazione (MC) per sezione
s k
p ijj 1i 1
p sp p
m
MCK S
Non risposte registrate dalle K istituzioni scolastiche del p-esimo profilo rispetto alle
variabili della s-esima sezione
Numero totale di unità del p-esimo profilo
Numero totale di variabili appartenenti alla s-esima sezione
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -37-
IL TASSO DI MANCATA COMPILAZIONE
Il tasso di mancata compilazione essendo una misura “relativizzata”, sia Il tasso di mancata compilazione essendo una misura “relativizzata”, sia rispetto al numero di variabili che rispetto al numero di unità, è in grado di rispetto al numero di variabili che rispetto al numero di unità, è in grado di
consentire sia confronti tra sezioni dello stesso profilo (confronti verticali) sia tra consentire sia confronti tra sezioni dello stesso profilo (confronti verticali) sia tra profili diversi rispetto alla stessa sezione (confronti orizzontali)profili diversi rispetto alla stessa sezione (confronti orizzontali)
0
0,02
0,04
0,06
0,08
0,1
0,12
Infa
nzi
a n
on
stat
ale
Cir
colo
did
atti
co
Isti
tuto
com
pre
nsi
vo
Pri
mar
ia
Pri
mar
ia e
Sec
on
dar
ia d
i Ig
rad
o
Sec
on
dar
ia d
i Ig
rad
o
Organizzazione scolastica
Organizzazione dell'insegnamento
Gestione strategica
Monitoraggio, valutazione emiglioramento
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -38-
CONCLUSIONI -ANALISI DATI DI SISTEMA-
Per innalzare ulteriormente il
livello qualitativo della rilevazione si
potrebbe…
L’analisi ha permesso di esprimere un giudizio
COMPLESSIVAMENTE POSITIVO
sull’accuratezza dei dati di sistema
RIdimensionare il modulo di rilevazione, cercando di
individuare il giusto compromesso tra il dettaglio delle informazioni
ed il numero di quesiti
Offrire una maggiore assistenza alle istituzioni scolastiche di dimensioni minori che hanno
mostrato una minor propensione a collaborare all’indagine
Effettuare una revisione dei quesiti maggiormente interessati dalle mancate
risposte, in particolar modo quelli relativi agli aspetti della dispersione scolastica oppure quelli
relativi all’impiego di esperti esterni
Ridurre il numero di quesiti che non prevedono un’opzione di risposta
esaustiva per evitare confusione e/o incertezza e conseguente aumento delle non risposte e delle risposte
non valide
FIN
VA
LI 2
005
- Q
UA
LIT
À D
EI D
AT
I, A
NA
LIS
I E S
UG
GE
RIM
EN
TI P
ER
LA
RIL
EV
AZ
ION
E
Dipartimento di Statistica e Matematica per la Ricerca EconomicaUniversità degli Studi di Napoli "Parthenope“ - -39-
SVILUPPI FUTURISVILUPPI FUTURI
ANALISI DEI DATI 2006/2007
E
CONFRONTO CON ANNI PRECEDENTI
OFFRIRE SPUNTI E SUGGERIMENTI
PER UN PECORSO DI QUALITÀ