Metrologia delle prove esame di Stato parte 2

della terza prova potrebbe consentire alla commissione di convergere anche sui criteri per la valutazione ed evitare inopportune spaccature in sede di votazioni sulle singole prove.

L'avere menzionato qui gli errori di misura e la soggettività dei giudizi dovrebbe ridurre il rischio di un approccio meccanicistico che affidi alla chiarezza cartesiana del numero una equità di giudizio che rimane invece responsabilità personale di ciascun commissario. E senza cadere

nei dubbi amletici dell'incertezza e della non decisione, occorre ricordare che l'esame somma tanti momenti distinti che riducono l'entità dell'errore complessivo. In particolare, il nuovo esame assume formalmente l'informazione che proviene dagli accertamenti compiuti dalla scuola durante gli ultimi anni mediante il credito scolastico e quegli accertamenti possono costituire una filigrana di sfondo per orientare i criteri di giudizio in tutte le prove.

AAll lleeggaattoo 22

I molti aspetti del Monitoraggio

di Raimondo Bolletta

I compiti assegnati dal decreto istitutivo all'Osservatorio sugli Esami di Stato (Ones) si possono riassumere in due funzioni principali

o assistere le scuole e le commissioni nella fase

di costruzione delle terze prove e

o realizzare un monitoraggio sistematico dei

risultati della riforma degli Esami di Stato.

L'Osservatorio ha inizialmente dedicato la sua attenzione alla questione della terza prova per la quale sin dall'inizio dell'anno scolastico 1998-99, si erano manifestate preoccupazioni diffuse trai docenti e idirigenti scolastici. In seguito però sono emersi altri punti nodali sui quali si è

concentrato il dibattito degli operatori della scuola. Nell’indagine fatta nel 1999 mediante un questionario postale, effettuata per conoscere le opinioni dei docenti e dei presidi, la seconda fonte di preoccupazione riguardava la conduzione del colloquio pluridisciplinare, preoccupazione più avvertita dai i presidi, probabili futuri presidenti di commissione, che dai docenti, per il loro ruolo di commissari. Nella fig.1 sono riportate le frequenze delle risposte multiple calcolate sul totale dei rispondenti; si tenga conto che ogni rispondente poteva segnalare fino a tre aspetti 'preoccupanti' all'interno della lista proposta.

Difficoltà di gestione dell'esame

0 10 20 30 40 50 60 70 80

La valutazione della seconda prova

La valutazione della prima prova

La suddivisione per aree disciplinari

La valutazione della terza prova

ll rapporto tra interni ed esterni

L'assegnazione dei punteggi

La conduzione del colloquio pluridiscip

La costruzione della terza prova

% dei rispondenti

per il presidente secondo i presidi per i commissari secondo i docenti

Anche in base a questo risultato e ai numerosissimi quesiti e messaggi elettronici pervenuti al forum dell'Osservatorio è stato deciso di sottoporre a monitoraggio anche il colloquio in considerazione della sua funzione fondamentale nell’ambito della riforma

Aspetti metodologici dell'indagine nell'ambito del monitoraggio Il piano di monitoraggio ha richiesto una lunga ed approfondita discussione sulle modalità più opportune d’ intervento; si trattava infatti di osservare, documentare e studiare un fenomeno di vastissime proporzioni e di enorme importanza culturale e sociale e quindi anche 'politica' che si

sarebbe realizzato in tempi molto rapidi, meno di un mese su tutto il territorio nazionale.

Le due esigenze 'contrastanti' da tener presente riguardavano la tempestività della restituzione dei dati ai responsabili e ai protagonisti del processo e il rigore metodologico e la profondità delle analisi condotte. i

Si è scelto di affrontare il problema operando su due fronti, quello campionario e quello censimentario, utilizzando strumenti e metodi per la raccolta dei dati sia di tipo quantitativo sia qualitativo.

Il criterio generale cui ci si è attenuti è stato quello di non creare, attraverso le azioni di monitoraggio, delle significative perturbazione al regolare svolgimento degli esami, o almeno di far in modo che le inevitabili perturbazioni indotte da una attività osservativa fossero uniformemente distribuite su tutta la popolazione non soltanto su alcune commissioni. E' evidente, ad esempio, che se solo alcune commissioni avessero dovuto comunicare all'Osservatorio gli esiti del proprio lavoro avremmo potuto avere delle distorsioni negli stessi criteri di valutazione. Per questo la raccolta degli esiti analitici ha interessato allo stesso modo tutte le commissioni e, ove si è dovuto ricorrere alla costituzione di campioni, le richieste di informazioni hanno rispettato assolutamente l'anonimato e sono state formulate dopo che le commissioni avevano deciso le valutazioni (è il caso ad esempio della raccolta del campione delle prime prove che è stata comunicata direttamente ai presidenti di commissione estratti solo dopo la pubblicazione degli esiti degli scritti e che consentiva di mascherare nelle fotocopie sia i dati nominativi sia le correzioni o e le valutazione espresse dai commissari).

Il monitoraggio del colloquio si configurava quindi come particolarmente delicato poiché la presenza di un osservatore poteva turbare sia la prestazione del candidato sia l'atteggiamento dei commissari, falsando sia la relazione comunicativa che si voleva studiare sia la stessa validità della prova. Da qui nasce la decisione di ricorrere a una metodologia che potremmo definire da 'candid camera' con lo scopo evidente di mascherare il più possibile la presenza di una osservatore estraneo alla commissione e alla classe, ricorrendo a personale specializzato nelle osservazioni di comportamenti sociali spontanei. Non si tratta di una procedura inquisitoria, come qualche organo i stampa ha recentemente qualificato l'iniziativa, di tipo ispettivo o sanzionatorio ma di una metodologia che ha cercato di essere massimamente rispettosa della delicatezza del momento che doveva essere osservato.

La procedura realizzata combina l'approccio quantitativo con quello qualitativo: l'istituto demoscopico incaricato di effettuare le rilevazioni ha restituito una serie di osservazioni fattuali condotte sulla base di una griglia concordata con il CEDE, una serie di osservazioni libere riferite

alle circostanze in essa non riconducibili e, ove è stato tecnicamente possibile, le bobine delle registrazioni dei colloqui.

La fase di rilevazione è stata realizzata dalla Doxa che ha operato in stretta sinergia con l'Osservatorio convenendo sia le procedure di campionamento sia le griglie di osservazione sia i criteri di formazione dei rilevatori-osservatori.

Al momento attuale (Febbraio 2000) sono disponibili solo i risultati di questi primi due aspetti mentre le registrazioni vocali sono in fase di trascrizione e di analisi per una lettura più approfondita dei colloqui realizzati.

Struttura della ricerca Pur consapevoli che i costi di una simile procedura non potevano consentire numerosità campionarie significative per un processo altamente variabile e poco studiato, si è comunque ritenuto opportuno procedere alla identificazione dei colloqui da osservare con un campionamento rigorosamente casuale.

Anche per ridurre le spese di viaggio dei rilevatori, sono state selezionate nel campione 15 tipologie di scuole in 101 punti di campionamento (comuni) distribuiti sul territorio proporzio-nalmente alla presenza delle scuole.

Nel dettaglio, sono state osservate prove orali dell’esame di stato nelle seguenti tipologie di scuole:

1. Liceo Scientifico

2. Liceo Classico

3. Liceo Artistico

4. Istituto d’Arte

5. Istituto Magistrale

6. Istituto Agrario

7. Istituto Tecnico Industriale

8. Istituto Tecnico per Geometri

9. Istituto Tecnico Commerciale

10. Istituto Tecnico Commerciale per Geometri

11. Istituto Professionale per i Servizi Sociali

12. Istituto Professionale per l’Artigianato

13. Istituto Professionale Commercio e Turismo

14. Istituto Professionale Servizi Alberghieri e della Ristorazione

15. Istituto Professionale Agrario e Ambientale

La ripartizione geografica delle scuole è risultata la seguente:

Nord Ovest 19,7%

Nord Est 17,8%

Centro 20,0%

Sud 28,9%

Isole 13,6%

Sono state estratte 400 scuole di cui 391 sono state effettivamente raggiunte per un totale di 799 colloqui osservati. Si noti che l'osservatore doveva assistere a soltanto due colloqui consecutivi per la stessa commissione per non insospettire eccessivamente i commissari ed evitare una eccessiva concentrazione dell'inda-gine su poche commissioni.

La griglia di osservazione è stata discussa approfonditamente e se ne è convenuta una versione che potesse essere agevolmente utilizzata da personale non necessariamente esperto dello specifico scolastico. Si è evitato quindi di pretendere dall'osservatore una valutazione della difficoltà della prova ma si è chiesto di rilevare solo gli aspetti strutturali ed esteriori che potevano essere spia di specifiche impostazioni più o meno coerenti con quanto la nuova normativa cercava di introdurre nelle prassi delle commissioni.

I punti su cui era focalizzata l'attenzione dell'Osservatorio erano centrati sullo spazio che avrebbe avuto la discussione del lavoro presentato dal candidato, l'ampiezza degli accertamento ulteriori più o meno centrati su singole discipline o su un approccio coerente-mente integrato.

La variabili direttamente rilevate possono essere così raggruppate:

o tempi del colloquio

o l’ambientazione (numero dei commissari

presenti, pubblico, tipo di aula e strumenti

presenti, ecc.)

o il comportamento dei commissari

o il comportamento degli studenti.

Le osservazioni sono state condotte da 81 osservatori opportunamente formati direttamente dall'istituto incaricato dell'indagine e si sono protratte dal primo al 16 luglio 1999. Tale intervallo temporale deriva dalla preoccupazione di ricoprire tutto il periodo in cui si sono svolte le prove orali.

Come abbiamo detto, le procedure di rilevazione hanno variamente intrecciato osservazioni 'oggettive' con giudizi che potremmo ascrivere alla soggettività dell'osservatore. Dire ad esempio che un candidato ha brillantemente

esposto la sua tesina ha una connotazione meno 'oggettiva' del notare che c'è a disposizione una lavagna luminosa o un calcolatore elettronico. D'altra parte l'essersi affidati a giudizi o impressioni di rilevatori non professionisti della scuola, se può presentare qualche rischio di pertinenza e validità sulla valutazione degli apprendimenti, risponde alla consapevolezza che l'esame di Stato è un atto pubblico in cui la Scuola si espone e si rende visibile all'esterno a un pubblico di 'incompetenti' che però hanno titolo per giudicare o criticare la validità specifica della prova e il valore delle prestazioni dei candidati.

E' proprio dalle osservazioni 'soggettive' dei rilevatori che nasce l'idea dell'approfondimento proposto da questo volume che non si concentra sugli aspetti tecnici e specifici della prova valutativa in sé ma che esplora il ricchissimo mondo delle implicazioni legate alla conduzione di una prova pubblica sulle competenze di giovani che escono da un lungo periodo di studio e di preparazione per entrare nel modo del lavoro o dello studio avanzato per la professione futura.

Una sintesi delle osservazioni La griglia predisposta per la raccolta delle osservazioni prevedeva due sezioni: la prima, dedicata alla descrizione dell’ambiente (caratteristiche dell’aula) in cui si svolge il colloquio ed una seconda di approfondimento, sull’andamento del colloquio.

Il contesto La maggior parte delle aule in cui si sono svolti i colloqui di esame sono state classificate dai rilevatori come grandi e spaziose (81,7%), prevalentemente accoglienti (66,5%) e anche silenziose (72,0%) e luminose (88,2%). Le osservazioni riguardanti la sensazione di freddezza e di non accoglienza provata entrando nelle aule di alcune scuole ( fino al 33,5%) solleva però un problema non trascurabile di qualità dell'ambiente in cui si svolge un momento formale e certamente importante per la vita dei candidati e delle stesse scuole.

Ambiente in cui si svolge il colloquio

0

100

200

300

400

500

600

700

800

ACCOGLIENTE(CALDA, FASENTIRE A

PROPRIO AGIO)

NONACCOGLIENTE

(FREDDA,METTE ADISAGIO)

RUMOROSA SILENZIOSA LUMINOSA NON LUMINOSA

Il pubblico è risultato in genere poco numeroso (non più di 10 persone) e formato prevalentemente dagli stessi studenti della classe desiderosi di studiare gli stili di approccio dei commissari esterni e acquisire esperienze e

informazioni sugli stili di conduzione dei commissari e sull’andamento dei colloqui degli amici. Nei licei scientifici e classici è stata rilevata la presenza di un pubblico più numeroso (25,5% e 26,5% rispettivamente).

Pubblico presente

FORMATO PREVALENTEMENTE DA STUDENTI (PIU' DI 50%)

82%

FORMATO PREVALENTEMENTE DA PARENTI CONOSCENTI

CURIOSI6%

FORMATO DA STUDENTI E PARENTI CONOSCENTI IN

MISURA SIMILE5%

NON INDICATO7%

Lo strumento didattico maggiormente presente all’interno delle aule è risultata la lavagna per gesso tradizionale (72,0%). Poco diffusi sono risultati strumenti come la lavagna luminosa (4,3%), il computer da tavolo (20,9%), il proiettore (6,8%) e il cavalletto con fogli di carta (2,3%).

La presenza del computer da tavolo è stata rilevata prevalentemente presso gli istituti tecnici industriali (50,0%), gli istituti tecnici per geometri (24,8%) e gli istituti professionali per il commercio e turismo (39,1%).

Strumenti per esporre

LAVAGNA (PER GESSO)63%

PROIETTORE6%

COMPUTER DA TAVOLO19%

CAVALLETTO CON FOGLI DI CARTA

2%

LAVAGNA LUMINOSA4%

LAVAGNA (PER PENNARELLI)

6%

Gli strumenti presenti in aula, e a disposizione degli studenti, sono stati utilizzati in modo piuttosto contenuto: si va da un 19,8% di studenti che hanno utilizzato il computer da tavolo (sul totale di quelli che lo avevano a disposizione) ad uno 1,9% di studenti che, avendola a disposizione, hanno utilizzato una lavagna per pennarelli. 4,7% sono risultati gli studenti che hanno utilizzato la lavagna per gesso. Insieme alla scarsa diffusione di strumenti didattici moderni si rileva dunque anche una non abitudine al loro uso nella prova di esame orale.

Il colloquio

I Commissari Una domanda, che spesso era circolata nei dibattiti che hanno preceduto gli esami, riguardava il modo in cui era possibile impostare un colloquio pluridisciplinare in un tempo necessariamente limitato che non fosse la giustapposizione di domande slegate e nozionistiche di ciascun commissario per la sua materia.

Dai dati della griglia di osservazione non è possibile rilevare la congruità dei nessi tra le varie domande e il modo in cui si evolveva nel merito il discorso dei candidati ma alcune aspetti formali possono essere assunti come indicatori della qualità dell'impostazione della prova.

Innanzitutto è stato rilevato il numero dei commissari presenti. La collegialità del colloquio era stata oggetto di dibattito per qualche mese, poiché prima della pubblicazione dell'ordinanza sugli esami, erano circolate ipotesi di conduzione per aree disciplinari proprio per permettere un più esteso ed analitico controllo su tutte le discipline. L’ordinanza ha confermato invece una conduzione completamente collegiale.

Dal campione esaminato risulta che le commissioni hanno operato al completo e che quasi tutti i commissari hanno partecipato attivamente al colloquio (6,4 commissari in media) e in 6 colloqui su 10 (60,7%) anche il presidente è intervenuto attivamente ponendo domande al candidato.

Ciascun colloquio ha avuto una durata di circa un’ora: nel 16,5% dei casi i colloqui si sono però esauriti in 40 minuti e nel 23,8% si sono invece protratti oltre i 60 minuti. Dal grafico emerge anche che nei licei la durata è stata maggiore

Durata del colloquio

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

totale licei tecnici professionali

FINO A 40 MINUTI 41-50 MINUTI 51-60 MINUTI OLTRE 60 MINUTI

DURATA MEDIA DEL COLLOQUIO

46

48

50

52

54

56

58

60

62

Totale scientifico classico istituto arte magistrale industriale commerciale professionale

DURATA MEDIA

Di questi 60 minuti, in media, circa un terzo (21 minuti) è stato dedicato alla discussione della tesina. In 6 casi su 10 (59,8%) gli osservatori hanno giudicato brillante l’esposizione dell’argomento portato dal candidato, mentre in 2 casi su 10 (20,7%) i candidati non lo avevano

preparato con cura e l’impressione è stata negativa (impressione di un “monologo impacciato”).

Alcuni candidati (5,6%) non hanno presentato alcuna tesina e in 13,9% dei casi l’osservatore Doxa non ha rilevato il dato.

Tempo dedicato all'argomento scelto dal candidato

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

totale licei tecnici professionaliFINO A 10 MINUTI 11-15 16-20 21-30 OLTRE 30 MINUTI

Il maggior numero di esposizioni brillanti, a giudizio della Doxa, è stato rilevato presso i licei: 70,8% al liceo scientifico, 67,3% al liceo classico.

In 6 colloqui su 10 (58,7%) la presentazione della tesina è stata un dialogo con più docenti mentre in 3 casi su 10 (27,7%) lo studente ha dialogato con un solo docente. In 1 caso su 10 questa informazione non è stata rilevata.


% % % %

UN MONOLOGO IMPACCIATO

165 21% 64 19% 69 22% 32 22%

UNA ESPOSIZIONE BRILLANTE

478 60% 216 63% 181 57% 81 57%

NON PRESENTATA LA TESINA

45 6% 14 4% 25 8% 6 4%

OMESSO 111 14% 47 14% 40 13% 24 17%

TOTALE 799 100% 341 100% 315 100% 143 100%

Fatto 100 il numero delle tesine presentate, 32,7 hanno riscosso, fra i commissari, un interesse elevato, mentre 58,1 un interesse medio e le restanti 9,2 un interesse scarso. Successivamente all’esposizione della tesina, al candidato sono state rivolte, in media, 15 domande: 41,9% degli studenti hanno dovuto rispondere a non più di 10 domande mentre 18.6% a più di 20 domande.

La percezione dei rilevatori è stata principalmente quella di colloqui condotti dalle commissioni in modo coerente e coordinato (73,1%): non mancano però le impressioni di colloqui condotti dalle commissioni “giustapponendo domande slegate” (21,2%)

oppure in modo distratto e poco convinto (5,7%). La lettura dei commenti liberi degli osservatori riportati sui questionari e presentati nel contributo successivo aiuta ad interpretare questi dati e ad entrare nell’atmosfera creata dai commissari all’interno dell’aula durante la conduzione delle prove.

In 4 colloqui su 10 (39,3%) le domande rivolte dai commissari ai candidati riguardano prevalentemente argomenti diversi da quello della tesina, in altrettanti (37,9%) le domande si ripartiscono equamente fra l’argomento della tesina e altri argomenti e in 2 casi su 10 (22,8%) il colloquio è stato improntato prevalentemente sull’argomento della tesina.

Interesse mostrato dalla commissione per la tesina


ALTO 243 30% 99 32% 88 28% 56 32%

MEDIO 431 54% 172 56% 167 53% 92 52%

SCARSO 68 9% 19 6% 32 10% 17 10%

NON PRESENTATA LA TESINA 45 6% 14 5% 25 8% 6 3%

NON INDICA 12 2% 3 1% 3 1% 6 3%

TOTALE 799 100% 307 100% 315 100% 177 100%

Come la commissione ha condotto il colloquio


COORDINATO E COERENTE 584 73% 229 75% 221 70% 134 76%

GIUSTAPPONENDO DOMANDE SLEGATE

169 21% 63 21% 71 23% 35 20%

IN MODO DISTRATTO E POCO CONVINTO

46 6% 15 5% 23 7% 8 5%

TOTALE 799 100% 307 100% 315 100% 177 100%

Considerando tutte le domande rivolte dai commissari al candidato in media sono state toccate 6 materie: 19,9% degli studenti hanno

risposto a domande su un massimo di 5 materie, 41,8% hanno risposto a domande su 6 materie e 38,3% a domande su più di 6 materie.

Materie coinvolte nel colloquio


3 MATERIE 10 1% 4 1% 5 2% 1 1%

4 MATERIE 46 6% 17 6% 18 6% 11 6%

5 MATERIE 103 13% 31 10% 42 13% 30 17%

6 MATERIE 334 42% 125 41% 134 43% 75 42%

PIU' DI 6 MATERIE 306 38% 130 42% 116 37% 60 34%

TOTALE 799 100% 307 100% 315 100% 177 100%

La maggior parte degli osservatori Doxa ha contato le materie coinvolte nel colloquio avendo come riferimento i diversi commissari che le ponevano (94,6%). In altre parole, ogni commissario veniva individuato come titolare di una materia. In alcuni casi il cambio della materia era annunciato dagli stessi commissari (8,3%) o dallo stesso studente (0,5%).

L'impressione che si può trarre da questi dati è che ci sia stata da parte delle commissioni un chiaro tentativo di accertare in modo diffuso la preparazione del candidato, mobilitando tutti i commissari nella conduzione del colloquio con il candidato. Poco possiamo al momento dire,

prima dell'analisi dei protocolli registrati delle conversazioni, circa il livello di integrazione tra le domande poste dai commissari e il tipo di competenze richieste ai candidati.

Le impressioni dei rilevatori sul clima instaurato durante i colloqui tra gli studenti e i commissari sono comunque piuttosto positive: 94,4% riferiscono di commissari calmi e tranquilli, 87,4% anche di commissari ben disposti nei confronti dei candidati, 70,5% di commissari attenti alle risposte e 65,5% di commissari che si sono fatti parte attiva durante i colloqui rispondendo all’esigenza di condividere prove orali basate sulla pluridisciplinarità.

La commissione era ben disposta nei confronti dei candidati


CALMI, TRANQUILLI 754 94% 288 94% 297 94% 169 95%

BEN DISPOSTI 698 87% 264 86% 273 87% 161 91%

ATTENTI ALLE RISPOSTE 563 70% 224 73% 207 66% 132 75%

PARTE ATTIVA NEL COLLOQUIO 523 65% 221 72% 185 59% 117 66%

Totale 799 100% 307 100% 315 100% 177 100%

Nel complesso, l’impressione è stata di commissari che hanno messo a proprio agio i candidati comprendendone le difficoltà emotive spesso legate a preparazioni carenti (91,9%).

Nella conduzione dei colloqui la maggior parte dei commissari (96,4%) ha fatto riferimento a testi o documenti da commentare (55,4%). L’utilizzo di testi e documenti da commentare suggerito anche dall’ordinanza è risultato particolarmente diffuso presso i licei e gli istituti d’arte.

La maggior parte dei commissari non ha fatto apprezzamenti sulle opinioni espresse dai candidati nel corso dei colloqui (73,7%), anche se in 4 casi su 10 (39,8%) vi sono stati scambi di opinioni fra candidati e commissari.

Valori leggermente più elevati si sono rilevati per gli esaminati dei licei e degli istituti d’arte.

I candidati L’immagine degli studenti fornita dai rilevatori è fortemente segnata dal problema della sicurezza con cui affrontavano la prova: 5 studenti su 10 (53,5%) si sono presentati all’esame sereni e tranquilli ma i restanti o non lo erano affatto (13,1%) o avevano un atteggiamento incerto (33,4%); ancora 5 studenti su 10 (49,8%) si sono dimostrati disinvolti e sicuri (hanno parlato con sicurezza) mentre gli altri hanno mostrato momenti di incertezza; 4 studenti su 10 sono stati giudicati molto preparati (hanno cioè risposto a tutte le domande loro rivolte con sicurezza) (39,3%) mentre, viceversa, 6 su 10 hanno incontrato difficoltà.

Sicurezza del candidato


SERENO, TRANQUILLO 427 53% 176 57% 161 51% 90 51%

DISINVOLTO, SICURO DI SE' 398 50% 172 56% 146 46% 80 45%

MOLTO PREPARATO 314 39% 148 48% 107 34% 59 33%

TOTALE 799 100% 307 100% 315 100% 177 100%

Le incertezze dei candidati sono emerse secondo le modalità riportate nella seguente tabella.

Gli studenti dei licei classici e scientifici si sono rilevati i più sicuri e preparati mentre quelli degli istituti tecnici commerciali e degli istituti professionali sono stati più incerti

arrossire 12,8%

sudare in modo vistoso, eccessivo 5,3%

fare lunghe pause prima di rispondere

14,8%

fare molte pause durante le risposte 13,6%

parlare in modo poco fluente 16,1%

.

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

totale licei tecnici professionali totale licei tecnici professionali

SI' NO

il candidato si sentiva a proprio agio? il candidato appariva preparato?

L’impressione di essere preparati su tutte le materie sono riusciti a darla 4 studenti su 10 (37,4%), mentre per i restanti 6 (62,6%) sono risultate evidenti alcune incertezze su alcune materie.

Considerando il campione complessivo degli studenti osservati, le incertezze maggiori si sono rilevate per le seguenti materie:

materie in cui emergono maggiormente le incertezze

matematica / geometria 18,9%

italiano 18,4%

storia 12,0%

inglese 6,1%

fisica 6,0%

diritto 6,0%

filosofia 5,6%

letteratura italiana 4,3%

In quasi 3 casi su 10 (27,5%) al termine del colloquio i commissari hanno affrontato con gli esaminandi anche il tema della scelta universitaria. Con i candidati dei licei, questa percentuale è risultata leggermente superiore: 34,3% con gli esaminandi del liceo scientifico e 43,9% con gli esaminandi del liceo classico. (Dom. 27)

In un caso su 2 (59,5%), gli studenti hanno anche dichiarato di aver già deciso la facoltà a cui iscriversi. Fra queste le facoltà preferite sono risultate:

corsi universitari previsti

giurisprudenza 13,7%

economia e commercio 11,4%

psicologia 7,6%

informatica 5,3%

lettere moderne 4,6%

medicina 4,6%

Il campione osservato Gli studenti osservati durante il colloquio sono

risultati metà maschi e metà femmine (48,8% e

51,2%). Mediamente le classi degli esaminandi

erano formate da 20 studenti: nel 13% dei casi le

classi erano composte da non più di 15 studenti, nel

31% le classi avevano fra 16 e 20 studenti, nel 29%

avevano fra 21 e 25 studenti e 15% avevano oltre

25 studenti. In 12% la numerosità non è stata

indicata.

Il voto medio di ammissione alla prova orale è

risultato 38. A questo proposito ricordiamo che

18% non aveva superato il punteggio di 30 e 13%

aveva invece ottenuto più di 50.

Conclusioni della DOXA Citiamo il testo delle conclusioni del rapporto Doxa

assunto qui come un punto di vista indipendente,

esterno alla scuola e alle sue problematiche

specifiche.

Innanzitutto l’ambiente: gli esami si sono svolti in

aule poco affollate, prevalentemente grandi e

relativamente accoglienti ma con pochi strumenti

didattici a disposizione degli studenti. Insegnanti e

allievi non sono risultati avvezzi al loro uso non

avendoli a disposizione nel quotidiano.

Fa specie la bassissima presenza di computer nelle

scuole, quando altre indagini mostrano la crescita

continua della presenza di computer nelle

abitazioni delle famiglie italiane.

I commissari: si tratta di insegnanti che hanno

prevalentemente cercato di mettere a loro agio i

candidati, consci della difficoltà emotiva che essi

stavano affrontando. Poche sono risultate le

citazioni riguardanti commissari incuranti dello

stato emotivo degli esaminandi. Sostegni ed

incoraggiamenti sono stati anche rilevati durante le

prove orali per quanto riguardava la preparazione

vera e propria. La tendenza dei commissari è

stata quella di presenziare e partecipare

attivamente ai colloqui con gli studenti anche se si

sono rilevati casi di distrazione o di

parcellizzazione della prova orale.

Gli studenti: come sempre i più preparati

emergono e i non preparati soccombono alla loro

mancanza di studio o alla loro fragilità emotiva.

Dalle osservazioni rilevate nel corso della ricerca

gli studenti hanno qualche pecca in più rispetto ai

commissari.

Solo il confronto del numero dei promossi e delle

votazioni, per quanto possibile, con quelle degli

anni precedenti potrà dire se gli studenti di

quest’anno erano più o meno preparati.

Certo è che i voti di accesso alle prove orali non

erano molto elevati e difficilmente risulterà alto il

numero di coloro i quali hanno ottenuto il

massimo dei voti.

Non affrontiamo in questo ambito la questione

posta in chiusura dal commento della Doxa. Altri

rapporti e risultanze diffuse dell'Osservatorio

affrontano la questione degli esiti ed in particolare il

ruolo giocato dalla prova orale rispetto alle altre

prove di esame.

Ci preme sottolineare qui che l'immagine che si

ricava da questi dati è sicuramente migliore di alcuni

pregiudizi e di alcuni luoghi comuni diffusi prima e

dopo gli esami proprio sul colloquio ma

sottolineano la presenza di un significativo numero

di casi in cui permangono problemi di qualità

complessiva dell'ambiente fisico, del clima dei

rapporti, dell'atteggiamento dei commissari e dei

candidati ed infine della preparazione così

evidentemente lacunosa di alcuni candidati.

Si tratta di un complesso di evidenze contrastanti

che al di la delle percentuali un po' fredde delle

tabelle di questo contributo prendono corpo, colore

e vivezza nelle osservazioni libere raccolte dagli

osservatori. Da questo spaccato vivo e

contraddittorio, ricco di potenzialità ma anche di

problemi e di manchevolezze nasce l'idea di una

riflessione sullo stile degli esami e della scuola come

un prodotto di un monitoraggio che restituisce al

sistema non solo le informazioni che ha raccolto

ma anche strumenti interpretativi dei risultati e

strumenti di intervento per il miglioramento.


L'assegnazione dei punteggi. Una riflessione che pr osegue

Raimondo Bolletta

Premessa Nel progettare il PTP2000 abbiamo, tra le altre cose, messo in conto l’esigenza di dare continuità alle

riflessioni che introducevano il PTP1999, anche per rispondere alle …questioni emerse in relazione agli

aspetti sui quali ci eravamo soffermati presentando il volume. Sull’assegnazione dei punteggi abbiamo

raccolto molti interventi, a volte critici, a volte positivamente schierati su una posizione che molti ci

chiedono di diffondere. Ma quando si finisce un lavoro impegnativo ci assale un senso di stanchezza, per

cui anche un piccolo passo aggiuntivo ci sembra impossibile, unito all'entusiasmo per aver conquistato un

traguardo difficile. La stanchezza ci porterebbe a far generico riferimento a quanto già pubblicato,

l’entusiasmo ci porta a lavorarci ancora per chiarire meglio, per arricchire e completare l’intervento dello

scorso anno anche sulla base dei risultati del monitoraggio. Ne è nata una riscrittura parziale del contributo

dello scorso anno che si spera possa essere una ‘riflessione che prosegue’ e che in parte si allarga dalla terza

prova ad altri aspetti degli esami.

L’accertamento, sommare i punteggi Il nuovo esame di stato si caratterizza, tra l’altro, per l'uso diffuso e sistematico nelle varie prove scritte e

orali di scale numeriche la cui somma si traduce automaticamente in esito finale.

Il legislatore ha introdotto una nuova gamma per il punteggio finale stabilendo la sufficienza in 60 punti e il

massimo in 100 e l'ha ripartita in quote diverse sulle varie prove.

Le tabelle seguenti mettono in evidenza in quale misura la nuova normativa stimoli i commissari ad una

forte revisione delle modalità di assegnazione dei punteggi costringendoli ad operare su scale che hanno

una gamma diversa e una soglia di sufficienza che non corrisponde al tradizionale 6. I voti scolastici, che i

docenti sono abituati ad assegnare, sono messi in discussione anche dal punteggio del credito scolastico,

che consentirebbe di attribuire il massimo solo ai rarissimi casi di studenti che hanno ottenuto una media

dei voti compresa tra 8 e 10.

Credito scolastico

Media voti a.s. 1998-1999 a.s. 1999-2000

minimo massimo minimo massimo

M=6 4 6 4 5

6<M<=7 6 8 5 6

7<M<=8 8 10 6 7

8<M<=10 10 12 7 8

Sufficienza Massimo

Credito scolastico 8 20

Prima prova scritta 10 15

Seconda prova scritta 10 15

Terza prova scritta 10 15

Orale 22 35

Bonus 5*

Punteggio finale 60 100

* la concessione del bonus non può far superare 100

La terza prova scritta, proprio per il suo carattere più strutturato, si presta in misura maggiore delle altre ad

attivare procedure di valutazione 'oggettive'; su tali procedure i membri della commissione possono

convergere più facilmente e trovare un accordo più forte che sulle procedure di valutazione delle altre

prove.

Anche nel PTP2000 si conferma la scelta di non fissare criteri vincolanti di valutazione delle prove, ma di

fornire solo elementi informativi utili alle commissioni, che saranno libere di modificare, adattare e

integrare il materiale offerto e di dare degli elaborati degli studenti le letture e le valutazioni che più

riterranno opportune. Ciò anche in ossequio allo spirito del nuovo esame, che intende tenere in debito

conto il curricolo effettivamente svolto nelle singole classi e conseguentemente i livelli effettivamente

raggiunti in rapporto a quelli fissati dal consiglio di classe.

Le chiavi di correzione e i criteri di adeguatezza sono stati predisposti con modalità più omogenee rispetto

al primo volume e crediamo di aver fornito un corredo informativo sufficiente per operare in modo

affidabile, rispettoso dell’autonomia valutativa della commissione.

La questione delle soglie di sufficienza, che nei punteggi dell’esame non corrispondono al 6, (6 sta a 10

come 9 sta a 15 ma 9 non è la sufficienza!), ha costretto, già lo scorso anno, ad adottare varie procedura per

far condividere ai membri della commissione una comune modalità di assegnazione dei punteggi grezzi. La

questione non ha riguardato solamente la terza prova, che anzi si prestava più delle altre ad essere trattata

con punteggi sommabili, ma soprattutto la prima prova scritta e la prova orale, nelle quali tradizionalmente

si procede con un approccio globale, difficilmente descrivibile con una procedura standard che non

dipenda dall’intuizione e dal giudizio del correttore.

Molte commissioni hanno affrontato questa difficoltà mediante l’adozione di griglie di valutazione

convenute a priori che consentivano di apprezzare la prova, scritta o orale, del candidato, attraverso una

pluralità di aspetti analitici. Per ciascuno di tali aspetti venivano quindi formulati dei descrittori, che ne

rendevano operativa l'identificazione, e dei livelli soglia dei punteggi analitici, degli indicatori della

prestazione, che consentivano un'assegnazione del punteggio pressoché automatica da parte della

commissione. Una ricca casistica di tali griglie di valutazione per la terza prova è presente nell’Archivio delle

Terze Prove, ATP2000, già distribuito su CD-rom alle scuole secondarie superiori.

L’uso delle griglie costituisce certamente un valido approccio al problema dell’assegnazione dei punteggi,

ma non è immune da rischi evidenti:

i descrittori potrebbero non essere sufficientemente chiari ed operativi, per cui potrebbe esserci anche una

forte divergenza di opinioni tra commissari diversi che valutano la stessa prestazione;

se i descrittori sono troppo generici e globali potrebbero in realtà correlare troppo con il medesimo aspetto

della prestazione del candidato, per cui si assegnano ripetutamente punteggi parziali allo stesso aspetto,

i pesi assegnati, sotto forma di punteggi parziali con gamme diverse a seconda dell’importanza dell’aspetto

valutato costituiscono già un forte presupposto per orientare l’esito finale in relazione a un criterio a priori

dei commissari.

In sostanza anche le griglie potrebbero prestarsi a una certa confusione tra il momento dell’accertamento, o

della misura, e quello della valutazione e dell’applicazione di un criterio, che costituisce uno dei rischi di una

procedura d’esame che vorrebbe essere, nelle intenzioni del legislatore, più oggettiva e più giusta.

Questo problema è apparso più evidente in una strategia, suggerita come una scorciatoia per semplificare la

questione dell’assegnazione dei punteggi: valutare la singola prova con un livello qualitativo già utilizzato

nei giudizi dei vecchi esami di maturità, livelli sui quali i commissari avevano maggiore dimestichezza, e

convenire nella commissione una corrispondenza tra tali livelli e bande di punteggi. In questo modo un

aggettivo come buono o discreto , che non fa parte del lessico formale del nuovo esame, si trasformava in un

punteggio numerico. Questa procedura, anche se facilmente attuabile, stravolge e ribalta il senso dell’uso

dei punteggi come momento di accertamento ‘oggettivo’ rispetto a quello eminentemente valutativo.

Le difficoltà sin qui segnalate emergono chiaramente in alcuni risultati del monitoraggio degli esiti.

L’adozione di bande di oscillazione rigide, per discretizzare su pochi livelli una scala che può assumere una

estesa gamma di valori, può determinare degli ‘aggiustamenti’ che nelle fase di accertamento non sono

opportuni.

Ad esempio la distribuzione del grafico n.1 mostra come l’esistenza delle bande di oscillazione rigida, entro

cui i consigli di classe possono assegnare eventualmente qualche punto aggiuntivo, ha indotto nel primo

anno di attuazione degli esami degli aggiustamenti nei voti del secondo quadrimestre. E’ evidente dalla

figura che le medie vicine al valore soglia per accedere alla banda successiva sono meno frequenti e ciò

determina un profilo della distribuzione a denti di sega. Arrotondamenti di pochi decimi per raggiungere la

banda successiva nei casi meritevoli non sono un grave problema, ma possono indurre la sensazione che si

abbia a che fare con dati inaffidabili, modificabili a piacimento, in relazione alle varie convenienze.

Distribuzione delle medie dei voti. Campione nazion ale di 7563 casi

0

50

100

150

200

250

300

350

400

<4 4,1

4,3

4,5

4,7

4,9

5,1

5,3

5,5

5,7

5,9

6,1

6,3

6,5

6,7

6,9

7,1

7,3

7,5

7,7

7,9

8,1

8,3

8,5

8,7

8,9

9,1

9,3

9,5

9,7

9,9

Grafico1 Distribuzione della media dei voti scolastici assegnati

Forse uno stesso meccanismo di aggiustamento verso la sufficienza è intervenuto nella valutazione della

prima prova scritta, in cui il valore modale in 10 fa pensare che l’indisponibilità di griglie affidabili e di

procedure di assegnazione del punteggio di tipo ‘globale’ abbiano consentito di dichiarare accettabili degli

esiti probabilmente non tali per gli esaminatori.

Andamenti delle tre prove scritte

0

10000

20000

30000

40000

50000

60000

70000

80000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

prima prova seconda prova terza prova

Grafico 2 i tre grafici delle tre prove

Nonostante ciò la distribuzione della somma dei punteggi delle prove scritte e del credito scolastico ha un

andamento ‘regolare’ più simile a quello vero, a quello che necessariamente dovrebbe essere, data la

numerosità della popolazione esaminata e la complessità delle competenze accertate, e cioè una classica

distribuzione normale. Non sorprende affatto che sommando quattro misure, seppure affette singolarmente

di errori ed aggiustamenti, si ottenga una nuova misura che complessivamente appare più affidabile e

regolare; ciò corrisponde a quanto si fa nelle scienze sperimentali, in cui per ridurre gli errori di misura si

ripetono le misure. Una condizione perché ciò avvenga è però che le misure siano tra loro indipendenti, che

cioè gli errori in una misura non influenzino quelli delle altre; in altri termini se in una prova un candidato è

stato casualmente (o intenzionalmente) favorito o sfavorito ciò non deve ripetersi nello stesso senso nelle

altre prove, in cui invece gli errori di misura dovranno continuare ad essere casuali.

Distribuzione dei punteggi alla fine delle prove sc ritte

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64

Fig.3 Distribuzione del punteggio alla fine delle prove scritte

La distribuzione del punteggio finale denota viceversa un cambiamento radicale introdotto evidentemente

dal punteggio assegnato nella prova orale. Ritorna il picco in corrispondenza al sessanta, cioè alla soglia

minima per poter passare l'esame e sul punteggio massimo. Non possiamo qui affrontare nel merito la

questione spinosa di un così alto addensamento di casi sulla soglia di accettabilità ma ci limitiamo a

segnalare una questione puramente tecnica: la non indipendenza dell'ultima 'misura' rispetto alle precedenti.

L'esito dell'orale è condizionato dagli esiti degli scritti e la ricca gamma di punti disponibili per tale prova

serve a compensare o a integrare il resto delle prove per ottenere un punteggio finale che sostanzialmente è

il risultato di un giudizio globale e non la somma di misure indipendenti.

Distribuzione del voto finale11 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 10

Assegnazione dei punteggi-voto In realtà, ciò che con una voluta ambiguità abbiamo genericamente sinora chiamato punteggi, punteggi

grezzi, voti, sono delle scale che dovrebbero scaturire da una misura, ma che devono essere ‘votate’ dalla

commissione, sono punteggi votati, punteggi-voto. Il nostro tentativo qui è di enfatizzare ulteriormente la

distinzione dei queste due fasi (l’accertamento e la valutazione) e riflettere sulla gestione del passaggio dalla

prima alla seconda fase, dal punteggio grezzo al punteggio voto.

Come è noto, quest’anno la norma consente di costruire terze prove con non più di 30 quesiti. Ciò

consente, anzi ciò induce, l’uso di punteggi grezzi, cioè di punteggi non ancora votati e pubblicati come

esiti, con una gamma più estesa dei 15 punti assegnabili. La commissione può così tenere più chiara la

distinzione tra il momento della raccolta dei dati (ovvero della 'misura' dei livelli di conoscenza o di

competenza dei candidati) da quello della formulazione del giudizio cioè dell'interpretazione del significato

del dato raccolto rispetto ad un criterio di valore, a priori o a posteriori.

La stessa questione si pone, forse in termini più complicati e difficili, anche per le altre prove scritte, in cui

nella fase di correzione della prova, se non si dispone di griglie di correzione condivise dalla commissione,

si potrebbe comunque prescindere dall'uso della scala in quindicesimi per costruire piuttosto un

ordinamento delle prove per livelli di qualità, identificando degli insiemi di prove più o meno equivalenti cui

assegnare a posteriori i punteggi in quindicesimi. Se si dispone invece di griglie di correzione è consigliabile

costruire una scala disancorata dai quindicesimi. Abbiamo potuto constatare che molte commissioni hanno

penato molto a distribuire frazioni di punto alle molteplici dimensioni individuate: non solo è più semplice

e pratico ragionare con punteggi complessivi con dinamiche più ampie ma è anche più corretto. Siamo certi

a priori che sommando le varie sufficienze individuate in ciascun aspetto rilevato si ottenga il fatidico 10 da

assegnare alla sufficienza complessiva? Chi ha provato a far ciò, ad esempio con una griglia di valutazione

di una prova di italiano si sarà trovato in qualche imbarazzo a giustificare le sue scelte e a gestire a posteriori i

risultati, a meno che non abbia preventivamente validato lo strumento sul campo.

Ma torniamo a ragionare sulla terza prova, usandola però come una metafora delle altre nella misura in cui

si sia riusciti a valutarli in modo analitico.

Criteri di valutazione a priori

Se abbiamo deciso di lavorare con un punteggio grezzo diverso dalla scala in quindicesimi nella fase di

assegnazione del punteggio votato dovremo operare una traduzione. Quale punteggio grezzo corrisponde al

punteggio soglia della sufficienza?

E' evidente che tale valore soglia dipende della difficoltà dei quesiti posti: se questi fossero molto difficili,

anche i candidati più bravi otterrebbero un punteggio basso, così come sarebbe possibile assegnare

punteggi alti se le domande poste fossero molto facili. La commissione, nella misura in cui riassume una

consolidata esperienza didattica, potrebbe essere in grado di apprezzare preventivamente la difficoltà dei

quesiti e, quindi, potrebbe prevedere quale soglia dei punteggi dovrebbe essere raggiunta da coloro che

hanno una preparazione sufficiente. La commissione potrebbe cioè stabilire a priori il livello di punteggio-

grezzo atteso che corrisponda alla sufficienza e stabilire quindi a priori le fasce di punteggi-grezzi comprese

nei punteggi-voto assegnati nella prova. Per le prove ministeriali l’identificazione di tali livelli soglia

sarebbero auspicabili ma, onestamente, occorre ammettere che per prove complesse la cosa non è affatto

facile e rischia anche di essere poco affidabile.

Questa procedura, che fissa il criterio a priori, suppone una forte omogeneità tra i membri della

commissione sia nelle esperienze didattiche effettuate, sia nei criteri di valore cui ciascuno fa implicitamente

riferimento. E' un assunto forte se si considera che la commissione proviene da istituti scolastici diversi, che

la parte esterna non conosce già la classe e che ogni commissario rappresenta una disciplina diversa. Un

aiuto forte potrebbe venire dal documento del consiglio di classe che dovrebbe fornire elementi operativi

per individuare i livelli di sufficienza perseguiti dalla classe.

Criteri a posteriori

Un'altra modalità di trasformazione da punteggi-grezzi a punteggi-voto si basa sui risultati accertati e

possiamo definirla a posteriori. Se non vi è un affidabile accordo sulla distribuzione dei punteggi-grezzi attesi,

si può attendere di conoscere la distribuzione effettivamente ottenuta dalla classe esaminata e ricavarne

empiricamente i valori soglia per stabilire le corrispondenze tra le due scale, quella dei punteggi grezzi e

quella dei punteggi-voto. La commissione potrà decidere il punteggio grezzo che corrisponde alla

sufficienza (10) e stabilire, sempre che sia stato effettivamente riscontrato, quale punteggio-grezzo

corrisponde al massimo (15) assegnando in conseguenza i voti intermedi. Nel programma elettronico

denominato Conchiglia 2000, distribuito dall'Osservatorio ad uso delle commissioni, è disponibile anche

quest’anno una funzione che permette di eseguire rapidamente proprio questo tipo di conversioni. Non si

tratta dell’unica procedura automatica utilizzabile per questa conversione dei dati. Molte altre sono possibili

e sono state variamente suggerite nelle reti dell'aggiornamento. Le possiamo classificare però in due

famiglie:

le procedure che determinano automaticamente i livelli soglia in base alle caratteristiche della distribuzione,

le procedure che consentono la conversione tra le due scale utilizzando i livelli soglia come valori in

ingresso, decisi dalla commissione.

La procedura di Conchiglia è del secondo tipo poiché parte da una decisione (a priori o a posteriori, è

indifferente) adottata dalla commissione ed effettua solamente dei calcoli in modo strumentale.

Le procedure previste per l'assegnazione dei punteggi-voto, cioè le 'votazioni' che coinvolgono tutta la

commissione, sono perfettamente compatibili con questi ragionamenti che, se ben gestiti, potrebbero

condurre la commissione a formulare proposte di punteggio-voto uniche e pervenire quindi a

determinazioni all'unanimità, almeno sulla terza prova scritta. Non solo Conchiglia ma anche un comune

foglio elettronico consente di effettuare semplici, o più complesse, elaborazioni dei dati grezzi ad uso di una

votazione più consapevole e documentata.

Assegnazione dei punteggi-grezzi Torniamo ora al problema fondamentale, alla fase della costruzione della terza prova, ed esaminiamo il caso

di prove costruite secondo il modello proposto dal Cede con uno o più testi di riferimento o quelle

cosiddette miste. In questo caso tutte le forme previste dalla legge per i quesiti sono consentite e occorre

decidere una opportuna distribuzione di punteggi da assegnare alle diverse domande che potranno essere di

vario tipo per formato, complessità e difficoltà.

Con quali criteri possiamo decidere di assegnare pesi diversi alle varie domande? Possiamo procedere in

diversi modi:

spesso si fa riferimento al livello di difficoltà. Si pensa che sia giusto riconoscere più punti alle domande che

ci sembrano più difficili rispetto alle altre. In effetti questo criterio potrebbe non essere opportuno o

necessario poiché quei pochi candidati che sanno rispondere a domande molto più difficili delle altre sanno

rispondere anche alle domande più facili e quindi si troveranno comunque positivamente discriminati dalla

prova complessiva;

possiamo differenziare i punteggi in base al tempo richiesto per rispondere ovvero alla complessità della

prestazione implicata dalla domanda. Sembra ovvio che una domanda aperta, che chiede la redazione di

cinque o dieci righe di testo, debba avere un punteggio maggiore di quello di una domanda chiusa in cui si

tratta di scegliere una risposta già formulata. Questo criterio può non concordare con il precedente poiché

un quesito chiuso può essere molto più difficile di una domanda aperta, ma il tempo richiesto al candidato

da un quesito chiuso è certamente minore di quello richiesto da una domanda aperta;

altri esaminatori potrebbero invece tener conto della complessità delle prestazioni accertate rispetto ad una

qualche tassonomia di riferimento. Si dà peso alla gerarchia che pone più in basso il semplice ricordo di fatti

singoli e di conoscenze slegate e più in alto l'applicazione alla soluzione di problemi o la formulazione di

giudizi, ciò anche in considerazione del fatto che i livelli più alti e complessi implicano il possesso dei livelli

più bassi. Anche questo criterio può essere meno ovvio di come appare, poiché i processi utilizzati per

rispondere al nostro quesito possono essere di natura diversa a seconda della preparazione del candidato,

per alcuni solo una risposta mnemonica e per altri un complesso ragionamento che tiene conto di tanti fatti

diversi;

un altro criterio può riferirsi invece alla gerarchia degli obiettivi fissati dal curricolo svolto. Dalla

documentazione del consiglio di classe dovrebbe apparire il diverso grado di importanza delle varie

conoscenze e competenze perseguite durante il corso. Se nel formulare i quesiti della terza prova saremo in

grado di dire quali aspetti di tale profilo sono saggiati, potremo anche premiare con pesi diversi le

prestazioni che hanno più importanza nel progetto educativo di quel consiglio di classe; la stessa domanda

potrebbe avere quindi pesi diversi se proposta a indirizzi di studio diversi;

si può ragionare come nel punto 4, ma facendo riferimento al curricolo formale e al profilo del candidato

teoricamente atteso dalla commissione.

Questa elencazione di possibilità, probabilmente non esaustiva, sottolinea la difficoltà del compito della

commissione: in pratica il criterio effettivo sarà un miscuglio dei cinque illustrati con una chiara

accentuazione dell'importanza del quarto criterio che centra l'attenzione sul progetto educativo realizzato

nella classe esaminata. In particolare il bilanciamento tra il quarto e il quinto potrebbero impegnare molto la

commissione, che deve conciliare due esigenze apparentemente opposte: tener conto del curricolo effettivo

della classe riferendo le valutazioni agli obiettivi fissati nell'istituto, e contemporaneamente assegnare un

punteggio finale spendibile in un vasto mercato del lavoro, in cui sarebbe giusta una certa confrontabilità

degli esiti.

Elementi di adeguatezza

Se il punteggio assegnato ad un singolo quesito ha una gamma sufficientemente vasta, ad esempio cinque

punti, sarà possibile attribuire tutti i valori della scala, e non solo lo 0 o il 5, per cui sarà opportuno

concordare preventivamente la modalità di attribuzione dei singoli punteggi. In questo volume si fa spesso

riferimento agli elementi di adeguatezza: con il termine adeguatezza si è evitato di evocare il termine sufficienza,

che si riteneva non dovesse essere veicolato dal volume, e che assumerebbe un valore puntuale di soglia

rigida traducibile in un valore dicotomico 0/1. Il termine suggerisce piuttosto una graduazione, determinata

proprio dalla presenza di un insieme di elementi che si possono contare. Se ad esempio nella formulazione di

una domanda aperta si chiedono le ragioni dell'entrata in guerra della nazione x nell'anno y e la storiografia

corrente ne elenca 5, potremo giudicare il grado di adeguatezza attraverso il numero delle ragioni corrette

addotte dal candidato e assegnare così l'intera gamma dei punteggi previsti. La questione è molto meno

banale di quanto possa sembrare da questo esempio ed implica la capacità di prevedere le varie tipologie di

risposta alla domanda: l'ideale sarebbe riuscire ad identificare in modo chiaro tutti gli elementi che

concorrono all'adeguatezza della risposta e per ciascuno di essi la qualità attesa. Qualsiasi membro della

commissione o qualsiasi altro docente della stessa materia dovrebbe poter procedere all'assegnazione dei

punteggi-grezzi in modo affidabile; cioè in modo tale che due correttori indipendenti diano allo stesso

elaborato lo stesso punteggio. Tale identificazione potrebbe essere realizzata elencando gli elementi

informativi attesi, come nell'esempio precedente, o descrivendo operativamente gli aspetti che concorrono

a definire la qualità della risposta (ad esempio in una risposta resa in lingua 2, il candidato potrebbe dare

una risposta errata nel merito ma impeccabile dal punto di vista linguistico, per cui sarà bene distinguere

questi due aspetti) o infine redigendo preventivamente delle tipologie di risposta che potranno essere usate

nella correzione come criterio ovvero come esempi di riferimento per identificare i livelli di adeguatezza

della risposta.

Oggettività e soggettività

Le considerazioni sin qui sviluppate ripropongono più in generale la difficile questione del rapporto tra

accertamento e valutazione. Riproponiamo alcune riflessioni generali di metodo già illustrate nel primo

volume, ma la cui importanza è per noi centrale. La terza prova è nata, nelle prime proposte di molti anni

fa, come una prova oggettiva che doveva essere diffusa dal Ministero per rendere confrontabili gli esiti della

vecchia maturità. La proposta nasceva alla fine degli anni '80 da evidenze sperimentali che mostravano una

bassissima correlazione tra i voti della vecchia maturità e gli esiti di prove oggettive di profitto

somministrate su campioni rappresentativi a livello nazionale. Pur essendo diventata una prova del tutto

'locale', la terza prova mantiene caratteristiche tali da prestarsi meglio delle altre ad una lettura 'oggettiva' dei

risultati. Per come è concepita, la terza prova promette di essere più valida delle prime due, in quanto la

commissione può e deve adattarla al curricolo effettivo della classe e quindi può scegliere quesiti più validi

cioè più capaci di misurare quello che gli esaminatori vorrebbero misurare.

Questa caratteristica della terza prova è già emersa nel primo anno di attuazione dei nuovi esami, come

emerge dal grafico seguente, in cui come è stato osservato nel volume STP2000, ‘se compariamo i punteggi

standardizzati attribuiti in tutte le prove e nel credito scolastico rispetto ai vari ordine di studio, notiamo

che le due prove scritte, la seconda e la terza hanno un andamento sostanzialmente indipendente dal tipo di

scuola. Queste prove infatti misurano la competenza rispetto alle finalità proprie dell’indirizzo e sono

capaci di far emergere prestazioni specifiche anche eccellenti in tutti gli indirizzi'.

Medie punteggi standardizzati rispetto ai tipi di s cuole

-0,4

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

0,4

Sperimentale Licei Professionali Tecnici

credito scolastico prima prova seconda prova terza prova colloquio votofinale

Figura 5 Medie punteggi standardizzati rispetto ai tipi di scuole

A regime, la terza prova promette anche di essere più attendibile: infatti, con un adeguato numero di quesiti,

è possibile costruire scale abbastanza estese, in grado di effettuare una buona discriminazione tra i

candidati. Come è noto, l'attendibilità o affidabilità di una prova consiste nella sua capacità di misurare una

certa prestazione con adeguata precisione, cioè con un errore di misura non troppo grande. Come

esaminatori dobbiamo sempre ricordare che in qualsiasi misura il valore trovato è la somma del valore vero

e di un errore, cioè di un valore di disturbo casuale e quindi ineliminabile. Ciò anche in fisica! Nell'ambito

degli apprendimenti non potremmo parlare in senso stretto di misura in quanto non disponiamo di unità

campione e di uno zero: le misure che otteniamo sono solo scale numeriche che al più consentono di

stabilire graduatorie, ordinamenti tanto più attendibili quanto meno affetti da errori di misura. L'attendibilità

di una prova dipende dal numero dei quesiti (aumenta con l'aumentare dei quesiti come se ripetessimo le

misure) e dalla sua omogeneità (se il punteggio complessivo somma le misure di aspetti troppo eterogenei e

incoerenti, l'errore di misura rimane alto). L'omogeneità interna della prova è una caratteristica che dipende

direttamente dal lavoro preparatorio del consiglio di classe e dalla qualità della documentazione fornita alla

commissione e infine dal lavoro della commissione. Nonostante sia necessario saggiare competenze

afferenti a più discipline, occorrerebbe scegliere quesiti che si riferiscano a competenze trasversali,

sufficientemente integrate tra loro nella preparazione dei candidati. In questo caso l'integrazione tra le

discipline non va tanto ricercata a livello epistemologico tra le discipline quanto all'interno del lavoro

didattico realmente sviluppato nelle classi per vedere se e in che misura tale lavoro ha prodotto prestazioni

coerentemente integrate. La facile soluzione di assegnare solo delle domande aperte lasciate alla scelta

indipendente di quattro commissari si può rivelare debole anche dal punto di vista metrologico, in quanto

tale formato fornisce misure scarsamente attendibili se non si dispone di griglie realmente affidabili mentre

il formato misto o quello proposto in questo volume consentono, se realmente coerenti con l'attività svolta

nella classe esaminata, di migliorare l'attendibilità stessa della prova. Inoltre, potendo inserire domande di

diverso formato, è possibile, come abbiamo suggerito nelle riflessioni iniziali, utilizzare delle scale con una

gamma di valori abbastanza estesa e selettiva.

E' infine utile ricordare che l'oggettività cui si fa qui riferimento non equivale all'esattezza delle misure, ma

all'indipendenza del valore del punteggio-grezzo dal correttore della prova. Il punteggio-grezzo dovrebbe

dipendere solo dal livello di preparazione del candidato e dovrebbe essere inteso come una stima, la più

precisa possibile, del livello di competenza vero. Effettuata la misura, l'accertamento oggettivo, il punteggio

grezzo va interpretato e valutato e, in questa fase, le norme prevedono che la responsabilità sia collegiale e

che si esprima mediante una votazione. Questa è la fase soggettiva, in cui però la soggettività non equivale ad

arbitrarietà o incoerenza, ma piuttosto a responsabilità dei soggetti che giudicano in base a criteri,

eventualmente diversi. Le norme prevedono che possano esistere divergenze di valutazione da parte dei

commissari, per cui la stessa prestazione accertata e quantificata dal punteggio-grezzo potrebbe essere

tradotta in punteggi-voto diversi. Ma proprio il lavoro sulla costruzione della terza prova potrebbe

consentire alla commissione di convergere anche sui criteri per la valutazione ed evitare inopportune

spaccature in sede di votazioni sulle singole prove.


Nota sulla conversione dei punteggi in Conchiglia

Raimondo Bolletta

Il programma Conchiglia prevede una funzionalità che consente di convertire qualsiasi scala numerica nella

scala in quindicesimi utilizzata per valutare le prove scritte dell'esame di stato.

Sulla opportunità di distinguere la fase dell'accertamento o della misurazione da quello della valutazione,

sulla distinzione tra punteggi grezzi e punteggi-voto, o votati, sui problemi dell'oggettività o soggettività

nella valutazione si è riflettuto nei contributi presenti nella parte introduttiva dei volumi PTP1999,

PTP2000 e PTP20013 a cui queste considerazioni fanno riferimento.

Riprendiamo qui i termini della questione. La normativa prevede che i punteggi assegnati ai candidati siano

votati da tutta la commissione. Le votazioni collegiali non sono, diversamente dal vecchio esame,

concentrate nella fase finale dell'esame ma si ripetono per ognuna delle prove. Ciò ha sollevato, da parte di

alcuni, problemi di competenza: il commissario di matematica può giudicare il tema e viceversa? Un'altra

sfida del nuovo esame: criteri e metodi devono essere trasparenti e condivisibili collegialmente dalla

commissione senza alcuna pretesa di esclusività o di specialismo. A ben vedere le norme finalizzano

l'accertamento su obiettivi, su competenze che attraversano le discipline e per le quali un terreno comune di

intesa tra i commissari è assolutamente necessario. Sappiamo però che queste cose sono meno semplici di

quanto si possa dire in un articolo o prevedere in una norma. Esiste una dinamica a volte lacerante tra la

fase della 'correzione del compito' e quella della valutazione della prestazione. La difficoltà sta nella

condivisione del livello soglia per la sufficienza, livello delicato e rischioso perché può decidere delle sorti

delle persone che giudichiamo, ma spesso la stessa difficoltà può emergere nello stabilire il livello di

eccellenza.

Insistiamo nella distinzione tra queste due fasi, accertamento e valutazione prevedendo l'uso di punteggi

grezzi da un lato e di punteggi voto o punteggi votati dall'altro. Conchiglia consente di usare entrambi i

punteggi e facilita il passaggio dalla prima scala alla seconda.

La proposta è di usare per i punteggi grezzi delle scale con una gamma di valori abbastanza vasta, ad

esempio non in quindicesimi se stiamo valutando le prove scritte. Ciò per varie ragioni:

• non confondere il punteggio grezzo con il punteggio votato

• discriminare maggiormente le varie situazioni osservabili

• usare più facilmente griglie di correzione che considerino molteplici e vari aspetti della prova prodotta dal candidato.

Sia nei quesiti a risposta chiusa con 30 o 40 quesiti sia nei saggi complessi, come il tema o qualche tipo di

seconda prova, si potranno sommare punti senza preoccuparsi che il totale massimo teorico sia 100 o 10 o

15, cioè scale che siamo implicitamente abituati ad interpretare con dei livelli soglia di sufficienza. Ogni

dimensione rilevata nella prova avrà un suo punteggio, possibilmente semplice da assegnare. La somma di

3 R. Bolletta, Riflessioni sull'assegnazione dei punteggi. In Osservatorio Nazionale per gli Esami di Stato,

Proposte per le terze prove. Modelli e materiali per la definizione di prove pluridisciplinari. FrancoAngeli, 1999.

tutti i massimi teorici in ogni dimensione sarà il punteggio massimo teorico ottenibile nella prova. Qual è il

valore soglia per la sufficienza? Se si dispone di una griglia di valutazione già validata in precedenza, tale

valore soglia potrebbe essere già stato fissato; se si dispone di una prova classica, sulla cui correzione la

commissione vanta una vasta esperienza, è possibile convenire una prestazione soglia a priori, ma, come

spesso accade, se tutto ciò non è vero occorre procedere con un approccio a posteriori, cioè attendere di

conoscere la distribuzione dei punteggi effettivamente osservati per poter decidere quali siano i punteggi di

riferimento.

In entrambi i casi, sia nell'approccio a priori sia in quello a posteriori la procedura informatica presente in

Conchiglia consente di effettuare i calcoli. Attenzione! la procedura esegue solo i calcoli e non si può

sostituire, né tenta di farlo, alla responsabilità della commissione che deve decidere i livelli soglia. Effettuate

le conversioni, il programma fornisce delle proposte da votare e sta alla commissione assegnare il

punteggio voto ai singoli candidati.

Abbiamo ricevuto molti messaggi da parte di colleghi che, riflettendo sulla formula della conversione da

punteggio grezzo a punteggio-voto, usata da Conchiglia, hanno chiesto chiarimenti e obiettato alcune

apparenti incongruenze dell'algoritmo.

La procedura consente di avere un ambiente di lavoro, usabile solo per una prova scritta alla volta, in cui

vengono registrati i punteggi grezzi assegnati, e il punteggio massimo conseguibile.

Man a mano che vengono assegnati i punteggi grezzi, nella schermata appaiono il punteggio minimo e il

punteggio massimo effettivamente conseguiti.

Assegnati tutti i punteggi grezzi sarà possibile inserire i valori soglia che corrispondono alla sufficienza e al

massimo. Tale operazione sarà fatta sulla base di una decisione presa prima della correzione delle prove, e

siamo nel caso dell'uso di criteri a priori, oppure sulla base di un esame dei punteggi grezzi effettivamente

assegnati, criteri a posteriori. Cliccando sul pulsante calcola il programma completa la colonna Proposta di voto che contiene punteggi in quindicesimi, ovviamente espressi come valori decimali. E' possibile

esaminare rapidamente la situazione verificando quanti rientrano nella fascia dei voti sufficienti e quanti

invece rimangono al di sotto. Nelle analisi dei dati, se si procede con un criterio a posteriori, la possibilità di

modificare i valori soglia ed ottenere rapidamente le conversioni consente di ragionare sui casi concreti

riesaminando direttamente le prove di coloro che si trovano al rischioso confine della sufficienza. Ma se si

decide di abbassare la soglia della sufficienza automaticamente tutti i punteggi vengono ricalcolati: non solo

quei pochi che, sulla soglia della sufficienza hanno un 'aiuto', ma anche tutti gli altri per i quali vengono

rispettate le distanze reciproche. Stesso discorso vale nel caso in cui la soglia viene innalzata, in cui tutti i

singoli voti vengono nuovamente 'aggiustati'.

La funzione che lega il punteggio grezzo ai voti in quindicesimi nel programma Conchiglia si basa sulla

formula:

((a – b) / (c – b) / 5) + 10

in cui

a è il punteggio grezzo assegnato al candidato,

b è il punteggio grezzo a cui si assegna il valore di sufficienza, soglia della sufficienza

c è il punteggio grezzo a cui si assegna il valore di massimo.

La formula ipotizza l'esistenza di una proporzionalità tra le due distribuzioni all'interno dell'intervallo che

comprende i voti che superano la sufficienza

La relazione si può rappresentare geometricamente come appare nella figura 1.

In questo caso il punteggio grezzo è rappresentato sull'asse delle y mentre il punteggio in quindicesimi è

rappresentato sull'asse delle ascisse. Il punteggio massimo conseguibile nel nostro esempio è 80 ma, forse,

tale punteggio non è stato conseguito da nessuno e la commissione ha deciso di assegnare a posteriori il voto

massimo 15 al punteggio grezzo 75 mentre la soglia della sufficienza è stata stabilita a 35 punti. La retta che

unisce i punti di coordinate (10, 35) e (15, 75) stabilisce la corrispondenza tra le due scale nel modo indicato

dalla freccia tratteggiata che mostra la corrispondenza tra due punteggi.

La relazione non funziona più per valori molto piccoli: in quanto, ad esempio, 0 ottantesimi

corrisponderebbe a 5,6 quindicesimi, ma occorre dire che se il gruppo è sufficientemente omogeneo e la

prova è ben calibrata, la maggior parte dei punteggi risulta concentrata in un intervallo non troppo esteso e

per quell'intervallo l'assunzione di una relazione lineare può essere una buona approssimazione che ha il

vantaggio di essere facilmente calcolabile.

Ricordiamo che questo non è il solo modo di effettuare la conversione dei punteggi e ha quei difetti

matematici evidenziati nei casi troppo distanti del grosso della distribuzione. Ma la procedura ha il

vantaggio di lasciare totalmente in mano alla commissione la responsabilità dell'uso dei criteri: solo dopo

aver deciso i livelli soglia la procedura propone dei valori in quindicesimi che la commissione dovrà

tradurre in valori interi votando.

Citiamo per completezza altre tre procedure possibili, realizzabili facilmente con dei fogli elettronici:

1. l'uso di una spezzata che prevede due formule leggermente diverse a seconda che si sia sopra o sotto la sufficienza 10 (v.fig. 2),

2. usare una relazione non lineare come ad esempio una parabola o un'altra funzione che passi per (0, 0) (10, 35) e (15, 75) (v. fig.3)

3. e infine sfruttare la forma della distribuzione dei punteggi grezzi facendo riferimento ai valori medi e agli scarti tra i punteggi (v. fig. 4).

Figura1

0

5

10

15

20

25

30

35

40

45

50

55

60

65

70

75

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Figura 2

0

5

10

15

20

25

30

35

40

45

50

55

60

65

70

75

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Si noti che nella soluzione 2, l'uso della relazione non lineare può favorire il candidato fermi restando i due

livelli soglia di riferimento, 35 e 75. La corrispondenza evidenziata dalla freccia bianca è la stessa della figura

1 determinata dalla relazione lineare: lo stesso punteggio grezzo viene nella figura 1 associato ad un valore

inferiore a 13 mentre nella figura 3 si associa ad un valore seppur di poco superiore a 13.

Figura 3

0

5

10

15

20

25

30

35

40

45

50

55

60

65

70

75

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Concludiamo questa nota illustrando brevemente la soluzione 3, ovvero la conversione che si basa sulla

forma della distribuzione dei punteggi. Ciò ci consente di chiarire meglio il senso degli 'aggiustamenti' dei

valori di soglia che abbiamo evocato sopra

La figura 4 riporta la distribuzione di frequenza di punteggi assegnati in una prova a cui sono stati

sottoposti 45 candidati. Supponiamo che la commissione avesse deciso a priori che il livello soglia era 35.

Osservando il grafico, notiamo che due prove verranno classificate insufficienti ma qualcuno potrebbe

obiettare che la differenza tra 34 e 35 è poco significativa e che solo il 32 si deve classificare come

insufficiente assegnandogli un punteggio-voto di 8 o 9. Ma qualcun altro al contrario potrebbe osservare

che in realtà tutto il gruppo che si trova tra 32 e 38 si distanzia dal resto della distribuzione per cui varrebbe

la pena di porre il livello limite della sufficienza su 40 piuttosto che su 35.

Come sciogliere la questione? La procedura più sensata è quella di tornare a rivedere le prove e verificarne il

livello sia globalmente sia analiticamente per arrivare a convenire operativamente quale prestazione può

essere considerata sufficiente. La forma della distribuzione, il modo in cui i vari punteggi grezzi si

raggruppano possono suggerire delle correzioni dei livelli soglia e delle modalità empiriche per raggruppare

i punteggi nei pochi punteggi voti da assegnare. Nel nostro caso i voti al di sotto della sufficienza sono solo

6 e le conversioni tra punteggi potrebbero essere effettuate direttamente operando sul grafico.

In questa nota di approfondimento abbiamo cercato di mostrare come qualsiasi procedura, più o meno

automatizzata, presuppone una forte consapevolezza del significato delle operazioni valutative e non può

ridurre la responsabilità di chi giudica i fatti in base a criteri più meno condivisi, più o meno esplicitati.

Figura 4

0

1

2

3

4

5

6

32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76


Nuovi elementi del Monitoraggio 2000

di Raimondo Bolletta

Premessa Obiettivo del contributo è di presentare le modalità di lavoro seguite nella selezione delle terze prove

contenuta nel volume e di fornire primi dati quantitativi concernenti le modalità di attuazione e gestione

della terza prova. Documenti e dati si riferiscono alla sessione 2000 degli esami finali della scuola

secondaria superiore. Per facilitare l'approccio a questo volume anche a coloro che non hanno già

utilizzato l'analogo volume relativo alla sessione 1999 e per non appesantire la lettura di chi su quel volume

ha già lavorato, riteniamo utile riprendere quello stesso testo introduttivo facendolo evolvere con

integrazioni e aggiornamenti emersi nel lavoro che abbiamo condotto sulla sessione 2000.

Il monitoraggio Come è noto il regolamento sugli esami di Stato prevede che nel plico contenente le schede dei presidenti,

sia allegata anche una copia delle terze prove effettivamente assegnate. Le terze prove sono così diventate

un oggetto del monitoraggio e per certi versi un indicatore molto importante dell'andamento dell'attuazione

dei nuovi esami. Questa selezione a partire dallo scorso anno ha assunto per l'Osservatorio il valore di un

ponte tra la funzione di assistenza sulle terze prove e il compito di monitoraggio della qualità dell'attuazione

dalla legge.

La raccolta delle terze prove è stata realizzata con la collaborazione dei provveditorati, i quali sono stati i

primi destinatari dei plichi spediti dai presidenti delle commissioni esaminatrici. In molti casi i

provveditorati hanno controllato sistematicamente il materiale pervenuto ed hanno assicurato la

completezza della documentazione con solleciti e ricerche presso le commissioni ed i singoli istituti

scolastici. Nel secondo anno di attuazione, alla ditta incaricata dal CEDE di effettuare le registrazioni dati

della scheda dei presidenti, le spedizioni sono state fatte più celermente, ma comunque si sono protratte sin

dopo l'estate 2000 e, in relazione alle dimensioni dei provveditorati e al numero delle schede da controllare,

per circa tre mesi fino a tutto novembre. Per facilitare il lavoro di acquisizione per la costruzione

dell'archivio elettronico e rendere più veloce la selezione delle prove da pubblicare quest'anno, sono state

introdotte due innovazioni: la compilazione da parte delle stesse commissioni di una scheda di rilevazione

descrittiva delle caratteristiche formali della terza prova e l'uso di etichette adesive a lettura ottica

identificative delle prove e delle schede. Non tutto è andato come sperato poiché per molte commissione la

modalità d'uso delle etichette a lettura ottica non è risultata sufficientemente chiara e ciò ha determinato

errori o omissioni. Quasi nessuno, inoltre, si è preoccupato, come era richiesto dalle istruzioni, di

mascherare i dati identificativi delle singole scuole riportati nel testo delle terze prove. Ciò ha richiesto un

accurato lavoro di controllo e, in molti casi, un intervento per ricostruire le corrispondenze tra schede

descrittive e prove e per mascherare le prove cancellando i riferimenti alle scuole o alle commissioni. Tale

lavoro che ha richiesto molte giornate di impegno per l'enorme quantità di materiali raccolti.

Coerentemente con una concezione del monitoraggio che intende soprattutto dare visibilità e diffondere

elementi fattuali ad uso di tutti i responsabili della qualità del processo, abbiamo comunque ritenuto

prioritario lavorare sulla restituzione alle scuole delle terze prove sia mediante la costruzione del secondo

archivio, in cui tutte le terze prove riproducibili fotograficamente sono state registrate ed indicizzate, sia

attraverso la selezione da editare in questo secondo volume.

Tutto il materiale raccolto è stato visionato, come già lo scorso anno, in due fasi: la prima, finalizzata al

riordino delle schede e al controllo della presenza e congruità dei codici a barre e al mascheramento del

nome delle scuole, ha isolato le terze prove centrate sulla comprensione di uno o più testi e quelle che si

presentavano comunque con un titolo o che erano classificate dalla commissione come un progetto o un

caso professionale.

Solo questo sottoinsieme di prove, circa un migliaio, sono state oggetto di una seconda fase di analisi ad

opera del gruppo dei docenti che operano all'interno dell'Osservatorio. Questa seconda selezione intendeva

verificare se e in che misura la commissione avesse prodotto una prova con un apprezzabile livello di

integrazione tra le competenze sviluppate nelle diverse discipline.

In realtà quest'anno lo stesso gruppo di docenti per poter meglio convergere su criteri di valutazione

omogenei ed affidabili ha visionato a tappeto tutte le prove provenienti da alcune città per avere un quadro

più completo circa le tendenze emergenti.

Le prove sono state composte tipograficamente e rieditate integralmente, con la sola eliminazione delle

informazioni relative alla commissione o alla scuola per rispettare l'anonimato. In qualche raro caso vi è

stata qualche semplificazione degli apparati valutativi, ad esempio quando erano riportate la griglia

valutativa e la scheda, perfettamente identica alla griglia, usata per la registrazione degli esiti.

Questa selezione, per come è stata realizzata, non pretende quindi di rappresentare le prove migliori (non è

un’antologia) per due motivi:

1. molte altre prove potrebbero aver caratteristiche migliori ma sono sfuggite alla nostra attenzione solo perché non avevano ben evidente un titolo,

2. le prove selezionate potrebbero essere state poco adatte all’effettivo percorso didattico seguito dalla classe e quindi essere state, o potranno essere, considerate ‘non buone’ da altri.

Sono però certamente tali da meritare l’attenzione dei docenti e degli studenti poiché sollecitano un

approccio integrato all’accertamento delle competenze, che costituisce la vera sfida innovativa della terza

prova. Individuano uno standard effettivo, raggiungibile forse da un numero più vasto di commissioni, uno

stimolo e uno strumento per diffondere idee su cui lavorare.

Questo volume rinvia ad una lettura parallela del materiale presente nel CD rom, che le scuole hanno

ricevuto nel gennaio 2000, dal titolo Archivio delle terze prove sessione 2000, ATP2001. Il doppio canale, il

dispositivo elettronico e quello cartaceo, tiene conto dei vincoli oggettivi in cui si lavora nella scuola che

non sempre consentono a tutti di avere a disposizione apparati tecnologici sofisticati.

Abbiamo deciso anche di conservare tutto il materiale in un unico volume senza separarlo per ordini di

studio. Confermiamo così l’intenzione dell’Osservatorio di dare visibilità reciproca a curricoli spesso molto

diversi che dovrebbero vicendevolmente conoscersi meglio, almeno nella rappresentazione degli esiti finali.

Per completare il quadro della problematica affrontata in generale dal monitoraggio e in particolare da

questa selezione riportiamo alcuni dati a titolo di esempio, rimandando per ulteriori approfondimenti al sito

Internet già citato o al repertorio statistico Gli esami in numeri sessione 2000 che sarà pubblicato fra qualche

mese.

Le statistiche qui riportate si riferiscono solo alle prove che sono state registrate nell'archivio elettronico

ATP2001. Va sottolineato che in tale archivio sono state acquisite le prove in buono stato, cioè ben

fotocopiate, riproducibili fotograficamente, corredate della scheda descrittiva e contenibili in due CD rom.

Alla data attuale (primi giorni del gennaio ’01) ci sono ancora circa 5000 terze prove che, pur non potendo

rientrare nell'archivio elettronico, saranno classificate e contribuiranno a popolare le statistiche definitive.

Le statistiche che sono presentate in questo volume pur non riguardando la totalità dei materiali raccolti

sono comunque da considerare come delle stime molto attendibili degli andamenti effettivi.

La tabella seguente mostra la distribuzione delle scelte delle commissioni rispetto al formato delle terze

prove.

Distribuzione dei formati delle terze prove rispetto agli ordini scolastici

Licei Professionali Tecnici Italia

N % colonna N % colonna N % colonna N % colonna

Omesso 137 2,6% 84 3,0% 168 3,0% 389 2,9%

Trattazione sintetica 1.530 29,5% 221 7,9% 752 13,5% 2.503 18,5%

Quesiti a risposta multipla 2.344 45,3% 819 29,3% 2.428 43,6% 5.591 41,3%

Casi pratici e professionali 29 ,6% 41 1,5% 59 1,1% 129 1,0%

Quesiti a risposta singola 730 14,1% 722 25,8% 1.356 24,3% 2.808 20,7%

Problemi a soluzione rapida 10 ,4% 49 ,9% 59 ,4%

Sviluppo di progetti 6 ,1% 135 4,8% 62 1,1% 203 1,5%

Con testo di riferimento 22 ,4% 261 9,3% 45 ,8% 328 2,4%

Formato misto 381 7,4% 501 18,0% 651 11,7% 1.533 11,3%

Italia 5.179 100,0% 2.794 100,0% 5.570 100,0% 13.543 100,0%

0

5

10

15

20

25

30

35

40

45

50

Tra

ttazi

one

sint

etic

a

Que

siti

aris

post

a m

ultip

la

Cas

i pra

tici e

prof

essi

onal

i

Que

siti

aris

post

a si

ngol

a

Pro

blem

i aso

luzi

one

rapi

da

Svi

lupp

o di

prog

etti

Con

test

o di

rifer

imen

to

For

mat

o m

isto

Licei

Professionali

Tecnici

Italia

Grafico 1 Distribuzione percentuale dei formati ris petto agli ordini scolastici

Come si può notare anche dal grafico 1, che raffronta le distribuzioni percentuali, le commissioni hanno

usato prevalentemente quesiti a scelta multipla, forma che nel secondo anno di attuazione ha accresciuto

la propria consistenza anche per il maggior numero di quesiti consentito dalla norma. Gli istituti

professionali hanno distribuito meglio le proprie scelte sulle varie forme limitando fortemente la prima,

quella della trattazione sintetica, maggiormente scelta dai licei.

Alcune forme hanno avuto una frequenza più ridotta sia per la maggiore difficoltà di preparazione della

prova in tempi ridotti, come nel caso della prova integrata con testo di riferimento, sia per qualche

diffidenza delle commissioni rispetto alla possibilità di richiedere lo sviluppo di un progetto su cui la classe

aveva già effettivamente lavorato durante l'anno. In realtà, le prove, che i nostri classificatori hanno isolato

come prove con testo di riferimento, sono state classificate dalle commissioni a volte sotto altre voci, come

casi professionali o come trattazione sintetica. Come si può notare negli esempi selezionati, spesso il 'testo'

consiste in un'immagine, uno schema, una consegna complessa.

Certamente le disposizioni per il secondo anno di attuazione del nuovo esame, consentendo un uso più

flessibile delle varie forme, hanno permesso alle commissioni una scelta più vasta e la produzione di prove

più attendibili (aumento dei quesiti) e probabilmente più capaci di rilevare competenze complesse (formato

misto).

Sulla attendibilità di tali prove, sulla loro facilità e coerenza rispetto alle altre prove scritte, vi è stato già una

diffuso dibattito, che intendiamo riprendere con la presentazione di nuovi dati, seppur provvisori.

La fase di acquisizione dei dati della sessione 2000 non è ancora conclusa ed i grafici si riferiscono solo a un

campione di circa 10.000 casi tratti da quelli acquisiti mediante il programma Conchiglia.

Grafico 2 Andamenti nelle tre prove scritte

0

200

400

600

800

1000

1200

1400

1600

1800

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15


La distribuzione dei punteggi presente nella figura 2 mostra, meglio dello scorso anno, che la terza prova

non è stata una generale panacea in quanto ha assegnato punteggi su tutta la gamma, anche su valori

inferiori alla sufficienza. Rispetto alle altre due prove scritte vanno notate due particolarità. Non presenta in

10, che è il valore di soglia per raggiungere la sufficienza, un picco, come accade invece alla prima prova e

alla seconda prova, ma ha un andamento regolare. Essendo la terza una prova strutturata per la correzione

della quale la commissione spesso ha convenuto a priori i criteri di assegnazione di punteggi, non si sono

verificati quegli aggiustamenti intorno alla soglia di sufficienza che sono invece evidenti nel caso della prima

e della seconda prova. Questo è certamente un elemento positivo che depone a favore dell'attendibilità della

prova che funzionerebbe in modo più 'oggettivo' delle altre.

Nella prima sessione si era notato che la frequenza del voto massimo era più alta delle altre due prove e tale

fatto veniva segnalato come un indizio di una scelta operata da parte di alcune commissioni di rendere la

terza prova più facile delle altre, al punto di saturare maggiormente il punteggio massimo. Questo

fenomeno sembra essere sparito nella seconda sessione, anzi, sul campione esaminato, sembra che la

frequenza del voto massimo sia ancora più esigua delle altre due prove. Se ciò verrà confermato sul resto

dei dati, questo farebbe considerare la terza prova ancora più attendibile rispetto a quanto successo nella

prima sessione in cui il numero dei questi erra stato eccessivamente limitato.

La costruzione delle terze prove Nella sessione 2000, su un campione casuale rappresentativo a livello nazionale di 400 commissioni, è stata

effettuata una raccolta delle prove scritte di tre studenti anch'essi scelti casualmente dall'Osservatorio. La

raccolta degli elaborati, comunicata alle commissioni subito dopo la pubblicazione degli esiti delle prove

scritte, è stata anche l'occasione per rilevare alcune informazioni aggiuntive sulla questione abbastanza

dibattuta delle modalità di costruzione della terza prova da parte delle commissioni. Si tratta di un

brevissimo questionario costituito da tre domande aperte sui punti di forza e di debolezza della terza prova

e sui problemi connessi all'attuazione dell'innovazione e da altre domande concernenti le condizioni

materiali in cui è avvenuta la formulazione delle terze prove e l'uso che era stato fatto del repertorio diffuso

dall'Osservatorio.

Le domande aperte sono state integralmente codificate utilizzando un griglia abbastanza dettagliata e

consentendo di rilevare fino a tre risposte distinte per ciascuna domanda: in sostanza le tre risposte aperte

hanno generato 9 variabili elaborate come tre risposte multiple. Le tabelle seguenti riportano accanto alle

risposte rilevate, che ricordiamo erano libere, le frequenze assolute e le percentuali calcolate rispetto al

totale delle risposte e al totale dei casi. Pur nella limitatezza del campione riteniamo interessante la varietà

delle considerazioni emerse che denota una ricca consapevolezza dei problemi posti dalla gestione della

terza prova da parte delle commissioni

Rilevazione sulle prove scritte Scuola ……..

Commissione cod. …… Classe rilevata ……

Questionario sulla preparazione della terza prova

Il presidente è pregato di rispondere in modo sintetico alle seguenti domande sulla preparazione della terza prova. Il

questionario non è sostitutivo della relazione finale che i presidenti sono tenuti ad inoltrare all'Osservatorio nazionale sugli

esami di stato in formato cartaceo o elettronico.

In generale.

Punti di forza della terza prova

Punti di forza

N % su risposte % su casi

calibrata su programma svolto/documento consiglio di classe 71 14,8 23,6

verifica competenze trasversali o pluridisciplinari 58 12,1 19,3

accertamento capacità conoscenze e competenze 43 8,9 14,3

verifica capacità analisi e sintesi 39 8,1 13

compresenza di 4 discipline 38 7,9 12,6

oggettività della valutazione 26 5,4 8,6

introduzione della interdisciplinarità nella didattica 21 4,4 7

verifica conosc.e comp.specifiche 20 4,2 6,6

omesso 17 3,5 5,6

esame nelle discipline non oggetto altre prove scritte 17 3,5 5,6

riguarda un nucleo pluridisciplinare 15 3,1 5

entra nei particolari del caso specifico 14 2,9 4,7

riflette esigenze corso di studi 13 2,7 4,3

libertà di scelta della tipologia 13 2,7 4,3

rapidità della correzione 13 2,7 4,3

oggettività della valutazione 13 2,7 4,3

sviluppo di capacità relativamente alle tipologie 11 2,3 3,7

presenza lingua straniera 8 1,7 2,7

obbliga docenti a lavorare insieme durante l'anno 7 1,5 2,3

formulazione da parte dei commissari 6 1,2 2

chiarezza nella formulazione delle domande 6 1,2 2

collegamento con il colloquio 4 0,8 1,3

collegialità della scelta 3 0,6 1

graduazione della difficoltà 3 0,6 1

tempo max affidato alla commissione 2 0,4 0,7

Totale 481 100,0 159,8

Punti di debolezza della terza prova

Punti di debolezza


alcune tipologie sono riduttive e nozionistiche 42 10,3 13,9

omesso 30 7,4 9,9

tipologia C poco significativa 28 6,9 9,3

frammentarietà discipline 28 6,9 9,3

difficile verifica reale livello conoscenze 25 6,2 8,3

lamentele generiche 18 4,4 5,9

documento 15 maggio inadeguato alla formulazione della 3° prova 18 4,5 6

difficoltà di costruzione di una griglia di valutazione 17 4,2 5,6

scarsa attitudine degli studenti ad affrontare tipologie e materie diverse in poco

tempo

15 3,7 5

entra nei particolari del caso specifico 15 3,7 5

diversità di comportamento tra commissioni diverse 14 3,5 4,6

difficoltà nel realizzare pluridisciplinarietà durante l'anno 13 3,2 4,3

risultati poco attendibili perché i ragazzi copiano 12 3 4

inadeguatezza tipologie per alcuni indirizzi 12 2,9 3,9

i membri interni sono inaffidabili 12 3 4

pochi quesiti per prova oggettiva affidabile 11 2,7 3,6

manca progettazione integrata tra docenti nell'anno 11 2,7 3,6

scarsa preparazione degli studenti 10 2,5 3,3

poco tempo per la preparazione 10 2,5 3,3

difficoltà dei docenti ad accordarsi 9 2,2 3

presenza di sole 4 discipline 8 2 2,6

necessità di fissare il rapporto tra tipologie e tempi 7 1,7 2,3

difficoltà a costruire prova oggettiva 7 1,7 2,3

proposte varie 5 1,1 1,7

difficoltà nelle prove strutturate rispetto alle prove articolate 5 1,2 1,7

sarebbe meglio che la prova fosse formulata dal Ministero 4 1 1,3

poca informazione degli studenti su obiettivi e criteri di valutazione 3 0,7 1

commissari non aggiornati, docenti non aperti all'innovazione 3 0,7 1

utilizzo mezzi informatici per la formulazione la correzione 2 0,5 0,7

necessità standard livelli difficoltà 2 0,5 0,7

docenti impreparati alla formulazione dei test a risposta multipla 2 0,5 0,7

diverse tipologie determinano prove non equivalenti 2 0,5 0,7

difficoltà ad usare tipologie diverse da A e B per i limiti di tempo 2 0,5 0,7

chiarezza nella formulazione delle domande 2 0,5 0,7

normativa poco chiara 1 0,2 0,3

introduzione della interdisciplinarità nella didattica 1 0,2 0,3

difficoltà per commissari su più commissioni 1 0,2 0,3

difficoltà con classi distribuite su sedi diverse 1 0,2 0,3

aumentare i quesiti 1 0,2 0,3

assenza dei commissari durante la formulazione 1 0,2 0,3

Totale 404 100 133,8

Problemi di attuazione dell'innovazione relativa alla terza prova.

Problemi di attuazione


omesso 123 34,5 40,9

poco tempo per la preparazione 23 6,4 7,6

documento 15 maggio inadeguato alla formulazione della 3° prova 22 6,2 7,3

manca progettazione integrata tra docenti nell'anno 18 5 6

frammentarietà discipline 17 4,8 5,6

difficoltà dei docenti ad accordarsi 17 4,8 5,6

difficoltà nel realizzare pluridisciplinarietà durante l'anno 12 3,4 4

commissari non aggiornati, docenti non aperti all'innovazione 10 2,8 3,3

difficoltà di costruzione di una griglia di valutazione 9 2,5 3

lamentele generiche 8 2,2 2,7

proposte varie 7 2 2,3

difficoltà con classi distribuite su sedi diverse 6 1,7 2

alcune tipologie sono riduttive e nozionistiche 6 1,7 2

entra nei particolari del caso specifico 5 1,4 1,7

scarsa preparazione degli studenti 5 1,4 1,7

difficile verifica reale livello conoscenze 5 1,4 1,7

aumentare i quesiti 4 1,1 1,3

scarsa attitudine degli studenti ad affrontare tipologie e materie diverse in poco

tempo

4 1,1 1,3

difficoltà a costruire prova oggettiva 4 1,1 1,3

i membri interni sono inaffidabili 4 1,1 1,3

docenti impreparati alla formulazione dei test a risposta multipla 4 1,1 1,3

difficoltà nelle prove strutturate rispetto alle prove articolate 3 0,8 1

poca informazione degli studenti su obiettivi e criteri di valutazione 3 0,8 1

necessità di fissare il rapporto tra tipologie e tempi 3 0,8 1

diverse tipologie determinano prove non equivalenti 3 0,8 1

inadeguatezza tipologie per alcuni indirizzi 3 0,8 1

assenza dei commissari durante la formulazione 3 0,8 1

prova in giorni diversi per classi diverse 3 0,8 1

difficoltà per commissari su più commissioni 3 0,8 1

utilizzo mezzi informatici per la formulazione e la correzione 2 0,6 0,7

sarebbe meglio che la prova fosse formulata dal Ministero 2 0,6 0,7

risultati poco attendibili perché i ragazzi copiano 2 0,6 0,7

normativa poco chiara 2 0,6 0,7

tipologia C poco significativa 2 0,6 0,7

diversità di comportamento tra commissioni diverse 2 0,6 0,7

calibrata su programma svolto/documento consiglio di classe 1 0,3 0,3

tempo max affidato alla commissione 1 0,3 0,3

sostituire prove orali con prove scritte 1 0,3 0,3

documento 15 maggio inadeguato alla formulazione della 3° prova 1 0,3 0,3

sinteticità 1 0,3 0,3

difficoltà con classi aventi indirizzi di studio diversi 1 0,3 0,3

difficoltà ad usare tipologie diverse da A e B per i limiti di tempo 1 0,3 0,3

non solo materie dell'ultimo anno 1 0,3 0,3

Totale 357 100 118,6

In particolare nella sua commissione:

Utilità del Documento del Consiglio di Classe per la stesura della terza prova

Nessuna Bassa Media Alta Non saprei dire

2,0 7,3 41,4 47,4 0,7

Nel Documento del Consiglio di Classe erano disponibili esempi di terze prove utilizzati nelle simulazioni?

Sì No Mancante

83,1 14,9 2,0

Si è tenuto conto di tali esempi nella preparazione della terza prova?

Non c'erano esempi No Solo in parte Sì Sì molto Mancante

9,9 5,3 59,3 10,6 11,6 3,3

Chi ha formulato i singoli quesiti?

Prevalentemente i membri

esterni

Non ci sono state distinzioni Esterni ed interni in

parti uguali

Prevalentemente

gli interni.

Mancante

4,6 26,8 62,6 5,3 0,7

La commissione era a conoscenza dei repertori prodotti dell'Osservatorio sulla terza prova?

No nessuno era informato Solo alcuni membri lo erano Sì tutti erano informati Mancante

2,0 43,7 52,6 1,7

I repertori sono stati messi a disposizione della commissione

Sì No Mancante

51,7 46,7 1,7

I repertori dell'Osservatorio sono stati utilizzati per la costruzione della terza prova?

Sì No Mancante di sistema

12,6 85,8 1,7

Giudizio complessivo sui repertori

Non sono conosciuti

a sufficienza

Negativo Positivo con

perplessità

Positivo Molto positivo Mancante di sistema

37,7 3,0 34,8 19,5 2,0 3,0

Le statistiche precedenti sono di per sé abbastanza eloquenti, seppur riferite ad un campione piuttosto

modesto: appare una ricca e variegata rassegna di problemi legati alla introduzione generalizzata di una

prova strutturata di tipo pluridisciplinare, le commissioni incontrano difficoltà nella preparazione della

prova ma stentano a riferirsi a quanto i documenti dei consigli di classe o l'editoria o lo stesso Osservatorio

mettono a disposizione. Il rischio evidente, che sembra emergere sia dai dati sia dall'analisi delle prove

effettuata per la selezione, è la rinuncia a perseguire un livello più alto di integrazione tra le discipline e il

consolidamento di formati facilmente assemblabili su competenze disciplinari che si sommano soltanto.


L'assegnazione dei punteggi. Atto terzo

Raimondo Bolletta

Premessa Riproponiamo una riflessione che andiamo conducendo già dal primo volume aggiornata con qualche

riflessione ulteriore che nasce dalle analisi dei risultati delle prime due sessioni. Il contatto diretto con molti

colleghi che ci interpellano o che collaborano con l'Osservatorio ci ha convinto dell'opportunità di riinserire

questo tema nel terzo volume perché le questioni legate alle modalità di valutazione delle terze prove e delle

prove d'esame in generale sono tutte aperte e necessitano probabilmente di un lungo processo di crescita

della consapevolezza dei probelmi e della padronanza delle procedure che porti a una qualità migliore della

valutazione finale della scuola secondaria. L'Osservatorio è anche impegnato in uno studio sperimentale

sulla questione della valutazioen delle prove scritte che si ispira proprio alle problematiche suscitate dai dati

qui presnetati e che fornirà ulteriori elementi di riflessione a tutti coloro che a vario titolo sono impegnati

nella gestione degli esami di stato.

L’accertamento, sommare punteggi Il nuovo esame di stato si caratterizza per l'uso nelle prove scritte e orali di scale numeriche la cui somma si

traduce automaticamente in esito finale. Questo fatto ha posto numerosi problemi di attuazione legati

soprattutto all'abitudine a codici linguistici e numerici diversi e al timore di esiti inattesi e incontrollabili

ottenuti sommando singole misure del profitto. La stessa necessità di pubblicare tempestivamente gli esiti

degli scritti e di verbalizzare giornalmente gli esiti dei colloqui sembra contraddire la necessità di effettuare

comparazioni tra tutti i colloqui per poter giudicare con un metro unico. Rimane ancora abbastanza diffusa

la protesta tra i docenti per l'uso di scale diverse all'interno dello stesso esame.

Il legislatore ha introdotto infatti una nuova gamma per il punteggio finale stabilendo la sufficienza in 60

punti e il massimo in 100 e l'ha ripartita in quote diverse nelle varie prove.

Sufficienza Massimo

Credito scolastico 8 20

Prima prova scritta 10 15

Seconda prova scritta 10 15

Terza prova scritta 10 15

Orale 22 35

Bonus 5*

Punteggio finale 60 100

* la concessione del bonus non può far superare 100

La terza prova scritta, proprio per il suo carattere più strutturato, si presta meglio delle altre ad attivare

attendibili procedure di accertamento; sulle quali i membri della commissione possono convergere e trovare

un accordo più forte rispetto alle prove complesse.

Anche nel PTP2001 non abbiamo fissato criteri di valutazione delle prove, ma solo fornito elementi

informativi utili alle commissioni, che saranno libere di dare degli elaborati degli studenti le letture e le

valutazioni che più riterranno opportune in relazione al curricolo svolto nella classe esaminata. Le chiavi di

correzione e i criteri di adeguatezza costituiscono un corredo informativo sufficiente per operare in modo

affidabile, rispettoso dell’autonomia valutativa della commissione ed utile per tutti coloro che vorranno

utilizzare il materiale a livello didattico.

Le soglie di sufficienza, che nei punteggi dell’esame non corrispondono al 6, (6 sta a 10 come 9 sta a 15 ma

9 non è la sufficienza!), hanno costretto le commissioni ad adottare apposite procedura per far condividere

al suo interno una comune modalità di assegnazione dei punteggi grezzi. La questione non ha riguardato

solamente la terza provama soprattutto la prima prova scritta e la prova orale, nelle quali tradizionalmente

si procede con un valutazione globale, difficilmente descrivibile con una procedura standard che non

dipenda dall’intuizione e dal giudizio personale del singolo correttore.

Molte commissioni anche nella seconda sessione del 2000 hanno affrontato questa difficoltà mediante

l’adozione di griglie di correzione e di valutazione convenute a priori che consentivano di assegnare il

punteggio alla prova, scritta o orale, del candidato, attraverso l'osservazione di una pluralità di aspetti

analitici. Per ciascuno di tali aspetti sono stati formulati dei descrittorie dei livelli soglia dei punteggi

analiticiche consentivano un'assegnazione del punteggio pressoché automatica da parte della commissione.

Una ricca casistica di tali griglie di valutazione per la terza prova è presente negli Archivi delle Terze Prove,

ATP2000 e ATP2001, distribuiti nel 2000 e nel 2001 su CD-rom alle scuole secondarie superiori. Proprio la

casistica riccamente documentata nei due archivi elettronici dimostra però che l’uso delle griglie non è

immune da rischi:

i descrittori possono non essere sufficientemente chiari ed operativi, per cui può emergere anche forti

divergenze di opinioni tra commissari diversi che valutano la stessa prestazione del candidato;

se i descrittori sono troppo generici e globali possono in realtà correlare troppo con un medesimo aspetto

dell'elaborato , per cui si assegnano ripetutamente punteggi parziali alla stessa cosa,

i pesi assegnati, sotto forma di punteggi parziali con gamme diverse a seconda dell’importanza dell’aspetto

valutato, costituiscono già un modo per predeterminare l’esito finale in relazione a un criterio a priori dei

commissari che però a volte non è stato chiaramente esplicitato,

le griglie potrebbero essere improvvisate e non essere state validate con un uso sufficientemente esteso nel

tempo e ripetuto su prove e classi diverse da almeno qualche membro della commissione,

la griglia può essere assunta acriticamente con una declinazione di obiettivi, forse coerenti con il documento

del consiglio di classe, ma con una inconsistente relazione con i quesiti specifici che sono formulati nella

prova o con la traccia del tema.

Quindi anche le griglie possono generare una certa confusione tra il momento dell’accertamento, o della

misura, quello cioè della assegnazione di un punteggio che dovrebbe corrispondere solo alle caratteristiche

oggettiva dell'elaborato o della prestazione e quello della valutazione e dell’applicazione di un criterio di

valore che si realizza con la votazione del punteggio da assegnare al candidato. L'assimilazione tra le due

fasi costituisce uno dei rischi di una procedura d’esame che dovrebbe essere, nelle intenzioni del legislatore,

più oggettiva e più giusta.

Questo problema è apparso più evidente in una strategia, suggerita come scorciatoia per semplificare la

questione dell’assegnazione dei punteggi e che anche nel secondo anno di attuazione è stata attuata da

alcune commissioni: valutare la singola prova con un livello qualitativo già utilizzato nei giudizi dei vecchi

esami di maturità, livelli sui quali i commissari hanno maggiore dimestichezza, e convenire nella

commissione una corrispondenza tra tali livelli e bande di punteggi. In questo modo un aggettivo come

buono o discreto , che non fa parte del lessico formale del nuovo esame, si trasforma in un punteggio

numerico. Questa procedura, apparentemente affidabile, stravolge e ribalta però il senso dell’uso dei

punteggi anteponendo la fase della valutazione a quella dell'accertamento 'oggettivo'.

Le difficoltà sin qui segnalate emergono chiaramente in alcuni risultati del monitoraggio degli esiti.

L’adozione di bande di oscillazione rigide, per discretizzare su pochi livelli una scala che può assumere una

estesa gamma di valori, può determinare degli ‘aggiustamenti’ dei voti non sempre opportuni.

Ad esempio le distribuzioni dei grafici 1 e 2 mostrano come l’esistenza delle bande di oscillazione rigida,

entro cui i consigli di classe possono assegnare eventualmente qualche punto aggiuntivo al credito, ha

indotto sia nel primo anno di attuazione degli esami sia nel secondo degli aggiustamenti nei voti assegnati.

E’ evidente dalla figura che le medie vicine al valore soglia per accedere alla banda successiva sono meno

frequenti e ciò determina un profilo delle distribuzioni a denti di sega. Arrotondamenti di pochi decimi per

raggiungere la banda successiva nei casi meritevoli non sono un grave problema, ma possono indurre la

sensazione che si abbia a che fare con dati inaffidabili, modificabili a piacimento, in relazione alle varie

convenienze.

Distribuzione delle medie dei voti. Campione nazion ale di 7563 casi

0

50

100

150

200

250

300

350

400

<4 4,1

4,3

4,5

4,7

4,9

5,1

5,3

5,5

5,7

5,9

6,1

6,3

6,5

6,7

6,9

7,1

7,3

7,5

7,7

7,9

8,1

8,3

8,5

8,7

8,9

9,1

9,3

9,5

9,7

9,9

Grafico1 Distribuzione della media dei voti scolastici assegnati nella sessione 1999

Distribuzione delle medie dei voti di ammissione. C ampione 2000. Casi 7.054

0

50

100

150

200

250

300

350

400

450

500

3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 10

Grafico2 Distribuzione della media dei voti scolastici assegnati nella sessione 2000

Uno stesso meccanismo di aggiustamento verso la sufficienza è intervenuto nella valutazione della prime

dueprove scritte, in cui il valore modale in 10 fa pensare che procedure di assegnazione del punteggio di

tipo ‘globale’ abbiano consentito di dichiarare accettabili degli esiti probabilmente non tali per gli stessi

esaminatori. Lo stesso fenomeno che si osserva nelle due sessioni non compare nell'andamento dei risultati

della terza prova che invece nella soglia della sufficienza ha un andamento gradualemtne crescente senza

addensamenti particolari della frequenza.

Andamenti delle tre prove scritte. Sessione 1999

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

prima prova seconda prova terza provaSESSIONE 1999

Grafico 3 Le distribuzioni dei punteggi delle tre prove scritte sessione 1999

Andamenti delle tre prove scritte. Sessione 2000

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

prima prova 99 seconda prova99 terza prova99SESSIONE 2000

Grafico 4 Distribuzioni dei punteggi delle tre prove scritte sessione 2000

Confrontando i grafici 3 e 4 è possibile notare anche l'effetto prodotto dallo scambio di ruoli nei correttori

della prima e seconda prova: Nel '99 la prima prova era corretta da un commissario esterno e la seconda da

un interno. Nel 2000 in moltissimi indirizzi i ruoli si sono scambiati. Anche le due distribuzioni hanno

subito nei due anni uno scambio di posizione!

Andamento della prima prova scritta. Sessione 1999

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

prima prova 99 prima prova 2000

Andamento della prima prova scritta. Sessione 1999

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

seconda prova99 seconda prova 2000

Anche nel 2000 la distribuzione della somma dei punteggi delle prove scritte e del credito scolastico ha un

andamento ‘regolare’ più simile a quello vero, a quello che necessariamente dovrebbe essere, data la

numerosità della popolazione esaminata e la complessità delle competenze accertate, e cioè una classica

distribuzione normale. Non sorprende affatto che sommando quattro misure, seppure affette singolarmente

di errori ed aggiustamenti, si ottenga una nuova misura che complessivamente appare più affidabile e

regolare; ciò corrisponde a quanto si fa nelle scienze sperimentali, in cui per ridurre gli errori di misura si

ripetono le misure. Una condizione perché ciò avvenga è però che le misure siano tra loro indipendenti, che

cioè gli errori in una misura non influenzino quelli delle altre; in altri termini se in una prova un candidato è

stato casualmente (o intenzionalmente) favorito o sfavorito ciò non deve ripetersi nello stesso senso nelle

altre prove, in cui invece gli errori di misura dovranno continuare ad essere casuali.

Distribuzione dei punteggi alla fine degli scritti

0

0,01

0,02

0,03

0,04

0,05

0,06

0 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64

1999 2000

Fig.3 Distribuzione del punteggio alla fine delle prove scritte

La distribuzione del punteggio finale denota viceversa un cambiamento radicale della distribuzione

introdotto evidentemente dal punteggio assegnato nella prova orale. Ritorna il picco in corrispondenza al

sessanta, cioè alla soglia minima per poter passare l'esame e sul punteggio massimo. Non possiamo qui

affrontare nel merito la questione spinosa di un così alto addensamento di casi sulla soglia di accettabilità

ma ci limitiamo a segnalare una questione puramente tecnica: la non indipendenza dell'ultima 'misura'

rispetto alle precedenti. L'esito dell'orale è condizionato dagli esiti degli scritti e la ricca gamma di punti

disponibili per tale prova serve a compensare o a integrare il resto delle prove per ottenere un punteggio

finale che sostanzialmente è il risultato di un giudizio globale e non la somma di misure indipendenti.

Distribuzione dei voti finali

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99

voto2000 voto1999

Assegnazione dei punteggi-voto Il nostro tentativo in questo contributo che è riporposto nei tre volumi del PTP è di enfatizzare la

distinzione tra la fase dell’accertamento e quella della valutazione e di riflettere sul passaggio dalla prima alla

seconda fase, dal punteggio grezzo al punteggio voto.

Quest’anno la norma consente di aumentare ulteriormente i quesiti nella terza prova. Ciò

consentel'assegnazione di punteggi grezzi, cioè di punteggi non ancora votati e non ancora pubblicati come

esiti, come scale numeriche aventi una gamma più estesa dei 15 punti assegnabili. La commissione può così

avere più chiara la distinzione tra il momento della raccolta dei dati (ovvero della 'misura' dei livelli di

conoscenza o di competenza dei candidati) da quello della formulazione del giudizio cioè

dell'interpretazione del significato del dato raccolto rispetto ad un criterio di valore, a priori o a posteriori.

La stessa questione si pone, forse in termini più complicati e difficili, anche per le altre due prove scritte, in

cui nella fase di correzione della prova, se non si dispone di griglie di correzione condivise dalla

commissione, si potrebbe comunque prescindere dall'uso immediato della scala in quindicesimi per

costruire piuttosto un ordinamento delle prove per livelli di qualità, identificando degli insiemi di prove più

o meno equivalenti cui assegnare a posteriori i punteggi in quindicesimi. Se si dispone invece di griglie di

correzione è consigliabile costruire una scala disancorata dai quindicesimi. Abbiamo potuto constatare che

molte commissioni hanno penato molto a distribuire frazioni di punto alle molteplici dimensioni

individuate: non solo è più semplice e pratico ragionare con punteggi complessivi con gamme più ampie ma

è anche più corretto dal punto di vista concettuale. Siamo effettivamente certi a priori che sommando le

varie sufficienze individuate in ciascun aspetto rilevato si ottenga il fatidico 10 da assegnare alla sufficienza

complessiva? Chi ha provato a far ciò, ad esempio con una griglia di valutazione di una prova di italiano si

sarà trovato in qualche imbarazzo a giustificare le sue scelte e a gestire a posteriori i risultati, a meno che non

avesse preventivamente validato lo strumento sul campo, su molte prove e su molti studenti diversi.

Ma torniamo a ragionare della terza prova, usandola però come una metafora delle altre due nella misura in

cui si sia riusciti a correggerle in modo analitico usando delle griglie.

Criteri di valutazione a priori Se la commissione ha deciso di lavorare con un punteggio grezzo diverso dalla scala in quindicesimi, nella

fase di assegnazione del punteggio voto dovremo operare una traduzione. Quale punteggio grezzo

corrisponde al punteggio soglia della sufficienza? Quale punteggio grezzo corrisponde al punteggio voto

massimo?

E' evidente che il valore di tale soglia dipende della difficoltà dei quesiti posti: se questi fossero molto

difficili, anche i candidati più bravi otterrebbero un punteggio grezzo basso, così come sarebbe possibile

assegnare punteggi grezzi alti se le domande poste fossero molto facili. La commissione, nella misura in cui

può vantare complessivamente una consolidata esperienza didattica, potrebbe essere in grado di apprezzare

preventivamente la difficoltà dei quesiti posti e, quindi, potrebbe prevedere quale soglia dei punteggi

dovrebbe essere raggiunta da coloro che hanno una preparazione sufficiente. La commissione potrebbe

cioè stabilire a priori il livello di punteggio-grezzo atteso che corrisponda alla sufficienza e stabilire quindi a

priori le fasce di punteggi-grezzi comprese nei punteggi-voto assegnati nella prova. Per le due prove scritte

fissate dal ministero l’identificazione di tali livelli soglia della sufficienza sarebbero auspicabili ma occorre

ammettere che per prove complesse la cosa non è affatto facile e rischia anche di essere poco affidabile se

fatta in modo affrettato a livello centrale su una enorme quantità di tracce .

La procedura che abbiamo ora descritto, che fissa il criterio di sufficienza a priori, suppone una forte

omogeneità tra i membri della commissione sia per le esperienze didattiche effettuate, sia per i criteri di

valore cui ciascun membro fa implicitamente riferimento. E' un assunto forte se si considera che la

commissione proviene da istituti scolastici diversi, che la parte esterna non conosce già la classe e che ogni

commissario rappresenta una disciplina diversa. Un aiuto forte potrebbe venire dal documento del consiglio

di classe che dovrebbe fornire elementi operativi per individuare i livelli di sufficienza perseguiti dalla classe.

Criteri a posteriori Un'altra modalità di trasformazione da punteggi-grezzi a punteggi-voto si basa sui risultati accertati e

possiamo definirla a posteriori. Se non vi è un affidabile accordo sulla distribuzione dei punteggi grezzi attesi,

si può attendere di conoscere la distribuzione effettivamente ottenuta dalla classe esaminata e ricavarne

empiricamente i valori soglia per stabilire le corrispondenze tra le due scale, quella dei punteggi grezzi e

quella dei punteggi voto. La commissione potrà decidere il punteggio grezzo che corrisponde alla

sufficienza (10) e stabilire, sempre che sia stato effettivamente riscontrato, quale punteggio-grezzo

corrisponde al massimo (15) assegnando in conseguenza i voti intermedi. Nel programma elettronico

denominato Conchiglia 2001, distribuito dall'Osservatorio ad uso delle commissioni, è disponibile anche

quest’anno una funzione che permette di eseguire rapidamente proprio questo tipo di conversione. Non si

tratta dell’unica procedura automatica utilizzabile per questa conversione dei dati. Molte altre sono possibili

e sono state variamente suggerite nelle reti dell'aggiornamento. Le possiamo classificare però in due

famiglie:

procedure che determinano automaticamente i livelli soglia in base alle caratteristiche della distribuzione dei

punteggi effettivamente assegnati,

procedure che consentono la conversione tra le due scale utilizzando i livelli soglia come valori in input,

fissati dalla commissione.

La procedura di Conchiglia è del secondo tipo poiché parte da una decisione (a priori o a posteriori, è

indifferente) adottata dalla commissione ed effettua solamente dei calcoli in modo del tutto strumentale.

Le procedure previste per l'assegnazione dei punteggi-voto, cioè le 'votazioni' che coinvolgono tutta la

commissione, sono perfettamente compatibili con questi ragionamenti che, se ben gestiti, potrebbero

condurre la commissione a formulare proposte di punteggio voto uniche e pervenire quindi a

determinazioni all'unanimità, almeno sulla terza prova scritta. Non solo Conchiglia ma anche un comune

foglio elettronico consente di effettuare semplici, o più complesse, elaborazioni dei dati grezzi ad uso di una

votazione più consapevole e documentata.

Assegnazione dei punteggi-grezzi Torniamo ora al problema fondamentale, alla fase della costruzione della terza prova, ed esaminiamo il caso

di prove costruite secondo il modello proposto dal Cede con uno o più testi di riferimento o quelle

cosiddette miste. In questo caso tutte le forme previste dalla legge per i quesiti sono consentite e occorre

decidere una opportuna distribuzione di punteggi da assegnare alle diverse domande che potranno essere di

vario tipo per formato, complessità e difficoltà.

Con quali criteri possiamo decidere di assegnare pesi diversi alle varie domande? Possiamo procedere in

diversi modi:

spesso si fa riferimento al livello di difficoltà. Si pensa che sia giusto riconoscere più punti alle domande che

ci sembrano più difficili rispetto alle altre. In effetti questo criterio potrebbe non essere opportuno o

necessario poiché quei pochi candidati che sanno rispondere a domande molto più difficili delle altre sanno

rispondere anche alle domande più facili e quindi si troveranno comunque positivamente discriminati dalla

prova complessiva;

possiamo differenziare i punteggi in base al tempo richiesto per rispondere ovvero alla complessità della

prestazione implicata dalla domanda. Sembra ovvio che una domanda aperta, che chiede la redazione di

cinque o dieci righe di testo, debba avere un punteggio maggiore di quello di una domanda chiusa in cui si

tratta di scegliere una risposta già formulata. Questo criterio può non concordare con il precedente poiché

un quesito chiuso può essere molto più difficile di una domanda aperta, ma il tempo richiesto al candidato

da un quesito chiuso è certamente minore di quello richiesto da una domanda aperta;

altri esaminatori potrebbero invece tener conto della complessità delle prestazioni accertate rispetto ad una

qualche tassonomia di riferimento. Si dà peso alla gerarchia che pone più in basso il semplice ricordo di fatti

singoli e di conoscenze slegate e più in alto l'applicazione alla soluzione di problemi o la formulazione di

giudizi, ciò anche in considerazione del fatto che i livelli più alti e complessi implicano il possesso dei livelli

più bassi. Anche questo criterio può essere meno ovvio di come appare, poiché i processi utilizzati per

rispondere al nostro quesito possono essere di natura diversa a seconda della preparazione del candidato,

per alcuni solo una risposta mnemonica e per altri un complesso ragionamento che tiene conto di tanti fatti

diversi;

un altro criterio può riferirsi invece alla gerarchia degli obiettivi fissati dal curricolo svolto. Dalla

documentazione del consiglio di classe dovrebbe apparire il diverso grado di importanza delle varie

conoscenze e competenze perseguite durante il corso. Se nel formulare i quesiti della terza prova saremo in

grado di dire quali aspetti di tale profilo sono saggiati, potremo anche premiare con pesi diversi le

prestazioni che hanno più importanza nel progetto educativo di quel consiglio di classe; la stessa domanda

potrebbe avere quindi pesi diversi se proposta a indirizzi di studio diversi;

si può ragionare come nel punto 4, ma facendo riferimento al curricolo formale e al profilo del candidato

teoricamente atteso dalla commissione.

Questa elencazione di possibilità, probabilmente non esaustiva, sottolinea la difficoltà del compito della

commissione: in pratica il criterio effettivo sarà un miscuglio dei cinque illustrati con una chiara

accentuazione dell'importanza del quarto criterio che centra l'attenzione sul progetto educativo realizzato

nella classe esaminata. In particolare il bilanciamento tra il quarto e il quinto potrebbero impegnare molto la

commissione, che deve conciliare due esigenze apparentemente opposte: tener conto del curricolo effettivo

della classe riferendo le valutazioni agli obiettivi fissati nell'istituto, e contemporaneamente assegnare un

punteggio finale spendibile in un vasto mercato del lavoro, in cui sarebbe giusta una certa confrontabilità

degli esiti.

Elementi di adeguatezza Se il punteggio assegnato ad un singolo quesito della terza prova ha una gamma sufficientemente vasta, ad

esempio cinque punti, sarà possibile attribuire tutti i valori della scala, e non solo lo 0 o il 5, per cui sarà

opportuno concordare preventivamente la modalità di attribuzione dei singoli punteggi. In questo volume

si fa spesso riferimento agli elementi di adeguatezza: con il termine adeguatezza si è evitato di evocare il termine

sufficienza, che si riteneva non dovesse essere veicolato dal volume, e che assumerebbe un valore puntuale di

soglia rigida traducibile in un valore dicotomico 0/1. Il termine suggerisce piuttosto una graduazione,

determinata proprio dalla presenza di un insieme di elementi che si possono contare. Se ad esempio nella

formulazione di una domanda aperta si chiedono le ragioni dell'entrata in guerra della nazione x nell'anno y

e la storiografia corrente ne elenca 5, potremo giudicare il grado di adeguatezza attraverso il numero delle

ragioni corrette addotte dal candidato e assegnare così l'intera gamma dei punteggi previsti. La questione è

molto meno banale di quanto possa sembrare da questo esempio ed implica la capacità di prevedere le varie

tipologie di risposta alla domanda: l'ideale sarebbe riuscire ad identificare in modo chiaro tutti gli elementi

che concorrono all'adeguatezza della risposta e per ciascuno di essi la qualità attesa. Qualsiasi membro della

commissione o qualsiasi altro docente della stessa materia dovrebbe poter procedere all'assegnazione dei

punteggi-grezzi in modo affidabile; cioè in modo tale che due correttori indipendenti diano allo stesso

elaborato lo stesso punteggio. Tale identificazione potrebbe essere realizzata elencando gli elementi

informativi attesi, come nell'esempio precedente, o descrivendo operativamente gli aspetti che concorrono

a definire la qualità della risposta (ad esempio in una risposta resa in lingua 2, il candidato potrebbe dare

una risposta errata nel merito ma impeccabile dal punto di vista linguistico, per cui sarà bene distinguere

questi due aspetti) o infine redigendo preventivamente delle tipologie di risposta che potranno essere usate

nella correzione come criterio ovvero come esempi di riferimento per identificare i livelli di adeguatezza

della risposta.

Oggettività e soggettività Le considerazioni sin qui sviluppate ripropongono più in generale la difficile questione del rapporto tra

accertamento e valutazione. Riproponiamo alcune riflessioni generali di metodo già illustrate sin dal primo

volume, ma la cui importanza è per noi centrale. La terza prova è nata, nelle prime proposte di molti anni

fa, come una prova oggettiva che doveva essere diffusa dal Ministero per rendere confrontabili gli esiti della

vecchia maturità. La proposta nasceva alla fine degli anni '80 da evidenze sperimentali che mostravano una

bassissima correlazione tra i voti della vecchia maturità e gli esiti di prove oggettive di profitto

somministrate su campioni rappresentativi a livello nazionale. Pur essendo diventata una prova del tutto

'locale', la terza prova mantiene caratteristiche tali da prestarsi meglio delle altre ad una lettura 'oggettiva' dei

risultati. Per come è concepita, la terza prova promette di essere più valida delle prime due, in quanto la

commissione può e deve adattarla al curricolo effettivo della classe e quindi può scegliere quesiti più validi

cioè più capaci di misurare quello che gli esaminatori vorrebbero misurare.

Questa caratteristica della terza prova è già emersa nel primo anno di attuazione dei nuovi esami, come

emerge dal grafico seguente, in cui come è stato osservato nel volume STP2000, ‘se compariamo i punteggi

standardizzati attribuiti in tutte le prove e nel credito scolastico rispetto ai vari ordine di studio, notiamo

che le due prove scritte, la seconda e la terza hanno un andamento sostanzialmente indipendente dal tipo di

scuola. Queste prove infatti misurano la competenza rispetto alle finalità proprie dell’indirizzo e sono

capaci di far emergere prestazioni specifiche anche eccellenti in tutti gli indirizzi'.


-0,4

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

0,4



SESSIONE 1999

Figura 5 Medie punteggi standardizzati rispetto ai tipi di scuole 1999


-0,4

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

0,4

Sperimentali Licei Professionali Tecnici

credito scolastico prima prova seconda prova terza prova colloquio VOTO

SESSIONE 2000

A regime, la terza prova promette anche di essere più attendibile: infatti, con un adeguato numero di quesiti,

è possibile costruire scale abbastanza estese, in grado di effettuare una buona discriminazione tra i

candidati. Come è noto, l'attendibilità o affidabilità di una prova consiste nella sua capacità di misurare una

certa prestazione con adeguata precisione, cioè con un errore di misura non troppo grande. Come

esaminatori dobbiamo sempre ricordare che in qualsiasi misura il valore trovato è la somma del valore vero

e di un errore, cioè di un valore di disturbo casuale e quindi ineliminabile. Ciò anche in fisica! Nell'ambito

degli apprendimenti non potremmo parlare in senso stretto di misura in quanto non disponiamo di unità

campione e di uno zero: le misure che otteniamo sono solo scale numeriche che al più consentono di

stabilire graduatorie, ordinamenti tanto più attendibili quanto meno affetti da errori di misura. L'attendibilità

di una prova dipende dal numero dei quesiti (aumenta con l'aumentare dei quesiti come se ripetessimo le

misure) e dalla sua omogeneità (se il punteggio complessivo somma le misure di aspetti troppo eterogenei e

incoerenti, l'errore di misura rimane alto). L'omogeneità interna della prova è una caratteristica che dipende

direttamente dal lavoro preparatorio del consiglio di classe e dalla qualità della documentazione fornita alla

commissione e infine dal lavoro della commissione. Nonostante sia necessario saggiare competenze

afferenti a più discipline, occorrerebbe scegliere quesiti che si riferiscano a competenze trasversali,

sufficientemente integrate tra loro nella preparazione dei candidati. In questo caso l'integrazione tra le

discipline non va tanto ricercata a livello epistemologico tra le discipline quanto all'interno del lavoro

didattico realmente sviluppato nelle classi per vedere se e in che misura tale lavoro ha prodotto prestazioni

coerentemente integrate. La facile soluzione di assegnare solo poche domande aperte lasciate alla scelta

indipendente di ciascun commissari si può rivelare debole anche dal punto di vista metrologico, in quanto

tale formato fornisce misure scarsamente attendibili se non si dispone di griglie realmente affidabili mentre

il formato misto o quello proposto in questo volume consentono, se realmente coerenti con l'attività svolta

nella classe esaminata, di migliorare l'attendibilità stessa della prova. Inoltre, potendo inserire domande di

diverso formato, è possibile, come abbiamo suggerito nelle riflessioni iniziali, utilizzare delle scale con una

gamma di valori abbastanza estesa e quindi più selettiva.

E' infine utile ricordare che l'oggettività cui si fa qui riferimento non equivale all'esattezza delle misure, ma

all'indipendenza del valore del punteggio grezzo dal correttore della prova. Il punteggio-grezzo dovrebbe

dipendere solo dal livello di preparazione del candidato e dovrebbe essere inteso come una stima, la più

precisa possibile, del livello di competenza vero. Effettuata la misura, l'accertamento oggettivo, il punteggio

grezzo va interpretato e valutato e, in questa fase, le norme prevedono che la responsabilità sia collegiale e

che si esprima mediante una votazione. Questa è la fase soggettiva, in cui però la soggettività non equivale ad

arbitrarietà o incoerenza, ma piuttosto a responsabilità dei soggetti che giudicano in base a criteri,

eventualmente diversi. Le norme prevedono che possano esistere divergenze di valutazione da parte dei

commissari, per cui la stessa prestazione accertata e quantificata dal punteggio-grezzo potrebbe essere

tradotta in punteggi-voto diversi. Ma proprio il lavoro sulla costruzione della terza prova potrebbe

consentire alla commissione di convergere anche sui criteri per la valutazione ed evitare inopportune

spaccature in sede di votazioni sulle singole prove.

Chiudiamo questo intervento con la presentazione di alcuni dati del monitoraggio che evidenziano un fatto

emerso in entrambe le sessioni e che legano la questione dell'oggettività delle misurazione alla soggettività

dei criteri. Come si concilia la necessità di valutare in rapporto ai livelli effettivamente attesi dalla

programmazione della classe con l'opportunità di assegnare valutazioni comparabili sul territorio?

Confronti territoriali delle medie standardizzate d ei punteggi

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

nordovest nordest centro sud sudisole

credito scolastico prima prova seconda prova terza prova colloquio voto

SESSIONE 1999

Grafico … Confronti territoriali delle medie standardizate dei punteggi. Sessione 1999

Confronti territoriali delle medie standardizzate d ei punteggi

-0,3

-0,2

-0,1

0

0,1

0,2

0,3


credito scolastico prima prova seconda prova terza prova colloquio voto

SESSIONE 2000

Grafico … Confronti territoriali delle medie standardizate dei punteggi. Sessione 2000

Dai due grafici emergono chiaramente due domande: quale punteggio corrisponde meglio alle differenze di

rendimento riscontrata ormai da tempi e per compentenze diverse sul territorio e che pone al primo posto

le regioni del nordest e agli ultimi le regioni del sud?

Vi è forse una sistematica differenziazione del livello di difficoltà della terza prova tra commissioni che

appartengono a regioni diverse? Mentre le prove ministeriali consentono l'uso di criteri di valutazione

diversi, a parità di traccia, la terza prova può variare in difficoltà e criterio di valutazione rendendo

l'andamento complessivo così differenziato rispetto alla variabile territoriale da porre un problema su cui

dovremo tutti ancora riflettere.


Un prodotto del Monitoraggio

Di Raimondo Bolletta Può essere utile, per meglio comprendere il significato, il valore ed i limiti di questo volume, dare qualche

informazione sulle modalità e sui criteri organizzativi seguiti dall'Osservatorio nella selezione delle prove

inserendo tale proposta nel quadro delle attività di monitoraggio.

Il regolamento sui nuovi esami di Stato prevedeva che nel plico contenente le schede dei presidenti, fosse

allegata anche una copia delle terze prove effettivamente assegnate nella prima sessione d'esami del 1999.

Le terze prove sono così diventate oggetto del monitoraggio e questa selezione ne costituisce un prodotto.

La raccolta è stata realizzata tramite la collaborazione dei provveditorati, i quali sono stati i primi destinatari

dei plichi preparati dai presidenti. In molti casi i provveditorati hanno controllato sistematicamente il

materiale pervenuto ed hanno assicurato la completezza della documentazione con solleciti e ricerche

presso le commissioni ed i singoli istituti scolastici.

Gran parte delle spedizioni alla ditta incaricata dal CEDE di effettuare le registrazioni dati della scheda dei

presidenti sono state fatte dopo l'estate 1999 e si sono protratte, in relazione alle dimensioni dei

provveditorati e al numero delle schede da controllare, per circa tre mesi fino a tutto novembre. La mole

imponente del materiale raccolto, circa 18.000 prove di quattro o cinque pagine l'una, ha sùbito richiesto la

definizione di una strategia operativa semplice ed efficiente che evitasse che l’impegno di tante commissioni

finisse in un archivio polveroso ed inutile.

Dai primi giorni di settembre 1999 i docenti comandanti nell'Osservatorio hanno iniziato a leggere le prove

raccolte per individuare quelle più interessanti da pubblicare nel sito in Internet del CEDE. Ma ben presto

ci si è accorti che l'impresa sarebbe stata impossibile per la quantità di tempo e di attenzione richiesti ad un

numero troppo esiguo di scrutinatori; altrettanto complesso e costoso risultava trascrivere le prove

prescelte.

Coerentemente con una concezione del monitoraggio che intende soprattutto dare visibilità ed elementi

fattuali ad uso di tutti i responsabili della qualità del processo, sentivamo l'urgenza di una restituzione del

materiale raccolto che fosse realmente utile ad uno sviluppo positivo dell'innovazione indotta dalla nuova

legge sugli esami di stato.

D’altronde, l'esame dei primi materiali ci convinceva dell'alto valore della documentazione raccolta: non era

mai accaduto che una tale varietà e quantità di materiali valutativi fosse raccolta in un unico luogo e fosse

completamente disponibile in tempi utili per migliorare il secondo ciclo di attuazione degli esami. Il valore

consiste soprattutto nel complesso delle prove che offre un quadro esauriente della molteplicità delle

opzioni possibili e della ricchezza, o della povertà, delle varie situazioni rappresentate dalle singole prove.

La soluzione del problema è stata di tipo tecnologico: la scansione di tutti i documenti per generare

immagine elettroniche e la possibilità di concentrare tutto in due CD-rom a costi particolarmente

ragionevoli e in tempi ridotti portavano alla decisione di indicizzate tutte le prove secondo semplici

descrittori e di costituire una base documentaria completa da diffondere presso le scuole mediante un CD

rom.

Tutto il materiale raccolto è stato quindi visionato in due stadi, il primo ha prodotto una classificazione di

tutte le prove secondo le seguenti variabili: il numero progressivo posto sulla prima pagina con codici a

barre, l’ordine degli studi, licei tecnici e professionali, gli indirizzi specifici, le materie coinvolte e la presenza

o meno delle griglie di valutazione e degli obiettivi.

Oltre a ciò il gruppo dei classificatori doveva mascherare con apposite etichette bianche tutti gli elementi di

identificazione della prova per renderla anonima e separare dal resto della collezione le prove centrate sulla

comprensione di uno o più testi e tutte quelle che si presentavano comunque con un titolo.

Solo questo sottoinsieme di prove, circa duemila, sono state oggetto di un secondo stadio di scelta ad opera

del gruppo dei docenti che operano all'interno dell'Osservatorio. Questa seconda selezione intendeva

verificare se e in che misura la commissione avesse inteso produrre una prova con un buon livello di

integrazione tra le competenze accertate.

Il lavoro di selezione è avvenuto basandosi sulla forte omogeneità di giudizi del gruppo di docenti, che,

ormai da più di un anno, stanno lavorando e riflettendo su queste tematiche, prima con la proposta di

modelli terze prove integrate pubblicate sul sito del cede www.cede.it e poi nel coordinamento della

produzione del repertorio di modelli di terze prove, denominato PTP1999 (Proposte di Terze Prove).

Ad una prima lettura ogni prova è stata classificata su quattro livelli

++ da pubblicare senza bisogno di un altro parere

+ forse da pubblicare ma con il parere di un altro collega

- forse da non pubblicare ma con il parere di un altro collega

-- da non pubblicare.

In pratica la maggior parte delle prove è passata al vaglio di due docenti che hanno concordato un giudizio

positivo. Una descrizione più approfondita di questa fase è contenuta nell’intervento successivo.

Le prove sono state rieditate integralmente, con la sola eliminazione delle informazioni relative alla

commissione o alla scuola per renderle anonime. In qualche raro caso vi è stata qualche semplificazione

degli apparati valutativi, ad esempio quando erano riportate le griglie valutative e la scheda usata per la

registrazione degli esiti, perfettamente identica alla griglia.

Questa selezione, per come è stata realizzata, non pretende quindi di rappresentare le prove migliori (non è

un’antologia) per due motivi:

3. molte altre prove potrebbero aver caratteristiche migliori ma sono sfuggite alla nostra attenzione solo perché non avevano ben evidente un titolo,

4. queste stesse potrebbero essere state poco adatte all’effettivo percorso didattico seguito dalla classe e quindi essere state, o potranno essere, considerate ‘non buone’ da altri.

Sono però certamente tali da meritare l’attenzione dei docenti e degli studenti poiché sollecitano un

approccio integrato all’accertamento delle competenze, che costituisce la vera sfida innovativa della terza

prova. Individuano certamente uno standard effettivo, raggiungibile forse da un numero più vasto di

commissioni, uno stimolo e uno strumento per diffondere idee su cui lavorare.

Questo volume rinvia quindi ad una lettura parallela del materiale presente nel CD rom, citato sopra, che le

scuole hanno ricevuto nel febbraio 1999, dal titolo Archivio delle terze prove sessione 1999, ATP1999. Il doppio

canale, il dispositivo elettronico e quello cartaceo tiene conto dei vincoli oggettivi in cui si lavora nella

scuola che non sempre consentono di avere a disposizione apparati tecnologici sofisticati.

Abbiamo deciso anche di conservare tutto il materiale in un unico volume senza separarlo per ordini di

studio. Confermiamo così l’intenzione dell’Osservatorio di dare visibilità reciproca a curricoli spesso molto

diversi che dovrebbero vicendevolmente conoscersi meglio, almeno nella rappresentazione degli esiti finali.

Per completare il quadro della problematica affrontata in generale dal monitoraggio e in particolare da

questa selezione riportiamo alcuni dati a titolo di esempio, rimandando per un approfondimento al sito

Internet già citato o al rapporto in via di pubblicazione per ulteriori approfondimenti.

La tabella mostra la distribuzione delle scelte delle commissioni rispetto al formato delle terze prove.

Come si può notare le commissioni hanno usato prevalentemente quesiti a scelta multipla anche se nella

prima fase di attuazione della riforma la normativa prevedeva la possibilità di limitarsi a solo 10 quesiti, il

che rendevano questa modalità poco consistente. Gli istituti professionali hanno preferito ricorrere ai casi

pratici e professionali, seguiti in ciò dagli istituti tecnici. I licei hanno optato al 42% per le scelte multiple e

al 32% per i quesiti con trattazione sintetica.

Le altre forme hanno avuto una consistenza più marginale sia per la maggiore difficoltà di preparazione

della prova in tempi ridotti come nel caso della prova integrata con testo di riferimento sia per qualche

diffidenza delle commissioni rispetto alla possibilità di richiedere lo sviluppo di un progetto su cui la classe

aveva già effettivamente lavorato durante l'anno. In realtà, le prove che i nostri classificatori hanno isolato

come prove con testo di riferimento sono state classificate dalle commissioni sotto altre voci, come casi

professionali o come trattazione sintetica. Come si può notare negli esempi selezionati spesso il 'testo'

consiste in un'immagine, uno schema, una consegna complessa.

Omesso Sperimentale Licei Professionali Tecnici

N % N % N % N % N %

1 1,9 93 4,0 183 3,2 124 3,9 236 3,1

trattazione sintetica 5 9,3 648 27,6 1843 32,3 354 11,2 1417 18,8

quesiti a risposta multipla 32 59,3 1037 44,1 2434 42,6 1026 32,6 3238 42,9

casi pratici e professionali 14 25,9 447 19,0 988 17,3 1415 44,9 2285 30,2

quesiti a risposta singola 18 0,8 5 0,1 19 0,6 127 1,7

problemi a soluzione rapida 15 0,6 7 0,1 101 3,2 121 1,6

sviluppo di progetti 54 2,3 195 3,4 37 1,2 62 0,8

con testo di riferimento 2 3,7 38 1,6 53 0,9 76 2,4 70 0,9

Totale 54 100 2350 100 5708 100 3152 100 7556 100

Certamente la nuove disposizioni per il secondo anno di attuazione, consentendo un uso più flessibile delle

varie forme, permetteranno alle commissioni una scelta più vasta e la produzione di prove più attendibili.

Sulla attendibilità di tali prove, sulla loro facilità e coerenza rispetto alle altre prove scritte vi è stato già una

diffuso dibattito, non sempre adeguatamente documentato.

Possono essere motivo di riflessione i grafici seguenti.

La distribuzione dei punteggi mostra che la terza prova non è stata una generale panacea in quanto ha

assegnato punteggi su tutta la banda anche su valori inferiori alla sufficienza. Rispetto alle altre due prove

scritte vanno notate due particolarità. Non presenta in 10, che è il valore di soglia per raggiungere la

sufficienza, un picco come accade invece alla prima prova e alla seconda ma ha un andamento regolare.

Essendo la terza prova una prova strutturata in cui in moltissimi casi la commissione ha convenuto a priori

i criteri di assegnazione di punteggi non si sono verificati quegli aggiustamenti intorno alla soglia di

sufficienza che sono invece evidenti nel caso della prima e della seconda prova. Questo è certamente un

elemento positivo che depone a favore dell'attendibilità della prova che funzionerebbe in modo più

'oggettivo' delle altre.

Il secondo aspetto da analizzare riguarda la frequenza del voto massimo che è più alta delle altre due prove.

Ciò potrebbe essere l'indizio di una scelta di alcune commissioni di rendere la terza prova più facile delle

altre al punto di saturare maggiormente il punteggio massimo.

Se si osserva però la distribuzione del punteggio complessivo assegnato nelle prove scritte emerge una

sostanziale regolarità e simmetria con il valore modale nel punto di mezzo tra la sufficienza e il massimo. La

leggera irregolarità sul 60, che ha assorbito alcuni casi che avrebbero dovuto 59, è probabilmente dovuto

alla volontà di alcune commissioni di concedere eventualmente il bonus nella fase finale.

Andamenti delle tre prove scritte

0

10000

20000

30000

40000

50000

60000

70000

80000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15


Che ci sia stata però una variegata politica delle commissioni nel decidere il livello di difficoltà della prova

appare evidente dal grafico seguente.

Confronti territoriali medie prove scritte

9,5

10

10,5

11

11,5

12

12,5



Distribuzione alla fine delle prove scritte

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

0 10 20 30 40 50 60 70

Se si confrontano i valori assoluti dei punteggi medi nelle varie prove scritte distinti per strato territoriale si

nota chiaramente che il livello di difficoltà è stato diversamente pianificato e ciò è in contrasto anche con

quanto emerge nelle altre due prove. Questo volume e il CD rom ATP1999 vogliono rispondere a ai

problemi posti da questa situazione: una migliore conoscenza di ciò che effettivamente è stato proposto agli

studenti come terza prova consente di far convergere gradualmente il sistema verso una maggiore

condivisione degli standard di fatto meno circoscritti all'ambito del proprio distretto o della propria

provincia ed arrivare nel pieno rispetto della autonomia delle singole commissioni ad una cultura

maggiormente condivisa anche sulla terza prova.

Il grafico seguente sottolinea in vece un punto di forza della terza prova.


-0,4

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

0,4



Se compariamo i punteggi standardizzati4 attribuiti in tutte le prove e nel credito scolastico rispetto ai vari

ordini di studio notiamo che le due prove scritte, la seconda e la terza, hanno un andamento

sostanzialmente indipendente dal tipo di scuola. Mentre nel credito scolastico nella prima prova e nel voto

finale si stabilisce quasi una gerarchia di valori, prima i licei poi i tecnici e quindi i professionali, la seconda e

terza prova riportano valori più vicini alla media generale, che nel grafico è rappresentata dallo zero per

tutte le scale. Ciò corrisponde ad una specifica finalità di queste prove che misurano la competenza rispetto

alle finalità proprie dell'indirizzo e che quindi consentono anche alle scuole con candidati più carenti,

soprattutto per altri aspetti linguistici, di far emergere prestazioni specifiche anche eccellenti.

Questo è un punto di difficoltà del nuovo esame di stato: come valutare la preparazione di un candidato?

facendo riferimento ad uno standard unico comune a tutti gli indirizzi di studio (è quello che in parte

accade nella prima prova e nell'ambito linguistico) o piuttosto al curricolo effettivamente seguito dai

candidati o, ancora, basandosi sugli obiettivi specifici dell'indirizzo di studio.

Questo volume è tentativo di contribuire ad una maggiore omogeneità e trasparenza di criteri e di strumenti

per gestire la valutazione finale degli studi secondari.

4 Per rendere confrontabili gli andamenti, le variabili Credito scolastico, Colloquio, Punteggi nelle prove scritte sono stati standardizzati (attraverso la riconduzione ad una scala unica) in modo che tutte abbiano stessa media 0 e stesso scarto 1.

i Azione 1. Raccolta su base campionaria dei documenti dei consigli di classe.

Obiettivo: raccogliere su un campione probabilistico nazionale, circa 200 esempi di

documentazioni e analizzarli secondo almeno due criteri di lettura: l’adeguatezza alla norma e la

ricchezza dei contenuti presentati

Azione 2. Raccolta su base campionaria di alcuni dati sensibili sullo svolgimento delle operazioni

fondamentali

Su un campione probabilistico di circa 400 scuole sono state monitorate circa 3000 commissioni

con la raccolta per via telematica di tre schede: 1. i crediti scolastici assegnati rapportati alla media aritmetica dei voti in una classe

opportunamente campionata della scuola. Le analisi complessive per tipi di scuola, per regioni geografiche e rispetto ad altre variabili esplicative sono state rese note al MPI prima della costituzioni delle commissioni.

2. la regolarità delle presenze nelle commissioni. E' stata rilevata la situazione delle presenze nel primo giorno di lavoro delle commissioni.

3. gli esiti aggregati del punteggio complessivo alla fine degli esami.

Azione 3 Studio approfondito dei colloqui

Azione 4 Raccolta ed analisi della scheda del presidente

Con tale azione si intende raccogliere sull'intero universo delle commissioni e dei candidati tutte le

principali informazioni relativi agli esiti.

Azione 5 Raccolta di tutte le terze prove assegnate

Tale azione prevista dal regolamento ha consentito la pubblicazione di un archivio elettronico

ATP2000 contenente le copie di circa 13.000 terze prove prodotte dalle commissioni e di un

volume con più di 500 terze prove denominato ST2000.

Azione 6 Raccolta di un campione di prime prove

Analisi sistematica approfondita per verificare l'impatto delle nuove tracce, i livelli di padronanza emergenti e i criteri di valutazione adottati dalle commissioni.

Documents

Metrologia delle prove esame di Stato parte 2