La ricerca umanistica: i risultati della VQR 2004-2010 (di Paola Galimberti)

La ricerca umanistica: i risultati della VQR 2004-2010 Milano 23 ottobre 2013 La valutazione della ricerca nelle aree 10 e 11: dati, contesti, risultati

I risultati della valutazione del nucleo/ i risultati della VQR

Paola Galimberti

VQR maneggiare con cura (Cit da G. De Nicolao)

Premessa

- I report VQR vanno letti nella loro totalità. Paradossalmente i rapporti per le strutture sono la parte meno significativa

- La VQR ordina sempre strutture, SSD, Dipartimenti sull’area.

- E’ opportuno leggere gli indicatori I, R ed X all’interno dell’area.

Una lettura diversa (da quella fatta dal Prof. Florio nella seduta congiunta di CdA e SA)

•  Il nucleo vede tutto il Dipartimento il GEV vede solo l’area.(M.Florio 21 attobre)

  Il Gev vede tutta l’area a livello nazionale ed effettua un benchmark sulla base della lettura delle pubblicazioni. Il nucleo fa un benchmark solo su personale e attrazione fondi, NON sulle pubblicazioni

•  Il GEV effettua un benchmark sull’area CUN. Si confronta Bioscienze di Milano con Oncologia di Torino

  Il confronto viene fatto fra il pezzo di area 06 di Bioscienze (MI) e il pezzo di area 06 di Oncologia (TO) nel segmento G

Una lettura diversa

•  Il 20% dei docenti produce il 50% delle pubblicazioni (vergogna!)

  Lotka anni ’20   Bradford 1934 (alla base del SCI di Garfield)   Zipf 1949 Il sistema della scienza funziona così da 100 anni, non

solo qui ma ovunque. Si può cambiare?

Breve storia della Valutazione della Qualità della Ricerca

•  Arco temporale nov. 2011- giugno 2012 (con strascichi fino al 2013)

•  Bando pubblicato dopo un periodo di esposizione pubblica per poter raccogliere suggerimenti dal basso

•  3 lavori sul settennio per docente (6 per gli affiliati anche a centri di ricerca), ogni lavoro presentato una sola volta per la stessa struttura

•  Sconto per i ricercatori più giovani o per chi aveva usufruiti di periodi di congedo

•  Tipologie di lavori presentabili definiti dal bando


•  14 Gruppi di esperti della Valutazione a numerosità variabile a seconda dell’ampiezza dell’area e della numerosità degli SSD

•  I GEV hanno definito il protocollo interno: -  Criteri per la creazione di una lista di riviste con la

collaborazione delle società scientifiche -  Scelta del gruppo di confronto PR vs. bibliometria (o

PR vs. liste di riviste) -  Scheda di valutazione


-  Selezione dei revisori secondo un protocollo rigoroso e attribuzione dei lavori agli stessi (2 revisori ogni lavoro in media) – Corrispondenza fra SSD pubblicazione e SSD revisore

-  Consensus group in caso di revisione contrastanti -  Modalità di assegnazione dei lavori del presidente del

GEV e dei componenti del gruppo (conflitti di interesse)

La fase di prevalutazione interna

•  Coinvolgimento dei Direttori dei Dipartimenti ante legge 210

•  Un gruppo di coordinamento formato dai prorettori e DG

•  Selezione concordata (soprattutto nel caso di coautoraggi)

•  I Direttori avevano la possibilità di controllare che i colleghi avessero selezionato le pubblicazioni dovute, la presenza di eventuali conflitti interni la presenza di tutti i dati richiesti

La fase di prevalutazione interna

•  Ai Direttori è stato reso disponibile tramite surplus uno strumento di monitoraggio sulle scelte effettuate dai colleghi

•  Ai singoli docenti è stato messo a disposizione uno strumento per l’integrazione dei dati da inviare ma mancanti in surplus (SSD ad esempio, presenza di coautore straniero, abstract, lingua ecc.) e le integrazioni sono state inviate al sito docente

•  La fase di prevalutazione interna ha coinvolto tutti i direttori dei dipartimenti e i loro delegati, i 50 bibliotecari che hanno validato le registrazioni immesse ad hoc per la VQR

•  Tre persone a tempo pieno che hanno lavorato al monitoraggio per tutti i mesi della VQR affiancando i direttori e sollecitando i ritardatari

Per le sole aree 10 e 11 di unimi sono stati dunque coinvolti

•  Circa 10 bibliotecari •  3 / 4 persone che hanno lavorato sui dati •  Tutti i docenti di area 10 e 11 distribuiti in 20

dipartimenti e i Direttori dei Dipartimenti ante Legge 210 (8 a Lettere e Filosofia + una parte a Scienze politiche + una parte a medicina)

•  Lato ANVUR circa 1564 schede di revisione peer (non la lettura di referenze bibliografiche come nella valutazione del nucleo)

•  Dato l’impegno consistente di personale a qualsiasi livello e date le ricadute sulle strutture la VQR va presa molto sul serio.

•  E’ importante che ogni Dipartimento rifletta sugli esiti anche perché avranno ripercussioni a vario livello

Dati generali di contesto (pochi prodotti mancanti o penalizzati)

La peer review è stata più severa della bibliometria

I dipartimenti sono posizionati rispetto all’area e al segmento

“Unsuitable methods can only lead to debatable conclusions”

(KNAW 2005)

I report dei GEV

Area %Articoli %Saggi+Monografie

Metodo di valutazione

%Lingua

10 (77 SSD) 26 70 Peer review 17% inglese 12% altre lingue

11 (34 SSD) 23 72 Peer review+ bibliometria

12% inglese non bilio 62% inglese biblio

Cosa ci dicono i dati

•  In tutte le aree l’articolo su rivista non è la tipologia maggiormente diffusa

•  In tutte le aree la lingua inglese non è la lingua con cui si comunica

•  In tutte le aree i prodotti eccellenti non sono pubblicati univocamente in riviste di fascia A e quelli limitati non sono pubblicati univocamente in riviste di fascia B o C.

•  In tutte le aree dove si è effettuata anche una valutazione bibliometrica la peer review è stata molto più severa che la bibliometria

Cosa ci dicono i report

•  Tutti i GEV hanno riscontrato problemi nell’utilizzo della scheda di valutazione pensata e modellata sulle scienze dure

•  a) rilevanza, da intendersi come valore aggiunto per l'avanzamento della conoscenza nel settore e per la scienza in generale, anche in termini di congruità, efficacia, tempestività e durata delle ricadute;

•  b) originalità/innovazione, da intendersi come contributo all'avanzamento di conoscenze o a nuove acquisizioni nel settore di riferimento;

•  c) internazionalizzazione, da intendersi come posizionamento nello scenario internazionale, in termini di rilevanza, competitività, diffusione editoriale e apprezzamento della comunità scientifica, inclusa la collaborazione esplicita con ricercatori e gruppi di ricerca di altre nazioni

•  Correlazione fra peer review e valutazione bibliometrica non sempre significativa

Il rapporto di area 10

•  Inadeguatezza delle voci della griglia, ma anche dell’utilizzo degli stessi criteri validi per gli articoli anche per monografie e saggi

•  Rating riviste fatto perché dovuto ma senza che se ne sia tenuto conto infatti spesso non c’è correlazione fra eccellenza del lavoro e sua collocazione in rivista di fascia A

•  Grosse differenze nella distribuzione delle eccellenze fra nord e sud ma nella media buon risultato

SSD valutati

•  Per l’area 10 16 SSD di cui si ha la valutazione su 48 rappresentati in ateneo

•  Anche i settori con 1 o 2 docenti sono stati valutati ma i risultati non sono stati resi pubblici

•  Per l’area 11 25 SSD rappresentati in ateneo

Il rapporto di Area 11

•  Bias della peer review •  Concentrazione nelle fasce centrali dei giudizi più che

in quelle estreme •  Soddisfazione per il rating delle riviste e per la ottima

collaborazione con le società scientifiche •  Buona correlazione tra prodotti eccellenti e loro

collocazione in riviste di fascia A •  Mancanza di rating per storie di altre discipline

sottoposte al GEV

Il rapporto di area 11

•  Le discipline di Psicologia e Metodi e didattica delle attività motorie hanno avuto una valutazione bibliometrica rispettivamente per il 59% e il 78% che non sono affatto la totalità dei prodotti

•  Internazionalizzazione? •  Nonostante dica che non spetta al GEV interpretare i

dati, il rapporto sembra suggerire la via maestra ai giovani ricercatori

Gli indicatori di sintesi

•  IRFD indicatore opaco, ottenuto attraverso una media di 4 modalità proposte per l’aggregazione dei risultati (appendice D)

•  L’indicatore (a detta stessa di ANVUR da utilizzarsi con cautela) non va utilizzato per comparazioni a meno che non si abbia la piena consapevolezza di cosa sta usando

•  Il nucleo compara però le proprie classifiche A,B,C,D, con l’indicatore sintetico

Cosa si sta facendo altrove

•  Osservatori e Dipartimenti stanno studiando i dati •  Le amministrazioni stanno elaborando criteri di

pesatura dei risultati per la distribuzione dei fondi •  E’ necessario un confronto con le altre strutture per

evitare la autoreferenzialità.

La taglia unica non si adatta a nessuno

•  Soprattutto per quanto riguarda l’area 11 il rapporto sembra aderire totalmente al modello dominante.

•  Quello elaborato nell’ambito delle scienze dure in cui gli autori lavorano in gruppo, scrivono in inglese, pubblicano articoli su riviste internazionali con IF.

•  Questo modello non rispecchia la ricerca umanistica

Il modello olandese

•  Lunga gestazione e frutto di questionari distribuiti a livello internazionale e di interviste alle comunità scientifiche nazionali

•  Alla ricerca di una definizione di qualità •  Qualità della ricerca – qualità sociale (valorizzazione

della conoscenza)

La peer review

•  Resta il sistema portante, ma si riconoscono i limiti •  La pressione verso il publish or perish ha condotto ad

un aumento della produzione scientifica •  Aumento del lavoro per i revisori (vedi le rinunce) che

sono soggetti alla stessa pressione •  Il sistema rischia di implodere

•  Un aiuto può venire dagli indicatori qualitativi

Indicatori qualitativi

•  La qualità si misura sulla base di un set di criteri all’interno dei quali vengono definiti indicatori specifici

47

Figure 1 Diagram of criteria and indicators* discipline-‐speci ic/context-‐speci ic indicators

Quality aspects Assessment criteria Indicators

Other output *

Other evidence of use *

Other evidence of recogni!on *

Other societal output *

Other evidence of use *

Other evidence of societal recogni!on *

A number of aspects of this system and the way in which it should be applied require explanation. Taking the diagram from left to right:

In assessing research in the humanities, one can distinguish between scholarly • quality and societal quality. The Committee proposes that peers, if necessary as-sisted by external experts in the ield of societal quality or societal stakeholders,47

47 For this type of extended peer review, see Section 3; see also the remarks below regarding the pilot phase of this project.

Un quadro composito

•  La bibliometria √ •  Le liste di riviste √ •  Le classificazioni di sedi editoriali (collane) √ •  Un sistema di pesi che attribuisca valori diversi alle

diverse tipologie √ •  Mix flessibile e rivedibile con opportuna frequenza che

tenga conto delle specificità delle discipline ed eviti l’affermarsi di comportamenti adattivi

Un quadro composito…

• Alla luce di quanto riportato dai GEV nelle diverse aree risulta chiaro come per le SSH strumenti, metodi e indicatori siano ancora tutti da costruire • Il tema dell’impatto sociale e del trasferimento della conoscenza diventa fondamentale impact.pot • Ci sono modelli a cui ispirarsi adattabili alla realtà italiana • Ciò può essere fatto solo se si riconosce alle SSH una propria specificità intesa come multidimensionalità di espressioni, canali di comunicazione e target .

… da poter ricomporre

•  Quello che si richiede è la disponibilità di un ampio set di indicatori entro i quali la scelta va guidata da un processo che associ gli obiettivi da perseguire nel percorso valutativo alla qualità e significatività degli strumenti utilizzati. Ciò deve potersi tradurre in una specifica attenzione alla disciplina, al contesto e alle altre dimensioni valutative attraverso un mix flessibile e rivedibile con opportuna frequenza

•  Il sistema di ANVUR con tutti i limiti segnalati mette in relazione la qualità delle pubblicazioni con la media nazionale.

•  Il nucleo sarebbe nella posizione di effettuare una valutazione in context. Proprio perché ha a disposizione i microdata è in grado di correlare personale e pubblicazioni, di spiegare eventuali tassi di improduttività, di legare input e output. Di pesare diversamente le tipologie di lavori. Di analizzare l’efficacia ed efficienza del reclutamento

•  Fino ad ora si è applicato il metodo della conta della pubblicazioni, metodo che mortifica le Scienze umane non riconoscendone la specificità

•  E’ necessario avviare una riflessione su questi temi, a partire dall’incontro di oggi

“an effective system is not simple and a limited system is not effective” (KNAW 2011)

Education

La ricerca umanistica: i risultati della VQR 2004-2010 (di Paola Galimberti)