28
1 XXIX CONFERENZA ITALIANA DI SCIENZE REGIONALI IPOTESI DI INNOVAZIONE PER IL CENSIMENTO DELLA POPOLAZIONE DEL 2011: UNA VALUTAZIONE DEGLI EFFETTI SU UN POSSIBILE PIANO DI DIFFUSIONE 1 Giancarlo CARBONETTI * , Silvia DARDANELLI * , Epifania FIORELLO * , Simona MASTROLUCA * e Mariangela VERRASCINA * * Istituto Nazionale di Statistica, Via Adolfo Ravà 150, 00142, Roma SOMMARIO Sono molteplici le ragioni per proporre innovazioni rispetto alle modalità con cui le rilevazioni censuarie vengono tradizionalmente condotte. L’obiettivo è quello di migliorare l’efficienza delle operazioni sul campo riducendo sia il carico di lavoro dei soggetti coinvolti che il disturbo statistico degli individui chiamati a rispondere. Tra le soluzioni proposte è in fase di studio la possibilità di rilevare esaustivamente solo le informazioni demografiche e riservare ad un campione di famiglie la rilevazione di tutte le altre variabili di natura socio-economica tradizionalmente acquisite in occasione del censimento. Questo comporta certamente un costo in termini statistici in quanto si passa da una osservazione completa di tutte le variabili ad un sistema che prevede l’integrazione di dati provenienti dall’utilizzo di opportune tecniche di stima. Nel lavoro vengono esaminati alcuni riflessi della nuova metodologia in fase di studio sulla qualità della produzione di informazione relativa a diversi dettagli classificatori e territoriali. L’analisi è rivolta sia al contesto di diffusione previsto a livello europeo sia al possibile piano di diffusione nazionale. 1 Il presente lavoro è frutto della collaborazione tra gli autori, tuttavia ai fini dell’attribuzione delle singole parti si specifica che: i paragrafi 1, 2, 3, 5.3, 5.4, 6.1 e 8 sono interamente redatti da G. Carbonetti; i paragrafi 4.2 e 6.2 da S. Mastroluca; i paragrafi 4.1 e 4.3 da S. Dardanelli; i paragrafi 6.4 e 7 da M. Verrascina; i paragrafi 5.1, 5.2, 6.3 e 6.5 da E. Fiorello.

XXIX CONFERENZA ITALIANA DI SCIENZE … e Mariangela VERRASCINA* * Istituto Nazionale di Statistica, Via Adolfo Ravà 150, 00142, Roma SOMMARIO Sono molteplici le ragioni per proporre

Embed Size (px)

Citation preview

1

XXIX CONFERENZA ITALIANA DI SCIENZE REGIONALI IPOTESI DI INNOVAZIONE PER IL CENSIMENTO DELLA POPOLAZIONE DEL 2011: UNA VALUTAZIONE DEGLI EFFETTI SU UN POSSIBILE PIANO DI DIFFUSIONE1

Giancarlo CARBONETTI*, Silvia DARDANELLI*, Epifania FIORELLO*, Simona MASTROLUCA* e Mariangela VERRASCINA*

* Istituto Nazionale di Statistica, Via Adolfo Ravà 150, 00142, Roma

SOMMARIO

Sono molteplici le ragioni per proporre innovazioni rispetto alle modalità con cui le rilevazioni censuarie vengono tradizionalmente condotte. L’obiettivo è quello di migliorare l’efficienza delle operazioni sul campo riducendo sia il carico di lavoro dei soggetti coinvolti che il disturbo statistico degli individui chiamati a rispondere. Tra le soluzioni proposte è in fase di studio la possibilità di rilevare esaustivamente solo le informazioni demografiche e riservare ad un campione di famiglie la rilevazione di tutte le altre variabili di natura socio-economica tradizionalmente acquisite in occasione del censimento. Questo comporta certamente un costo in termini statistici in quanto si passa da una osservazione completa di tutte le variabili ad un sistema che prevede l’integrazione di dati provenienti dall’utilizzo di opportune tecniche di stima. Nel lavoro vengono esaminati alcuni riflessi della nuova metodologia in fase di studio sulla qualità della produzione di informazione relativa a diversi dettagli classificatori e territoriali. L’analisi è rivolta sia al contesto di diffusione previsto a livello europeo sia al possibile piano di diffusione nazionale.

1 Il presente lavoro è frutto della collaborazione tra gli autori, tuttavia ai fini dell’attribuzione delle singole parti si specifica che: i paragrafi 1, 2, 3, 5.3, 5.4, 6.1 e 8 sono interamente redatti da G. Carbonetti; i paragrafi 4.2 e 6.2 da S. Mastroluca; i paragrafi 4.1 e 4.3 da S. Dardanelli; i paragrafi 6.4 e 7 da M. Verrascina; i paragrafi 5.1, 5.2, 6.3 e 6.5 da E. Fiorello.

2

1 INTRODUZIONE

I censimenti costituiscono una occasione unica per la costituzione di un patrimonio informativo di fondamentale importanza per la collettività e i dati raccolti garantiscono un elevato dettaglio territoriale, non deducibile da alcuna altra fonte né da altro tipo di indagine. Si tratta di dati utilizzati ad ogni livello di governo e da una vasta e diversificata utenza a fini di valutazione, programmazione e decisione (Berntsen et al., 2008). Pur avendo subito, i contenuti dei censimenti, evoluzioni nel corso del tempo, esistono molteplici motivi per proporre innovazioni rispetto alle modalità con cui queste rilevazioni vengono condotte. È forte la necessità di realizzare un censimento con maggiore “leggerezza” rispetto al passato, con l’auspicio da un lato di ridurre il carico di lavoro degli attori coinvolti durante lo svolgimento delle operazioni sul campo e dall’altro di chiedere un insieme limitato di informazioni a tutta la popolazione. Le innovazioni di carattere metodologico nella rilevazione delle informazioni censuarie vanno verso due direzioni principali: l’integrazione di dati provenienti da fonti amministrative e l’introduzione di tecniche campionarie per la rilevazione delle informazioni non strettamente demografiche. La decisione di ottenere una parte delle informazioni tipiche del censimento tramite campioni di famiglie deve però affiancarsi alla consapevolezza del costo statistico che questo tipo di approccio comporta e alla capacità di convincere gli utilizzatori che con un buon campione si possono raggiungere risultati equivalenti, e per certi aspetti addirittura migliori, di quelli provenienti da una rilevazione totale. Questo lavoro fa riferimento alla necessità di valutare attentamente i riflessi che l’introduzione della strategia campionaria produce sull’accuratezza (qualità) dell’informazione censuaria prodotta e diffusa in base a quanto verrà definito sia dalle linee indicate da Eurostat che da quelle relative al piano di diffusione interno (al momento ancora non definito). Dopo aver descritto alcune criticità del censimento della popolazione e delle abitazioni del 2001 e le principali soluzioni innovative proposte (paragrafo 2), viene presentata con maggior dettaglio (paragrafo 3) la proposta dell’introduzione della strategia campionaria tramite l’adozione di un questionario long form al censimento del 2011. Successivamente (paragrafo 4) vengono presentati alcuni aspetti delle Raccomandazioni UNECE e del Regolamento censuario europeo ma anche delle esigenze informative connesse alla diffusione dei risultati censuari. Segue una ampia esposizione (paragrafi 5 e 6) di alcune valutazioni sulle implicazioni della strategia campionaria sull’accuratezza dell’informazione censuaria per diversi dettagli informativi e territoriali. Infine (paragrafi 7 e 8) vengono presentate alcune considerazioni di sintesi e indicazioni di attività future.

2 INNOVAZIONI PER IL CENSIMENTO DEL 2011

In seguito ad una analisi sulle criticità di processo del Censimento della Popolazione e delle Abitazioni del 2001 (Fortini et al., 2007) è emerso che la pesantezza della “macchina censuaria”

3

messa in campo dagli Uffici Comunali di Censimento (UCC), in termini sia organizzativi che economici ha rappresentato un fattore di forte criticità. Per le operazioni censuarie si sono infatti osservate problematiche connesse a: → un improvviso e concentrato nel tempo incremento della massa di lavoro degli UCC; → una imponente rete di rilevatori e coordinatori, specialmente per i comuni più grandi, che

hanno richiesto di essere formati e gestiti prima e durante le operazioni in campo; → la mancanza di risorse adeguatamente esperte e alti tassi di turn-over.

Lo studio di innovazioni praticabili per il prossimo censimento si pone come obiettivo quello di migliorare l’efficienza delle operazioni sul campo tramite una diminuzione della massa di lavoro e, al tempo stesso, di ridurre il “fastidio statistico” ai rispondenti pur garantendo un elevato livello di qualità dei dati rilevati. Le principali soluzioni proposte sono rivolte a ridurre il numero di rilevatori impiegati sul territorio (front-office), orientando maggiormente le risorse degli UCC su attività di coordinamento e controllo (back-office). In particolare, le principali novità sono rappresentate dalla possibilità di utilizzare i registri amministrativi, di effettuare la spedizione dei questionari di censimento tramite posta ordinaria e di impiegare differenti modalità per la raccolta dei dati, principalmente basata sul ritorno postale o sulla compilazione via web. Riguardo alla modalità di invio postale, questa si prefigura come strategia efficiente solo in presenza di un elevato tasso di risposta (con ritorno dei questionari via posta o via web). Quindi, al fine di raggiungere elevati livelli di risposta, una ulteriore proposta di innovazione prevede di rilevare su tutte le famiglie solo le informazioni demografiche e osservare tutte le variabili di censimento tradizionali solo su un campione di famiglie opportunamente scelto.

3 ADOZIONE DI UNA STRATEGIA SHORT/LONG FORM PER IL CENSIMENTO DELLA POPOLAZIONE DEL 2011

Al fine di realizzare un censimento più “leggero” rispetto al passato, in modo tale che a tutta la popolazione vengano chieste solo alcune informazioni, si sta decidendo l’introduzione di una rilevazione tramite campioni dei dati di carattere socio-economico. La proposta è quella di affiancare all’usuale enumerazione totale del censimento, effettuata tramite un questionario in forma ridotta (short form) in cui si chiede poco a tutti, un campione di famiglie a cui si somministra un questionario più esteso (long form) che chiede di più a pochi. Tale soluzione mostra vantaggi sia in termini operativi, per la riduzione dei tempi di acquisizione ed elaborazione dei dati, sia in termini di qualità, per la possibilità di maggior controllo a beneficio di una riduzione dell’errore di misura (Cocchi, 2007). La strategia prevede quindi l’uso combinato di un questionario short form, contenente solo le variabili demografiche, e un questionario long form, relativo a tutte le variabili tradizionalmente investigate in occasione del censimento. L’adozione di metodi di campionamento per la somministrazione di long form contenente informazioni di carattere socio-economico comporta una sensibile riduzione del “carico” statistico

4

sul complesso delle famiglie residenti in Italia; infatti con un’ipotesi di campionamento sarebbe elevato il numero delle famiglie che potrebbe beneficiare di più ridotti tempi di compilazione del questionario short form. La scelta di introdurre il campionamento nel censimento italiano è avvalorata anche dall’analisi delle esperienze estere (Abbatini et al., 2007) dalla quale emergono realtà di Paesi (Canada, Usa, Francia, Germania, Israele, Olanda) in cui, adottando approcci non tradizionali per il censimento, si producono stime, anche se con modalità differenti, per le variabili non strettamente demografiche. La somministrazione di questionari long form a campioni di famiglie dovrebbe interessare tutti i comuni al di sopra dei 5.000 abitanti2 (alle famiglie non campionate viene sottoposto il questionario short form); per quelli sotto tale soglia demografica è invece prevista la rilevazione totale attraverso questionari solo di tipo long form. In generale, l’impiego di una strategia campionaria richiede decisioni di tipo metodologico relative al disegno di campionamento, ai domini minimi per i quali produrre le stime3, alle variabili oggetto di rilevazione campionaria e allo stimatore da utilizzare. A tale scopo è stato fatto un preliminare studio delle soluzioni metodologiche (Cicchitelli et al., 1992; Särndal et al., 1992) praticabili per il contesto censuario in Italia. Questo ha indirizzato verso disegni di campionamento da lista (per la possibilità di utilizzare i registri anagrafici) o areali (per la necessità di riferirsi alla lista delle sezioni di censimento delle Basi Territoriali). Inoltre sono stati valutati possibili stimatori al fine di individuare quello che potrebbe offrire le migliori “prestazioni” in termini di accuratezza delle stime. L’idea di base è comunque quella di adottare uno schema semplice di selezione del campione di famiglie ed eventualmente diversificare la scelta dello stimatore per ottenere elevati livelli di accuratezza delle stime campionarie. Successivamente, è stata condotta una prima fase di sperimentazione4 per scegliere, tra le possibili soluzioni metodologiche, quelle più facilmente praticabili da un punto di vista organizzativo e più rispondenti alle esigenze di precisione e qualità. Riguardo ai possibili effetti sulla produzione del dato si è osservato che: - le stime comportano un errore che, espresso in termini percentuali, diminuisce al crescere della frequenza assoluta della variabile (singola o di incrocio) cui fa riferimento; - errori più grandi sono prevedibili per le frequenze assolute più piccole; a tale riguardo si stanno sperimentando metodi di stima alternativi (Borrelli et al., 2008) per aumentare la precisione e quindi l’affidabilità. Il lavoro svolto è stato quindi quello di valutare il possibile impatto dei livelli di efficienza campionaria per la stima delle frequenze assolute delle tabelle statistiche che vengono prodotte in

2 Attualmente la proposta di rilevazione campionaria tramite long form riguarda sicuramente i comuni sopra i 20.000 abitanti; si sta valutando la possibilità di estendere questa strategia anche ai comuni tra 5.000 e 20.000 abitanti. 3 A tal riguardo, per i comuni sopra i 20.000 abitanti, si intende produrre stime relative al livello di massimo dettaglio territoriale coincidente con le aree di censimento (Astorri et al., 2007), particolari domini sub-comunali dati da aggregazioni di sezioni di censimento di tipo “centro” con il vincolo della contiguità. 4 Alcuni risultati sono esposti nel paragrafo 5 .

5

occasione della diffusione dei risultati censuari. A tal riguardo nel prossimo paragrafo si è cercato di fare una prima analisi delle esigenze informative connesse ad alcune ipotesi di piano di diffusione.

4 ESIGENZE INFORMATIVE PER UN POSSIBILE PIANO DI DIFFUSIONE

4.1 Regolamento e Raccomandazioni internazionali

A differenza dei censimenti del 2001, per i quali i Paesi Membri avevano sottoscritto un Gentlemen’s Agreement, la Commissione Europea (Eurostat) ha deciso, per la tornata censuaria del 2010-2011, di procedere con la redazione di un Framework Regulation e di un Implementing Regulation. Il primo rappresenta un “regolamento quadro” che costituisce la base legislativa e che contiene tutti gli statements fondamentali per l’effettuazione delle prossime rilevazioni censuarie; il secondo, ancora in corso di definizione, include specifiche tecniche concernenti variabili, classificazioni e incroci oltre che metodologie per la valutazione della qualità dei dati e dei metadati prodotti. Il Regolamento, nato dall’esigenza di assicurare maggiore qualità e comparabilità dei dati diffusi nei diversi Paesi, è contraddistinto dallo stesso approccio volto a garantire l’uniformità dell’output delle rilevazioni censuarie, indipendentemente dalle tecniche e dai metodi utilizzati, che caratterizza le nuove Raccomandazioni UNECE (UNECE, 2006; Ferruzza et al., 2007). Le “CES Recommendations for the 2010 Censuses of Population and Housing”, preparate dall’UNECE (United Nations Economic Commission for Europe) in collaborazione con Eurostat (Statistical Office of European Communities), sono state formalmente adottate a giugno 2006, in occasione della Conferenza degli Statistici Europei. La proposta di legislazione, coerentemente con quanto delineato nelle Raccomandazioni, segue un approccio orientato all’armonizzazione dell’output, piuttosto che ai metodi e alle tecniche di rilevazione. Nel contesto del Regolamento, ciò implica una sostanziale libertà nella scelta del metodo considerato più appropriato tra quelli menzionati nel Regolamento stesso, purché gli Stati Membri garantiscano il raggiungimento degli standard di qualità dei dati richiesti. Negli ultimi anni diversi paesi hanno adottato metodi di conduzione dei censimenti alternativi a quello convenzionale (basato sulla rilevazione sul campo, esaustiva e periodica), orientandosi verso lo sfruttamento dei dati amministrativi a fini statistici e verso l’utilizzo di tecniche campionarie per la rilevazione sul campo, al fine di produrre dati con frequenza più elevata di quella consentita da un censimento convenzionale. L’approccio “output oriented” che caratterizza le nuove Raccomandazioni UNECE impone l’analisi di tutte quelle metodologie alternative al censimento tradizionale che inducono a riflettere sull’eventualità di prevedere l’utilizzo di tecniche campionarie o di archivi amministrativi a supporto delle rilevazioni censuarie del 2010-2011. Il ruolo e l’utilizzo dei censimenti, infatti, si sono evoluti nel tempo per adattarsi ai cambiamenti che investono le società, per rispondere alle

6

nuove esigenze di utilizzatori e rispondenti e per incrementare l’efficienza delle rilevazioni censuarie a beneficio dell’intero sistema statistico (Abbatini et al., 2007). Il Framework Regulation pone le basi per la definizione di un programma unico di diffusione dei dati censuari a livello europeo, dettagliando in particolare le variabili (topics) che dovranno essere oggetto di diffusione nella futura tornata censuaria5. Il Regolamento specifica, inoltre, quali di questi topics sono obbligatori fino al livello di dettaglio geografico LAU2 (comunale per l’Italia) e quali solo fino al livello NUTS2 (regionale). I topics esplicitati nel Regolamento sono quelli identificati come core nell’ambito delle CES Recommendations for the 2010 Censuses of Population and Housing; riguardano caratteristiche demografiche, sociali ed economiche delle persone, ma anche aspetti legati alle famiglie, ai nuclei familiari ed alle unità abitative. Analogamente al passato (UNECE, 1998), un’ampia parte delle Raccomandazioni internazionali è, infatti, dedicata ai contenuti informativi, cioè alla definizione degli argomenti e delle variabili da rilevare e alle relative classificazioni. Accanto ai core topics (da inserire nel piano di rilevazione e/o diffusione obbligatoriamente) nelle Raccomandazioni sono inoltre presentati i non-core topics, ovvero variabili opzionali: ad ogni singolo Stato viene, dunque, lasciata la libertà di inserire queste variabili sulla base delle necessità e delle esigenze informative proprie del Paese. Alcuni topics sono definiti “derived”, corrispondono cioè a variabili che non sono di rilevazione, ma “derivano” dalla combinazione di alcune variabili presenti nel questionario.

4.2 Piano di Diffusione Italiano del 2001

I piani di diffusione dei censimenti generali del 2000-2001 sono stati caratterizzati dal rilascio dei dati on line. La scelta strategica di fornire la più ampia offerta informativa di dati censuari via internet è in linea con la politica generale fatta propria dall’Istituto Nazionale di Statistica orientata a incrementare e sviluppare le banche dati e i sistemi informativi attivi sul sito istituzionale dell’Istat attraverso i quali rilasciare all’utenza, in modo tempestivo e diretto, una parte sempre più consistente dei dati statistici prodotti (Berntsen et al., 2008). Per la prima volta in occasione del 14° Censimento generale della popolazione e delle abitazioni i dati definitivi, oltre che attraverso i tradizionali fascicoli su base territoriale (nazione, regioni, province e grandi comuni)6, sono stati diffusi anche tramite un datawarehouse, una banca dati accessibile via internet sia dal sito dell’Istat (www.istat.it) sia da quello dedicato ai censimenti (http://censimenti.istat.it). Il sistema informativo realizzato permette all’utente di navigare tra le tavole senza percorsi di consultazione predefiniti, nel rispetto dei vincoli di coerenza e significatività espressi dai dati, individuando autonomamente tutte le informazioni necessarie per i diversi livelli territoriali e con l’opportunità di trasferirle direttamente sul proprio computer. È presente anche un sistema di cartografia interattiva che consente di visualizzare cartogrammi tematici per alcune delle tavole accessibili e di effettuare operazioni sulle carte (ingrandimenti, 5 L’allegato del Census Regulation contiene i “Topics to be covered in the Population and Housing census”. 6 Disponibili anche on line in formato acrobat.

7

spostamenti, ricerche, associazione di informazioni, eccetera). E’ possibile, inoltre, consultare i report (comunicati stampa, note per la stampa, eccetera) relativi ai vari rilasci effettuati nel corso degli anni e alcune basi di dati. La diffusione dei report, della cartografia e dei dati on line, che peraltro ha preceduto quella su supporto cartaceo, ha permesso, in linea con le strategie adottate in altri Paesi, di pubblicare i risultati definitivi “a moduli per aree tematiche”, ovvero in date diverse in funzione delle variabili considerate per tutti i livelli territoriali, dal nazionale fino al dettaglio comunale. Un altro strumento di diffusione delle informazioni censuarie del 2001 ha riguardato i dati destinati a soddisfare particolari esigenze dell’utenza. Richieste di informazioni non diffuse tramite web e non presenti nei volumi pubblicati, né sui supporti informatici ad essi allegati, sono state, in molti casi, evase tramite elaborazioni personalizzate a cura dell’Istituto. Come in occasione delle tornate censuarie precedenti sono stati predisposti, inoltre, due tipologie di file per sezione di censimento, uno a 279 variabili riservato agli Enti facenti parte del Sistema statistico nazionale (Sistan) e uno a 205 variabili destinato a tutte le categorie di utenti. Sono stati altresì resi disponibili “file di record individuali”, ovvero file di microdati che possono essere rilasciati agli Enti appartenenti al Sistan, previa autorizzazione del Presidente dell’Istituto, e un “file standard” contenente una collezione campionaria, all’1%, di dati elementari fruibili per fini di studio e di ricerca. Con riferimento agli spostamenti pendolari che costituiscono una delle tematiche più importanti oggetto delle rilevazioni censuarie (Berntsen et al., 2008), è stata costruita una matrice “8.101 x 8.101”, che, a livello comunale, fornisce informazioni dettagliate sulla mobilità giornaliera per motivi di studio o di lavoro. Per quanto riguarda le pubblicazioni cartacee, oltre ai fascicoli su base territoriale e a due volumi nazionali contenenti uno i risultati definitivi relativi alle variabili demografiche ed uno inerente le abitazioni e le variabili socio-economiche, sono stati realizzati un volume tematico sulla popolazione straniera residente in Italia al 21 ottobre 2001, un volume concernente il sistema di rilevazione e il processo di produzione dei dati ed uno contenente tutta la documentazione predisposta per il 14° censimento generale della popolazione e delle abitazioni, dagli atti a carattere normativo ai questionari e ai modelli ausiliari perfezionati per le indagini pilota, la rilevazione censuaria e l’indagine di copertura. In linea con quella che è una delle caratteristiche fondamentali di un censimento, ovvero la possibilità di fornire informazioni ad un elevato livello di dettaglio territoriale, nei fascicoli dei Grandi Comuni, le tavole forniscono, oltre ai principali dati a livello comunale, anche indicazioni e rappresentazioni cartografiche per quartiere, circoscrizioni e zone urbane. La diffusione di dati aggregati per unità territoriali molto fini permette di soddisfare una particolare domanda di informazione qualificata connessa alla dinamica delle principali città italiane.

8

4.3 Piano di Diffusione Europeo per il 2011

L’obiettivo prioritario è quello di garantire la coerenza nel contenuto dei topics, sia riguardo agli aspetti definitori che a quelli classificatori, al fine di rendere possibili le comparazioni tra gli Stati Membri dell’Unione Europea. In questo contesto la “Task Force on the implementation of population and housing censuses in the EU” collabora con Eurostat al fine di definire un insieme di classificazioni (breakdowns) da utilizzare negli output censuari (hypercubes) allo scopo di omogeneizzare la diffusione di dati. Eurostat ha avviato lo sviluppo di un programma di tavole per i censimenti del 2011 nei Paesi dell’Unione Europea nel rispetto della disponibilità e delle classificazioni delle variabili contenute nelle Raccomandazioni UNECE 2010. Dovrà essere definito un piano di incroci quanto più possibile comparabile a livello europeo, orientato alle esigenze degli utenti e compatibile anche con il programma di diffusione delle Nazioni Unite (ONU, 2008). Data la complessità dei compiti assegnati, Eurostat, supportato dalla Task Force, ha deciso di focalizzare l’attenzione solo sulle variabili obbligatorie (core topics), le uniche riportate nell’allegato al Framework Regulation e lasciando su base volontaria la predisposizione di tavole aventi per oggetto i non-core topics in relazione ai quali gli istituti nazionali di statistica non sono soggetti ad alcun vincolo di fornitura ad Eurostat. Naturalmente, il livello di dettaglio classificatorio e territoriale proposto potrebbe comportare problemi connessi alla riservatezza dei dati e, nei casi in cui il Censimento tradizionale è affiancato o sostituito da indagini campionarie, problemi di significatività statistica. Nella predisposizione del piano degli incroci, si è partiti dagli ipercubi di base detti anche ipercubi di produzione. Dato che tali ipercubi sono risultati troppo grandi per essere tecnicamente maneggiati, sono stati ridotti generando una serie di ipercubi più piccoli detti ipercubi di diffusione. La riduzione è stata ottenuta riducendo il numero di incroci tra variabili o usando delle classificazioni ridotte per la stessa variabile. Il numero di celle (relative a incroci tra modalità di diverse variabili), infatti, deve essere limitato anche in considerazione del fatto che potrebbero comparire celle con un numero molto ridotto di osservazioni con possibili ripercussioni sulla riservatezza e sulla significatività statistica. Dal momento che il piano di diffusione predisposto da Eurostat prevede incroci a diversi livelli territoriali, sono state predisposte due matrici: la prima individua tutti gli ipercubi che dovranno essere resi disponibili fino al livello territoriale LAU2 (comune), la seconda illustra quelli da predisporre fino al livello NUTS2 (regione). Nel primo caso, nessun cubo contiene più di 2.020 celle; nel secondo, nessun cubo supera le 50.000 celle e circa la metà dei cubi ora ha meno di 10.000 celle. Complessivamente, ad oggi, gli ipercubi sono: Ipercubi comunali (LAU2 e NUTS3) Produzione: 5 (+3), Diffusione: 20 (+3) Ipercubi regionali (NUTS2, NUTS1 e nazionale) Produzione: 13 (+6), Diffusione: 80 (+6)7. Gli Stati Membri hanno l’obbligo di trasmettere in formato elettronico ad Eurostat i dati definitivi aggregati validati e i relativi metadati entro ventisette mesi dalla fine dell’anno di riferimento

7 Il numero riportato in parentesi si riferisce agli ipercubi che sono contemporaneamente di produzione e di diffusione.

9

(marzo 2014 per la prima tornata censuaria sotto Regolamento). In particolare gli ipercubi di diffusione devono essere forniti fully completed entro la data sopra indicata. In diversi casi possono sussistere sostanziali differenze (concettuali, di impostazione e di classificazione) tra ciò che viene richiesto ad oggi dal Regolamento e da Eurostat per il piano di diffusione e ciò che verrà diffuso in Italia, anche per garantire il confronto con il passato, e nel rispetto della tradizione censuaria italiana. Non sempre ciò che sarà prodotto per Eurostat coinciderà con quello che sarà diffuso in Italia.

5 RIFLESSI DELLA STRATEGIA CAMPIONARIA SULL’ACCURATEZZA DELL’INFORMAZIONE CENSUARIA

5.1 Valutazioni sperimentali per la scelta della strategia campionaria

Per valutare l’accuratezza delle stime inerenti le frequenze relative e assolute per le modalità delle variabili di long form singole o di incrocio (con le modalità delle variabili demografiche), sono state condotte specifiche sperimentazioni sui dati del Censimento della popolazione del 2001 (Borrelli et al., 2007; Carbonetti e De Vitiis, 2007; Carbonetti e Fortini, 2008). A riguardo (Tabella 1) sono state coinvolte circa il 10% delle famiglie appartenenti a quasi 500 aree di censimento relative a 40 comuni scelti in diverse zone del territorio italiano e con diversa ampiezza demografica. Tabella 1 Ambito della sperimentazione: numero di unità coinvolte.

Unità campionate Universo %

Aree di censimento 497 3.347(*) 14,85%

Sezioni di censimento 30.890 382.534 8,08%

Famiglie 2.243.511 21.810.676 10,29%

Individui 5.537.582 56.594.021 9,78%

(*) Numero stimato I risultati sperimentali mettono in evidenza quale strategia più efficiente quella che prevede l’adozione di un campionamento casuale semplice di famiglie da lista (in seguito verrà indicato CCSFAM) e l’uso di stimatori calibrati (Deville e Särndal, 1992) che garantiscono una migliore rappresentatività del campione di famiglie.

10

5.2 Accuratezza delle stime riferite a domini interamente sottoposti a campionamento

Nella Tabella 2 sono presentati gli errori percentuali attesi per la stima di Totali (frequenze assolute) riferiti a domini interamente sottoposti a campionamento e determinati in seguito ad alcune sperimentazioni che hanno preso in considerazione il disegno CCSFAM e differenti frazioni sondate (10%, 20% e 33%). In base all’errore percentuale8 si può determinare l’intervallo di confidenza che conterrà il valore incognito da stimare con un grado di fiducia del 95% . Tabella 2 Distribuzione degli errori percentuali relativi, per classi di frequenze assolute T e per 3

differenti frazioni sondate, nel caso di disegno casuale semplice di famiglie.

Frazione sondata = 10% Frazione sondata = 20% Frazione sondata = 33% Classi di T errore % medio (+/-) errore % medio (+/-) errore % medio (+/-)

< 10 280,9 198,7 130,3 10├ 30 148,8 94,8 66,3 30├ 50 101,5 62,4 45,9 50├ 100 75,7 43,7 34,2 100├ 250 49,7 30,8 22,3 250├ 500 31,5 20,4 14,7 500├ 1.000 23,2 14,7 10,3 1.000├ 2.500 14,7 9,3 6,6 2.500├ 5.000 9,5 5,9 4,0 5.000├ 10.000 6,3 3,9 2,6 10.000├ 25.000 4,0 2,8 1,7 25.000├ 50.000 2,4 1,5 1,1 50.000├ 100.000 1,6 1,1 0,8 100.000├ 250.000 1,1 0,6 0,5 250.000├ 500.000 0,8 0,3 0,3 ≥ 500.000 0,3 0,2 0,2

Si tiene a precisare che questi risultati fanno riferimento a stime relative ad aree di censimento (con popolazione compresa tra 5.000 e 15.000) o a domini composti dall’aggregazione di aree di censimento tutte sottoposte a campionamento. A riguardo, per le valutazioni dell’efficienza di stime per aree di censimento bisogna riferirsi solo alle classi di valori di T non superiori a 10.000; mentre i valori di T superiori a 10.000 sono più specifici dei domini relativi ad aggregazioni di aree. 8 Tramite il valore dell’errore percentuale err si calcola la quantità 100errT

T!=" che rappresenta l’errore assoluto

massimo a cui è mediamente esposta la stima della generica frequenza assoluta T. In base alla teoria dei campioni, infatti, sotto valide ipotesi di normalità, il vero valore di T oggetto di stima sarà compreso tra )!(

TT !" e )!(

TT !+ con

una probabilità pari a 0,95 . Quindi, in base all’errore assoluto T

! si definisce l’intervallo di confidenza )}T!();T!{( TT !+!" che conterrà il vero valore di T con probabilità pari a 0,95 .

Esempio: per la stima di T=600, nel caso di campionamento con frazione sondata pari al 33%, in base al relativo valore medio di err%=10,3% si calcola l’errore assoluto 621003,10600 !"=#

T . Quindi, il 95% dei campioni (estratti

secondo un disegno CCSFAM con frazione sondata del 33%) produrrà una stima che sarà compresa tra 538 e 662 .

11

Grafico 1 Curve empiriche degli errori percentuali attesi per classi di frequenze assolute T e per 3 differenti frazioni sondate.

0

50

100

150

200

250

< 10

10 -

30

30 -

50

50 - 1

00

100

- 25

0

250

- 50

0

500

- 1.

000

1.00

0 - 2

.500

2.50

0 - 5

.000

5.00

0 - 10

.000

10.0

00 - 2

5.00

0

25.0

00 - 5

0.00

0

50.0

00 - 1

00.0

00

100.

000

- 25

0.00

0

250.

000

- 50

0.00

0

> 500

.000

frazione sondata = 10%

frazione sondata = 20%

frazione sondata = 33% Classi di T

Errore%_atteso

Il Grafico 1 sopra esposto descrive l’andamento della curva dell’errore percentuale relativo atteso per la stima di frequenze assolute (i totali T delle celle delle tabelle statistiche). Tali curve sono il risultato di sintesi delle simulazioni per le stime di frequenze assolute ottenibili nel caso di adozione di un disegno di campionamento casuale semplice di famiglie da lista e per le 3 differenti frazioni di campionamento sperimentate (10%, 20% e 33%); l’andamento delle curve, basate solo su riscontro empirico, mostra per tutte un andamento monotono decrescente. Si osserva che nel caso delle frazione sondata del 33% si ottengono errori relativi più bassi rispetto a quelli ottenuti con una frazione sondata del 20% o del 10%; questo risultato era prevedibile data la maggior disponibilità di unità campionate nel caso di frazione sondata più ampia. Un interessante risultato da porre in evidenza (che è facilmente ricavabile dai valori contenuti nella Tabella 2) è che raddoppiando la dimensione del campione, passando dalla frazione sondata del 10% al 20%, si ottiene una riduzione dell’errore relativo nell’ordine del 33-38%; incrementando invece il campione di più di tre volte, passando dalla frazione del 10% alla frazione del 33%, si ottiene un guadagno nell’ordine del 53-58%. Queste ultime indicazioni potranno essere utili nella scelta della frazione di campionamento, la quale dovrà essere individuata come soluzione di opportunità tra costo statistico e costo finanziario.

12

5.3 Accuratezza delle stime riferite a domini parzialmente sottoposti a campionamento

Nelle situazioni realistiche il dominio di diffusione del dato (per esempio la generica provincia o la generica regione) non è interamente sottoposto a campionamento, ma solo su una parte di esso si procede con il questionario long form secondo la prefissata strategia campionaria. In tali casi il dato da diffondere sarà costituito da una componente stimata e da una componente “certa” (perché osservata esaustivamente); il dato finale sarà dunque il risultato di una stima ma con un errore campionario ridotto. In generale, per le stime relative a contesti territoriali R superiori all’area di censimento di centro (comune, provincia, regione, …) si osserva una riduzione dell’errore relativo in misura del fatto che una parte del territorio non è sottoposta a campionamento (ma si procede con la rilevazione esaustiva) perché include anche aree non campionabili (le aree sotto i 5mila abitanti e quelle di pertinenza delle zone extra-urbane e periferiche) e/o perché (nel caso di realtà territoriali sovra-comunali) include comuni sotto i 5.000 abitanti che non sono interessate dalla strategia campionaria tramite long form. Nell’ipotesi quindi che il territorio R sia costituito in parte dalla presenza di aree campionabili (RC , in cui il questionario long form viene somministrato solo ad un campione di famiglie), e in parte da aree non campionabili (RNC , in cui il questionario long form viene somministrato a tutte le famiglie in modo esaustivo) (

NCCRRR != ), indicando con il parametro γ la quota di popolazione di R

soggetta a campionamento per la rilevazione con long form ( RR PopPop!C

= ), la stima della

frequenza assoluta T su R sarà data dalla combinazione lineare della quantità stimata CT! su

CR e

da quella osservata in modo esaustivo NCT su

NCR :

NCCR !)T(1T"!T" !+= (5.1)

da cui si ha il seguente risultato9 (coerente con la metodologia e supportato da riscontro empirico) )T!err(")T!err( dR !" (5.2)

con una riduzione percentuale “attesa” dell’errore percentuale relativo alla stima teorica sul generico dominio pari a:

( ) 100!1rid% !"# (5.3) .

Quindi, l’errore percentuale relativo della stima della frequenza assoluta T sulla regione R ha una

riduzione in ragione del parametro γ rispetto al medesimo errore di stima relativo allo stesso valore

assoluto di T riferito però ad un dominio dato da una o più aree campionabili Td . Il parametro γ assume un significato rilevante, anche per quanto verrà esposto in seguito, in quanto esso esprime il “grado di coinvolgimento” della popolazione del territorio preso in considerazione nella strategia campionaria proposta per il censimento. Infatti, il parametro γ assume valori nell’intervallo [0;1] e, in particolare, vale 1 nel caso in cui il territorio coincide con un dominio costituito esclusivamente da aree di censimento di centro campionabili (campionamento tramite 9 Per le stime a livello di territorio R i relativi livelli di efficienza (err) sono determinati a partire da quelli calcolati tramite le simulazioni e relativi a livello di area di censimento (o di dominio interamente campionato).

13

long form in tutto il territorio), vale 0 nel caso opposto in cui in nessuna parte del territorio è coinvolta dalla strategia campionaria (rilevazione esaustiva tramite long form in tutto il territorio). Nella Tabella 3 sono state classificate le regioni, le province e i comuni con più di 20.000 abitanti (sicuramente interessati dalla strategia campionaria) per classi di valori del parametro γ . Per quanto riguarda le regioni si registrano i valori più bassi di γ per Valle d’Aosta, Molise, Trentino A. Adige, mentre la regione Puglia mostra il valore più alto. Le province, invece, tendono a distribuirsi abbastanza uniformemente tra le varie classi di γ , ed in particolare, quelle per le quali il parametro risulta superiore a 0,9 sono Milano, Trieste, Roma, Napoli, Bari, Taranto, Brindisi, Catania, Prato. Tra i comuni sopra i 100.000 abitanti si nota una tendenza verso valori di γ molto elevati; i valori più piccoli, tra 0,5 e 0,7 , competono ai comuni di Ravenna e Latina (comuni tra 100.000 e 250.000 abitanti), tra 0,8 e 0,9 per Verona e Venezia (comuni sopra i 250.000 abitanti). Tabella 3 Classificazione delle Regioni, delle Province e dei Comuni italiani con più di 20.000

abitanti10 (raggruppati in 3 classi demografiche) per classi di valori di γ.

Comuni Classi di γ Regioni Province

20.000 ├ 100.000 100.000 ├ 250.000 ≥ 250.000

< 0,5 3 19 23 0 0

0,5 ├ 0,6 0 15 17 1 0

0,6 ├ 0,7 7 14 23 1 0

0,7 ├ 0,8 4 21 52 4 0

0,8 ├ 0,9 5 25 88 7 2

≥ 0,9 1 9 228 16 11

Totale 20 103 431 29 13

5.4 Insiemi di stime per livelli di accuratezza e per soglie critiche

In questo ambito il lavoro è stato quello di fissare un “errore soglia” (un errore critico, il cui livello andrà opportunamente fissato) sopra il quale la stima potrebbe avere un livello di qualità critico non soddisfacente (intervallo di confidenza troppo ampio) perchè potrebbe lasciare elevati margini di indecisione, e valutare la dimensione dell’insieme delle frequenze assolute la cui stima comporta un errore superiore a tale soglia. Quindi, una volta definita la strategia campionaria (disegno; stimatore; frazione sondata) e il dominio di riferimento (importante per la presenza del parametro γ ) per la produzione delle stime (area di censimento, comune, provincia, regione, …) fissato un livello di errore percentuale soglia (err%_soglia) è possibile derivare, sulla corrispondente curva degli errori (la cui posizione dipende anche dal valore di γ ), la soglia critica TS tale che per tutte le frequenze assolute inferiori l’errore 10 I comuni sotto i 20.000 abitanti non sono stati considerati in quanto: per i comuni tra 5.000 e 20.000 si sta studiando l’opportunità di sottoporre a campionamento l’intero comune (γ=1), mentre i comuni sotto i 5.000 abitanti saranno comunque esclusi dalla strategia campionaria (γ=0).

14

atteso sarà non inferiore all’errore soglia. Viceversa, per tutte le frequenze assolute da stimare superiori a TS la stima prodotta avrà un errore percentuale inferiore all’errore critico. Questo tipo di analisi è descritta nel Grafico 2, in cui la curva degli errori percentuali fa riferimento ad una strategia campionaria che prende in considerazione una frazione di campionamento generica, e il caso di stime di frequenze assolute riferite ad un generico dominio territoriale (valore di γ non stabilito a priori). Grafico 2 Esempio di individuazione della soglia critica di T per un prefissato livello di errore

percentuale (soglia) su una ipotetica curva degli errori percentuali attesi.

Frequenza assoluta T

Errore%_atteso

Err%_soglia

Insieme dei valori di T la cui stima

comporta un err% superiore alla soglia

Insieme dei valori di T la cui stima

comporta un err% inferiore alla soglia

Livelli di errore elevati

Frequenze assolute T

stimate con qualit_ critica

Ts

È importante precisare che al diminuire del valore del parametro γ , cioè al crescere della quota di popolazione non coinvolta dalla strategia campionaria, la curva degli errori si “schiaccia” verso il basso; tale “schiacciamento” si registra anche al crescere della frazione sondata. Di conseguenza, in corrispondenza dello stesso livello soglia di errore critico diminuisce il valore della soglia TS e si riduce l’insieme delle frequenze assolute T la cui stima comporta un errore percentuale superiore a quello prefissato. Il passo successivo dell’analisi sarà affrontato nel successivo paragrafo in cui si proverà a valutare la qualità complessiva di una tavola/ipercubo che presenta molte frequenze assolute (relative alle celle delle modalità di incrocio delle variabili) inferiori al valore soglia TS . Questo tipo di

15

considerazioni dovranno necessariamente prendere in considerazione diversi dettagli informativi (dati dalle variali di incrocio) e diversi livelli territoriali per i quali i dati di censimento vengono diffusi.

6 ANALISI DEGLI IPERCUBI DI DIFFUSIONE

6.1 Premessa

In base a quanto messo in evidenza nel precedente paragrafo, l’adozione della strategia campionaria tramite long form al prossimo censimento delle popolazione espone al rischio di non poter evitare, per incroci troppo fini, stime con livelli di qualità critici. Questo rischio è tanto più alto quanto più esigua è la frazione sondata presa in considerazione dal disegno di campionamento e quanto maggiore è il coinvolgimento della popolazione del dominio nella strategia (valore di γ vicino ad 1). Del resto, i dati che dovranno essere prodotti per Eurostat sono tali che al diminuire del dettaglio territoriale aumenta l’insieme di incroci richiesti, con inevitabili e possibili conseguenze sulla precisione delle stime. L’interrogativo di base in questo paragrafo è stato il seguente: fissata la strategia campionaria, come è possibile valutare la qualità complessiva di una tavola statistica (ipercubo) relativa ad un dato livello territoriale e ad un prefissato dettaglio informativo? Una risposta in tal senso è data dall’introduzione di 3 indicatori di qualità complessiva di una tavola statistica, che permettono di fare valutazioni oggettive sull’accuratezza globale per una prefissata tavola di diffusione. Tali indicatori sono: 1) soglia critica TS sotto la quale la frequenza assoluta T è stimabile con un errore superiore ad un dato livello di errore critico; 2) percentuale di celle non vuote la cui frequenza assoluta è inferiore a TS; 3) percentuale di individui appartenenti a celle la cui frequenza assoluta è inferiore a TS. A questo è seguita un’analisi per valutare, tramite i suddetti indicatori, la qualità complessiva per alcune tabelle (dati del Censimento del 2001) aventi diverso dettaglio informativo e relative a differenti livelli territoriali.

6.2 Ambito di analisi: tavole sulla condizione professionale e sul settore di attività economica

Dal momento che non è stato ancora possibile approntare un piano di diffusione italiano per il censimento 2011, l’analisi effettuata in questo lavoro si basa sugli ipercubi proposti da Eurostat (Tabella 4) da rendere disponibili entro il 31 marzo 201411.

11 Cfr. paragrafo 4.3 sul Regolamento.

16

Tabella 4 Distribuzione degli ipercubi Eurostat per numero di variabili di incrocio.

Numero di

variabili incrociate

Frequenza degli ipercubi

2 5 3 1 4 25 5 47 6 14 9 3

10 1 12 2 13 1

Totale 99

La scelta dell’ambito di analisi è stata orientata verso ipercubi le cui classificazioni potessero essere ben rappresentate dai dati disponibili dall’ultima rilevazione censuaria, nel tentativo di “simulare” la produzione di alcuni degli ipercubi presenti12 nel piano di diffusione Eurostat. Si tratta, inoltre, di incroci “complessi”, ovvero caratterizzati da un numero elevato di celle che ben si prestano a studi connessi all’affidabilità delle stime campionarie. Sono state, quindi, individuate due tavole tra quelle previste dall’Unione Europea a livello NUTS2 (regionale) e ciascuna di esse è stata elaborata per tre regioni. I due ipercubi13 selezionati contengono variabili di tipo economico incrociate con variabili demografiche. In particolare, il primo ha come focus la “condizione professionale”, l’altro il “settore di attività economica”, entrambe caratterizzate da una forte disaggregazione ovvero da un elevato dettaglio classificatorio. Il primo ipercubo fa riferimento (enumeration base) alla popolazione di 15 anni e più e prevede come variabili di incrocio il sesso, l’età in classi (21 classi), lo stato civile (5 modalità), la cittadinanza (4 modalità) e la condizione professionale (8 modalità). Il secondo ipercubo riguarda la popolazione occupata di 15 anni e più ed ha come variabili di incrocio il sesso, le classi d’età (21 classi), la cittadinanza (4 modalità), la posizione nella professione (6 modalità) ed il settore di attività economica (20 modalità). La scelta del livello territoriale regionale è stata dettata dal fatto che le tavole proposte da Eurostat a questo livello geografico prevedono un maggior numero di variabili di incrocio ed anche classificazioni più dettagliate (per la presenza di un maggior numero di modalità). Le 3 regioni scelte sono di diversa ampiezza demografica (il dato di popolazione si riferisce al Censimento 2001) e appartengono a contesti territoriali differenti (Nord, Centro, Sud): Val d’Aosta (119.548 abitanti) - Marche (1.470.581 abitanti) - Sicilia (4.968.991 abitanti).

12 In alcuni casi le classificazioni previste per il 2010-2011 non sarebbero state facilmente o immediatamente ricostruibili sulla base dei dati diffusi con il censimento 2001. 13 Gli ipercubi scelti per le analisi descritte in questo lavoro sono stati: H.B1.E1.R1 (relativo a dati sulla condizione professionale) e H.B1.E1.R13 (relativo a dati sul settore di attività economica), che dovrebbero contenere rispettivamente circa 9.000 e 26.000 celle.

17

6.3 Analisi preliminari

Prima di passare all’analisi specifica delle regioni prese in esame, occorre introdurre la Tabella 5 che descrive in termini generali la relazione tra la frazione sondata, il valore del parametro γ e le soglie critiche TS relative all’errore percentuale soglia prescelto (pari al 25%). Tabella 5 Classificazione dei valori del parametro γ (espresso in termini percentuali) per valori

della soglia critica TS corrispondenti ad un errore percentuale soglia pari al 25%, riferiti al disegno CCSFAM per 3 diverse frazioni sondate.

Soglie critiche TS relative all'errore%_soglia=25% Frazione sondata

Nessuna soglia T 10 30 50 100 250 500

f.s. = 10% < 8,9 8,9 ├ 16,8 16,8 ├ 24,6 24,6 ├ 33,0 33,0 ├ 50,3 50,3 ├ 79,4 ≥ 79,4

f.s. = 20% < 12,6 12,6 ├ 26,4 26,4 ├ 40,1 40,1 ├ 57,2 57,2 ├ 81,1 ≥ 81,1

f.s. = 33% < 19,2 19,2 ├ 37,7 37,7 ├ 54,5 54,5 ├ 73,1 ≥ 73,1

Le celle descrivono le classi di γ (in valori percentuali) corrispondenti alle soglie di totali (in testata) per ciascuna frazione sondata (in fiancata). Pertanto, in corrispondenza di un certo valore di γ è possibile, in base ad una certa frazione sondata, individuare la soglia critica di T (con soglia dell’errore pari al 25%). Per esempio, se per un dominio di diffusione (regione, provincia, comune) si registra un valore γ pari a 0,67 (67%), il valore della soglia critica TS, per la frazione sondata del 10%, è pari a 250. Per quel valore di γ in corrispondenza di quella frazione sondata, le stime per modalità di incrocio corrispondenti a celle contenenti una frequenza assoluta minore di 250 potrebbero essere affette (con elevata probabilità) da un errore percentuale superiore alla soglia fissata ex-ante al 25% . In corrispondenza dello stesso valore di γ , per una frazione sondata del 20%, la soglia critica TS scende a 100; arriva a 50 nel caso di frazione sondata pari al 33% (per effetto dello “schiacciamento” della curva degli errori al crescere della frazione sondata, come descritto nel paragrafo 5.4) . Per valori molto bassi di γ , non c’è una soglia critica TS e quindi tutte le frequenze assolute T sono stimabili con un margine di errore inferiore al valore fissato (25%).

18

6.4 Analisi a livello regionale per diversi livelli di dettaglio informativo

Si passa ora alla descrizione in dettaglio dei valori degli indicatori ottenuti dalle tre regioni oggetto di analisi, in riferimento alle Tavole su “condizione professionale” e “settore di attività economica”. Tabella 6 Distribuzione del numero di incroci (assoluto e percentuale) per classi di frequenze

assolute T della Tavola della “condizione professionale” (al massimo dettaglio informativo). Regioni Valle d’Aosta, Marche, Sicilia (Censimento 2001).

Valle d'Aosta Marche Sicilia

Classi di T Numero totale di "incroci"

Percentuale di "incroci"

Numero totale di "incroci"

Percentuale di "incroci"

Numero totale di "incroci"

Percentuale di "incroci"

< 10 727 63,16 973 50,39 982 43,72 10├ 30 143 12,42 280 14,50 328 14,60 30├ 50 71 6,17 117 6,06 110 4,90 50├ 100 73 6,34 135 6,99 152 6,77 100├ 250 60 5,21 117 6,06 184 8,19 250├ 500 23 2,00 74 3,83 105 4,67 500├ 1.000 23 2,00 75 3,88 78 3,47 1.000├ 2.500 26 2,26 78 4,04 83 3,70 2.500├ 5.000 5 0,43 25 1,29 70 3,12 5.000├ 10.000 - - 16 0,83 56 2,49 10.000├ 25.000 - - 29 1,50 58 2,58 25.000├ 50.000 - - 12 0,62 19 0,85 50.000├ 100.000 - - - - 16 0,71 100.000├ 250.000 - - - - 5 0,22 250.000├ 500.000 - - - - - - ≥ 500.000 - - - - - -

Totale 1151 100,00 1931 100,00 2246 100,00

La Tabella 6, valida in generale, punta l’attenzione sulle classi di frequenze assolute corrispondenti a tutti i possibili incroci della Tavola analizzata (condizione professionale). La regione Valle d’Aosta, nel 63,16% degli incroci, presenta celle con frequenza assoluta inferiore a 10; tali quote si riducono significativamente nelle altre due regioni (50,39% per le Marche e 43,72% per la Sicilia) presumibilmente a causa della differente dimensione demografica. Nella Tabella 7, derivata dalla precedente, si sintetizzano i valori di soglia critici per ciascuna delle tre frazioni sondate e per ciascuna regione, fornendo anche la corrispondente percentuale sia di celle che di individui relative a frequenze assolute inferiori a TS. Ciò che emerge dallo studio della tabella è il differente valore γ che determina soglie critiche TS notevolmente differenti tra loro. Infatti, nel caso di una strategia che prevede la frazione sondata del 10%, se per la regione Valle d’Aosta l’81,75% di celle (7,09% di individui) si raggiunge per T=50, per la regione Sicilia la percentuale di celle 82,86% (2,22% di individui) si raggiunge per T=500. Aumentando la frazione sondata si riduce la soglia critica TS e con essa entrambe le percentuali associate.

19

Tabella 7 Indicatori di qualità complessiva (per un errore percentuale soglia pari al 25%) della Tavola della “condizione professionale” (al massimo dettaglio informativo). Regioni Valle d’Aosta, Marche, Sicilia (Censimento 2001).

Valle d'Aosta (γ=0,27) Marche (γ=0,67) Sicilia (γ=0,86)

Frazione sondata Soglia critica Ts

% di celle % di individui

Soglia critica Ts

% di celle % di individui

Soglia critica Ts

% di celle % di individui

f.s. = 10% 50 81,75 7,09 250 84,00 3,20 500 82,86 2,22

f.s. = 20% 30 75,59 4,49 100 77,94 1,71 250 78,18 1,31

f.s. = 33% 10 63,16 2,06 50 70,95 0,97 100 69,99 0,59

Pur in presenza di alte percentuali di celle relative a frequenze assolute inferiori alla soglia TS, queste coinvolgono percentuali molto basse di individui classificati nell’intera tavola. Ciò testimonia il fatto che la minore qualità delle stime è relativa a poche unità molto sparse nella tavola e comunque riferite a caratteristiche fortemente mutevoli nel tempo. Le due tabelle che seguono descrivono i risultati corrispondenti all’analisi della Tavola relativa al “settore di attività economica”. Tabella 8 Distribuzione del numero di incroci (assoluto e percentuale) per classi di frequenze

assolute T della Tavola del “settore di attività economica” (al massimo dettaglio informativo). Regioni Valle d’Aosta, Marche, Sicilia (Censimento 2001).

Valle d'Aosta Marche Sicilia

Classi di T Numero totale di "incroci"

Percentuale di "incroci"

Numero totale di "incroci"

Percentuale di "incroci"

Numero totale di "incroci"

Percentuale di "incroci"

< 10 1461 71,44 2342 55,03 2254 51,41 10├ 30 240 11,74 651 15,30 679 15,49 30├ 50 101 4,94 275 6,46 280 6,39 50├ 100 109 5,33 302 7,10 329 7,50 100├ 250 83 4,06 239 5,62 296 6,75 250├ 500 38 1,86 169 3,97 139 3,17 500├ 1.000 13 0,64 107 2,51 142 3,24 1.000├ 2.500 - - 125 2,94 119 2,71 2.500├ 5.000 - - 38 0,89 75 1,71 5.000├ 10.000 - - 8 0,19 58 1,32 10.000├ 25.000 - - - - 13 0,30 25.000├ 50.000 - - - - - - 50.000├ 100.000 - - - - - - 100.000├ 250.000 - - - - - - 250.000├ 500.000 - - - - - - ≥ 500.000 - - - - - -

Totale 2045 100,00 4256 100,00 4384 100,00

20

A differenza dei risultati ottenuti per la Tavola sulla “Condizione professionale”, in questo caso, naturalmente in corrispondenza degli stessi valori di γ e TS è più elevata la percentuale di celle ma soprattutto la quota di individui in esse contenuta. Tabella 9 Indicatori di qualità complessiva (per un errore percentuale soglia pari al 25%) della

Tavola del “settore di attività economica” (al massimo dettaglio informativo). Regioni Valle d’Aosta, Marche, Sicilia (Censimento 2001).

Valle d'Aosta (γ=0,27) Marche (γ=0,67) Sicilia (γ=0,86)

Frazione sondata Soglia critica Ts

% di celle % di individui

Soglia critica Ts

% di celle % di individui

Soglia critica Ts

% di celle % di individui

f.s. = 10% 50 88,12 22,22 250 89,50 14,47 500 90,72 11,49

f.s. = 20% 30 83,18 15,20 100 83,88 8,21 250 87,55 7,69

f.s. = 33% 10 71,44 7,40 50 76,79 4,83 100 80,79 4,08

Solo per la regione Sicilia, si è analizzato l’effetto sulla percentuale di individui in celle con frequenze assolute inferiori ai prefissati valori di soglia critici TS e con frequenze assolute nelle classi indicate, della riduzione del numero di variabili di incroci implicate (livelli di dettaglio informativo decrescenti). Nella Tabella 10 si presentano i risultati relativi alla Tavola sulla “condizione professionale”. Tabella 10 Percentuale di individui in celle con frequenza assoluta inferiori alle soglie critiche

(per un errore percentuale soglia pari al 25%) della Tavola della “condizione professionale” (per diversi dettagli informativi). Regione Sicilia (Censimento 2001).

% individui in celle con

T<Ts % individui in celle con T

nelle classi indicate

f.s. = 10% f.s. = 20% f.s. = 33%

Livelli di dettaglio informativo: variabili di incrocio

Ts = 500 Ts = 250 Ts = 100 <10 10├30 30├50

Ipercubo completo (massimo dettaglio): sesso X età X stato civile X cittadinanza X condizione professionale

2,217 1,313 0,587 0,075 0,137 0,101

Scenario 1 (no_cittadinanza): sesso X età X stato civile X condizione professionale 1,639 0,849 0,309 0,024 0,052 0,057

Scenario 2 (no_stato civile): sesso X età X cittadinanza X condizione professionale 0,749 0,483 0,188 0,013 0,047 0,047

Scenario 3 (no_cittadinanza; no_stato civile) – (minimo dettaglio): sesso X età X condizione professionale

0,256 0,130 0,038 0,001 0,009 0,009

21

Dall’ipercubo completo si passa a scenari in cui vengono eliminati la variabile cittadinanza (Scenario 1), la variabile stato civile (Scenario 2) o entrambe (Scenario 3): per tutti i valori di T considerati, si riduce la quota di individui contenuta nelle celle critiche. Si osserva che, indipendentemente dalla strategia (f.s.), al diminuire del dettaglio informativo dovuto alla riduzione delle variabili di incrocio, aumenta la qualità complessiva delle tavole misurata tramite la percentuale di individui in celle con frequenza assoluta sotto la soglia. In particolare, nel caso di f.s. = 10% , si passa dal 2,217% per l’ipercubo completo all’1,639% senza l’incrocio con la variabile “cittadinanza” fino allo 0,256% nel caso di minimo dettaglio. Livelli di qualità complessiva migliori si evidenziano per le frazioni sondate più grandi. La Tabella 11 presenta, sempre per la regione Sicilia, i risultati relativi alla Tavola sul “settore di attività economica”. Anche in questo caso, dall’ipercubo completo si passa a scenari in cui vengono eliminati la variabile cittadinanza (Scenario 1), la variabile posizione nella professione (Scenario 2) o entrambe (Scenario 3): il risultato mostra forti analogie con quello della precedente analisi. Tabella 11 Percentuale di individui in celle con frequenza assoluta inferiori alle soglie critiche

(per un errore percentuale soglia pari al 25%) della Tavola del “settore di attività economica” (per diversi dettagli informativi). Regione Sicilia (Censimento 2001).

% individui in celle con

T<Ts % individui in celle con T

nelle classi indicate

f.s. = 10% f.s. = 20% f.s. = 33%

Livelli di dettaglio informativo: variabili di incrocio

Ts = 500 Ts = 250 Ts = 100 <10 10├30 30├50

Ipercubo completo (massimo dettaglio): sesso X età X cittadinanza X settore di attività economica X posizione nella professione

11,486 7,690 4,085 0,517 0,927 0,817

Scenario 1 (no_cittadinanza): sesso X età X settore di attività economica X posizione nella professione

10,298 6,743 3,274 0,255 0,703 0,679

Scenario 2 (no_posizione nella professione): sesso X età X cittadinanza X settore di attività economica

3,347 1,951 1,158 0,150 0,271 0,256

Scenario 3 (no_cittadinanza; no_posizione nella professione) – ( minimo dettaglio): sesso X età X settore di attività economica

1,940 1,036 0,495 0,034 0,077 0,110

6.5 Analisi a livello comunale

Le tabelle che seguono mostrano i risultati di una successiva analisi condotta a livello comunale sulle stesse Tavole esaminate nel contesto dell’analisi regionale, ma con riferimento ad un minore dettaglio informativo (proprio del dettaglio territoriale comunale). A riguardo sono stati presi in esame 5 comuni (Patti, Favara, Trapani, Siracusa, Catania) della regione Sicilia.

22

La Tabella 12 contiene i valori soglia TS per ciascuna frazione sondata (relativo all’errore percentuale massimo del 25%) corrispondenti al parametro γ specifico per ogni comune. Si osserva che i valori Ts, per una stessa frazione sondata, sono identici per i vari comuni, ciò è dovuto ai valori di γ molto elevati (sono tutti superiori all’85%), e com’era stato evidenziato nella Tabella 5, per valori di γ così alti non è possibile accettare valori di T inferiori a 500, 250 o 100 a seconda che la frazione sondata sia del 10%, 20% o 33%. Tabella 12 Soglie critiche corrispondenti al livello di errore percentuale soglia pari al 25%,

relative a differenti frazioni sondate per 5 comuni della Sicilia (Censimento 2001).

Err%_soglia=25% Comuni Popolazione Valore del

parametro γ Ts (f.s. = 10%) Ts (f.s. = 20%) Ts (f.s. = 33%)

Patti 13.108 1,0000 500 250 100 Favara 31.098 0,9855 500 250 100 Trapani 68.346 0,8556 500 250 100 Siracusa 123.657 0,8576 500 250 100 Catania 313.110 0,9955 500 250 100

Le Tabelle 13 e 14 presentano i risultati delle analisi relative rispettivamente alle Tavole sulla “condizione professionale” (incrocio delle variabili sesso X condizione professionale ad 8 modalità) e sul “settore di attività economica” (incrocio delle variabili sesso X settore di attività economica a 17 modalità). Sono descritte le percentuali di individui corrispondenti a celle con valori di T inferiori al valore soglia Ts (per un errore percentuale massimo del 25%). Tali percentuali di individui sono differenti tra i vari comuni, nonostante presentino la stessa soglia critica Ts in corrispondenza della medesima frazione sondata. Per la frazione sondata del 10% i comuni presentano un valore di Ts pari a 500 e si passa ad esempio (Tabella 13) da una percentuale di individui del 9,02% per il comune di Patti ad una pari allo 0,12% per Catania, differenza dovuta al diverso preso demografico di ciascun comune. Anche i dati della Tabella 14 portano ad analoghe considerazioni, qui il comune di Patti presenta un dato veramente eclatante, per una frazione sondata del 10% il 100% di individui si trova in celle con valore di T inferiore al valore soglia di 500 contro una percentuale del 20% circa di Trapani e dell’8% di Siracusa. Questi valori si riducono notevolmente nel caso di un disegno campionario con frazione sondata del 33%: per il comune di Patti si scende al 17,9% mentre per il comune di Trapani a poco più dell’1% .

23

Tabella 13 Percentuale di individui in celle con frequenze assolute inferiori alla soglia critica (per un errore percentuale soglia pari al 25%) relative a differenti frazioni sondate per 5 comuni della Sicilia. Tavola della “condizione professionale” (Censimento 2001).

% individui in celle con frequenza assoluta T<Ts

Frazione sondata Soglia critica Ts Patti (13.108)

Favara (31.098)

Trapani (68.346)

Siracusa (123.657)

Catania (313.110)

f.s. = 10% 500 9,02 3,74 0,45 0,53 0,12 f.s. = 20% 250 6,69 0,75 0,45 0,09 0,00 f.s. = 33% 100 1,34 0,13 0,08 0,09 0,00

Tabella 14 Percentuale di individui in celle con frequenze assolute inferiori alla soglia critica (per

un errore percentuale soglia pari al 25%) relative a differenti frazioni sondate per 5 comuni della Sicilia. Tavola del “settore di attività economica” (Censimento 2001).

% individui in celle con frequenza assoluta T<Ts

Frazione sondata Soglia critica Ts Patti (13.108)

Favara (31.098)

Trapani (68.346)

Siracusa (123.657)

Catania (313.110)

f.s. = 10% 500 100,00 38,63 19,78 8,06 1,39 f.s. = 20% 250 50,18 30,34 6,20 2,45 0,54 f.s. = 33% 100 17,90 9,56 1,08 0,27 0,29

7 CONSIDERAZIONI DI SINTESI

Il lavoro presentato rientra nel filone di studi avviato da qualche tempo dalla Direzione Centrale dei Censimenti Generali dell’Istituto in vista del censimento della popolazione ormai prossimo. Propedeutica alla rilevazione del 2011, l’indagine pilota prevista per il 2009 permetterà di testare la nuova rilevazione, sia in termini di contenuti, sia in termini di organizzazione e di innovazioni possibili. Si è posta la necessità di adeguare la rilevazione censuaria alle nuove tecnologie e alle tecniche di rilevazione tradizionalmente non censuarie, che sono state ultimamente adottate in altri Paesi. Tali tecniche, in particolare quelle che combinano censimenti tradizionali e indagini per campione, hanno mostrato di essere funzionali all’alleggerimento dell’intera macchina censuaria ma anche, e soprattutto, alla riduzione del carico sui rispondenti pur rilevando sempre un numero consistente di informazioni. In quest’ottica si inserisce la strategia innovativa oggetto di questo studio basata sulla proposta di somministrare, nei comuni sopra i 5mila abitanti, un questionario long form, contenente tutte le variabili, solo ad un campione di famiglie e un questionario in forma ridotta (short form) contenente solo le principali variabili demografiche (sesso, età, cittadinanza, stato civile, …) a tutte le famiglie non campionate. Nei comuni più piccoli, invece, l’indicazione è quella di sottoporre il

24

questionario in versione long form esaustivamente a tutte le famiglie secondo un approccio di censimento tradizionale. Questo lavoro ha rappresentato un primo esercizio per valutarne l’impatto sulla futura rilevazione, sulla produzione delle informazioni censuarie e sul livello di qualità delle stesse. I risultati saranno utili anche a prendere decisioni in merito alla strategia finale dal momento che, ad oggi, nessuna soluzione è stata adottata. L’obiettivo è anche quello di rassicurare gli utenti, ai fini dei processi attinenti la conoscenza e le decisioni, che con una valida strategia campionaria si possono raggiungere risultati almeno equivalenti a quelli provenienti da una rilevazione totale. L’offerta informativa censuaria ottenibile con il disegno generale proposto non dovrebbe risultare di molto inferiore a quella effettiva del 14° Censimento generale della popolazione (relativo al 2001). Soltanto in merito alla fornitura, su richiesta specifica dell’utente, di dati per sezioni di censimento riferiti alle variabili socio-economiche (nei comuni con almeno 20.000 abitanti) sarà necessario ridurre il dettaglio territoriale passando dalle sezioni alle aree di censimento. Inoltre, nel caso dell’adozione di tassi di campionamento poco elevati si potrebbe verificare l’impossibilità di pubblicare dati per incroci troppo fini, a meno di proporre stimatori non standard e più efficienti di quelli tradizionali. In conclusione si desidera sottolineare che l’applicazione del disegno generale proposto porterebbe, da un lato, ad una diminuzione del carico di lavoro, in termini organizzativi, cui sarebbero sottoposti i comuni di maggiori dimensioni qualora il censimento fosse effettuato secondo modalità tradizionali, dall’altro, ad una maggiore complessità organizzativa, tecnica e gestionale per l’Istat, nonché ad un rilevante sforzo per lo sviluppo di metodologie innovative a fini censuari.

8 ATTIVITA’ FUTURE

I risultati descritti in questo lavoro sono solo una parte di quelli ottenuti seguendo il percorso di analisi mostrato nel paragrafo 5. Sono state fatte valutazioni anche per tavole statistiche riferite al livello provinciale, ma i risultati, non difformi da quelli relativi alle analisi a livello regionale, non sono stati oggetto di questo documento. Sono attualmente in corso analisi a livello sub-comunale per aree di censimento di centro; in particolare, definito un insieme di variabili relative a modalità (singole o di incrocio) oggetto di stima campionaria, si intende valutare, anche in tal caso, la percentuale di celle stimabili con un livello di qualità soddisfacente. I risultati di questo studio sono di fondamentale importanza in quanto hanno implicazioni sia sulla scelta della metodologia sia sulla messa a punto dello strumento di rilevazione. Appare evidente che se i risultati definitivi non fossero ritenuti soddisfacenti si potrebbero adottare soluzioni alternative secondo le seguenti direzioni:

i. ampliamento della frazione sondata ii. introduzione di tecniche di stima alternative

iii. differente predisposizione del contenuto informativo dei questionari short e long form.

25

È chiaro che la possibilità di avere una maggiore disponibilità di informazioni campionarie favorisce una riduzione dell’errore di campionamento. Ma tale soluzione non sembra percorribile in quanto rimarrebbero insoluti i problemi di efficienza specialmente per la stima di frequenze assolute piccole, riferite a piccoli domini territoriali o a particolari sottopopolazioni aventi caratteristiche “rare”. Alcune soluzioni potrebbero essere suggerite dall’impiego di metodi di stima per piccole aree che, sotto opportune ipotesi di validità e praticabilità dei modelli sottostanti, porterebbero a miglioramenti dell’accuratezza delle stime. A tale scopo sono state avviate alcune valutazioni sia di carattere metodologico che sperimentale (Borrelli et al., 2008) i cui primi risultati incoraggiano verso il proseguimento degli studi su questo versante. Un ultimo aspetto suggerito potrebbe coinvolgere gran parte dell’impianto strategico relativo alla progettazione del prossimo censimento della popolazione. Infatti, avrebbe risvolti positivi un disegno del questionario di rilevazione short form caratterizzato, oltre che dalle variabili strettamente demografiche, anche da poche informazioni di carattere socio-economico (ad un minimo livello di classificazione) rimandando una maggiore ricchezza informativa al questionario long form. Questo tipo di approccio potrebbe essere visto con favore per due diversi motivi: possibilità di disporre di informazioni socio-economiche anche a livello di sezione di

censimento, seppur con un minimo livello di dettaglio informativo; la determinazione di stime con elevati livelli di accuratezza non richiederebbe una elevata

frazione di campionamento per il fatto che si avrebbe una maggiore tipologia di informazione ausiliaria (rilevata esaustivamente sulla popolazione) utilizzabile sia per l’impiego di metodi di stima diretti che per piccole aree.

In futuro molti sforzi, quindi, potrebbero essere concentrati verso soluzioni relative da un lato alla possibilità di passare da una short ad una medium form e dall’altro alla scelta del complesso di metodologie atte a garantire la produzione di stime con più elevati livelli di accuratezza.

26

ABSTRACT There are many reasons to introduce innovations in the organization of the next Italian General Population Census. The objectives are to improve the efficiency of the survey operations and, in the meantime, to reduce the workload of the municipalities and the statistical burden for the people involved in the enumeration. One of the main proposals is related to the possibility to adopt a sampling strategy to collect only the information referred to the educational and economic characteristics and to commuting by a long form questionnaire. The demographic census variables will be observed on the whole of population, while all the other traditional data will be collected by means of a sample of households. One of the consequence of this approach is related to the accuracy of the sampling estimates for different territorial levels and for different informative details. After a description of the Eurostat dissemination programme and the potential dissemination design for the internal users, an exercise on a global evaluation of the quality of some dissemination tables has been conducted. The aim of this work is to study the impact of the sampling strategy which will be introduced in the next census of population, in relation to the production of reliable data for different contexts of analysis.

27

9 Bibliografia

Abbatini D., Cassata L., Martire F., Reale A., Ruocco G., Zindato D. (2007) La progettazione dei censimenti generali 2010-2011. Analisi comparativa di esperienze censuarie estere e valutazione di applicabilità di metodi e tecniche ai censimenti italiani, ISTAT, Dati e prodotti, Pubblicazioni scientifiche, Documenti n. 9 (http://www.istat.it/dati/pubbsci/documenti/Documenti/doc_2007/2007_9.pdf)

Astorri P., Bianchi G., Di Pede F., Esposito N., Patruno E., Reale A., Ronchi I., Talice S. (2007) Metodi di determinazione delle aree di censimento a livello sub comunale, Atti della XXVIII Conferenza Italiana di Scienze Regionali, Bolzano 26-28 Settembre 2007.

Berntsen E., De Angelis S., Mastroluca S. (2008) La progettazione dei censimenti generali 2010-2011. L’uso dei dati censuari del 2000-2001: alcune evidenze empiriche, ISTAT, Dati e prodotti, Pubblicazioni scientifiche, Documenti n. 2

(http://www.istat.it/dati/pubbsci/documenti/Documenti/doc_2008/2008_2.pdf) Borrelli F., Carbonetti G., De Felici L. (2007) Strategie campionarie per la stima di variabili di

censimento con long form, Atti della XXVIII Conferenza Italiana di Scienze Regionali, Bolzano 26-28 Settembre 2007.

Borrelli F., Carbonetti G., De Felici L., Solari F. (2008) Metodologie di stima per piccole aree applicabili a variabili di censimento rilevabili tramite questionario long form, Atti della XXIX Conferenza Italiana di Scienze Regionali, Bari 24-26 Settembre 2008.

Carbonetti G., De Vitiis C. (2007) Efficienza di stime campionarie relative ad un sottoinsieme di variabili di censimento, Conferenza Nazionale di Statistica: “Censimenti generali 2010-2011. Criticità e innovazioni”. CNR, Roma, Novembre 2007.

Carbonetti G., Fortini M. (2008) Sample results expected accuracy in the Italian population and housing census, Joint UNECE/Eurostat Meeting on Population and Housing Censuses. UN, Ginevra, Maggio 2008. ECE/CES/AC.6/2008/4

Cicchitelli G., Herzel A., Montanari G. E. (1992) Il campionamento statistico, Società editrice il Mulino, Bologna.

Cocchi D. (2007) Uso dei campioni nelle rilevazioni censuarie, Conferenza Nazionale di Statistica: “Censimenti generali 2010-2011. Criticità e innovazioni”. CNR, Roma, Novembre 2007.

Deville J.C., Särndal, C.E. (1992) Calibration Estimators in Survey Sampling, Journal of the American Statistical Association, vol. 87, pp. 367-382.

Ferruzza A., Mastroluca S., Zindato D. (2007) I censimenti esteri: modelli a confronto alla luce dei regolamenti internazionali, Conferenza Nazionale di Statistica: “Censimenti generali 2010-2011. Criticità e innovazioni”. CNR, Roma, Novembre 2007.

Fortini M., Gallo G., Paluzzi E., Reale A., Silvestrini A. (2007) La progettazione dei censimenti generali 2010-2011. 3 – Criticità di processo e di prodotto nel 14° Censimento generale della popolazione e delle abitazioni: aspetti rilevanti per la progettazione del 15° Censimento, ISTAT, Dati e prodotti, Pubblicazioni scientifiche, Documenti n. 10

28

(http://www.istat.it/dati/pubbsci/documenti/Documenti/doc_2007/2007_10.pdf) ONU (2008). United Nations, Statistics Division, Department of Economic and Social Affairs.

Principles and Recommendations for Population and Housing Censuses Revision 2. New York. Särndal C.E., Swensson B., Wretman J. (1992) Model Assisted Survey Sampling, Springer-Verlag,.

New-York. UNECE (2006). United Nations Economic Commission for Europe and Statistical Office of the

European Communities. Conference of European Statisticians. Recommendations for the 2010 Censuses of Population and Housing. ECE/CES/STAT/NONE/2006/4

UNECE (1998). United Nations Economic Commission for Europe and the Statistical Office of the European Communities. Recommendations for the 2000 Censuses of Population and Housing in the Ece Region. Statistical Standards and Studies No. 49. United Nations Publication.