34
L’interpolazione areale: una soluzione al problema del confronto fra dati riferiti a sistemi spaziali differenti Maria Michela Dickson, Giuseppe Espa, Diego Giuliani e Emanuele Taufer 1. Introduzione Accade di frequente, nelle analisi di dati riferiti al territorio, che le informazioni non siano disponibili nella forma richiesta dal fenomeno studiato. Un tipico esempio è il caso in cui il ricercatore sia interessato allo studio della distribuzione spaziale di una entità geografica ma possa disporre solo di dati aggregati in unità territoriali. In tutti questi casi, ed in molti altri ancora, il data-base territoriale osservato può essere considerato come un‟immagine distorta (o una trasformazione) di quello che può essere chiamato il processo geografico originale che rimane, al contrario, non osservabile (Arbia, 1989a). Può rivestire una certa utilità, a questo punto, introdurre il problema delle Trasformazioni di Dati Spaziali (TDS) distinguendo tra due diversi tipi di trasformazioni che possono presentarsi nelle applicazioni pratiche. Una prima classe di trasformazioni sono, infatti, indotte dal ricercatore allo scopo di applicare alcune procedure statistiche. È questo il caso, per fare un esempio, della riduzione di dati areali a dati puntuali (centroidi, centri mediani, etc.) allo scopo di interpolare trend spaziali. Un secondo esempio riguarda il caso in cui si dispone di informazioni riguardanti la localizzazione delle singole entità geografiche, ma si preferisce aggregare tali informazioni in unità areali allo scopo di studiarne la struttura di autocorrelazione spaziale. Un secondo tipo di trasformazioni, al contrario, hanno a che fare con la natura intrinseca dei fenomeni oggetto di studio nel senso che il vero processo geografico non è osservabile per deficienze degli strumenti di misura o per altre ragioni quali, ad esempio, i costi troppo elevati che possono derivare dalla conduzione di una indagine volta a produrre stime ad un livello spaziale molto fine. È noto che i dati territoriali possono presentarsi sotto quattro forme distinte ossia superfici continue, aree, linee e punti (per alcune rassegne sufficientemente esaustive si vedano, fra gli altri, Burrough, 1986; Goodchild, 1992; Arbia e Espa, 1996, Leonenko e Taufer, 2013). Ora, dato che, almeno in linea di principio, è possibile ogni trasformazione da una tipologia di dati ad un‟altra, si possono ordinare a scopo esemplificativo alcune TDS nello schema di Tab . 1. Tab. 1 - Un quadro generale di riferimento per le trasformazioni di dati spaziali Il processo originale si realizza in Ma si osserva/analizza invece in Esempi Punti Punti Campionamento da popolazioni di punti Punti Aree Quadrat count; tassellizzazione Punti Superficie Interpolazione Aree Punti Centroidi; centro mediano Aree Aree Campionamento areale; disaggregazione Flussi Aree Modelli gravitazionali (sintesi di matrici origine-destinazione) Flussi Flussi MAUP nell’analisi dei flussi Superfici Punti Campionamento di punti Superfici, Aree, Punti Linee Campionamento di linee (line-transect) Superfici Aree Immagini telerilevate

L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

L’interpolazione areale: una soluzione al problema del confronto fra dati riferiti a sistemi spaziali differenti

Maria Michela Dickson, Giuseppe Espa, Diego Giuliani e Emanuele Taufer

1. Introduzione

Accade di frequente, nelle analisi di dati riferiti al territorio, che le informazioni non siano

disponibili nella forma richiesta dal fenomeno studiato. Un tipico esempio è il caso in cui il

ricercatore sia interessato allo studio della distribuzione spaziale di una entità geografica ma possa

disporre solo di dati aggregati in unità territoriali.

In tutti questi casi, ed in molti altri ancora, il data-base territoriale osservato può essere

considerato come un‟immagine distorta (o una trasformazione) di quello che può essere chiamato il

processo geografico originale che rimane, al contrario, non osservabile (Arbia, 1989a).

Può rivestire una certa utilità, a questo punto, introdurre il problema delle Trasformazioni di

Dati Spaziali (TDS) distinguendo tra due diversi tipi di trasformazioni che possono presentarsi nelle

applicazioni pratiche. Una prima classe di trasformazioni sono, infatti, indotte dal ricercatore allo

scopo di applicare alcune procedure statistiche. È questo il caso, per fare un esempio, della

riduzione di dati areali a dati puntuali (centroidi, centri mediani, etc.) allo scopo di interpolare trend

spaziali. Un secondo esempio riguarda il caso in cui si dispone di informazioni riguardanti la

localizzazione delle singole entità geografiche, ma si preferisce aggregare tali informazioni in unità

areali allo scopo di studiarne la struttura di autocorrelazione spaziale.

Un secondo tipo di trasformazioni, al contrario, hanno a che fare con la natura intrinseca dei

fenomeni oggetto di studio nel senso che il vero processo geografico non è osservabile per

deficienze degli strumenti di misura o per altre ragioni quali, ad esempio, i costi troppo elevati che

possono derivare dalla conduzione di una indagine volta a produrre stime ad un livello spaziale

molto fine.

È noto che i dati territoriali possono presentarsi sotto quattro forme distinte ossia superfici

continue, aree, linee e punti (per alcune rassegne sufficientemente esaustive si vedano, fra gli altri,

Burrough, 1986; Goodchild, 1992; Arbia e Espa, 1996, Leonenko e Taufer, 2013). Ora, dato che,

almeno in linea di principio, è possibile ogni trasformazione da una tipologia di dati ad un‟altra, si

possono ordinare a scopo esemplificativo alcune TDS nello schema di Tab . 1.

Tab. 1 - Un quadro generale di riferimento per le trasformazioni di dati spaziali

Il processo originale si realizza in Ma si osserva/analizza invece in Esempi

Punti Punti Campionamento da popolazioni di punti

Punti Aree Quadrat count; tassellizzazione

Punti Superficie Interpolazione

Aree Punti Centroidi; centro mediano

Aree Aree Campionamento areale; disaggregazione

Flussi Aree Modelli gravitazionali (sintesi di matrici origine-destinazione)

Flussi Flussi MAUP nell’analisi dei flussi

Superfici Punti Campionamento di punti

Superfici, Aree, Punti Linee Campionamento di linee (line-transect)

Superfici Aree Immagini telerilevate

Page 2: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

In ciascuno dei casi considerati in Tab. 1 si parte da un insieme di dati generati da un certo

processo stocastico e si arriva, dopo aver operato la trasformazione, ad un secondo insieme di dati

generato da un processo stocastico differente.

Fatte queste doverose premesse, nel presente capitolo verranno discusse le seguenti tematiche:

i) l‟interpolazione di dati spaziali;

ii) l‟integrazione di dati spaziali (coesistenza di variabili di tipologie diverse e relativi

problemi di integrazione solitamente in vista di analisi multivariate).

Tali argomenti possono essere inquadrati nella cornice generale di riferimento delle

trasformazioni di dati territoriali. Al riguardo basti considerare il problema dell‟interpolazione il

quale comporta, con riferimento ad alcune metodologie proprie della geostatistica1 (cfr. paragrafo

4.), diverse trasformazioni topologiche (da area a punto, da punto a superficie ed, infine, da

superficie ad area) che investono il dato spaziale nei vari passaggi delle procedure. Anche le più

sofisticate metodologie area-based (cfr. paragrafo 5.) di interpolazione areale implicano TDS (da

area a superficie e da superficie ad area; da area ad area).

Pertanto, stabilito il quadro di riferimento generale, lo scopo del presente capitolo è quello di

enucleare le metodologie statistiche (dalle procedure classiche agli algoritmi più avanzati) più

idonee alla risoluzione dei problemi sintetizzati nei precedenti punti i) e ii).

La prima parte di questo capitolo (paragrafo 4.) sarà dedicata ai cosiddetti metodi che non

preservano il volume ed alla loro inadeguatezza per la soluzione del problema dell‟interpolazione

areale. I metodi che non preservano il volume si basano sostanzialmente su dei metodi di

interpolazione per dati puntuali (o metodi isametrici).

È doveroso precisare sin d‟ora che nel presente lavoro l‟analisi sarà ristretta a modelli per dati

areali (siano esse regolari o irregolari) mentre non si farà riferimento a dati puntuali né a modelli

per la descrizione di dati di flusso. Comunque, per completezza di trattazione, facciamo almeno un

cenno a come possa essere formalmente posto il problema dell‟interpolazione puntuale. Si consideri

al riguardo la Fig. 1.

Fig. 1 - Il problema dell’interpolazione puntuale.

1 In senso lato sarebbe più corretto parlare di analisi spaziale piuttosto che di geostatistica, intendendosi per analisi spaziale lo

studio quantitativo di fenomeni che si manifestano nello spazio. Ciò comporta un particolare interesse nella posizione, nell‟area, nella

distanza e nell‟interazione così come espresso nella prima legge della geografia formulata da Tobler (1970): tutto è correlato con

tutto ma le cose più vicine sono più correlate delle cose lontane. Allo scopo di precisare il concetto di vicino e di lontano in contesti

particolari, è necessario che le osservazioni del fenomeno di interesse abbiano un riferimento nello spazio in termini di punti, linee,

aree o superfici continue. Gli addetti ai lavori preferiscono in genere riferirsi alla disciplina in questione come all‟analisi di dati

spaziali proprio per evidenziare l‟esistenza di vari approcci alle diverse tipologie di dato che si possono incontrare nelle applicazioni

pratiche (Arbia, 1994). In tale ottica la geostatistica rappresenta soltanto una branca dell‟analisi spaziale.

Page 3: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

Nella immaginaria regione R riprodotta in Fig. 1 viene rilevata una certa variabile, diciamo Z,

in un insieme di segmenti irregolari (di dimensione variabile, ma comunque piccola rispetto all‟area

considerata), disseminati a caso, o secondo qualunque altro criterio, nel territorio. Tali segmenti, in

quanto di dimensione trascurabile rispetto all‟area di studio, possono essere considerati assimilati a

punti in uno spazio a due dimensioni.

Sia Z(x,y) il dato relativo alla variabile di interesse nel punto di coordinate cartesiane (x,y). Si

consideri ora la medesima regione R partizionata secondo una griglia regolare di celle quadrate o

rettangolari di dimensione stabilita. Si chiami ijZ la stima della variabile oggetto di indagine nella

cella individuata dalla coppia di coordinate (i,j). Il problema dell‟interpolazione si pone, in termini

formali, come il problema dell‟individuazione della trasformazione che consente il passaggio

( )ijZyxZ ˆ→, rispettando alcune condizioni individuate come ottimali.

Nella seconda parte della capitolo (sezione 5.) verranno passate in rassegna le più recenti

tecniche statistiche (i cosiddetti metodi che preservano il volume) impostesi in ambito operativo

quali strumenti indispensabili per la risoluzione dei complessi problemi di cui ai precedenti punto i)

e ii), problemi che d‟ora in poi verranno raccolti sotto la dizione generale di confronto fra dati

riferiti a sistemi areali differenti o anche, in modo più sintetico, di conversione di dati spaziali.

Circa l‟utilizzo nelle applicazioni pratiche delle metodologie considerate, ne metteremo in luce

le principali potenzialità applicative senza tacerne limiti e problematiche aperte che talvolta ne

inficiano l‟uso.

2. L’interpolazione spaziale: aspetti definitori Il problema dell‟interpolazione spaziale può essere formulato sinteticamente nei seguenti

termini. Assegnato un insieme di dati spaziali (punti o aree) si tratta di individuare la funzione che

meglio rappresenti l‟intera superficie e che sia in grado di prevedere nel modo migliore possibile i

valori della variabile di interesse in altri punti od aree per i quali non siano disponibili osservazioni.

In ambito geografico quantitativo e cartografico le principali applicazioni dei metodi di

interpolazione spaziale riguardano la costruzione di mappe ad isolinee (mappe isaritmiche) e di

mappe isoplete. Lo sviluppo delle tecnologie informatiche e l‟uso sempre più diffuso delle analisi

statistiche multivariate di dati raccolti in diverse unità territoriali hanno però posto all‟attenzione

degli studiosi una nuova serie di problemi che possono essere raccolti sotto l‟alveo del confronto fra

dati riferiti a sistemi areali differenti. Tale problema, noto anche in letteratura con il nome di

conversione di dati, si sostanzia appunto in una trasformazione di dati da un sistema areale sorgente

(S) ad un sistema obiettivo (T). Riveste quindi una notevole importanza esaminare la natura e le

caratteristiche principali dei vari metodi di interpolazione spaziale proposti nella letteratura

specialistica allo scopo di individuare gli strumenti più idonei alla soluzione dei problemi che si

presentano nelle applicazioni pratiche.

Un‟analisi sistematica delle principali tecniche di interpolazione non può prescindere da una

classificazione delle stesse. I metodi di interpolazione spaziale possono essere innanzitutto

classificati in base alla tipologia di dato coinvolta in: i) metodi di interpolazione puntuale, dove i

dati sono raccolti in singole località del territorio (punti) e ii) metodi di interpolazione areale, in cui

il dato aggregato è riferito ad un‟intera area della partizione territoriale oggetto di studio (cfr. Fig.

2).

Inoltre, i metodi di interpolazione per dati puntuali (o metodi isometrici) vengono ulteriormente

suddivisi in esatti ed approssimati a seconda se siano in grado o meno di preservare il valore

originale rilevato nei punti campioni. Al contrario, i metodi di interpolazione areale (o metodi

isopleti) vengono classificati in accordo alla loro capacità di preservare o meno il volume (il valore

totale) all‟interno di ogni area della partizione S (cfr. Fig. 2).

Page 4: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

Metodi di ponderazione

basati sulle distanze

Interpolanti polinomiali

Kriging

Interpolanti spline

Metodi alle differenze

finite

Metodi esatti

Modelli di serie di

Fourier

Minimi quadrati

ponderati con le

distanze

Minimi quadrati

adattati con splines

Modelli di trend di

serie di potenze

Metodi approssimati

Interpolazione puntuale

Metodi point-based

(vedi metodi esatti

o approssimati)

Metodi che non

preservano il volume

Overlay

Ponderazione areale

Smooth pycnophylactic

EM

BIM

Metodi area-based

Metodi che preservano

il volume

Interpolazione areale

Interpolazione Spaziale

Fig. 2 – Una classificazione delle tecniche di interpolazione spaziale.

La trattazione che segue, come già anticipato, è articolata in modo da seguire fedelmente il

ramo destro dello schema di classificazione riportato nella Fig. 2. Pertanto, dopo un paragrafo di

carattere introduttivo dedicato ad una trattazione molto generale del problema della conversione dei

dati areali (paragrafo 3.), la sezione 4. conterrà una digressione sulle procedure di interpolazione

areale che non preservano il volume e che si rifanno in parte ai metodi di interpolazione per punti.

Nel paragrafo 5., invece, che costituisce il cuore del capitolo, si esamineranno in modo diffuso i

metodi di interpolazione areale approfondendo la trattazione dei metodi area-based. Ci teniamo a

precisare che in questo lavoro non affrontiamo il tema dei parallelismi metodologico/operativi tra il

problema della disaggregazione dei dati e quello, anch‟esso molto attuale, della stima, nelle indagini

campionarie, di variabili per domini non previsti dall‟indagine stessa (stima per piccole aree o per

piccoli domini).

La scelta di privilegiare i metodi di interpolazione areale che preservano il volume è dettata da

una duplice constatazione. In primo luogo tale classe di metodi si sta sempre più imponendo

all‟attenzione degli addetti ai lavori come strumento idoneo alla soluzione di problemi operativi

quali la disaggregazione, l‟integrazione di dati e la stima per piccole aree (Benedetti e Espa, 1997;

Espa et al., 2000). In secondo luogo, le rassegne dei metodi di interpolazione spaziale presenti in

letteratura (Lam, 1983; Ripley, 1981, cap. 4; Cressie, 1993, cap.3; Venables e Ripley, 1994, pag.

383–392) spesso non includono discussioni approfondite sui metodi di interpolazione areale.

3. Metodi di interpolazione areale Un problema che s‟incontra molto di frequente negli studi regionali è che le unità areali per le

quali sono disponibili i dati2 non sono necessariamente quelle al cui livello di risoluzione si vuole

condurre l‟analisi. Tale problema si presenta, ad esempio, quando

i) si vogliano confrontare due o più variabili disponibili per due sistemi areali differenti

ed incompatibili;

ii) si vogliano integrare archivi dati raccolti da enti diversi;

iii) si vogliano eseguire dei confronti intertemporali tra dati attribuiti ad aree i cui confini

sono soggetti a cambiamenti nel tempo come accade, ad esempio, per i collegi elettorali

(problema dell‟instabilità temporale dei confini e conseguenti difficoltà nelle analisi

longitudinali); al riguardo, merita di essere menzionata l‟esperienza inglese dei census

Enumeration Districts (EDs) del 1981 i quali erano profondamente differenti ed incompatibili

da quelli disegnati dal governo per il 1966 ed il 1971.

2 Nel presente lavoro si assume implicitamente che la variabile di interesse sia quantitativa e non qualitativa. Per quest‟ultima

tipologia di dato la questione è a tutt‟oggi ancora aperta. Alcuni utili spunti possono comunque essere trovati in Switzer (1975).

Page 5: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

Questo problema di conversione cross-areale è reso pressante dall‟ampio numero di sistemi

areali comunemente in uso. Al riguardo preme sottolineare come gli organismi, istituzionali o

privati, che forniscono dati abbiano, in genere, la tendenza a riferire ognuno al proprio sistema

areale le informazioni territoriali prodotte. Ciò si verifica evidentemente per enti distinti ma anche

per differenti dipartimenti afferenti alla stessa istituzione.

Ulteriori complicazioni sorgono inoltre per quanto riguarda i sistemi di zonizzazione e di

georiferimento adottati in diverese discipline. Basti pensare, ad esempio, alle differenti definizioni

usate nell‟ambito delle scienze socio-economiche, cartografiche, del telerilevamento ed ambientali.

Ancora, si pensi alle necessità informative indotte di recente dalle analisi di mercato le quali hanno

finito a volte per creare una pressante domanda di dati riferiti a sistemi spaziali generati in funzione

della sola efficienza di contatto con le unità statistiche da sottoporre ad indagine e pertanto

largamente incompatibili con qualsivoglia sistema zonale.

L‟unicità della maggior parte dei sistemi zonali e soprattutto l‟assenza di strutture innestate o

gerarchiche rende estremamente complicato procedere all‟integrazione di dati provenienti da fonti

diverse. Spesso ciò fa sì che i dati prodotti non possano che essere usati per gli scopi per i quali

l‟organismo che li fornisce li ha raccolti.

Per chi si occupa di Sistemi Geografici Informativi (GIS) il problema di stima cross-areale in

discussione è frequente e prende il nome di problema della sovrapposizione di poligoni. Goodchild

e Lam (1980) lo hanno ribattezzato interpolazione areale per mettere in risalto le analogie con altri

problemi che implicano, appunto, interpolazione.

L‟interpolazione areale si concretizza nel tentativo di stimare i valori di una variabile di

interesse Yi operando una conversione di dati noti ad un livello di risoluzione che non è quello

oggetto dell‟analisi3. Quando i sistemi areali sono innestati uno nell‟altro e si deve procedere alla

trasformazione dei dati da una partizione più fine ad una meno fine, si è in presenza del problema

dell‟aggregazione il quale è sostanzialmente un problema banale: l‟aggregazione dei data-set può

essere eseguita con l‟accuratezza che si desidera (Flowerdew e Openshaw, 1987). Il processo

inverso, quello della disaggregazione, si rende al contrario necessario nella circostanza in cui il

livello di risoluzione al quale sono disponibili i dati è inferiore rispetto a quello desiderato. Tale

processo richiede una procedura di stima ed è notevolmente più complicato. Allo stesso modo, il

meccanismo di conversione diviene complesso se i confini dei vari sistemi zonali sono

sufficientemente incompatibili da precludere il processo diretto di aggregazione.

In passato, per eseguire confronti tra variabili relative a sistemi areali incompatibili, è stata a

volte seguita la strada di aggregare le unità territoriali in aree che costituiscano un sistema zonale

comune alle due mappe a confronto. Un esempio su tutti: i confronti effettuati da Rhind (1983) tra i

dati dei censimenti inglesi del 1971 e del 1981.

Questo modo di procedere è molto discutibile e comporta dei problemi in parte insormontabili.

Per citare solo i più rilevanti:

i) il processo di aggregazioni successive non necessariamente produce unità areali

confrontabili;

ii) il processo di aggregazioni successive può generare unità areali molto differenti

quanto a dimensione imponendo il ricorso a sistemi di ponderazione per condurre analisi

sensate;

iii) la quasi totalità dei metodi statistici non mostra robustezza al variare del livello di

risoluzione indotto da aggregazioni successive (Arbia, 1989b; Benedetti e Palma, 1992; Arbia

et al., 1996 e 1999);

3

È necessario precisare fin d‟ora che nessuna metodologia d‟interpolazione areale può supplire al problema della insufficienza di

risoluzione della partizione sorgente. Inoltre ogni schema d‟interpolazione impone che vengano formulate delle ipotesi circa il

fenomeno oggetto di studio e non può essere applicato in maniera acritica.

Page 6: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

iv) per alcuni tipi di dati il proccesso di aggregazione è impossibile. È il caso dei dati

legati in modo funzionale alle aree in cui vengono rilevati. Si pensi, ad esempio, ai dati

elettorali: un generico collegio attribuito al centro-destra può avere un collegio adiacente

attribuito al centro-sinistra. In tale caso l‟aggregazione delle due aree non può essere etichettata

in quanto l‟area risultante non ha alcuna funzione nel sistema elettorale.

Tornando al meccanismo di conversione e adottando per convenienza la definizione di Ford

(1976), le aree geografiche per le quali sono disponibili i dati verranno chiamate, d‟ora in avanti,

zone sorgente mentre quelle per cui si rende necessario il processo di stima verranno indicate con il

nome di zone obiettivo.

Quindi, volendo definire in termini più tecnici gli elementi in gioco, i dati relativi alla variabile

di interesse Yi sono noti per un insieme di aree che costituiscono la partizione sorgente S ma

incogniti a livello delle zone che compongono la partizione obiettivo T, dove S e T coprono lo

stesso dominio geografico. L‟esempio riprodotto in Fig. 3 vuole rappresentare il caso più generale

possibile che si incontra nelle applicazioni pratiche: le zone che compongono l‟insieme T non sono

innestate gerarchicamente in quelle che originano la partizione S così come non coincidono i confini

tra le zone dei due sistemi spaziali. Tale questione, pur essendo storicamente una delle più dibattute

in ambito geografico-quantitativo, è riuscita solo raramente ad imporsi all‟attenzione degli studiosi

di metodologia statistica.

Come accennato nella sezione introduttiva al presente lavoro, nel passato le applicazioni delle

procedure di interpolazione areale erano confinate alla produzione di mappe isoplete (Mackay, 1951

e 1953). La trasformazione di dati da una partizione territoriale ad un‟altra costituiva pertanto un

caso particolare del problema cartografico generale e, quindi, una questione di secondaria

importanza. Successivamente, tale applicazione ha finito per prevalere in importanza ed è divenuta

l‟obiettivo principale nello studio dell‟interpolazione areale. In conseguenza di ciò nel prosieguo del

presente lavoro il termine interpolazione areale sarà da considerarsi unicamente nell‟accezione di

trasformazione dati.

S1S2

S3 S4

S5S6

S7 S8

T1

T2 T3

T4

Fig. 3 – Conversione di dati spaziali. Le aree della partizione sorgente sono delimitate da linee continue mentre quelle della partizione

obiettivo da linee tratteggiate.

Sebbene la tipologia di dato spaziale coinvolto sia completamente differente, lo studio

dell‟interpolazione areale è intimamente legato alle procedure di interpolazione puntuale. Infatti,

l‟approccio tradizionale all‟interpolazione areale richiede l‟uso di tecniche di interpolazione per

punti. Quindi i problemi associati con i modelli di interpolazione puntuale devono necessariamente

essere affrontati e compresi prima di avviare qual si voglia riflessione che riguardi l‟interpolazione

areale.

Page 7: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

Seguendo lo schema di Fig. 2, sono distinguibili due approcci distinti all‟interpolazione areale.

Il primo di essi, comprendente i cosiddetti metodi che non preservano il volume, si fonda sulle

tecniche di interpolazione puntuale. La seconda classe di tecniche, la quale considera il dato areale

vero e proprio come riferimento di base per i metodi di conversione, comprende invece i cosiddetti

metodi di interpolazione che preservano il volume.

4. Metodi che non preservano il volume

Per comprendere gli sviluppi fondamentali degli studi dedicati ai metodi di conversione di dati

areali (anche detti nella terminologia GIS resel data, dall‟espressione anglosassone resolution

elements) è necessario, come precisato poc‟anzi, risalire alle prime applicazioni pratiche, condotte

per lo più nel campo delle scienze fisiche, della statistica spaziale. L‟impossibilità di studiare

l‟andamento di numerosi fenomeni fisici in uno spazio continuo ha infatti imposto il passaggio

obbligato di procedere alla stima di superfici a partire dalla sola conoscenza di punti campionati

(cfr. Fig. 2: metodi point-based).

La pratica maturata nel campo delle scienze fisiche ha fatto si che la conversione di dati areali

fosse in principio mutuata dall‟interpolazione da punti a superfici.

In termini generali e data una certa partizione in aree, la procedura consiste inizialmente

nell‟individuare un punto significativo (anche detto punto di controllo) per ogni unità areale della

partizione d‟origine. Tale punto è solitamente il centroide sebbene non si abbiano garanzie che

quest‟ultimo cada all‟interno della regione che è scelto a rappresentare.

Successivamente si sovrappone al territorio considerato un grigliato regolare e si stimano i

valori corrispondenti ai nodi del reticolo mediante tecniche di interpolazione puntuale.

Infine, mediando i valori del grigliato rispetto alle aree della partizione più fine, si ottengono le

stime desiderate (cfr. Fig. 4).

Nell‟approccio descritto l‟unica variante tra le metodologie proposte in letteratura è costituita

dal modello di interpolazione puntuale utilizzato per assegnare le stime ai nodi del grigliato. Per una

rassegna di tali metodologie si vedano, fra gli altri, Ripley (1981, cap. 4) e Cressie (1993, cap. 3).

Ovviamente la scelta della dimensione delle caselle che compongono la griglia è quanto mai

critica, soprattutto in presenza di aree della partizione obiettivo di ridotte dimensioni (Arbia, 1989b;

Arbia et al., 1996). Inoltre vanno tenuti in debita considerazione gli effetti prodotti da tale scelta

sull‟accuratezza delle stime.

Punti Superficie

Aree Partizione S Aree Partizione T

?

Fig. 4 – Logica delle tecniche di interpolazione areale che non preservano il volume.

Il modo di procedere poc‟anzi delineato, sebbene apparentemente congruente, è stato oggetto di

numerose critiche. Il punto centrale di tali critiche riguarda le trasformazioni topologiche (da area a

punto, da punto a superficie ed infine da superficie ad area; cfr. Fig. 4) che investono il dato

spaziale nei vari passaggi della procedura. Per la sua particolare natura, infatti, il dato spaziale è

Page 8: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

fortemente dipendente dalle caratteristiche geometriche e strutturali dell‟oggetto cui è attribuito. Ne

consegue una grave perdita di accuratezza delle stime.

Inoltre, la scelta del punto di controllo per rappresentare le aree della partizione S può

introdurre nell‟analisi ulteriori distorsioni. Infatti, nella circostanza in cui la distribuzione del

fenomeno oggetto di indagine sia simmetrica e relativamente uniforme, il centroide dell‟area

costituirebbe una scelta senz‟altro ragionevole e conveniente per l‟insieme dei punti di controllo,

scelta che renderebbe realizzabile il processo di stima per i nodi che costituiscono il reticolo

regolare sovrapposto all‟area di studio. Purtroppo, però, nella realtà le aree della partizione sorgente

(regioni, province, sezioni di censimento, ecc.), per le quali i dati sono presentati in forma

aggregata, sono raramente simmetriche e la distribuzione della maggior parte dei fenomeni

all‟interno delle stesse non mostra quasi mai configurazioni riconducibili a paradigmi di regolarità.

Un altro aspetto che non può essere trascurato è che i metodi di interpolazione areale point-

based, proprio perché utilizzano modelli di interpolazione per punti, non possono evitare i problemi

connessi con l‟utilizzo degli stessi. Infatti, il processo di interpolazione puntuale implica delle

assunzioni a priori sulla superficie da adattare ai dati. L‟arbitrarietà insita in tali assunzioni

costituisce nel caso dell‟interpolazione areale un‟ulteriore elemento a sfavore proprio perché la

natura intrinseca dei fenomeni regionali è nella realtà così complessa che è praticamente

impossibile trasformare i dati in modo da poterli analizzare con strumenti semplici.

Paradossalmente l‟utilizzo diffuso delle procedure di interpolazione in ambito cartografico è

associato con una totale assenza di studi circa la realizzabilità delle specifiche tecniche utilizzate

(Jenks et al., 1969; Stearns, 1968).

Fra gli altri fattori che fanno dei metodi di interpolazione che non preservano il volume uno

strumento per lo meno discutibile preme ricordare il fatto che la distribuzione spaziale nonché la

densità dei punti campione possono compromettere seriamente la validità dei risultati

dell‟interpolazione. Nell‟applicare i metodi di interpolazione puntuale ai dati areali il problema è

ulteriormente complicato dalla circostanza che l‟accuratezza dei risultati dipende dalle fonti di

errore implicite nella procedura originale di aggregazione dei dati. La forma e la dimensione delle

aree delle partizioni S e T nonché la distribuzione dei valori della variabile oggetto di interpolazione

costituiscono gli elementi più forti a discapito della validità dei risultati prodotti.

Comunque il limite più rilevante dell‟approccio descritto risiede nel fatto che esso non è in

grado di conservare il valore totale all‟interno di ciascuna delle aree che compongono la partizione

sorgente. Tale problema, sebbene a volte considerato in modo indiretto (Schmid e MacCannell,

1955), è stato costantemente ignorato dalla letteratura specialistica. Tobler (1979) per primo ed in

modo esplicito ha preso in considerazione la proprietà di preservazione delle masse applicandola ai

problemi sia di interpolazione puntuale sia di interpolazione areale. In termini non formali (il

chiarimento analitico è rimandato al prossimo paragrafo) s‟impone che la superficie da interpolare

sia livellata (smooth) ed allo stesso tempo in grado di preservare il volume all‟interno di ogni zona

sorgente. Grazie al rispetto del vincolo di conservazione della massa, la mappa ad isolinee che può

essere disegnata a partire dai valori interpolati può essere convertita in un istogramma bivariato

semplicemente calcolando il valore sotto la superficie ad isolinee e così possono essere ricostruiti i

valori originali di ogni zona sorgente. Per dover di cronaca, Tobler chiama questa la proprietà di

inversione, concetto analogo a quello di preservazione del volume. Si tratta di una proprietà

desiderabile in quanto assicura un certo grado di fiducia all‟approssimazione dei valori del grigliato

all‟interno di ogni zona sorgente. In conseguenza di ciò le stime per le zone della partizione T sono

meno soggette ad errori.

5. Metodi che preservano il volume

Il secondo approccio all‟interpolazione areale, chiamato approccio area-based, garantisce il

rispetto della proprietà di preservazione del volume nel rispetto dell‟esigenza di produrre

Page 9: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

interpolazioni accurate. Tale approccio si è sviluppato in un secondo tempo rispetto ai metodi che

non preservano il volume e di pari passo con il crescente interesse per lo studio di dati areali; qui il

dato areale stesso è stato considerato come riferimento base dei metodi di conversione (quindi non è

richiesto alcun processo di interpolazione puntuale) giustificando quindi il nome di interpolazione

areale area-based.

Tale filone di studi si sviluppa a partire dal lavoro di Goodchild e Lam (1980) i quali hanno

proposto una metodologia di ponderazione areale che costituisce una generalizzazione dei metodi di

overlay proposti in maniera embrionale e poco formalizzata da Markoff e Shapiro (1973) e Crackel

(1975).

5.1. Il metodo della ponderazione areale

Il metodo dell‟overlay consiste essenzialmente nel sovrapporre le zone della partizione

obiettivo sulle zone della partizione sorgente e nello stimare i valori delle aree obiettivo mediante

pesi determinati in funzione dell‟ampiezza delle aree di sovrapposizione. Recentemente il metodo

dell‟overlay, soprattutto nella versione estesa di Goodchild e Lam (1980), è divenuto così popolare

tra i geografici quantitativi tanto da essere inserito nei moderni GIS come una funzione-routine

preconfezionata per l‟uso da parte degli utenti meno attenti alla metodologia statistica.

La trattazione che segue riguarda esclusivamente la metodologia di ponderazione areale. Al

riguardo però è utile richiamare brevemente la simbologia di base utilizzata nei formalismi che

seguiranno:

i) y è la variabile di interesse;

ii) i dati relativi ad y per le zone che compongono la partizione S sono noti e vengono

indicati con ys, sS;

iii) i dati relativi ad y per le zone che compongono la partizione T sono incogniti ed

oggetto di stima: verranno indicati con yt, tT;

iv) le partizioni S e T coprono lo stesso territorio;

v) se sS e tT si intersecano, esiste una zona di sovrapposizione ts di superficie ats

(cfr. Fig. 5).

Il principio sottostante il funzionamento del metodo di ponderazione areale è intuitivamente

semplice. Una volta che è stato fatto l‟overlay del sistema areale T sulla partizione S si può

facilmente misurare l‟area di ogni singolo poligono di intersezione. A questo punto il sistema areale

sorgente e quello obiettivo vengono messi in relazione mediante una matrice Am,n, con m ed n pari

rispettivamente al numero di aree che compongono gli insiemi T ed S. Detta matrice è nota in

letteratura con il nome di “matrice dei pesi areali” o “matrice delle intersezioni” (Goodchild et al.,

1993).

Il termine generico della matrice Am,n sarà indicato con at,s, elemento pari all‟area della

superficie di intersezione tra le zone tT ed sS:

Am n

s n

t ts tn

m ms mn

a a a

a a a

a a a

,

11 1 1

1

1

Page 10: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

a

s

t

ts

Fig. 5 - Sovrapposizione di due unità areali e zona di sovrapposizione.

Inoltre siano Un,1 e Vm,1 rispettivamente il vettore colonna dei valori rilevati per le zone della

partizione sorgente ed il vettore colonna delle stime per le aree del sistema obiettivo:

U

V

y y y y

y y y y

s n

t m

1 2

1 2

, ,..., ,...,

, ,..., ,..., '

' e

Il successivo passo di stima si differenzia leggermente a seconda della natura spaziale del dato

aggregato che descrive la partizione sorgente.

Se y è una variabile estensiva (tipicamente conteggi o totali come, ad esempio, la popolazione

od il prodotto interno lordo) ci si attende che assuma metà del valore assunto in una regione in

ognuna delle due metà in cui la regione stessa può essere suddivisa. Pertanto, se y è estensiva vale

ovviamente il risultato y yt ts

s

.

Una stima di yt è quindi est t sts

ss

y ya

a dato che y y

a

ats s

ts

s

. Da notare come

nell‟espressione appena presentata che fornisce la stima test y le singole aree delle superfici di

sovrapposizione at,s vengano standardizzate usando l‟area totale delle zone della partizione S. Così

facendo il coefficiente che ne risulta rappresenta la quota di superficie della generica zona s che

cade all‟interno della zona obiettivo t ed il dato “sorgente” sy è ripartito tra le zone della partizione

obiettivo proprio in accordo con tale coefficiente.

In termini matriciali la soluzione al problema può essere riscritta nei termini seguenti:

V WU W

con a

a

ts

s

.

Un semplice esempio servirà a chiarire quanto detto. Si considerino i sistemi areali S e T

riportati in Figura 6. I dati di base per lo svolgimento dei calcoli sono contenuti nel prospetto

seguente che contiene i dati rilevati per la variabile y nella zone che compongono la partizione

sorgente nonché l‟area della superficie di tali zone:

as ys

A 7 35

B 4 40

Page 11: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

C 5 20

L‟area della superficie delle zone ts di intersezione per l‟esempio in questione è riportata nella

tabella seguente:

A B C

D 2 3 0

E 4 0 2

F 1 1 3

A questo punto mediante dei calcoli elementari si perviene alle stime per le zone della

partizione obiettivo. Ad esempio, per la sub-area codificata D la stima varrà:

.40=5

0×20+

4

3×40+

7

2×35==ˆ ∑

s s

DssDest a

ayy

In modo analogo si ricavano le stime per le zone E e F le quali sono pari rispettivamente a

28=ˆEest y e 27=ˆFest y .

Se la variabile y è intensiva (tipicamente proporzioni o tassi, come ad esempio il reddito

personale disponibile) ci si attende che assuma lo stesso valore in una regione ed in ogni sub-

partizione della stessa.

A

E

C

F

B

D

Partizione S

Partizione T

Fig. 6 - Esempio di partizione S e partizione T.

Prima di mostrare le espressioni che consentono di produrre delle stime tint y è utile chiarire

con un esempio il diverso ambito concettuale nel quale ci si muove.

Si supponga di dover trasformare dati circa la variabile prezzo del frumento. Si supponga

inoltre che il prezzo per l‟area s1 sia di 20 per una unità del bene in questione mentre per l‟area s2 sia di 30 per una unità dello stesso bene (cfr. anche Fig. 7).

L‟applicazione della procedura vista per le variabili estensive condurrebbe per l‟area t alla

seguente stima:

50=30+20=+=ˆ2

2

2

1

1

1

ss

ts

ss

ts

test ya

ay

a

ay

che costituisce un risultato errato in modo ridicolo.

Page 12: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

t

s1

s2

Fig. 7. Ipotetica situazione di partizione sorgente ed obiettivo

nella derivazione delle stime per variabili intensive.

Ciò che è più indicato per la circostanza in esame è una media ponderata piuttosto che una

somma ponderata del tipo di quella utilizzata per le variabili estensive. I pesi da utilizzare sono le

proporzioni t

ts

a

a. La ragionevolezza di questa scelta del sistema di ponderazione può essere chiarita

ulteriormente mediante il semplice esempio in questione. Se ognuna delle zone sorgente di Fig. 7

fosse metà della zona obiettivo t allora sarebbe appropriato fornire la stima 25=ˆtint y ; ma se l‟area

s1 costituisse l‟80% della zona t sarebbe abbastanza intuitivo fornire la stima

22=30×2.0+20×8.0=ˆtint y .

Generalizzando, se y è intensiva allora:

∑=

s

ts

s

tsts

ta

ay

y

da cui si ottiene:

∑=ˆs t

tsstint a

ayy .

Il problema principale che inficia l‟uso dell‟approccio descritto è l‟ipotesi di costanza delle

densità (omogeneità) all‟interno delle aree della partizione S. In altre parole, se il valore ys è lo

stesso in ogni punto della zona sS (s=1,2,...,n), successive riaggregazioni in zone obiettivo

forniscono delle stime esatte. Ma se la distribuzione di ys nella zona sS (s=1,2,...,n) non è regolare,

la stima ty per mezzo delle aree delle superfici di intersezione ats non è più possibile. Il processo di

stima che conduce a ty è in questo caso governato dalla natura e dal grado di disomogeneità della

distribuzione di y in S e dalla dimensione delle aree obiettivo t in relazione alle corrispondenti aree

sorgente s. Purtroppo nelle applicazioni pratiche partizioni S caratterizzate da distribuzioni

omogenee della variabile oggetto di analisi si incontrano molto raramente, sebbene Goodchild e

Lam si sforzino di esaminare a fondo nel loro lavoro del 1980 (Goodchild e Lam, 1980, pagg. 308–

310) le circostanze in cui possa essere ragionevole assumere l‟ipotesi di densità costante. Tali

circostanze vengono ulteriormente approfondite nello studio di Goodchild et al. (1993, pagg. 386–

388) i quali propongono due generalizzazioni della metodologia della ponderazione areale (la

cosiddetta Generalizzazione 1 nota anche come estensione delle densità uniformi nelle zone

obiettivo e la Generalizzazione 2 o delle zone di controllo) che, a parere di chi scrive, non rendono

meno problematico di quanto si sia già indicato l‟uso delle tecniche di overlay negli studi empirici.

Page 13: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

Spesso, infine, le zone sS sono state disegnate per scopi diversi da quelli per cui si considerano le

aree tT e questo fa sì che la partizione S non fornisca informazioni rilevanti per T.

5.2. Interpolazione areale come stima di dati mancanti: l’algoritmo EM per dati di conteggio

L‟ipotesi di densità costante costituisce un‟assunzione ragionevole solo nella circostanza in cui

non si disponga di alcuna informazione circa la distribuzione della variabile di interesse all‟interno

della partizione sorgente. Va però precisato che la qualità e la quantità di fonti di dati territoriali si

sono modificate sostanzialmente nel corso degli ultimi anni. Alle fonti ufficiali tradizionalmente

disponibili (censimenti, materiale cartografico, fonti occasionali) ed alle indagini ad hoc

(campionarie o complete) si sono infatti aggiunte nuove fonti le quali fanno fronte all‟accresciuta

domanda di informazioni spazialmente disaggregate. Quindi la situazione che si presenta più di

frequente è quella in cui si dispone di informazioni ausiliarie circa la distribuzione nella partizione

sorgente se non della variabile oggetto di studio almeno di variabili in qualche modo collegate ad

essa. In tale ottica, ad esempio, è verosimile supporre che la conoscenza di variabili di natura

topografica e/o connesse alla popolazione influisca sull‟aspettativa del ricercatore circa la

distribuzione di altre variabili nelle zone della partizione sorgente. Al riguardo, un‟esperienza che

merita senz‟altro di essere menzionata è quella di Langford et al. (1990 e 1991) i quali fanno

ricorso, per supportare il processo di interpolazione areale, ad una tipologia di informazione

ausiliaria molto particolare: il dato acquisito mediante telerilevamento, sia esso da aereo e/o da

satellite. Il primo passo compiuto dagli studiosi citati è stato quello di mettere in luce una

significativa relazione statistica tra informazioni di tipo “uso del suolo” desunte da una

classificazione di una immagine Landsat TM (Thematic Mapper) e la popolazione totale osservata

in un insieme di unità amministrative. Ebbene, nello step finale dello studio condotto da Langford et

al. (1990), tale relazione è stata utilizzata per stimare l‟ammontare di popolazione per altre

partizioni sub-regionali arbitrarie.

Le mutate condizioni di disponibilità dei dati, dunque, hanno spinto gli specialisti della materia

a sviluppare dei metodi di interpolazione areale che siano più intelligenti delle procedure di

ponderazione nel senso che abbiano la capacità di gestire tutte le informazioni rilevanti che possono

essere raccolte sul sistema spaziale oggetto di studio.

Lungo questa direttrice si muove la proposta di Flowerdew et al. (1991)4 i quali, rilevando

come l‟interpolazione areale sia un‟operazione fondamentale nell‟uso dei sistemi geografici

informativi (GIS), propongono l‟utilizzo delle potenzialità dei GIS stessi nella gestione delle

informazioni ausiliarie come guida al processo di disaggregazione.

Flowerdew et al. (1991) guardano al problema della stima dei valori yts per ogni zona di

intersezione tra le aree tT e sS come ad un problema di dati mancanti. In tale contesto essi

propongono un metodo di interpolazione areale incentrato sull‟algoritmo EM (Dempster et al.,

1977).

Volendo esaminare in dettaglio tale procedura, si consideri senza perdita di generalità una

variabile y estensiva per la quale valga cioè la seguente relazione definitoria:

∑=t

tss yy .

Il problema dell‟interpolazione areale sarebbe di banale soluzione se fossero noti i valori

assunti dalla variabile y nelle zone di sovrapposizione ts. In tale circostanza infatti, varrebbe la

seguente eguaglianza:

4 La proposta di Flowerdew et al. (1991) per l‟interpolazione areale di dati di conteggio è contenuta in modo embrionale nel

lavoro di Flowerdew e Green (1991).

Page 14: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

∑=s

tst yy .

Nella pratica però i valori tsy non sono noti e pertanto il problema diviene:

i) inferire tsy da sy in modo tale da produrre le stime tsy ;

ii) calcolare le stime per le zone t della partizione obiettivo: ∑ˆ=ˆs

tst yy .

Per quanto concerne il precedente punto i), le informazioni ausiliarie (IA) giocano un ruolo

decisivo all‟interno del processo di interpolazione. Se le uniche IA disponibili sono le aree delle

superfici delle zone di sovrapposizione tsa si ricade nello schema comunemente adottato della

ponderazione areale (cfr. paragrafo precedente):

.=ˆ e =ˆ ∑s

ss

tst

s

ststs y

a

ay

a

yay

Altrimenti si può far ricorso all‟algoritmo EM (Dempster et al., 1977) il quale rappresenta una

tecnica statistica molto generale la quale raccorda una serie di metodologie specifiche designate alla

soluzione di problemi in presenza di osservazioni imperfette.

Prima di entrare nello specifico della procedura sarà bene però riformulare la base dati a

disposizione in maniera che il problema in esame sia ulteriormente ribadito e fare riferimento d‟ora

in avanti alla Fig. 8.

S S

y11 ... y1s ... y1n ? ... ? ... ?

... ... ... ... ... ...

T yt1 ... yts ... ytn T ? ... ? ... ?

... ... ... ... ... ...

ym1 ... yms ... ymn ? ... ? ... ?

y1 ys yn y1 ys yn

Fig. 8 - Base dati di partenza per l’implementazione dell’algoritmo EM.

L‟algoritmo EM è un metodo iterativo per calcolare stime di massima verosimiglianza in

situazioni in cui, se non fosse per l‟assenza di alcuni dati, il calcolo degli stimatori sarebbe

semplice. La formulazione definitiva dell‟algoritmo è data nel fondamentale articolo di Dempster et

al. (1977); un riferimento aggiornato e completo rimane la monografia di McLachlan e Krishnan

(1996), alla quale si rimanda per ulteriori dettagli.

L‟idea che è alla base dell‟algoritmo consiste nel massimizzare la funzione di verosimiglianza

completa sostituendo ai dati mancanti il loro valore atteso condizionato ai dati osservati ed al valore

corrente dei parametri.

Volendo introdurre delle notazioni più formali, sia Y il vettore aleatorio corrispondente ai dati

osservati; sia inoltre ( ),yg la sua funzione di densità ed ( )l la sua funzione di log-

verosimiglianza. Sia poi Z l‟ipotetico vettore dei dati mancanti, contenente dati che non sono

osservabili, ma la cui conoscenza permetterebbe di applicare facilmente il metodo della massima

verosimiglianza. Infine, sia X il vettore dei dati completi, le cui funzioni di densità e di log-

verosimiglianza saranno indicate rispettivamente con i simboli ( ),ycg e ( )cl .

Il primo passo dell‟algoritmo EM (detto E-step, dove E sta per Expectation) consiste nel

calcolare il valore atteso condizionato della funzione di log-verosimiglianza completa ( )cl , dati il

valore corrente di ed il campione osservato y.

Page 15: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

Il secondo passo (M-step, dove M sta per Maximization) consiste nella massimizzazione,

rispetto a Θθ∈ , del valore atteso condizionato della funzione di log-verosimiglianza calcolato

nell‟E-step.

Nella maggior parte dei casi il primo passo si rivela piuttosto semplice. Infatti, quando la

funzione di log-verosimiglianza è lineare nei dati mancanti, il calcolo del valore atteso condizionato

della funzione di verosimiglianza completa comporta solo la sostituzione dei dati mancanti con il

loro valore atteso condizionato a y e calcolato sulla base del valore corrente di , senza necessità di

modificare in altro modo la funzione. È esattamente questo, come verrà mostrato tra breve, l‟ambito

teorico in cui ricade la soluzione proposta da Flowerdew et al. (1991) al problema

dell‟interpolazione spaziale di dati di conteggio. Tuttavia è importante rimarcare sin d‟ora, anche se

nel prosieguo si tornerà diffusamente su questi problemi, che ciò non è vero in generale; è falso, ad

esempio, quando le variabili seguano una distribuzione normale (si veda più oltre per alcuni

dettagli).

Da un punto di vista formale, la struttura dell‟algoritmo può essere descritta come segue: sia )0( il valore iniziale del vettore contenente i parametri; l‟E-step consiste nel calcolare:

( ) ( )[ ]y clEQ )0(=; )0( .

Successivamente si massimizza ( ))0(;θQ rispetto a Θθ∈ , cioè si sceglie )1( tale che:

( ) ( ))0()0()1( ;≥; θθθ QQ

per ogni Θθ∈ . Si ripete quindi la procedura, cioè si ricalcolano la (1) e la (2) utilizzando )1(

al posto di )0( .

I due passi vengono iterati fino a quando la differenza ( ) ( ))()1+( kk ll θθ oppure la differenza

)()1+(

≤≤1max kk

diθθ sia minore di una quantità arbitrariamente piccola.

Nelle due relazioni precedenti k è la generica iterazione in corso mentre d è la dimensione del

vettore dei parametri θ .

Sulla scorta di quanto sin qui precisato, l‟algoritmo EM per l‟interpolazione areale di dati

estensivi si articola in due fasi le quali, nello specifico, possono essere riassunte come segue.

Nel primo step (la fase E), si calcola il valore atteso dei dati mancanti condizionato al modello

selezionato (si veda Green (1990) per alcune possibili scelte) ed ai dati osservati (i totali ys a livello

di partizione sorgente cioè i totali di colonna nella tabella a doppia entrata di Fig. 8; si ricorda che

tali totali sono noti mentre sono incogniti ed oggetto di stima gli tsy cioè i valori assunti dalla

variabile di interesse y nelle zone di sovrapposizione ts).

Nel secondo passo della procedura (fase M) si adatta, via massima verosimiglianza (in inglese

Maximum likelihood, la cui iniziale M ribadisce l‟acronimo di questo step!) il modello scelto al data

set completo che include, oltre alle stime provenienti dallo step precedente trattate come

osservazioni reali, anche i dati ausiliari xt (tT) e le aree delle superfici delle zone di intersezione ts

tra le aree tT e sS.

La procedura deve ovviamente essere iterata finché l‟algoritmo non converga e può essere

implementata a partire, ad esempio, dalle stime ottenute via ponderazione areale.

Si supponga, circoscrivendo l‟attenzione a variabili y di tipo estensivo, che il modello per le yts

sia il seguente:

tsy ( )tsPoisson

( )tstts a,,= xb

dove, oltre ai simboli già introdotti, b rappresenta il vettore dei parametri incogniti. In pratica,

con il modello riportato si suppone che la variabile y segua una distribuzione di Poisson di

parametro ts e che tale parametro sia funzione, oltre che di parametri incogniti, anche delle

Page 16: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

informazioni ausiliarie disponibili per le aree tT della partizione obiettivo nonché delle aree delle

superfici delle zone di intersezione ts tra le aree tT e sS.

Sotto le assunzioni formulate, ogni iterazione dell‟algoritmo EM si articola nel modo che

segue:

i) Passo E: calcolo dei valori attesi condizionati di tsy ( tsy ) dato il modello corrente

( )tstts a,,=ˆ xb e i dati ys; assumendo che le tsy siano delle variabili Poisson indipendenti di

media ts è facile ricavare, come si mostrerà tra breve, il seguente risultato:

( ) .ˆ

ˆ=,ˆ=ˆ∑ s

k

ks

tsstststs yyyEy

ii) Passo M: stima del vettore b del modello ( )tstts a,,= xb con la procedura di

massima verosimiglianza (ML) usando le stime tsy come dati Poisson indipendenti.

L‟esecuzione di tale passo produce stime b che forniscono informazioni sulle modalità con le

quali i parametri ts sono legati ai dati ausiliari ed alle aree delle sub-zone.

I valori ts che derivano dal passo M vengono dati in pasto al passo E che ha come output

stime più precise per le variabili tsy . Dette stime ( tsy ) vengono usate in un nuovo passo M per

migliorare le stime ts ottenute allo step precedente, e così via sino a che non viene raggiunto un

qualche criterio di convergenza fissato dall‟utente.

Come già detto, gli starting values per tsy possono essere ottenuti via ponderazione areale.

Sulle stime iniziali ottenute in tale modo si innesta l‟algoritmo che parte, a questo punto, dal passo

M e viene iterato, come descritto poc‟anzi, fino a convergenza.

La metodologia presentata è stata resa operativa integrando il GIS ARC/INFO (utile in tale

ambito per il display cartografico e soprattutto per calcolare le superfici delle aree delle sub-zone

formate dall‟intersezione fra le zone sS e tT) ed il package statistico GLIM (Generalised Linear

Interactive Modelling system) (Payne, 1986) il quale consente in modo agevole di costruire in

linguaggio macro delle procedure addizionali a quelle predisposte (Flowerdew e Green, 1989 e

1990; Green, 1989).

Comunque, anche per l‟EM per variabili estensive esistono alcuni problemi che, in qualche

modo, ne limitano l‟uso. Al riguardo preme innanzitutto evidenziare il fatto che la tecnica proposta

da Flowerdew et al. (1991) dipende fortemente dalla possibilità di individuare delle idonee variabili

ausiliarie e sarebbe molto interessante poter procedere a confronti fra diversi modelli basati su

insiemi differenti di IA (xt). Inoltre, tale metodo è basato su un insieme molto circoscritto di modelli

statistici (nello specifico Poisson e binomiale, appropriati per variabili di conteggio) che non

coprono tutte le scale di misurazione delle variabili. Ciò rende necessaria l‟estensione della

procedura in questione anche al caso delle variabili continue. Un tentativo in tale direzione è stato

effettuato da Bee e Espa (1999) nella circostanza in cui ( ) .,...,1= ,,...,1= ,,∼ 2 nsmtNY tsts Nella

situazione ipotizzata è noto che ( )2

1=

,∼=∑ mNYY s

m

t

tss , dove ∑1=

=

m

t

tss .

Analogamente, per la partizione obiettivo varrà ( )2

1=

,∼=∑ nNYY t

n

s

tst , dove ∑1=

=

n

s

tst .

Soprassedendo sui dettagli tecnici, per i quali si rimanda al lavoro citato, nello specifico caso in

esame il passo E consiste nel calcolare ( )ststs yyEy

ts

2

ˆ,ˆ 2=ˆ

e ( )ststs yyEy

ts2ˆ,ˆ

. Al contrario, la

Page 17: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

formulazione del passo M è strettamente collegata al modello che si sceglie per spiegare ts . Se,

come si fa abitualmente, si sceglie il classico modello lineare X= il quale è particolarmente

appropriato dato l‟assunto di normalità, si ha che il passo M risulta essere:

X X X yT T1, X e 2 1

mn

mnT T T1 y X X

dove y=vec(Y), Y è la matrice il cui elemento in posizione (t,s) è tsy , mn1 è il vettore di

lunghezza mn avente tutti gli elementi uguali ad uno e dove, infine, la matrice X contiene

osservazioni riferite a variabili ausiliarie che si suppone possano fornire informazioni aggiuntive

sulle aree della partizione obiettivo.

5.3 Interpolazione pycnophylactica

Un metodo area-based più sofisticato, non dipendente da ipotesi così restrittive come quelle

delle precedenti metodologie, è rappresentato dall‟algoritmo di interpolazione pycnophylactica (dal

greco = massa e = che preserva) proposto da Tobler (1979). In questo caso

si procede con la costruzione di una superficie direttamente a partire dai dati areali disponibili e la

stima dei nuovi valori areali tramite integrazione. L‟assunzione alla base di tale metodologia è che

esista una funzione di densità per la variabile oggetto di studio che sia livellata (smooth) così da

tenere in debita considerazione gli effetti di adiacenza delle zone della partizione sorgente.

Il termine pycnophylactico designa una tecnica di stima di superfici di densità che preservano la

densità stessa. In termini più precisi, un metodo di interpolazione rispetta il vincolo pycnophylactico

se, data una partizione sorgente costituita di n zone ognuna di area ai e valore noto yi della variabile

di interesse (i=1,2,...,n), vale la relazione

, d d ix y

z x y x y y (1)

per ognuna delle suddette zone, dove (x,y) rappresenta una località per la quale non si dispone

di osservazioni dirette.

Nel discreto la condizione (1) assume dei connotati che facilitano la comprensione

dell‟algoritmo in questione. Siano:

yk il valore assunto nell‟area k dalla variabile y supposta, senza perdita di generalità,

estensiva (conteggi o totali);

ak l‟area della superficie della zona k;

zij la densità della cella (i,j);

l‟area della superficie di una cella;

kijq una variabile dicotomica tale che

q

i j kijk

1

0

se

altrimenti

,.

Poste queste premesse, il rispetto della condizione pycnophylactica comporta l‟imposizione dei

seguenti vincoli:

k

ji

kijij yqz =∑

,

, k

ji

kij aq =∑

,

e .1=∑k

kijq

Intuitivamente una superficie di densità è livellata se ha poche oscillazioni o se punti vicini

presentano valori simili oppure se mostra, in tutte le direzioni, un piccolo tasso di cambiamento il

che significa dire che le derivate parziali sono piccole. In conseguenza di ciò appare abbastanza

naturale minimizzare la somma dei quadrati delle derivate parziali:

Page 18: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

z

x

z

yx y

2 2

d d min

espressione nota anche con il nome di integrale di Dirichlet. Senza il vincolo pycnophylactico e

la condizione di non negatività ( 0≥ijz ) il minimo ricercato è dato dall‟equazione di Laplace:

0=+ 2

2

2

2

y

z

x

z

la cui approssimazione per grigliati regolari è la seguente:

4

+++=

1+,1,,1+,1 jijijiji

ij

zzzzz .

Sono comunque concepibili altre condizioni di smoothing a seconda delle applicazioni pratiche.

Ad esempio, la stima prodotta dalla precedente espressione per la cella (i,j) non può superare in

valore assoluto i valori assunti nel vicinato della stessa. Se si desidera rimuovere questa restrizione

si può ampliare l‟insieme dei vicini e imporre una equazione bi-armonica. Alle differenze finite il

risultato che si ottiene è il seguente (Tobler e Kennedy, 1985)5:

z z z z z

z z z z

z z z z

ij i j i j i j i j

i j i j i j i j

i j i j i j i j

1

208

2

1 1 1 1

1 1 1 1 1 1 1 1

2 2 2 2

, , , ,

, , , ,

, , , , .

La procedura di interpolazione pycnophylactica si articola nei seguenti passi:

i) si sovrappone un grigliato regolare al territorio in esame;

ii) si assegna la densità media a ciascuna cella sovrapposta sulle zone della partizione

sorgente;

iii) si modificano le densità di cui al precedente punto ii) di un piccolo ammontare in

modo tale da muovere i valori delle densità stesse verso valori prossimi a quelli imposti

dall‟equazione differenziale (condizione di smoothing);

iv) incrementando o decrementando le densità calcolate al passo iii) si impone il vincolo

pycnophylactico;

v) si iterano i precedenti passi iii)-iv) fino a convergenza dell‟algoritmo.

Da un esame attento dell‟algoritmo emerge chiaramente la necessità di assegnare dei valori

fuori dall‟area di studio (condizioni di bordo). Tale scelta influenza la misura di smoothness in

prossimità dei bordi del grigliato sovrapposto e, di conseguenza, si propaga all‟interno dello stesso.

L‟imposizione di una condizione di bordo anziché un‟altra dipende ovviamente dal tipo di

applicazione che si sta conducendo nonché dalle informazioni disponibili sull‟esterno dell‟area di

studio. In generale è possibile specificare almeno due condizioni di bordo. La prima, nota come

condizione di Dirichlet, consiste nello specificare dei valori numerici lungo i bordi del dominio

spaziale di interesse. Nella circostanza in cui, ad esempio, il dominio spaziale di studio sia

circondato da acqua, a tutte le celle all‟esterno della regione di interesse può essere assegnata una

densità nulla. In Fig. 9 sono riportate le condizioni di Dirichlet più utilizzate nelle applicazioni

pratiche. La seconda condizione di bordo, cosiddetta di Neumann, richiede di specificare il tasso di

cambiamento della densità lungo il confine; al riguardo il più semplice tasso spaziale di

5 L‟insieme sul quale viene calcolata la media è ovviamente importante così come in sede di analisi empirica è estremamente

critica la scelta del sistema di pesi quando si fa ricorso a medie ponderate.

Page 19: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

cambiamento sancisce che il gradiente svanisca al bordo della regione. Ovviamente è contemplata

la possibilità di poter mixare le due condizioni di bordo ricordate.

?

Fig. 9 - Condizioni di Dirichlet: ? = 0 (condizione di ortogonalità),

? = (condizione di parallelismo).

Un modo alternativo di specificare le condizioni di bordo che si è rivelato particolarmente utile

nelle applicazioni GIS e/o nel trattamento delle immagini telerilevate, situazioni empiriche dove

sono necessarie condizioni meno rigide e restrittive della Dirichlet, è quella denominata a specchio

(Arbia et al., 1996, Arbia et al., 1999). L‟imposizione di quest‟ultima condizione implica la

costruzione di un bordo dell‟area di interesse così come mostrato in Fig. 10.

Fig. 10 - Condizione di bordo a specchio.

Per fornire un esempio di come si avvia la procedura di interpolazione areale pycnophylactica, si

consideri nuovamente la Fig. 5 e si sovrapponga alla partizione S un grigliato 44 (Fig. 11).

Il secondo step consiste nell‟assegnare la densità media delle aree sS ad ogni cella (i,j)S (cfr.

Fig. 12).

Poi si deve applicare la condizione di smoothing: si cambia ogni valore della cella nella media

dei suoi quattro vicini (cfr. Fig. 13). Per semplicità nell‟esempio qui riportato non si sono imposte

condizioni di bordo. Pertanto il valore da attribuire alla cella (1,3) sarà il seguente:

.67.4=3

4+5+5=ˆ 3,1z

Infine, si deve imporre il vincolo di preservazione del volume. Al riguardo è necessario

calcolare le seguenti stime:

∑,

ˆ=ˆji

kijijk qzy

le quali vanno confrontate con i valori rilevati yk. Il vincolo pycnophylactico si impone proprio

trasformando ijz secondo la relazione seguente:

Page 20: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

k

kijij y

yzz

ˆˆ←ˆ .

A

C

B

Partizione S

Fig. 11 - Esempio di implementazione dell’algoritmo di Tobler (passo i)).

5 5 5 4

5

5 5 4

10 10 5 4

10 10 4 4

Partizione S

Fig. 12 - Esempio di implementazione dell’algoritmo di Tobler (passo ii)).

5 5 4.67 4.5

6.67

6.25 4.75 4.33

8.33 7.5 5.75 4.33

10 8 6.33 4

Partizione S

Fig. 13 - Esempio di implementazione dell’algoritmo di Tobler (passo iii)).

Nell‟esempio, se si considera la cella (1,1)A, dal momento che:

Page 21: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

09.38=75.5+75.4+25.6+67.6+67.4+5+5=ˆAy

allora è necessario procedere, per il rispetto del vincolo di preservazione del volume, alla

seguente sostituzione (cfr. Fig. 14):

.59.4=09.38

355←5

4.59 4.59 4.29 3.83

6.13

5.74 4.36 3.69

9.85 8.87 5.28 3.69

11.82 9.46 5.39 3.40

Partizione S

Fig. 14 - Esempio di implementazione dell’algoritmo di Tobler (passo iv)).

L‟algoritmo descritto deve essere ovviamente iterato finché non sia soddisfatta una delle

seguenti condizioni:

1

2 1

dove indica l' iterazione in corso.

,

, , ,

y y k

z z i j t

k k

t ij t ij

Ovviamente la qualità delle stime prodotte, le quali devono essere riaggregate a livello di

partizione obiettivo dando così luogo ad una trasformazione superficie-area, dipende fortemente

dalla dimensione delle caselle del grigliato: queste devono essere abbastanza piccole per garantire il

rispetto della condizione di smoothing e del vincolo pycnophylactico.

L‟algoritmo di Tobler mostra, rispetto al metodo della ponderazione, degli indubbi vantaggi di

tipo concettuale che derivano dal considerare nell‟analisi gli effetti di vicinato. Per di più non è

richiesto l‟assunto di omogeneità all‟interno delle aree della partizione sorgente. Ma va fatto notare,

comunque, come l‟obiettivo della minima curvatura derivi più da una esigenza di semplicità e da

una mancanza di alternative che da un effettiva analisi delle superfici di densità dei fenomeni reali.

Inoltre, un ulteriore svantaggio dell‟approccio proposto da Tobler è che la procedura fornisce

solo una stima puntuale senza alcuna considerazione circa lo standard error delle stime prodotte.

Una soluzione a questo problema potrebbe essere quella di campionare da una distribuzione avente

la media dei vicini di una generica cella come valore atteso e varianza anch‟essa stimata a partire

dal vicinato.

5.4 Bayesian Interpolation Method

Sulla scia dei lavori di Flowerdew et al. (1991) e di Tobler (1979) si inserisce il contributo di

Benedetti e Palma (1994a e 1994b) i quali derivano un metodo di interpolazione da una

formalizzazione di tipo bayesiano che ben si presta a cogliere il legame tra informazione sorgente

ed obiettivo. Per illustrare la logica sottostante a tale metodo, denominato BIM (Bayesian

Interpolation Method), è utile richiamare una formalizzazione, introdotta da Arbia (1989b), la quale

consente uno studio strutturato del problema dell‟aggregazione. Si designa come processo

originario, o individuale, quel processo stocastico Y le cui realizzazioni finite {Yi} i=1,2,...,n sono

Page 22: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

relative ad una fissata partizione dell‟area di studio intesa come massimo livello di disaggregazione

di interesse nell‟analisi. A partire dal processo originario è possibile introdurre la nozione di

processo derivato, o aggregato, come quel processo stocastico Y* le cui realizzazioni finite { *jY }

j=1,2,...,m dove m<n, sono relative alle unità areali ottenute mediante aggregazione, per somme o

per medie, delle unità areali del processo originario. Date queste premesse, le conseguenze

statistiche dell‟aggregazione possono essere, in via generale, studiate sulla base delle proprietà del

processo derivato in relazione alle proprietà del processo originario. Formalmente si tratta di

studiare la distribuzione di probabilità condizionata ( )YYP * . Quando, all‟atto pratico, il problema è

quello di fornire una conversione dei dati da un sistema areale ad un altro, la distribuzione dei dati

secondo la partizione obiettivo diventa oggetto di inferenza essendo nota la distribuzione dei dati

secondo la partizione sorgente. Formalmente si tratta, allora, di studiare la distribuzione di

probabilità condizionata ( )*YYP . A tale riguardo il teorema di Bayes consente di pervenire al noto

risultato P Y Y P Y P Y Y* * , dove P(Y) è la probabilità a priori sul processo originario Y,

( )YYP * è la verosimiglianza sulla base dei dati disponibili e ( )*YYP è la distribuzione di

probabilità a posteriori o soluzione del problema formulato.

La formalizzazione del problema della conversione di dati areali in termini di problema inverso

dell‟aggregazione e la sua soluzione secondo la logica bayesiana non consente soltanto di utilizzare,

in accordo con il lavoro svolto da Arbia (1989b), uno schema di riferimento unitario per gli

interrogativi che l‟aggregazione pone. Essa dà luogo, infatti, ad indubbi vantaggi di notevole

importanza. Soluzioni di tipo euristico, come alcune di quelle viste precedentemente, le quali

implicano inopportune trasformazioni intermedie dei dati considerati, sono in questo caso escluse.

Inoltre, l‟attenzione sempre maggiore rivolta all‟utilizzo dell‟informazione ausiliaria relativa alla

partizione obiettivo trova qui una sua idonea collocazione potendo essere utilizzata quale

informazione a priori.

Il metodo BIM ha come obiettivo quello di ricostruire le realizzazioni del processo originario Y

supponendo note le realizzazioni del processo aggregato Y*. La risoluzione del problema passa

attraverso alcune ipotesi formulate circa la distribuzione del processo originario Y (scomposto nella

somma S+e della sua media e di un termine di errore) e del processo S. Assumendo, per tener conto

dell‟intrinseca struttura di dipendenza dei dati territoriali, che tali distribuzioni siano dei campi

aleatori markoviani gaussiani localmente dipendenti, Benedetti e Palma (1994a e 1994b) derivano

dapprima le espressioni degli stimatori dei parametri S e VS (la cosiddetta soluzione esatta) e,

successivamente, le espressioni degli stimatori degli stessi parametri subordinatamente al rispetto

del vincolo pycnophylactico di conservazione della massa all‟interno del territorio considerato e di

alcune condizioni di range (le soluzioni vincolate a parametri noti a priori).

Volendo esaminare in dettaglio la tecnica di interpolazione in questione è necessario dapprima

soffermarsi sulle ipotesi poste a fondamento dello sviluppo metodologico che verrà presentato più

avanti.

All‟inizio del procedimento di stima, data l‟intrinseca dipendenza dei dati spaziali legata al

concetto di località vicine, è necessario definire la matrice di contiguità per entrambi i sistemi areali

considerati (partizione sorgente ed obiettivo) nel rispetto di un predefinito criterio di adiacenza delle

unità areali (cfr., per alcune possibili scelte, Cliff e Ord, 1981). Inoltre deve essere definita anche la

matrice di aggregazione che, nello specifico, altro non è che un operatore lineare che consente la

trasformazione da un vettore aleatorio n-dimensionale ad un vettore aleatorio m-dimensionale.

Le ipotesi introdotte da Benedetti e Palma (1994a e 1994b) per la risoluzione in termini

bayesiani del problema della conversione di dati areali sono le seguenti:

i) il processo originario Y si distribuisce come un campo aleatorio markoviano

gaussiano (Besag, 1974), noto in letteratura anche con il nome di modello autoregressivo

Page 23: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

condizionato (CAR - Conditional AutoRegressive)6, tale che Y stesso può essere espresso in

funzione della sua media e di un termine generico di errore , cioè Y f S , . Tale relazione

può essere esplicitata nel modo seguente (Ripley, 1981; Cressie, 1993):

Y S (2)

con:

E

Var

Y Y j N i S k

Y Y j N i

i j i ij j

j i

i j

,

,

,

2

dove N(i) indica il vicinato dell„unità areale i-ma, Si è la media relativa alla generica area i-

ma, 2 è la varianza del processo Y e k ij, sono coefficienti di interazione spaziale;

ii) il parametro S si suppone anch‟esso distribuito come un campo aleatorio markoviano

gaussiano con:

E

Var

S S j N i t k s t

S S j N i

i j i s ij j j

j i

i j S

,

,

,

2

dove ti è la media relativa alla generica area i-ma, S2 è la varianza del processo S e ijsk ,

sono nuovamente coefficienti di interazione spaziale7.

Dalle due precedenti ipotesi segue che le densità congiunte dei vettori S ed sono

rispettivamente:

S S S S S

N con T I K, 2 1 e

N con 0 I K, 2 1

dove KS e K sono le matrici quadrate di ordine n dei coefficienti di interazione spaziale kS ij, e

k ij, rispettivamente, mentre S e sono matrici definite positive sotto le condizioni di regolarità

dei processi considerati stabilite dal teorema di Hammersley e Clifford (1971).

Il processo originario Y, relativo ad n unità areali, viene trasformato nel processo derivato Y*,

relativo ad m unità areali, attraverso l‟aggregazione (per somme o per medie) delle realizzazioni

relative ad aree contigue secondo il criterio di vicinato adottato. Tale semplice operazione può

essere formalizzata mediante una trasformazione lineare del tipo seguente:

Y Ym m n n

*

1 1G (3)

dove la matrice G è di elemento generico (Arbia, 1989b):

g

h j c i p i

n p iij

ij i

i

se volte nella - ma riga

altrimenti, volte nella - ma riga

,

0 (4)

e dove c(i) indica l‟insieme delle unità areali incluse nella i-ma area della partizione derivata, pi

è la cardinalità di c(i) ed infine hij sono dei coefficienti. È appena il caso di notare che tutte le più

utilizzate tipologie di aggregazione possono essere ricondotte all‟espressione generale (4), dal

6 Per un breve riassunto della teoria dei processi stocastici auto-normali e per alcuni algoritmi di simulazione degli stessi si veda,

fra gli altri, Benedetti e Espa (1993), Dubes e Jain (1989).

7 Per entrambe le ipotesi i) e ii) i coefficienti di interazione spaziale possono essere comodamente indicati in termini matriciali

utilizzando la seguente notazione: K=C, con parametro di autocorrelazione spaziale e C matrice di contiguità fra aree. Dal

momento che la matrice C è simmetrica lo sarà anche K per cui risulta kij=kji; inoltre i coefficienti kij assumono valori non nulli se e

solo se le aree i e j sono contigue.

Page 24: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

momento che i coefficienti hij possono essere specificati rispetto ad operazioni di somma o media,

siano esse semplici o ponderate.

Al fine di rendere più esplicito il legame che intercorre tra il processo originario Y e quello

derivato Y*, si può sostituire l„equazione (2) nella (3), così da ottenere: Y S S G G G .

La distribuzione di probabilità del processo derivato Y* può allora essere ricavata basandosi

sulla conoscenza della distribuzione del processo originario Y. Tale passaggio è possibile grazie ad

un noto teorema dell„analisi statistica multivariata (Anderson, 1958, pag. 26). L„enunciato del

teorema stabilisce che se un processo X si distribuisce secondo la legge N ,V allora il processo

X*, tale che X*=GX, si distribuisce secondo la legge N G G G, V T . Nello specifico del caso

considerato, se Y è un campo aleatorio markoviano gaussiano (come supposto nell„ipotesi i)), il

processo derivato Y*, condizionato ad S, si distribuisce anch„esso secondo una normale multivariata.

In termini formali il risultato è il seguente:

( ) ( ) ( )** ,N=,N∼*

YY

TSSYP MGGG (5)

con ( ) 12*** -=

YYYKI .

La (5) evidenzia come anche il processo derivato Y* sia un campo aleatorio markoviano

gaussiano8.

Non potendo percorrere il cammino contrario, resta ora il problema di determinare il processo

originario Y, considerando questa volta Y* quale fonte d„informazione. Sulla base delle relazioni fin

qui richiamate e invocando il teorema di Bayes, si perviene al seguente risultato:

P Y Y P Y P Y Y* * (6)

dove P(Y) è la probabilità a priori sul processo originario Y che si distribuisce per ipotesi come

un campo aleatorio markoviano gaussiano, P Y Y* è la verosimiglianza sulla base dei dati

disponibili e P Y Y * è la distribuzione di probabilità a posteriori.

Poiché il processo originario Y è formalmente pari alla somma della sua media e di un termine

di errore per tutte le unità areali considerate (si veda la relazione (2)), la (6) può essere riscritta nei

termini seguenti: P S Y P S P Y S * * .

Se si considera Y essere funzione solo della suo vettore medio S (se si trascura cioè il termine di

errore) si perviene al risultato:

P S Y P S P Y S* * . (6bis)

dove, come sopra, P(S) è la probabilità a priori, P Y S* è la verosimiglianza e P S Y * è la

distribuzione di probabilità a posteriori. Tutte le distribuzioni coinvolte nell„espressione (6bis) sono,

come emerso in precedenza, normali multivariate:

P S P Y S SST N e NT G G G, , .*

Grazie poi ad un altro celebre teorema della statistica (Pilz, 1991), la distribuzione di

probabilità condizionata P S Y * , la quale, come già detto, rappresenta la soluzione del problema

inverso dell‟aggregazione, è di nuovo una normale multivariata:

8 La relazione (5) formalizza evidentemente il problema diretto dell‟aggregazione e consente di ricavare la distribuzione del

processo derivato a partire da quella del processo originario. Volendo riassumere tali concetti, si può far riferimento al seguente

schema:

Y Y S

Y S

m m n n m n n m n n

*

,

1 1 1 1G G G

N

Y S T* , N G G G

Per considerazioni di tipo analitico sulla distribuzione (5) nel caso di serie temporali si veda Lutkepohl (1984) mentre nel caso di

serie spaziali si veda Arbia (1989b).

Page 25: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

P S Y S VS

*

, N

dove S VS

e sono le stime BIM. Sotto l‟ulteriore ipotesi che la varianza 2 e la matrice di

correlazione I K

1 siano note, le stime BIM assumono rispettivamente la seguente forma:

*

1-

22

1

2

1-

2

ˆ

YT

S

TT

S

S

S

STT

GKI

GGKI

KIGG

KIGG

(7)

V

S

T T S

S

.

G GI K

G GI K

2 2

1-1

(8)

Le formule (7) e (8) sintetizzano tutta l‟informazione disponibile sul processo S, la quale, in tal

modo, può essere utilizzata a fini inferenziali: stime puntuali per S possono essere prodotte

utilizzando semplicemente S che, nel caso di distribuzioni gaussiane, sarà una stima MAP

(Maximum A Posteriori).

L‟approccio bayesiano descritto conduce ad S , la cosiddetta soluzione BIM non vincolata. In

generale, purtroppo, non è verificata la condizione di preservazione della massa (vincolo

pycnophylactico) G *S Y , una condizione che sembra ragionevole richiedere ad un metodo di

conversione dati9. Al fine quindi di introdurre la condizione di preservazione della massa è

necessario estendere la procedura sin qui vista in modo tale da definire una soluzione BIM vincolata

a parametri noti a priori.

L‟introduzione del vincolo G *S Y sottintende a sua volta la condizione G 0, la quale

implica che i dati disponibili ad un certo livello di aggregazione debbano essere pensati come non

affetti da errore. Si tratta ovviamente di una supposizione alquanto criticabile ma che conduce a

notevoli vantaggi di ordine pratico.

Per determinare la distribuzione a posteriori che rispetti il vincolo pycnophylactico è necessario

condizionare la distribuzione a posteriori al vincolo lineare GS Y *:

P S Y S Y* *G . (9)

Dato che GS stessa si distribuisce come una normale multivariata, l‟espressione (9) richiede che

si determini la distribuzione di una normale multivariata condizionata ad un valore noto di un‟altra

normale multivariata. La soluzione a tale problema può essere facilmente individuata grazie ad un

noto teorema della statistica multivariata (Anderson, 1958, pag. 29) il quale consente di pervenire al

risultato:

P S Y S Y S VS

* *~

~,G N

dove ~

~S VS

e sono le stime BIM vincolate a valori noti:

~

*S S V V Y SS

T

S

T

G G G G1

V V V V VS S S

T

S

T

S~ .

G G G G1

Il procedimento di calcolo delle stime BIM illustrato nella presente sezione mostra notevoli

difficoltà computazionali, soprattutto nel caso in cui ci si trovi in presenza di sistemi zonali di

9 A rischio di essere ripetitivi la condizione in questione riguarda la ricostruzione, a partire dalle stime ottenute, dei dati originari.

Page 26: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

grandi dimensioni. Il problema più rilevante risiede nell‟inversione della matrice VS

, valutazione

numerica che può risultare anche estremamente onerosa, se non addirittura impossibile, date le

attuali capacità computazionali dei sistemi di calcolo disponibili.

Un modo efficiente di valutare VS1 può essere quello di utilizzare una procedura iterativa la

quale, sulla base della definizione di contiguità dei processi spaziali considerati, faccia uso soltanto

di operazioni locali, sfruttando così la struttura sparsa della matrice VS

(Espa, 2000).

5.5 Un esempio di uso del BIM

Scopo del presente paragrafo è quello di fornire un esempio applicativo dell‟approccio

bayesiano proposto da Benedetti e Palma (1994a e 1994b), ripreso dagli stessi autori nel 1999

(Benedetti e Palma, 1999) ed illustrato nella sezione precedente. Quale variabile da disaggregare è

stata presa in considerazione la popolazione residente per abitazione occupata calcolata

relativamente alle 95 provincie ed alle 20 regioni italiane al censimento della popolazione del 1991.

La scelta di tale variabile è stata dettata semplicemente dal fatto che è quella originariamente

utilizzata da Benedetti e Palma (1994b) nel lavoro in cui è stata proposta la metodologia di

interpolazione bayesiana.

Le modalità della variabile in questione non sono fornite direttamente dalle tavole censuarie,

ma sono state ricavate come rapporto fra la popolazione residente e le abitazioni occupate.

Nell‟esercizio si è supposto di conoscere solo i valori regionali (partizione sorgente) e non

quelli provinciali (partizione obiettivo). Ci si è quindi messi nella condizione di voler stimare la

popolazione residente per abitazione occupata in ciascuna provincia. In seguito, dal momento che i

dati disaggregati sono noti, si è potuto procedere ad un confronto fra i risultati forniti

dall‟interpolazione BIM e i valori effettivi. Inoltre è stato possibile misurare l‟accuratezza delle

stime mediante l‟utilizzo di alcuni indicatori (RMSE e R2).

Nel paragrafo precedente si è mostrato come il metodo BIM si basi sulla stima delle

realizzazioni di un processo originario incognito Y, date le realizzazioni del processo derivato noto

Y*. Nel caso in questione le osservazioni note da disaggregare sono quelle relative alle venti regioni

italiane, mentre le osservazioni del processo originario da stimare sono quelle relative alle 95

provincie italiane (cfr. Fig. 15).

Come già detto, quando le partizioni territoriali di origine e di destinazione hanno dimensioni

rilevanti, per produrre le stime BIM si deve far ricorso ad un algoritmo iterativo che semplifichi in

termini computazionali la procedura di stima. Inoltre, nell‟esempio qui riportato si sono imposti alle

stime i vincoli di positività e di preservazione della massa (vincolo pycnophylactico).

L‟implementazione della procedura richiede che siano formulate alcune ipotesi. Prima fra tutte

deve essere specificata la struttura di correlazione dei dati. Al riguardo si è supposto che le

osservazioni del processo originario si distribuiscano come un modello autoregressivo condizionato

(CAR).

Page 27: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

Fig. 15 - Carta d’Italia per provincie e per regioni.

Si è reso dunque necessario procedere alla definizione della matrice di interazione spaziale

K C , dove:

i) è il coefficiente di correlazione, che verrà di volta in volta fatto variare con passo

di 0.05 nell‟intervallo [0.10; 0.99], secondo una procedura grid-search;

ii) C è la matrice di connettività specificata in base ad un criterio di contiguità

opportunamente scelto.

Con riferimento al precedente punto ii), si sono distinti due casi corrispondenti a due diverse

matrici di contiguità. Più precisamente abbiamo definito le connessioni su un sistema continentale e

su un sistema continentale più insulare, detto sistema completo.

Nel primo caso, limitando l‟attenzione alle sole provincie continentali (con esclusione quindi

delle provincie appartenenti alle regioni Sicilia e Sardegna), la matrice di connettività è stata

definita considerando vicine quelle provincie che presentano almeno un punto in comune lungo il

loro confine. Nel secondo caso si è mantenuto lo stesso criterio, aggiungendo però un ulteriore

vincolo di vicinato. Sono state ritenute confinanti con altre provincie italiane peninsulari quelle

provincie della Sicilia e della Sardegna, dotate di un collegamento navale di una certa importanza.

Una seconda informazione che permette di procedere al calcolo dei valori disaggregati,

riguarda la matrice di aggregazione. Gli elementi di tale matrice sono stati specificati in accordo

con i criteri amministrativi con i quali sono definite le provincie e le regioni italiane. Inoltre, con

riferimento alla variabile abitazioni occupate, è stato attribuito un peso a ciascuna provincia. Tale

peso è stato determinato come rapporto fra il dato provinciale (ab. occ.i) e quello regionale

( ab occ iji

n

. .

1

) secondo la seguente relazione:

Pab occ

ab occi

i

iji

n

. .

. .1

,

dove i denota la generica provincia i-ma mentre j si riferisce alla j-ma regione, costituita

dall‟aggregazione delle i=1, 2,..., n provincie10

.

10

I pesi in questione sono dei fattori di “riproporzionamento”. La loro definizione in tali termini garantisce, infatti, che l‟indice

regionale della popolazione residente per abitazione occupata sia somma dei corrispondenti indici provinciali per la medesima

variabile. Formalmente si può scrivere: I IR P

i

n

i

1

, dove R indica la generica regione ePi sono le provincie che la costituiscono.

Page 28: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

Una volta definite la matrice di connettività, la matrice di aggregazione ed il coefficiente di

correlazione, si è passati alla fase computazionale della stima BIM vincolata iterativa (cfr. paragrafo

precedente), sia per il caso continentale che per quello completo. Al software sviluppato all‟uopo è

stato richiesto di eseguire 1000 iterazioni, sebbene ne siano servite molte meno per raggiungere la

convergenza (Espa, 2000).

Per valutare quanto le stime BIM si avvicinassero ai valori reali si è reso necessario individuare

alcuni parametri di accuratezza. A tal fine è stata calcolata la radice dell’errore quadratico medio

(RMSE):

RMSE Z Z Z

Z Zi

E

2

2

1

95

95,

dove Z è lo stimatore BIM del processo originario Z, e il coefficiente di determinazione

RZ

Z

2 Var

Var

.

Il calcolo di tali indicatori è stato effettuato per ogni disaggregazione ottenuta al variare di .

L‟applicazione ha fornito dei buoni risultati sia in termini di variabilità delle stime (RMSE; cfr. Fig.

16 a) e b)) che in termini di proporzione di variabilità spiegata ( R2 ; cfr. Fig. 17 a) e b)).

Dall‟esame di Fig. 16 (a) si può notare che il valore massimo dell‟RMSE è 0.11301 e si trova in

corrispondenza di = 0.1. La curva poi decresce fino ad un errore minimo di 0.09997 per = 0.9,

il che induce a concludere che le stime migliori si ottengono quando si impone il più elevato legame

fra variabili. Va comunque precisato che il campo di variazione degli errori, al variare

dell‟autocorrelazione fra i dati, è trascurabile se espresso in termini di varianza del fenomeno:

RMSE RMSE

pop res per ab occ

max min

. . . .

. .

.. .

Var

011301 0 09997

0 061770 05246

(a)

(b)

Page 29: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

Fig. 16 - Andamento dell’RMSE: sistema continentale (a)) e completo (b)).

Anche se si considerano i risultati relativi al coefficiente di determinazione, sempre nel caso

continentale, si osserva che l‟indice R2 raggiunge il suo massimo quando = 0.9 (Fig. 17 a))

avvalorando la tesi che si ottiene un miglioramento delle stime se si suppone che le variabili siano

fortemente correlate.

La conclusione poc‟anzi formulata sembrerebbe confermare il suggerimento (peraltro intuitivo

e non suffragato da esperimenti Monte Carlo) che Benedetti e Palma (1994) forniscono nel loro

lavoro. Gli autori consigliano infatti di inizializzare l‟algoritmo con un valore di pari a 0.99 per

ottenere dei buoni risultati. Dall‟applicazione effettuata però, sorgono delle contraddizioni a tale

affermazione. Si osservino al riguardo i grafici relativi agli indici RMSE ed R2 calcolati sul

cosiddetto sistema intero.

(a)

(b)

Fig. 17 - Andamento dell’R2: sistema continentale (a)) e completo (b)).

Come è evidente dall‟esame di Fig. 16 b), la curva presenta un andamento di tipo parabolico (e

non decrescente), con un campo di variazione che oscilla fra 0.10461 e 0.11039, rispettivamente per

valori di = 0.5 e = 0.9, per un‟ampiezza pari a 0.00578. Ad ogni modo, anche in tal caso il

rapporto fra il range e la varianza della popolazione assume valori trascurabili. Infatti, procedendo

al calcolo di tale relazione, si ottiene che:

RMSE RMSE

pop res per ab occ

max min

. . . .

.

.. .

Var

0 00578

0 061770 02350

Tale quantità è addirittura inferiore a quella precedentemente calcolata per il sistema

continentale.

Page 30: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

Inoltre è interessante osservare che il punto di minimo della parabola dell‟RMSE è all‟incirca

intorno al valore = 0.5. In realtà tale valore è molto prossimo all‟autocorrelazione spaziale vera

del fenomeno, ossia = 0.47.

Alle medesime considerazioni si perviene attraverso l‟osservazione di Fig. 17 b), relativa

all‟R2 .

La motivazione che spinge a giustificare un simile comportamento parabolico dei due indici è

da ricercare nel fatto che, nel sistema intero, assumono sempre più importanza le contiguità non

fisiche. Accade, infatti, che località fra loro molto distanti, come ad esempio Roma e Cagliari, siano

connesse. Ebbene tale contiguità, per elevati valori di , interviene nel modello distorcendo le

stime. Per ovviare a tale problema è buona pratica introdurre dei pesi nella matrice di connettività

che differenzino le distanze fra località. Così facendo la contiguità fra Roma e Cagliari andrà pesata

meno rispetto, ad esempio, a quella fra Roma e Frosinone. Dai risultati ottenuti si deduce in estrema

sintesi che nel caso continentale si ottengono buone stime quando si impongono elevati valori di

autocorrelazione fra i dati e che nel sistema intero, invece, le stime migliori si ottengono imponendo

un‟autocorrelazione vicina a quella reale.

Tali conclusioni possono essere generalizzate affermando che, se la distanza fisica che separa

aree contigue è minima, allora è sufficiente imporre = 0.99, altrimenti è opportuno ricorrere a

matrici di contiguità generalizzate (Cliff e Ord, 1981).

6. Considerazioni conclusive

Il presente lavoro si è occupato di passare in rassegna le più note tecniche statistiche disponibili

nella letteratura specialistica per la soluzione di problemi d‟interpolazione, disaggregazione ed

integrazione di dati spaziali. Lo scopo più immediato di tale rassegna è stato quello di suggerire

alcune soluzioni operative al problema della disaggregazione di dati areali (tipicamente variabili

demografiche, economiche e socio-economiche) ad un livello di risoluzione spaziale più fine di

quello disponibile. Vi è tuttavia uno scopo più ampio che è quello di inquadrare tale problema nel

contesto della interpolazione areale sia per amore di completezza sia in vista di future applicazioni.

In tal senso si sono distinte innanzitutto le tecniche di interpolazione che hanno come dati di input

informazioni rilevate in punti od in località di dimensione comunque trascurabile rispetto alla

regione di studio (interpolazione per punti), dalle tecniche che hanno in input informazioni raccolte

all‟interno di aree o regioni (interpolazione areale).

Con riferimento alle tecniche d‟interpolazione areale si è proceduto innanzitutto a mettere in

risalto la scarsa valenza applicativa delle tecniche che non preservano il volume (cfr. sezione 4.). Il

motivo di ciò risiede nella perdita di accuratezza delle stime (indotta dalle trasformazioni cui il dato

viene sottoposto nella procedura) e dal non rispetto del vincolo di conservazione della massa

all‟interno delle aree che compongono la partizione sorgente.

Per quanto riguarda, poi, le tecniche di interpolazione areale che preservano il volume,

senz‟altro più convincenti da un punto di vista logico-formale di quelle che tale proprietà non

soddisfano, è doveroso ribadire come ognuna delle metodologie passate in rassegna (cfr. paragrafo

5.):

i) non sia in grado di supplire al problema della insufficienza di

risoluzione della partizione sorgente;

ii) imponga la formulazione di ipotesi più o meno forti circa il

fenomeno oggetto di studio, la qual cosa esclude la possibilità di applicazioni acritiche e

routinarie.

È proprio sulla base di un‟attenta valutazione delle assunzioni di cui al precedente punto ii) che

deve essere individuata la metodologia più idonea ad affrontare specifici problemi pratici.

Page 31: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

In tale ottica, il metodo dell‟overlay (cfr. paragrafo 5.1) appare fondato su ipotesi troppo

restrittive ed irrealistiche. Infatti l‟assunto di omogeneità (costanza delle densità all‟interno delle

aree della partizione S) è riscontrabile solo raramente nei fenomeni reali.

In conseguenza di ciò le procedure più interessanti sono la tecnica EM, la tecnica dello

smussamento pycnophylactico e il BIM (sezioni 5.2, 5.3 e 5.4).

Per quel che concerne la tecnica basata sull‟EM, si rammenta che essa presenta una serie di

problemi che ne limitano le possibilità applicative nelle analisi empiriche:

i) innanzitutto la tecnica proposta da Flowerdew et al. (1991) è basata

su un insieme molto circoscritto di modelli statistici (Poisson e binomiale) i quali consentono

soltanto di convertire dati di conteggio e non coprono tutte le scale di misurazione delle

variabili. Ciò rende necessaria prioritariamente l‟estensione della procedura in questione anche

al caso delle variabili continue che, fra l‟altro, sono diffusamente presenti nei data-set di

comune utilizzo. Tale processo di estensione (cfr. Bee e Espa, 1999) necessita di ulteriori

approfondimenti metodologici nonché di test su dati reali e soprattutto simulati prima di poter

assurgere al ruolo di metodologia standard applicabile ai dati in forma routinaria con un livello

di supervisione dell‟analista ridotto al minimo;

ii) essendo la soluzione dell‟algoritmo EM raggiunta per via iterativa

non si hanno sufficienti garanzie che essa sia raggiunta a) in forma unica e b) con tempi di

elaborazione brevi e compatibili con le esigenze di tempestività richieste dal caso in esame;

iii) per quanto riguarda la variabilità delle stime, è prassi comune

calcolare la matrice di informazione osservata (Efron e Hinkley, 1978), che è data dalla matrice

delle derivate parziali seconde della funzione di verosimiglianza, valutata nel punto , vettore

dei parametri stimati. Tuttavia la valutazione analitica della matrice delle derivate seconde sulla

base dei dati incompleti è di solito molto laboriosa. Al riguardo una parziale soluzione è stata

proposta da Louis (1982);

iv) ultimo, ma senz‟altro più rilevante inconveniente, è che nella

procedura proposta da Flowerdew et al. (1991) si suppone che tutte le mn variabili Yts ,

t=1,2,...,m e s=1,2,...,n, relative alle zone di sovrapposizione siano indipendenti. Si tratta di una

ipotesi forte e discutibile contraria alla più peculiare caratteristica dei dati spaziali che è quella

di essere intrinsecamente dipendenti. Per superare questo scoglio è necessario riformulare

l‟intera procedura basata sull‟algoritmo EM a partire da modelli in grado di formalizzare tale

dipendenza. Al riguardo la naturale estensione del lavoro di Flowerdew et al. (1991) e di Bee e

Espa (1999) è nel considerare i cosiddetti auto-modelli (Besag, 1974) i quali costituiscono una

classe di modelli di interazione spaziale senz‟altro più convincenti dell‟ipotesi di indipendenza.

In alternativa, nel caso particolare di distribuzioni gaussiane, si potrebbe procedere in modo più

diretto cercando di parametrizzare gli elementi della matrice di varianze e covarianze in termini

di un numero minimo di parametri.

L‟algoritmo di Tobler mostra, soprattutto rispetto al metodo dell‟overlay, degli indubbi

vantaggi di tipo concettuale che derivano dal considerare nell‟analisi la dipendenza spaziale

mediante gli effetti di vicinato. Per di più non è richiesto l‟assunto di omogeneità all‟interno delle

aree della partizione sorgente. Ma va fatto notare, comunque, come l‟obiettivo dello smussamento

derivi più da una esigenza di semplicità e da una mancanza di alternative che da un effettiva analisi

delle superfici di densità dei fenomeni reali. Inoltre, un ulteriore svantaggio dell‟approccio proposto

da Tobler è che la procedura fornisce solo una stima puntuale senza alcuna considerazione circa lo

standard error delle stime prodotte.

Del resto la tecnica dello smussamento pycnophylactico non presenta le medesime basi

probabilistiche dell‟EM ed appare all‟opposto eccessivamente meccanica nella sua applicazione.

Per quanto osservato qui e nei precedenti paragrafi, pur essendo da tenere presenti in vista di

futuri sviluppi ed applicazioni quando tali tecniche saranno maggiormente approfondite ed inserite

Page 32: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

nelle routine standard dei pacchetti di analisi dei dati, non sembra, pertanto, opportuno suggerire le

tecniche EM e dello smussamento pycnophylactico per la soluzione di problemi di conversione di

dati areali.

Pertanto la soluzione migliore per la disaggregazione di dati regionali sembra essere, almeno

allo stato attuale, quella di rivolgersi alla metodologia bayesiana di interpolazione proposta da

Benedetti e Palma (1994) la quale non soffre delle limitazioni che possono limitare l‟uso delle

tecniche EM e dello smussamento pycnophylactico.

Le ragioni di tale superiorità vanno ricercate essenzialmente nei seguenti punti:

i) l‟uso dei campi aleatori markoviani gaussiani localmente dipendenti

per modellare la struttura di dipendenza dei dati territoriali;

ii) la possibilità di incorporare nell‟analisi quale informazione a priori

l‟informazione ausiliaria relativa alla partizione obiettivo (possibilità peraltro contemplata

anche dalla tecnica EM);

iii) l‟esistenza di una soluzione esatta e di una soluzione iterativa, la

quale fa uso solo di operazioni locali, da utilizzare nel caso in cui ci si trovi in presenza di

sistemi zonali di grandi dimensioni.

C‟è però un rovescio della medaglia che riguarda la determinazione degli errori standard degli

stimatori che si presenta inevitabilmente per la soluzione di tipo bayesiano proposta da Benedetti e

Palma (1994). Infatti, per quanto riguarda il BIM, ha senso parlare di variabilità e precisione delle

stime solo in termini relativi e non assoluti (nemmeno ricorrendo al coefficiente di variazione), in

quanto il livello di 2 può essere artificialmente ridotto tramite l‟introduzione di informazioni più

precise. La varianza a posteriori per di più dipende da un parametro dominante, ossia dal numero di

contigui associati ad ogni area: all‟aumentare della cardinalità del vicinato aumenterà anche la

precisione11

.

Inoltre, come emerso nella sezione 5.5, il BIM non gode della proprietà di robustezza nel senso

che i risultati prodotti dalla sua applicazione dipendono fortemente dalle ipotesi che di volta in volta

vengono formulate. Pertanto, con riferimento all‟implementazione del BIM stesso nelle applicazioni

pratiche, il problema sembra essere, più che di altre varianti metodologiche, di calibrazione

applicativa.

Detto in altri termini, il principio da seguire è quello di lavorare con dati che siano più puri

possibile. In quest‟ottica, ad esempio, invece che disaggregare la popolazione residente, suddivisa

per sesso e fasce di età relativamente a più intervalli temporali, è senz‟altro più conveniente

trasformare la variabile in tassi di variazione i quali, fra l‟altro, assicurano maggiore stabilità.

Pertanto, in questo particolare esempio, l‟idea è quella di disaggregare non tanto la variabile di

interesse quanto piuttosto i parametri che ne permettono la ricostruzione.

Calibrazione applicativa significa anche tentare di individuare trasformate spazialmente

autocorrelate di variabili che risultino, al contrario, incorrelate nello spazio. Ad esempio è

verosimile attendersi che variabili quali il reddito e la popolazione mostrino un‟autocorrelazione

spaziale prossima allo zero così come è verosimile attendersi che la trasformata reddito pro-capite

sia caratterizzata da un significativo trend.

Purtroppo però il BIM, come tutte le metodologie di interpolazione che preservano il volume,

essendo relativamente sottoutilizzate nel panorama statistico, poco conosciute dagli analisti e non

ancora inserite come routine ad hoc nei pacchetti di analisi statistica o nei Sistemi Informativi

11

Il problema della determinazione degli errori standard degli stimatori, come già accennato, non si presenta per la metodologia

di conversione areale fondata sulla tecnica EM. Infatti si può far ricorso alla soluzione proposta da Louis (1982), il quale ha

dimostrato come sia possibile esprimere la matrice di informazione osservata solo tramite la score function della funzione di

verosimiglianza incompleta e l'informazione di Fisher calcolata sulla base della funzione di verosimiglianza completa, che è di solito

più "trattabile" della verosimiglianza incompleta. Si rimanda a McLachlan e Krishnan (1996, cap. 4) per i dettagli e per una rassegna

degli altri metodi disponibili in letteratura.

Page 33: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

Territoriali, richiedono elevati costi di software e humanware. Al fine di favorire il trasferimento e

la comprensione nella pratica operativa della metodologia di interpolazione bayesiana, Espa (2000)

ha proposto, fra le altre cose, una trascrizione in linguaggio di programmazione SAS/IMLTM del

BIM con soluzione esatta.

Bibliografia

Anderson T.W. (1958), An introduction to multivariate statistical analysis, Wiley, New York.

Arbia G. (1989a), Statistical effect of spatial data transformations: a proposed general framework, in Goodchild M.

and Gopal S., eds., Accuracy of Spatial Databases, Taylor and Francis, London, 249–259.

Arbia G. (1989b), Spatial Data Configuration in Statistical Analysis of Regional Economic and Related Problems,

Kluwer, Dordrecht.

Arbia G. (1994), “Introduction: a bird‟s eye view of spatial data and applications”, Quaderni di Statistica e Matematica

applicata alle Scienze Economiche-Sociali, XVI, n.1-2: 1–16.

Arbia G. e Espa G. (1996), Statistica Economica Territoriale, CEDAM, Padova.

Arbia G., Benedetti R. and Espa G. (1996), “Effects of the MAUP on Image Classification”, Geographical Systems, 3,

2–3: 123–141.

Arbia G., Benedetti R. and Espa G. (1999), “Contextual classification in image analysis: an assessment of accuracy of

ICM”, Computational Statistics and Data Analysis, 30, 4: 443–455.

Bee M. e Espa G. (1999), “Metodi Statistici per l‟Interpolazione Areale: l‟Algoritmo EM per Dati Continui”, Statistica

Applicata, 11, 3: 1–28.

Benedetti R. e Espa G. (1993), “Alcuni Metodi per la Generazione di Processi Aleatori Bidimensionali”, Statistica

Applicata, 5, 3: 217–244.

Benedetti R. e Espa, G. (1997), “Stime di potenziali di mercato per piccole aree”, Atti del Convegno SIS La Statistica

per le Imprese, Tirrenia Stampatori, Torino, 1: 335–349.

Benedetti R. and Palma D. (1994a) “Markov random field based image subsampling method”, Journal of Applied

Statistics, 21, 5: 495–509.

Benedetti R. e Palma D. (1992), “L‟aggregazione dei dati territoriali ed i suoi effetti sui metodi statistici”, Statistica, 1:

57–73.

Benedetti R. and Palma D. (1998) “A Transformational View of Spatial Data Analysis”, Geographical Systems, 5: 199–

220.

Benedetti R., Palma D. (1994b) “Disaggregazione, Interpolazione ed Integrazione di Dati Territoriali, Statistica”, 1: 87–

111.

Besag J. (1974), “Spatial Interaction and the Statistical Analysis of Lattice Systems” (with Discussion), Journal of the

Royal Statistical Society, B, 36: 192–236.

Burrough P.A. (1986), Principles of Geographical Information Systems for Land Resources Assessment, Oxford

University Press, Oxford.

Cliff A.D. and Ord J.K. (1981), Spatial Processes: Models and Applications, Pion, London.

Crackel J. (1975), “The linkage of data describing overlapping geographical units - a second iteration”, Historical

Methods Newsletter, 8, 3: 146–150.

Cressie N. (1993), Statistics for Spatial Data (revised edition), John Wiley & Sons, New York.

Dempster A.P., Laird N.M. and Rubin D.B. (1977), “Maximum likelihood from incomplete data via the EM algorithm”,

Journal of the Royal Statistical Society, B, 39: 1–38.

Dubes R.C. and Jain A.K. (1989), “Random Field Models in Image Analysis”, Journal of Applied Statistics, 16: 131–

164.

Espa G. (2000), “Un‟algoritmo per la disaggregazione di dati territoriali”, Quaderno DISA 028-2000, gennaio,

Dipartimento di Informatica e Studi Aziendali, Università di Trento.

Espa G., Benedetti R. e Russo M. (2000), “Alternative Metodologiche per la Stima di Statistiche Agricole Provinciali”,

Atti del convegno SIS Verso i Censimenti del 2000, 2-4 giugno 1999, Udine, Forum Editrice, Vol. II: 335–345.

Flowerdew R. and Green M. (1989), “Statistical methods for inference between incompatible zonal systems”, Research

Report 1, North West Regional Research Laboratory, Lancaster University.

Flowerdew R. and Green M. (1990), “Inference between incompatible zonal systems using the EM algorithm”,

Research Report 6, North West Regional Research Laboratory, Lancaster University.

Flowerdew R. and Green M. (1991), Data integration: statistical methods for transferring data between zonal systems,

in Masser I. and Blakemore M., eds., Handling geographical information, Longman, London, 38–54.

Flowerdew R. and Openshaw S. (1987), “A review of the problems of transferring data from one set of areal units to

another incompatible set”, Northern Regional Research Laboratory, Research Report 4, Universities of Lancaster

and Newcastle upon Tyne.

Flowerdew R., Green M. and Kehris E. (1991), “Using areal interpolation methods in geographic information systems”,

Papers in Regional Science, 70, 3: 303–315.

Page 34: L’interpolazione areale: una soluzione al problema del confronto …taufer/wopap/2013 - Interpolazione... · 2014. 12. 29. · L’interpolazione areale: una soluzione al problema

Ford L. (1976), “Contour reaggregation: another way to integrate data”, Papers, Thirteenth Annual URISA Conference,

11: 528–575.

Goodchild M.F. (1992), “Geographical data modeling”, Computers and Geosciences, 18: 401–408.

Goodchild M.F. and Lam N.S.-N. (1980), “Areal interpolation: a variant of the traditional spatial problem”, Geo-

Processing, 1: 297–312.

Goodchild M.F, Anselin L. and Deichmann U. (1993), “A framework for the areal interpolation of socioeconomic

data”, Environment and Planning A, 25: 383–397.

Green M. (1989), “Statistical Methods for Arela Interpolation: The EM Algorithm for Count Data”, Research Report 3,

North West Regional Research Laboratory, Lancaster University.

Green M. (1990), “Statistical models for areal interpolation”, in Harts J., Ottens H.F.L., Scholten H.J., eds., EGIS ’90:

Proceedings, First European Conference on Geographical Information Systems, EGIS Foundation, Utrecht, The

Netherlands, 1: 392–399.

Hammersley J.M. and Clifford P. (1971), “Markov Fields on Finite Graphs and Lattices”, Manoscritto non pubblicato.

Jenks G.F., Caspall F.C. and Williams D.L. (1969), “The error factor in statistical mapping”, Annals of the Association

of American Geographers, 59: 186–187.

Lam N.S.-N. (1983), “Spatial Interpolation Methods: A Review”, The American Cartographer, 10, 2: 129–149.

Langford M., Unwin D. and Maguire D.J. (1990), Generating improved population density maps in an integrated GIS,

in Harts J., Ottens H.F.L., and Scholten H.J., eds., EGIS ’90: Proceedings, First European Conference on

Geographical Information Systems, EGIS Foundation, Utrecht, The Netherlands, Vol. 2: 651–660.

Langford M., Maguire D.J. and Unwin D. (1991), The areal interpolation problem: estimatine population using remote

sensing in a GIS framework, in Masser I. and Blakemore M., eds., Handling Geographical Information:

Methodology and Potential Applications, Longman Scientific & Technical, 55–77.

Leonenko N and Taufer E. (2013), “Disaggregation of spatial autoregressive processes”, Spatial Statistics, 3: 1–20.

Louis T.A. (1982), “Finding the Observed Information Matrix when Using the EM algorithm”, Journal of the Royal

Statistical Society, B, 44: 226–233.

Lutkepohl H. (1984), “Linear transformations of vector ARMA processes”, Journal of Econometrics, 26: 283–293.

Mackay J.R. (1951), “Some problems and techniques in isopleth mapping”, Economic Geography, 27: 1–9.

Mackay J.R. (1953), “The alternative choice in isopleth interpolation”, The Professional Geographer, 5: 2–4.

Markoff J. e Shapiro G. (1973), “The linkage of data describing overlapping geographical units”, Historical Methods

Newsletter, 7, 1: 34–46.

McLachlan G.J. and Krishnan T. (1996), The EM Algorithm and Extensions, Wiley, New York.

Payne C.D., ed., (1986), The Generalised Linear Interactive Modelling system, Release 3.77, Numerical Algorithms

Group, Oxford.

Pilz J. (1991), Bayesian estimation and experimental design in linear regression models, Wiley, New York.

Rhind D., ed., (1983), A census user’s handbook, Methuen, London. Ripley B.D. (1981), Spatial Statistics, Wiley, New York.

Stearns R. (1968), “A method for estimating the quantitative reliability of isoline maps”, Annals of the Association of

American Geographers, 58: 590–600.

Schmid C.F. e MacCannell E.H. (1955), “Basic Problems, Techniques, and Theory of Isopleth Mapping”, Journal of

the American Statistical Association, 50: 220–239.

Switzer P. (1975), Estimation of the Accuracy of Qualitative Maps, in Davis J. and McCullagh M., eds., Display and

Analysis of Spatial Data, Wiley, New York, 1–13.

Tobler W.R. (1970), “A computer movie simulating urban growth in the Detroit Region”, Economic Geography

(Supplement), 46: 234–240.

Tobler W.R. (1979), “Smooth pycnophylactic interpolation for geographical regions”, Journal of the American

Statistical Association, 74: 519–530.

Tobler W.R. and Kennedy S. (1985), “Smooth Multidimensional Interpolation”, Geographical Analysis, 17, 3: 251–

257.

Venables W.N. and Ripley B.D. (1994), Modern Applied Statistics with S-Plus, Springer-Verlag, New York.