36
Araniti E., Gatto F., Marrara D., Rodà D., Romano R.

Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

Embed Size (px)

Citation preview

Page 1: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

Araniti E., Gatto F., Marrara D., Rodà D., Romano R.

Page 2: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del
Page 3: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del
Page 4: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

i

Sommario Introduzione .............................................................................................................................................................1

QlikView ....................................................................................................................................................................4

Dissesto statico ed idrogeologico .........................................................................................................................5

Incendi normali .....................................................................................................................................................6

Incendi di natura dolosa .......................................................................................................................................8

Interventi per incidenti stradali: ........................................................................................................................ 10

Analisi delle sostanze ......................................................................................................................................... 12

Tempi di intervento ........................................................................................................................................... 13

WEKA ..................................................................................................................................................................... 20

Il Pre-Processamento ......................................................................................................................................... 21

La classificazione ................................................................................................................................................ 23

Il clustering ........................................................................................................................................................ 26

Le regole associative .......................................................................................................................................... 29

Conclusioni ............................................................................................................................................................ 31

Page 5: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del
Page 6: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

1

Introduzione

Il Corpo Nazionale dei Vigili del Fuoco è una struttura dello Stato per il servizio di soccorso pubblico,

prevenzione ed estinzione degli incendi su tutto il territorio nazionale ed altre attività per assicurare la

sicurezza.

L'obiettivo di questo lavoro è quello di studiare e analizzare approfonditamente gli interventi dei Vigili

del Fuoco del Comando Provinciale di Reggio Calabria, negli anni 2010-2015. Al fine di ottenere dati

utili al nostro lavoro, abbiamo inviato una richiesta formale presso l'Ufficio Statistiche operante nella

Sede Centrale dei Vigili del Fuoco. In seguito, la richiesta è stata inoltrata presso il Comando

Provinciale di Catanzaro, all'interno del quale è collocato il database centrale che memorizza tutti gli

interventi su scala regionale.

Da esso è stato estrapolato un file tabellare in formato .xls, contenente i seguenti attributi (con

accanto una breve descrizione):

Numero: indica il numero di protocollo, che riparte dal valore "1" all'inizio di ogni anno;

Progressivo: indica il numero di squadre intervenute in un singolo intervento;

Data: indica il giorno, il mese e l'anno in formato gg/mm/aaaa in cui è stato effettuato

l'intervento;

Codice Distaccamento: codice univoco associato ad ogni sede dei VVF del Comando

Provinciale di Reggio Calabria;

Descrizione: indica il nome con cui viene identificata ogni sede;

Regione: indica la regione in cui è stato effettuato un determinato intervento;

Provincia: indica la provincia in cui è stato effettuato un determinato intervento;

Comune: indica il comune in cui è stato effettuato un determinato intervento;

Chiamata: indica l'orario in formato hh:mm:ss in cui una sede ha ricevuto una chiamata per

una richiesta di intervento;

Uscita: indica l'orario in formato hh:mm:ss in cui una squadra è uscita dalla caserma di

appartenenza per raggiungere il luogo di intervento;

Arrivo: indica l'orario in formato hh:mm:ss in cui una squadra è arrivata sul luogo

dell'intervento;

Partenza: indica l'orario in formato hh:mm:ss in cui una squadra è ripartita dal luogo di

intervento per far rientro in caserma;

Luogo: indica la tipologia di luogo in cui è stato effettuato l'intervento (piazza, strada cittadina,

boschi, etc.);

Tipologia: indica il tipo di intervento effettuato (incendio, apertura porte e finestre, frane,

Page 7: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

2

etc.);

Sostanza: indica le eventuali sostanze interessate per ogni singolo intervento (acidi, sterpaglie,

alberi, etc.);

Causa: indica la causa che hanno scatenato la necessità di intervento da parte dei VVF;

Boschi bruciati: indica la superficie, espressa in ettari, di boschi interessati da un incendio;

Campi bruciati: indica la superficie, espressa in ettari, di campi interessati da un incendio;

Sterpaglia bruciata: indica la superficie, espressa in ettari, di sterpaglie interessate da un

incendio.

Page 8: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

3

All’interno del Comando Provinciale dei Vigili del fuoco di Reggio Calabria, presso l’ufficio statistiche,

vengono già condotte su scala temporale analisi statistiche, relative agli interventi basate sulla

tipologia, sulle cause, sui luoghi, sulle sedi operative coinvolte ecc. Con il seguente studio vogliamo

approfondire e migliorare questi aspetti al fine di trarne vantaggio dal punto di vista della prevenzione

e dell’organizzazione degli interventi futuri.

Da ricerche condotte sul web, abbiamo ricavato che studi simili sono già stati condotti in passato. Un

esempio è il progetto sviluppato dallo svedese Stefan Sardqvist e Goran Holmsted della Lund

University (Svezia), riguardante l’analisi dei dati sugli incendi in edifici non residenziali nell’area

metropolitana di Londra per il periodo che va dal 1994 al 1997.

Page 9: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

4

QlikView

QlikView è una piattaforma di Business Intelligence riconosciuta come leader mondiale tra i tool di

analisi dei dati. Propone una nuova classe di soluzioni analitiche facili da utilizzare, veloci e flessibili

che consentono di migliorare e rinnovare le

prestazioni delle organizzazioni aziendali.

QlikView utilizza un’innovativa tecnologia

associativa, che elabora dinamicamente i dati in

memoria, per rendere drasticamente più

semplice lo sviluppo, l’utilizzo e la manutenzione

di sofisticate applicazioni di analisi e reporting.

Un punto di forza di questo software risiede senz'altro nelle sue elevate capacità associative, che ci

hanno consentito di realizzare grafici statistici mirati, grazie soprattutto alla possibilità di effettuare

operazioni di drill-down/roll-up sui dati.

Gli aspetti considerati mediante l’analisi dei dati in nostro possesso sono stati in primo luogo:

Dissesto statico ed idrogeologico

Incendi normali

Incendi di natura dolosa

Incidenti stradali

Successivamente lo studio si è focalizzato sull’analisi statistica dei dati. Abbiamo pertanto analizzato

tutti gli aspetti temporali (durata degli interventi, tempo impiegato per giungere sul posto, etc.), il

numero di interventi per sedi e per comune e tutte le informazioni riguardanti le tipologie di incendi,

le sostanze e le cause più frequenti.

Page 10: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

5

Dissesto statico ed idrogeologico

Andamento degli interventi per danni d’acqua

Il grafico mostra, su base mensile, il numero di interventi fatti per danni causati dall’acqua. Il picco

evidente nel mese di ottobre 2010 è dovuto alle massicce operazioni di ricerca e di soccorso che sono

state effettuate nel comune di San Lorenzo (Reggio Calabria) in riferimento ad un’alluvione di

massiccia entità, che ha causato allagamenti, smottamenti ed un disperso.

Dissesto elementi costruttivi

Nel grafico sono mostrati tutti gli interventi dei Vigili del Fuoco, nel periodo considerato, in

riferimento al “Dissesto statico di elementi costruttivi”, come edifici, monumenti etc.

Page 11: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

6

Incendi normali

Numero di interventi per incendio normale (suddivisi per sede)

Come si evince dal grafico il maggior numero di interventi, riferiti agli incendi normali, sono stati

effettuati, come prevedibile, dal Comando Provinciale di Reggio Calabria; seguono i distaccamenti di

Siderno e Palmi.

Numero di interventi per incendi di rifiuti (suddivisi per sede)

L’emergenza rifiuti che la provincia di Reggio Calabria ha affrontato negli ultimi anni ha influenzato

notevolmente il numero di interventi dovuti all’incendio dei rifiuti. È evidente infatti l’elevato numero

di operazioni svolte in questo senso dal Comando Provinciale di Reggio Calabria.

Page 12: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

7

Andamento degli incendi normali

Nell’analizzare l’andamento degli incendi normali negli ultimi 5 anni, notiamo che i picchi maggiori si

presentano nel periodo estivo.

Andamento degli incendi boschivi nei mesi estivi

Il grafico mostra l’andamento degli incendi boschivi nei mesi estivi. Notiamo che nell’ultimo anno gli

incendi sembrano diminuiti; in realtà prima di giugno 2015 gli incendi boschivi erano registrati nei

rapporti come “Incendio Normale”, mentre dal giugno del 2015 è stata introdotta la categoria

specifica “Incendio Boschivo”. Bisogna inoltre specificare che il numero degli interventi non consente

di effettuare una stima esatta degli incendi che si sono verificati, in quanto la carenza di personale

comporta spesso l’impossibilità di intervenire.

Page 13: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

8

Incendi di natura dolosa

Diffusione degli interventi per causa dolosa

Il grafico a bolle vuole mostrare il mese e l’orario più frequenti in cui si sono verificati incendi di

natura dolosa. Come si può notare, e come ci si poteva aspettare, la maggior parte degli interventi è

stata effettuata nelle ore notturne. Il massimo si è registrato a luglio alle ore 2:00.

Numero di interventi per incendi di natura dolosa

L’analisi, in questo caso, mostra il numero di interventi dei Vigili del Fuoco per incendi di natura

dolosa. Questi risultati, però, possono dare solo un’informazione approssimata, poiché, nella maggior

parte dei casi, non è stata possibile accertare la causa dolosa nell’immediatezza dell’evento.

Page 14: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

9

Luoghi più frequenti per cause dolose

Gran parte degli interventi per causa dolosa sono stati svolti in zone urbana, infatti al primo posto

abbiamo “Strade e/o piazze cittadine”, seguite da “Cortili” e da “Appartamenti e locali di abitazione”.

Page 15: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

10

Interventi per incidenti stradali:

Andamento mensile degli interventi per incidenti stradali:

Di grande interesse sono i risultati ottenuti dall’analisi dei dati relativi agli incidenti stradali. Il totale

degli interventi per mese può essere osservato nella figura seguente. Il maggior numero di chiamate

alle sedi è stato registrato nei mesi di dicembre e gennaio, seguiti da agosto.

Andamento degli interventi per incidente stradale nelle 24 ore

L’orario di maggiore incidenza coincide con la fascia oraria pomeridiana (dalle 14:00 alle 18:00),

mentre quella di minore incidenza va dalle 2:00 alle 5:00 del mattino.

Page 16: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

11

Distribuzione degli interventi per incidente stradale

Incrociando i valori ottenuti in precedenza (al variare delle ore e dei mesi), otteniamo il seguente

grafico a bolle, in cui notiamo che il valore massimo si ha nel mese di agosto tra le 18:00 e le 19:00.

Page 17: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

12

Analisi delle sostanze

Percentuale delle sostanze più frequenti negli interventi

Dal grafico notiamo che le sostanze più coinvolte negli interventi sono i “Rifiuti”, seguiti dalle

“Sterpaglie” e dalle “Autovetture”.

Andamento delle 5 sostanze più ricorrenti per tipologie e cause più comuni

Considerate le cinque sostanze più frequenti, date la tipologia e la causa più comuni di intervento, il

grafico a barre evidenzia che, per gli interventi in cui la causa è “Vetustà” e la tipologia “Danni ad

elementi costruttivi”, le sostanze più coinvolte (ordinate in maniera crescente) sono “Intonaco”,

“Alberi” e “Solai”.

Page 18: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

13

Tempi di intervento

Tempo medio di arrivo sul posto

Il tempo medio di arrivo sul posto è calcolato come la media dell’intervallo di tempo che intercorre tra

l’uscita della squadra all’arrivo sul posto. Ad esempio, in riferimento alla sede operativa di Villa San

Giovanni, notiamo che, in media, per il comune di Taurianova (vedi barra colore celeste) il tempo di

arrivo sul posto è di circa 115 minuti, mentre per interventi in loco (colore giallo) i minuti sono circa 8.

Tempo medio di arrivo sul posto delle squadre del Comando Provinciale di Reggio Calabria

Analizzando, in particolare, gli interventi del Comando Provinciale, ricaviamo che il comune più

“difficile” da raggiungere è Cardeto.

Page 19: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

14

Ore totali di intervento per ciascuna sede

Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando

Provinciale di Reggio Calabria ha all’attivo ben 16.520 ore di intervento. La tipologie più frequenti,

come visto anche in precedenza, sono “Incendio normale” (rappresentato in celeste), “Dissesto statico

di elementi costruttivi” (in rosso) e “Apertura porte e finestre” (in giallo).

Ore totali spese da ciascuna sede per “Incendi normali” ed “Apertura porte e finestre”

Essendo “Incendio Normale” ed “Apertura porte e finestre” le tipologie di intervento più diffuse, il

grafico mostra le ore totali che hanno impegnato ciascun comando per queste due tipologie.

Page 20: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

15

Numero di interventi totale per ciascun comune

Il grafico rappresenta il numero di interventi che sono stati effettuati in uno specifico comune. Come

prevedibile, il maggior numero di interventi è stato effettuato nel comune di Reggio Calabria, cui

seguono Siderno e Palmi, dove sono stati compiuti rispettivamente un numero di interventi pari a

2.475 e 2.161.

Numero di interventi per tipologia, suddivisi per sede

Il seguente grafico dà una visione più chiara di quali sono le tipologie che interessano maggiormente

le singole sedi.

Page 21: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

16

Numero di interventi per soccorso a persone, suddivisi per sede

Analizzando in particolare gli interventi per “Soccorso a persone”, notiamo che il maggior numero di

interventi sono stati effettuati dal Comando Provinciale di Reggio Calabria (1.073), seguito dai

comandi di Siderno (124) e Villa S. Giovanni (117).

Luogo degli interventi

Gli interventi dei vigili del fuoco interessano soprattutto “Strade e piazze cittadine” (19.757) e

“Appartamenti e locali di abitazione” (12.230), seguiti da “Strade extraurbane” (6.168) ed “Edifici in

genere” (3.110).

Page 22: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

17

Andamento delle prime 5 tipologie di intervento più frequenti

Il seguente grafico mostra la distribuzione temporale delle prime cinque tipologie di intervento più

frequenti. Notiamo subito che gli “Incendio normale” sono la tipologia più comune e più dinamica nel

tempo (picchi nei periodi estivi), mentre le altre tipologie hanno una distribuzione meno variabile.

Andamento delle prime 5 Tipologie di intervento più frequenti escludendo incendi ed aperture

porte e finestre

Essendo “Incendio generico” ed “Apertura porte e finestre” le tipologie più diffuse, le abbiamo escluse

e ricavato un grafico che mostra più in dettagli le successive cinque categorie più frequenti. Notiamo

che la tipologia “Danni d’acqua in genere” ha un picco a settembre 2010, ricollegabile ad un’alluvione

nel comune di S. Lorenzo.

Page 23: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

18

Numero di interventi per falso allarme

Il seguente grafico mostra quanti interventi per le singole sedi si sono rivelati dei falsi allarmi.

Numero di interventi per ascensori bloccati

Nella figura è mostrato l’andamento degli interventi eseguiti da ogni sede per “Ascensori bloccati”.

Page 24: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

19

Cause più frequenti per interventi di apertura di porte e finestre

Dal grafico ricaviamo che le cause più comuni per interventi di “Apertura porte e finestre” sono

“Disattenzione generale” (barra blu), “Cause impreviste” (barra rossa), “Funzionamento difettoso di

impianti e/o macchinari in genere” (barra verde chiaro).

Cause di interventi per cattura folli ed alienati

La maggior parte degli interventi di “Cattura folli e alienati” ha come causa “Alienazione” (barra blu) e

“Tentato suicidio” (barra rossa).

Page 25: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

20

WEKA

Weka (Waikato Environment for Knowledge Analysis) è un software open source per l'apprendimento automatico sviluppato nell'università di Waikato in Nuova Zelanda. Una curiosità legata alla sigla è che corrisponde al nome di un animale molto curioso simile al Kiwi, diffuso solo nelle isole della Nuova Zelanda.

Weka è una collezione di algoritmi di machine learning per attività di data mining ed è possibile impiegarlo anche in ambito big data. Gli algoritmi possono essere applicati sia direttamente al dataset sia richiamandoli attraverso codice Java, visto che Weka è completamente scritto con questo linguaggio. Weka contiene tools per il pre-processamento dei dati, la classificazione, la regressione, il clustering, le regole associative e la visualizzazione. Inoltre, vista la natura open source del software, è possibile creare e testare nuovi schemi di machine learning.

Page 26: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

21

Il Pre-Processamento

Il principale tipo di dati con cui opera Weka è ARFF (Attribute-Relation File Format), che contiene una lista di relazioni, attributi e dati. I file ARFF sono stati sviluppati dal Machine Learning Project del Dipartimento di Scienze Informatiche dell’Università di Waikato, appositamente per essere utilizzati dal software Weka. Altri formati di file compatibili all’uso di Weka sono CSV (Comma-Separated Values) e JSON (JavaScript Object Notation), entrambi adatti per esportare e/o importare dati da un sistema ad un altro.

Una volta caricati i dati, essi possono essere opportunamente filtrati grazie a degli algoritmi. Il filtraggio può avvenire per valore o per attributo. Nel nostro caso, dopo aver caricato il file .csv, abbiamo filtrato i dati per attributo, scegliendo di effettuare le successive analisi solo sugli attributi Luogo generico, Categoria, Sostanza generica, Causa generica.

In realtà, in prima analisi avevamo considerato gli attributi originali Luogo, Tipologia, Causa, Sostanza. Dall’applicazione degli algoritmi di classificazione, di clustering e delle regole associative, è emerso che i valori relativi a questi attributi erano molto numerosi e ciò rendeva i risultati incomprensibili e/o non significativi. Abbiamo quindi effettuato un’operazione di ETL (Extract, Transform, Load) sui dati, creando quattro nuovi attributi in cui sono stati memorizzati dei nuovi valori, che raggruppano semanticamente i valori originali.

Page 27: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

22

Con i dati così elaborati abbiamo applicato gli algoritmi di clustering, di classificazione e delle regole associative, scegliendo opportunamente quelli che operano anche con valori nominali, vista la natura dei nostri dati.

Page 28: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

23

La classificazione

Tra i numerosi algoritmi di classificazione messi a disposizione da Weka, abbiamo applicato ai nostri dati Bayesnet, J48, NaiveBayes e RandomTree.

Bayesnet è un algoritmo che rappresenta un insieme di variabili stocastiche con le loro dipendenze condizionali attraverso l'uso di un grafo aciclico diretto (DAG), in cui i nodi sono le variabili, gli archi le relazioni di dipendenza statistica tra le variabili e le distribuzioni locali di probabilità dei nodi foglia rispetto ai valori dei nodi padre. Eseguendo questo algoritmo con i nostri dati come input, si ottiene:

Il grafo risultante indica che gli attributi Luogo generico, Categoria e Sostanza generica sono statisticamente dipendenti da Causa generica.

In particolare, la distribuzione di probabilità delle cause è:

La distribuzione di probabilità dei luoghi rispetto alle cause è:

Quella delle categorie rispetto alle cause è:

Infine, quella delle sostanze rispetto alle cause è:

Le ultime due colonne rappresentano, rispettivamente, Sostanza biologica e Sostanza tossica.

Page 29: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

24

J48 è un algoritmo basato sugli alberi di decisione, che crea è un grafo di decisioni e delle loro possibili conseguenze. Abbiamo applicato l’algoritmo con due configurazioni, la prima con una confidenza di 0.2 e la seconda di 0.5, richiedendo, in entrambi i casi, che il numero minimo di istanze contenti uno specifico attributo fosse 10000. Gli alberi di decisione risultanti sono identici:

Abbiamo scelto un numero minimo di istanze elevato in modo da ottenere un albero significativo e leggibile.

NaiveBayes è un classificatore basato sull'applicazione del teorema di Bayes, quindi richiede la conoscenza delle probabilità a priori e condizionali relative al problema, che in generale non sono note ma sono stimabili. In particolare NaiveBayes è un classificatore bayesiano semplificato che fa ipotizza l’indipendenza delle valori, cioè assume che la presenza o l'assenza di una particolare valore non è correlata alla presenza o assenza di altri valori. Applicando l’algoritmo ai nostri dati si ottiene:

Page 30: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

25

RandomTree è un algoritmo di classificazione basato su stime probabilistiche e costruisce un albero che considera per ogni nodo k attributi scelti in modo random. Nell’eseguire l’algoritmo, abbiamo usato due configurazioni, una con un numero minimo di istanze pari a 7500, una con 10000. In entrambi i casi abbiamo ottenuto il seguente albero:

Page 31: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

26

Il clustering

Weka contiene svariati algoritmi per il clustering, in particolare noi abbiamo utilizzato Cobweb, EM e SimpleKMeans.

Cobweb è un sistema incrementale per fare clustering concettuale gerarchico, costruendo alberi di classificazione. In un albero, ogni nodo rappresenta una classe, cioè un concetto. Applicando Cobweb ai nostri dati, otteniamo:

EM (Expectation–Maximization) è un algoritmo che usa un metodo iterativo per trovare stime di maximum likelihood o maximum a posteriori (MAP) sui parametri del modello. Eseguendo questo algoritmo sui nostri dati, abbiamo ricavato:

il clustering dei luoghi rispetto alle categorie di intervento:

Page 32: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

27

il clustering rispetto alla categoria e rispetto ai luoghi:

Page 33: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

28

il clustering degli interventi rispetto ai luoghi:

SimpleKMeans è una variante di EM che consente di fare clustering partizionale, cioè permette di suddividere un insieme di oggetti in K gruppi sulla base dei loro attributi. Applicato ai nostri dati (in particolare usando gli attributi Descrizione e Tipologia), restituisce il seguente risultato:

Page 34: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

29

Le regole associative

Tra gli algoritmi proposti da Weka, abbiamo usato l’algoritmo Apriori.

Apriori è il classico algoritmo di ricerca delle associazioni frequenti, per approssimazioni successive, a partire dagli insiemi con un solo elemento. In altre parole, il presupposto su cui si basa l'algoritmo è che se un insieme di oggetti è frequente, allora anche tutti i suoi sottoinsiemi sono frequenti. Abbiamo applicato Apriori ai nostri dati:

1. utilizzando gli attributi Tipologia, Sostanza e Causa, con supporto minimo 0.2 e confidenza massima 0.9, abbiamo ottenuto:

2. utilizzando gli attributi Area, Regione e Provincia, con supporto minimo 0.2 e confidenza massima 0.9, abbiamo ottenuto:

1. Sostanza=Rifiuti, Causa=Non potute accertare nell’immediatezza dell’evento 13822 ==> Tipologia=Incendio

normale (generico) 13704 <conf:(0.99)> lift:(1.83) lev:(0.11) [6230] conv:(53.35)

2. Sostanza=Rifiuti 14437 ==> Tipologia=Incendio normale (generico) 14243 <conf:(0.99)> lift:(1.82)

lev:(0.11) [6436] conv:(34)

3. Tipologia=Incendio normale (generico), Sostanza=Rifiuti 14243 ==> Causa=Non potute accertare

nell’immediatezza dell’evento 13704 <conf:(0.96)> lift:(2.03) lev:(0.12) [6968] conv:(13.9)

4. Tipologia=Incendio normale (generico), Sostanza=Sterpaglie 7988 ==> Causa=Non potute accertare

nell’immediatezza dell’evento 7675 <conf:(0.96)> lift:(2.03) lev:(0.07) [3897] conv:(13.41)

5. Sostanza=Rifiuti 14437 ==> Causa=Non potute accertare nell’immediatezza dell’evento 13822

<conf:(0.96)> lift:(2.02) lev:(0.12) [6994] conv:(12.35)

6. Sostanza=Sterpaglie 8620 ==> Causa=Non potute accertare nell’immediatezza dell’evento 8197

<conf:(0.95)> lift:(2.01) lev:(0.07) [4120] conv:(10.72)

7. Sostanza=Rifiuti 14437 ==> Tipologia=Incendio normale (generico) Causa=Non potute accertare

nell’immediatezza dell’evento 13704 <conf:(0.95)> lift:(2.2) lev:(0.13) [7463] conv:(11.17)

8. Sostanza=Sterpaglie, Causa=Non potute accertare nell’immediatezza dell’evento 8197 ==>

Tipologia=Incendio normale (generico) 7675 <conf:(0.94)> lift:(1.73) lev:(0.06) [3242] conv:(7.2)

9. Sostanza=Sterpaglie 8620 ==> Tipologia=Incendio normale (generico) 7988 <conf:(0.93)> lift:(1.71)

lev:(0.06) [3327] conv:(6.25)

10. Causa=Non potute accertare nell’immediatezza dell’evento 27619 ==> Tipologia=Incendio normale

(generico) 25246 <conf:(0.91)> lift:(1.69) lev:(0.18) [10312] conv:(5.34)

1. Regione=CALABRIA 58387 ==> Area=SUD 58387 <conf:(1)> lift:(1) lev:(0) [0] conv:(0)

2. Provincia=REGGIO CALABRIA 58282 ==> Area=SUD 58282 <conf:(1)> lift:(1) lev:(0) [0] conv:(0)

3. Provincia=REGGIO CALABRIA 58282 ==> Regione=CALABRIA 58282 <conf:(1)> lift:(1) lev:(0) [15]

conv:(15.97)

4. Regione=CALABRIA Provincia=REGGIO CALABRIA 58282 ==> Area=SUD 58282 <conf:(1)> lift:(1) lev:(0) [0]

conv:(0)

5. Area=SUD Provincia=REGGIO CALABRIA 58282 ==> Regione=CALABRIA 58282 <conf:(1)> lift:(1) lev:(0) [15]

conv:(15.97)

6. Provincia=REGGIO CALABRIA 58282 ==> Area=SUD Regione=CALABRIA 58282 <conf:(1)> lift:(1) lev:(0) [15]

conv:(15.97)

7. Area=SUD 58403 ==> Regione=CALABRIA 58387 <conf:(1)> lift:(1) lev:(0) [0] conv:(0.94)

8. Regione=CALABRIA 58387 ==> Provincia=REGGIO CALABRIA 58282 <conf:(1)> lift:(1) lev:(0) [15]

conv:(1.14)

9. Area=SUD Regione=CALABRIA 58387 ==> Provincia=REGGIO CALABRIA 58282 <conf:(1)> lift:(1) lev:(0) [15]

conv:(1.14)

10. Regione=CALABRIA 58387 ==> Area=SUD Provincia=REGGIO CALABRIA 58282 <conf:(1)> lift:(1) lev:(0)

[15] conv:(1.14)

Page 35: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

30

3. utilizzando gli attributi Luogo generico, Categoria, Sostanza generica e Causa generica, con supporto minimo 0.2 e confidenza massima 0.9, abbiamo ottenuto:

4. utilizzando gli attributi Luogo generico, Categoria, Sostanza generica e Causa generica, con supporto minimo 0.25 e confidenza massima 0.75, abbiamo ottenuto:

1. Luogo generico=Infrastrutture, Categoria=Incendio, Sostanza generica=Rifiuti e cassonetti 12759

==> Causa generica=Altro 12717 <conf:(1)> lift:(1.36) lev:(0.06) [3390] conv:(79.82)

2. Luogo generico=Infrastrutture, Sostanza generica=Rifiuti e cassonetti 12921 ==> Causa

generica=Altro 12878 <conf:(1)> lift:(1.36) lev:(0.06) [3432] conv:(79)

3. Categoria=Incendio, Sostanza generica=Rifiuti e cassonetti 14284 ==> Causa generica=Altro 14220

<conf:(1)> lift:(1.36) lev:(0.06) [3778] conv:(59.12)

4. Sostanza generica=Rifiuti e cassonetti 14479 ==> Causa generica=Altro 14414 <conf:(1)>

lift:(1.36) lev:(0.07) [3829] conv:(59.02)

5. Luogo generico=Infrastrutture, Sostanza generica=Rifiuti e cassonetti, Causa generica=Altro 12878

==> Categoria=Incendio 12717 <conf:(0.99)> lift:(1.8) lev:(0.1) [5653] conv:(35.89)

6. Luogo generico=Infrastrutture, Sostanza generica=Rifiuti e cassonetti 12921 ==> Categoria=Incendio

12759 <conf:(0.99)> lift:(1.8) lev:(0.1) [5672] conv:(35.79)

7. Sostanza generica=Rifiuti e cassonetti, Causa generica=Altro 14414 ==> Categoria=Incendio 14220

<conf:(0.99)> lift:(1.8) lev:(0.11) [6314] conv:(33.38)

8. Sostanza generica=Rifiuti e cassonetti 14479 ==> Categoria=Incendio 14284 <conf:(0.99)>

lift:(1.8) lev:(0.11) [6342] conv:(33.35)

9. Luogo generico=Infrastrutture, Sostanza generica=Rifiuti e cassonetti 12921 ==>

Categoria=Incendio, Causa generica=Altro 12717 <conf:(0.98)> lift:(2.04) lev:(0.11) [6493]

conv:(32.67)

10. Sostanza generica=Rifiuti e cassonetti 14479 ==> Categoria=Incendio, Causa generica=Altro 14220

<conf:(0.98)> lift:(2.04) lev:(0.12) [7245] conv:(28.86)

1. Luogo generico=Infrastrutture, Categoria=Incendio 19961 ==> Causa generica=Altro 18286

<conf:(0.92)> lift:(1.25) lev:(0.06) [3694] conv:(3.2)

2. Categoria=Incendio 32033 ==> Causa generica=Altro 28132 <conf:(0.88)> lift:(1.2) lev:(0.08)

[4716] conv:(2.21)

3. Luogo generico=Infrastrutture, Causa generica=Altro 22175 ==> Categoria=Incendio 18286

<conf:(0.82)> lift:(1.5) lev:(0.1) [6123] conv:(2.57)

4. Luogo generico=Infrastrutture 27240 ==> Causa generica=Altro 22175 <conf:(0.81)> lift:(1.11)

lev:(0.04) [2262] conv:(1.45)

Page 36: Araniti E., Gatto F., Marrara D., Rodà D., Romano R · Il grafico mostra il totale delle ore di intervento per ogni sede. Notiamo come la sede del Comando Notiamo come la sede del

31

Conclusioni

L’analisi dei dati degli interventi dei Vigili del Fuoco della provincia di Reggio Calabria attraverso il tool QlikView ci ha consentito di ricavare informazioni inerenti a tale contesto e far emergere aspetti potenzialmente cruciali in merito a:

• gestione e ottimizzazione delle risorse (mezzi e personale dei Vigili del Fuoco);

• carenza di personale e/o determinate tipologie di mezzi;

• coordinamento con altri corpi (Polizia di Stato, Carabinieri, Guardia Forestale, Pronto Soccorso, Protezione Civile, etc.);

• andamento di specifiche tipologie di intervento nel corso degli ultimi 5 anni;

• correlazione tra specifiche tipologie di intervento e fattori esterni influenti (fattori ambientali, sociali, politici, etc.).

I risultati ottenuti potrebbero essere utilizzati per la prevenzione, per migliorare il coordinamento con altri corpi di pubblica sicurezza e soprattutto per migliorare ed ottimizzare l’organizzazione degli interventi.

Nell’applicare gli algoritmi messi a disposizione da Weka ci siamo resi conto che i nostri dati, essendo nominali, sono poco adatti ad essere elaborati. Per poter ricavare risultati leggibili e soprattutto significativi, abbiamo effettuato un’operazione ETL sui dati originali, che ci ha consentito di ridurre notevolmente il numero complessivo di valori degli attributi. Dai risultati a cui siamo giunti abbiamo ricavato che l’applicazione dei vari algoritmi di classificazione, clustering e associazione, eseguiti in più volte con parametri diversi, ha portato a risultati coerenti tra loro, abbastanza significativi e leggibili, soprattutto dopo l’operazione ETL. In particolare, i risultati più significativi e intuitivi sono stati quelli dell’algoritmo Apriori.