19
Università degli Studi di Modena e Reggio Emilia Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria ”Enzo Ferrari” Dipartimento di Ingegneria ”Enzo Ferrari” Corso di Laurea in Ingegneria Informatica Corso di Laurea in Ingegneria Informatica Anonymization on Integrated Clinical Anonymization on Integrated Clinical Data Data (Tecniche di anonimizzazione su dati clinici integrati) (Tecniche di anonimizzazione su dati clinici integrati) Relatore: Relatore: Candidato: Candidato: Chiar.ma Prof.ssa Sonia Bergamaschi Chiar.ma Prof.ssa Sonia Bergamaschi Gabriele Trombetta Gabriele Trombetta Anno Accademico: 2012/2013 Anno Accademico: 2012/2013

Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

Embed Size (px)

Citation preview

Page 1: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

Università degli Studi di Modena e Reggio EmiliaUniversità degli Studi di Modena e Reggio EmiliaDipartimento di Ingegneria ”Enzo Ferrari”Dipartimento di Ingegneria ”Enzo Ferrari”

Corso di Laurea in Ingegneria InformaticaCorso di Laurea in Ingegneria Informatica

Anonymization on Integrated Clinical DataAnonymization on Integrated Clinical Data(Tecniche di anonimizzazione su dati clinici integrati)(Tecniche di anonimizzazione su dati clinici integrati)

Relatore:Relatore: Candidato:Candidato:

Chiar.ma Prof.ssa Sonia BergamaschiChiar.ma Prof.ssa Sonia Bergamaschi Gabriele TrombettaGabriele Trombetta

Anno Accademico: 2012/2013Anno Accademico: 2012/2013

Page 2: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

Introduzione alla tesiIntroduzione alla tesi

E' stato analizzato un caso concretoE' stato analizzato un caso concreto E' stato studiato lo ”state of the art” sull'anonimizzazioneE' stato studiato lo ”state of the art” sull'anonimizzazione E' stata prodotta una web application che, interrogando un E' stata prodotta una web application che, interrogando un

database clinico integrato, produce risposte anonimizzatedatabase clinico integrato, produce risposte anonimizzate Per la stesura della tesi è stata scelta la lingua inglesePer la stesura della tesi è stata scelta la lingua inglese

Page 3: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

PrivacyPrivacy

La definizione del concetto di privacy e lo studio di metodologie La definizione del concetto di privacy e lo studio di metodologie per garantirla sono alcune delle problematiche più importanti per garantirla sono alcune delle problematiche più importanti dell'IT modernodell'IT moderno

La crescita esponenziale della produzione di transistors, la La crescita esponenziale della produzione di transistors, la capacità di immagazzinamento di dati e la facilità di accesso alle capacità di immagazzinamento di dati e la facilità di accesso alle nuove tecnologie hanno determinato l'aumento del volume di nuove tecnologie hanno determinato l'aumento del volume di dati prodottidati prodotti

E' stato stimato che i dati generati giornalmente da utenti nel E' stato stimato che i dati generati giornalmente da utenti nel 2007 si aggirassero sugli 8-10 gygabyte di dati pubblici e 4 2007 si aggirassero sugli 8-10 gygabyte di dati pubblici e 4 terabyte di dati privati terabyte di dati privati [1][1]

Page 4: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

Perchè?Perchè?

Se la sanità degli Stati Uniti usasse i dati privati in modo Se la sanità degli Stati Uniti usasse i dati privati in modo creativo per migliorare l'efficienza e la qualità dei propri creativo per migliorare l'efficienza e la qualità dei propri servizi, il settore potrebbe creare più di 300 miliardi di servizi, il settore potrebbe creare più di 300 miliardi di dollari ogni annodollari ogni anno

McKinsey Global Institute Report McKinsey Global Institute Report

Il diritto alla privacy è sancito dalla Convenzione Europea Il diritto alla privacy è sancito dalla Convenzione Europea [2][2]

...e dalla Costituzione Italiana ...e dalla Costituzione Italiana [3][3]

In materia di protezione dei dati personali è attualmente in In materia di protezione dei dati personali è attualmente in vigore il decreto legislativo del 30 giugno 2003 vigore il decreto legislativo del 30 giugno 2003 [4][4]

Page 5: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

Casi tristemente famosiCasi tristemente famosi

Un ulteriore motivo che ci spinge verso la ricerca di sistemi che Un ulteriore motivo che ci spinge verso la ricerca di sistemi che garantiscano livelli adeguati di anonimizzazione per garantire il garantiscano livelli adeguati di anonimizzazione per garantire il diritto alla privacy è sicuramente l'obbligo morale e diritto alla privacy è sicuramente l'obbligo morale e professionale di non ripetere gli errori del passato.professionale di non ripetere gli errori del passato.

Nel 2002 il governo del MassachussettsNel 2002 il governo del Massachussetts

Nel 2004 la ChoicepointNel 2004 la Choicepoint

Nel 2006 America OnLine "AOL"Nel 2006 America OnLine "AOL"[5][5]

Page 6: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

TerminologiaTerminologia

IdentificatoreIdentificatore: un identificatore univoco , ad esempio il SSN : un identificatore univoco , ad esempio il SSN (social secury number, l'equivalente del nostro codice fiscale)(social secury number, l'equivalente del nostro codice fiscale)

Quasi-IdentificatoreQuasi-Identificatore (QI) : Un dato che può identificare (QI) : Un dato che può identificare parzialmente un individuo in un dataset ad esempio la data di parzialmente un individuo in un dataset ad esempio la data di nascita (DOB), il sesso, il codice postale o ZIP codenascita (DOB), il sesso, il codice postale o ZIP code

Attributo Sensibile Attributo Sensibile (SA) : l'associazione che vogliamo (SA) : l'associazione che vogliamo nascondere, ad esempio quella tra un individuo e la sua nascondere, ad esempio quella tra un individuo e la sua patologia. Non sempre è ben definibile!patologia. Non sempre è ben definibile!

Page 7: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

k-anonymity, l-diversity, t-closenessk-anonymity, l-diversity, t-closeness

k-anonymity:k-anonymity: l la tabella T soddisfa la k-anonimicità riguardo i a tabella T soddisfa la k-anonimicità riguardo i QI se e solo se ogni tupla nel multiset T[QI] compare almeno k QI se e solo se ogni tupla nel multiset T[QI] compare almeno k volte volte [6][6]

l-diversity:l-diversity: una tabella è l-diversa se ognuno dei suoi gruppi di una tabella è l-diversa se ognuno dei suoi gruppi di quasi identificatori contiene almeno l valori ben rappresentati quasi identificatori contiene almeno l valori ben rappresentati per i SA per i SA [7][7]

t-closeness:t-closeness: una tabella soddisfa la t-closeness se in ognuno dei una tabella soddisfa la t-closeness se in ognuno dei gruppi QI la distanza fra la distribuzione dei valori dei SA nei gruppi QI la distanza fra la distribuzione dei valori dei SA nei gruppi e nell'intera tabella non è più grande di un valore di gruppi e nell'intera tabella non è più grande di un valore di soglia tsoglia t

Page 8: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

Un approccio diverso: Differential PrivacyUn approccio diverso: Differential Privacy

Concetto emerso nella comunità scientifica nel 2006 Concetto emerso nella comunità scientifica nel 2006 [6][6]

Brusco cambiamento, non si parla più di anonimizzazione ma di Brusco cambiamento, non si parla più di anonimizzazione ma di privacy differenzialeprivacy differenziale

Approccio Query-oriented piuttosto che Data-orientedApproccio Query-oriented piuttosto che Data-oriented

Definizione: Siano D1,D2 due dataset vicini, sia A un algoritmo Definizione: Siano D1,D2 due dataset vicini, sia A un algoritmo stocastico sul dataset e sia S un set arbitrario di possibili output stocastico sul dataset e sia S un set arbitrario di possibili output di A. L'algoritmo A sarà ”di A. L'algoritmo A sarà ”εε --differentiallydifferentially private” seprivate” se

Pr[A(D1) S] ≤ e∈Pr[A(D1) S] ≤ e∈ εεPr[A(D2)] S]∈Pr[A(D2)] S]∈ [8][8]

Intuitivamente un algoritmo che restituisce una risposta la cui Intuitivamente un algoritmo che restituisce una risposta la cui origine può essere ricondotta ad uno scenario con o senza la origine può essere ricondotta ad uno scenario con o senza la presenza, all'interno del dataset, di un individuo specificopresenza, all'interno del dataset, di un individuo specifico

Page 9: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

Caso in esameCaso in esame

Database clinicoDatabase clinico FIL FIL. La Fondazione Italiana Linfomi ONLUS è . La Fondazione Italiana Linfomi ONLUS è un organo di coordinamento delle attività svolte in Italia nel un organo di coordinamento delle attività svolte in Italia nel campo dei linfomi da oltre 120 Centri distribuiti su tutto il campo dei linfomi da oltre 120 Centri distribuiti su tutto il territorio nazionaleterritorio nazionale

Integrato tramite l'utilizzo di Integrato tramite l'utilizzo di MOMISMOMIS (Mediator envirOnment (Mediator envirOnment for Multiple Information Sources) è un framework per for Multiple Information Sources) è un framework per l'estrazione e l'integrazione di informazioni per sorgenti dati l'estrazione e l'integrazione di informazioni per sorgenti dati strutturate e semistrutturatestrutturate e semistrutturate

MOMIS nel caso specifico produrrà una materializzazione di tale MOMIS nel caso specifico produrrà una materializzazione di tale database integrato accessibile tramite un server database integrato accessibile tramite un server MySQLMySQL

Page 10: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

Decision Making: ipotesiDecision Making: ipotesi

L'integrazione tramite MOMIS ci fornirà un database non sparse, L'integrazione tramite MOMIS ci fornirà un database non sparse, cioè con un tasso non elevato di zericioè con un tasso non elevato di zeri

Il tipo di dato che si considera, dato clinico, obbliga moralmente Il tipo di dato che si considera, dato clinico, obbliga moralmente e professionalmente ad utilizzare la massima sicurezzae professionalmente ad utilizzare la massima sicurezza

Allo stesso modo è doveroso mantenere un elevato tasso di Allo stesso modo è doveroso mantenere un elevato tasso di utilità in modo da aumentare l'efficienza del nostro softwareutilità in modo da aumentare l'efficienza del nostro software

Serve un linguaggio che permetta la connessione con database di Serve un linguaggio che permetta la connessione con database di tipo MySQL e allo stesso tempo il supporto webtipo MySQL e allo stesso tempo il supporto web

Page 11: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

Decision Making: scelteDecision Making: scelte

Un approccio Query oriented garantirà caratteristiche di Un approccio Query oriented garantirà caratteristiche di dinamicità e modularità rendendo al contempo più leggera e dinamicità e modularità rendendo al contempo più leggera e meno onerosa l'elaborazione dei dati da anonimizzaremeno onerosa l'elaborazione dei dati da anonimizzare

L'unica tecnica teorica a dare un adeguato livello di sicurezza e L'unica tecnica teorica a dare un adeguato livello di sicurezza e al contempo un approccio Query oriented è la Differential al contempo un approccio Query oriented è la Differential PrivacyPrivacy

La scelta della DP rende il software più efficiente e il processo di La scelta della DP rende il software più efficiente e il processo di anonimizzazione facilmente aggiornabileanonimizzazione facilmente aggiornabile

Nel caso specifico si è agevolati dall'approccio web nell'analisi Nel caso specifico si è agevolati dall'approccio web nell'analisi delle query, potendo andare ad agire direttamente su di esse delle query, potendo andare ad agire direttamente su di esse ancor prima che queste interroghino il databaseancor prima che queste interroghino il database

La scelta del linguaggio ricade su Java, sia per la facilità di La scelta del linguaggio ricade su Java, sia per la facilità di interconnessione con un database MySQL tramite JDBC sia per interconnessione con un database MySQL tramite JDBC sia per il supporto webil supporto web

Page 12: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

Sviluppo del progettoSviluppo del progetto

Il software dovrà restituire dati anonimizzati ad un utente Il software dovrà restituire dati anonimizzati ad un utente interrogando un database integratointerrogando un database integrato

Per l'utente sarà una Per l'utente sarà una blackboxblackbox che riceve query e restituisce dati che riceve query e restituisce dati anonimizzatianonimizzati

Utilizzerà il JDBC per interrogare il database integrato tramite Utilizzerà il JDBC per interrogare il database integrato tramite MOMISMOMIS

DatabaseDatabase Database

DatabaseDatabase

Dati RilasciatiDatabaseDatabase

Allow,Deny,Anonymize

RispostaAnonimizzata

Querygenerica

Query +Query sintetica

Risposta vera +Risposta sintetica

DatabaseDB1

AnonAlyzer

DatabaseDB2

DatabaseDBn

DatabaseIntegrato

JDBC

MOMIS

Page 13: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

Anon-AlyzerAnon-Alyzer

Il nome scelto rispecchia le caratteristiche principali: analisi e Il nome scelto rispecchia le caratteristiche principali: analisi e anonimizzazione di queryanonimizzazione di query

Dinamico e progettato per la modularitàDinamico e progettato per la modularità

Anonimizza correttamente diverse tipologie di queryAnonimizza correttamente diverse tipologie di query

Mantiene un elevato grado di utilitàMantiene un elevato grado di utilità

Programmazione bottom-up e algoritmi stocasticiProgrammazione bottom-up e algoritmi stocastici

Page 14: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

Un esempio di query anonimizzataUn esempio di query anonimizzata

Consideriamo una query che dovrebbe restituire un singolo dato di Consideriamo una query che dovrebbe restituire un singolo dato di tipo numerico.tipo numerico.

Anon-Alyzer analizzerà la query, ricavando una valore chiamato Anon-Alyzer analizzerà la query, ricavando una valore chiamato sensibilità globale,sensibilità globale, che utilizzerà per generare una distribuzione che utilizzerà per generare una distribuzione di probabilità Laplaciana, dalla quale campionare un valore di probabilità Laplaciana, dalla quale campionare un valore ”rumoroso””rumoroso”

Garantirà la privacy differenziale Garantirà la privacy differenziale

Assicurerà che il risultato sia privatoAssicurerà che il risultato sia privato

… … perchè indistinguibile da un risultato prodotto interrogando perchè indistinguibile da un risultato prodotto interrogando un database con o senza l'individuo un database con o senza l'individuo

Page 15: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

Counting QueryCounting Query

Si veda ora nello specifico come viene anonimizzato un dataset Si veda ora nello specifico come viene anonimizzato un dataset attraverso un meccanismo esponenziale che garantirà la privacy attraverso un meccanismo esponenziale che garantirà la privacy differenziale:differenziale:

SELECT COUNT(*) AS `Occorrenze`, Patologia FROM `filtest` GROUP BY SELECT COUNT(*) AS `Occorrenze`, Patologia FROM `filtest` GROUP BY Patologia ORDER BY `Occorrenze` DESCPatologia ORDER BY `Occorrenze` DESC

Occorrenze Patologia

1900 Traumatica

1883 Cardiovascolare

1851 Osteoarticolare

1821 Infettiva

1813 Neoplastica

1783 Respiratoria

Occorrenze Patologia

1899 Cardiovascolare

1885 Traumatica

1850 Osteoarticolare

1821 Infettiva

1814 Neoplastica

1783 Respiratoria

Page 16: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

Conclusioni e futuroConclusioni e futuro

Anon-Alyzer mantiene un tasso elevato di utilità sui dati Anon-Alyzer mantiene un tasso elevato di utilità sui dati anonimizzatianonimizzati

...stimato fino al 97%...stimato fino al 97%

Modulo applicabile a qualsiasi databaseModulo applicabile a qualsiasi database

Miglioramenti futuri: analisi semantica queryMiglioramenti futuri: analisi semantica query

Concetto chiave per il futuro: sintetizzazione database Concetto chiave per il futuro: sintetizzazione database differentially privatedifferentially private

Page 17: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

Grazie per l'attenzioneGrazie per l'attenzione

Page 18: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

ReferencesReferences

[1] [1] [Ramakrishnan 2007] : Privacy in Data Publishing, CPS 116, Duke [Ramakrishnan 2007] : Privacy in Data Publishing, CPS 116, Duke University. University.

[2] Convenzione Europea per la salvaguardia dei diritti dell'uomo e delle libertà [2] Convenzione Europea per la salvaguardia dei diritti dell'uomo e delle libertà fondamentali,articolo 8, visionabile presso fondamentali,articolo 8, visionabile presso http://it.wikipedia.org/wiki/Convenzione_europeahttp://it.wikipedia.org/wiki/Convenzione_europea

[3] Per quanto attiene alla legislazione italiana, i fondamenti costituzionali sono [3] Per quanto attiene alla legislazione italiana, i fondamenti costituzionali sono ravvisabili negli art. 14, 15 e 21 Cost., rispettivamente riguardanti il ravvisabili negli art. 14, 15 e 21 Cost., rispettivamente riguardanti il domicilio, la libertà e segretezza della corrispondenza, e la libertà di domicilio, la libertà e segretezza della corrispondenza, e la libertà di manifestazione del pensiero; ma si può fare anche riferimento all'art. 2 Cost., manifestazione del pensiero; ma si può fare anche riferimento all'art. 2 Cost., incorporando la riservatezza nei diritti inviolabili dell'uomo.incorporando la riservatezza nei diritti inviolabili dell'uomo.

[4] Decreto Legislativo 30 giugno 2003, n. 196 "Codice in materia di protezione [4] Decreto Legislativo 30 giugno 2003, n. 196 "Codice in materia di protezione dei dati personali" pubblicato nella Gazzetta Ufficiale n. 174 del 29 luglio dei dati personali" pubblicato nella Gazzetta Ufficiale n. 174 del 29 luglio 2003 - Supplemento Ordinario n. 1232003 - Supplemento Ordinario n. 123

Page 19: Università degli Studi di Modena e Reggio Emilia Dipartimento di Ingegneria Enzo Ferrari Corso di Laurea in Ingegneria Informatica Anonymization on Integrated

ReferencesReferences

[5] [5] Aol privacy breach: Aol privacy breach: http://www.washingtonpost.com/wp-dyn/content/article/2006/08/07/ar20060http://www.washingtonpost.com/wp-dyn/content/article/2006/08/07/ar2006080700790.html80700790.html

[6] [6] Pierangela Samarati, Latanya Sweeney. Generalizing data to provide Pierangela Samarati, Latanya Sweeney. Generalizing data to provide anonymity when disclosing information. In ACM PODS 1998anonymity when disclosing information. In ACM PODS 1998

[7] [7] Ashwin Machanavajjhala, Johannes Gehrke, Daniel Kifer, Ashwin Machanavajjhala, Johannes Gehrke, Daniel Kifer, Muthuramakrishnan Venkitasubramaniam. l-Diversity: privacy Beyond k-Muthuramakrishnan Venkitasubramaniam. l-Diversity: privacy Beyond k-anonymity. In ICDE 2006anonymity. In ICDE 2006

[8] [8] C. Dwork, F. Mcsherry, K. Nissim, and A. Smith. Calibrating Noise to C. Dwork, F. Mcsherry, K. Nissim, and A. Smith. Calibrating Noise to Sensitivity in Private Data Analysis. In Theory of Cryptography Conference, Sensitivity in Private Data Analysis. In Theory of Cryptography Conference, 2006.2006.