32
Personalizzazione e privacy: I rischi e le soluzioni legate alla Privacy nei sistemi di personalizzazione. Nikola Gluhovic, Monica Menoncin e Karim Abdeselam Canales Laurea Magistrale in Informatica Corso di Sistemi Context Aware

Personalization and privacy

Embed Size (px)

Citation preview

Personalizzazione e privacy: I rischi e le soluzioni legate alla Privacy nei sistemi di personalizzazione.

Nikola Gluhovic, Monica Menoncin e Karim Abdeselam Canales Laurea Magistrale in Informatica – Corso di Sistemi Context Aware

IndiceIntroduzione

Nuove sfide legate alla privacy

Le metodologie per ridurre i rischi legati alla privacy

Framework su rischi e soluzioni

Bibliografia

Introduzione

IntroduzioneIl WEB è diventato...

◦Più social◦Più mobile

La personalizzazione ha ampliato e complicato i rischi e le preoccupazioni per la privacy:◦ Informazini imbarazzanti◦Servizi Web November 2007 “Facebook

Beacon,” [Story and Stone 2007]Survey:

◦Le preoccupazioni per la privacy sono cresciute significativamente tra il 2002 e il 2008 [Anton et al. (2010)] 8.

◦ Il 66% degli americani non vuole pubblicità personalizzata [Turow et al. (2009)]

Nuove sfide legate alla privacy

Social-based personalization (1/4) Vengono utilizzate le informazioni dei SNS (social network system

come ad es: Facebook, Twitter) nei servizi di customization, social search e online marketing.

Implementare la privacy mantenendo la personalizzazione è una grande sfida siccome gli SNS includono: Informazioni sensibili sull’utente (Ex: rilevanti informazioni private) Informazioni sensibili dei suoi amici. Informazioni che possono creare imbarazzo all’utente.

Le conseguenze possono essere critiche: (Forrester Consulting 2008). Nel 2008 l’8% delle compagnie USA con più di 1000 lavoratori hanno licenziato basandosi sulle informazioni provenienti da social network.

Survey di esempio su Facebook: (Story and Stone 2007) Facebook Beacon(Helft and Wortham 2010) personalizzazione istantanea

Importante problema riguarante l’utilizzo da parte di terze parti delle informazioni dei SNS.

Esempi: (Helft and Wortham 2010). Facebook Connect (Bonneau and Preibusch 2009) relativa facilità

d’accesso verso le API dei social network pone problemi di privacy per gli utenti.

(Heymann et al.2008; Dalal 2007), (Paliouras 2012), (Google 2011) Google +1 e Microsoft Bing

Social-based personalization (2/4)

Crescente sensibilità verso la privacy negli SNS nel corso del tempo:◦Nel 2006 gli utenti di facebook si preoccupano

della loro privacy anche se solo una piccola minoranza protegge il proprio profilo pubblico. (Acquisti and Gross 2006).

◦Nel 2010 la maggioranza degli utenti ha profili accessibili solo dagli amici. (Stutzman and Kramer-Duffield 2010).

Altre Survey ed Esempi: (Lewis et al. 2008) preoccupazioni sulla privacy

quando le attività si svolgono sui social network

Social-based personalization (3/4)

Informazioni private possono inavvertitamente essere condivise sui social network.

Esempi: (Lampinen et al. 2009) condivisione delle informazioni

senza preavviso all’utente. (Mullins 2010) contatti di Gmail attraverso Google Buzz (Palen and Dourish 2003) controllo della persona pubblica (Nissenbaum 2004) norme sociali

Ma non tutti gli SNS si comportano allo stesso modo: (Bonneau and Preibusch 2009), Dwyer et al. (2007), Wang et al. (2011)

Social-based personalization (4/4)

Behavioral profiling and data aggregation (1/2)

“è la pratica di raccogliere dati longitudinali sulle attività di una persona e adattare l'esperienza degli utenti sulla base di quelle attività”

Il sistema tiene traccia dei comportamenti degli utenti con poco o anche senza il loro consenso.

La profilazione comportamentale pone diversi rischi potenziali per la privacy.

Esempi: (Federal Trade Commission 2009) raccolta di dati (Culnan and Milne 2001) marketing indesiderato per gli

utenti che usano lo stesso computer (McDonald and Cranor 2010). sensazione di essere

osservati e monitorati

Altri problemi: percezione contradittoria degli utenti per esempio riguardo al Collaborative Filtering (CF):◦ Solo il 28% trova confortevole che gli inserizionisti utilizzino la

cronologia del web browser. Il 35% crede che la propria privacy sia stata violata nel corso degli ultimi 2 anni grazie alle informazioni su internet, anche quando la cronologia di navigazione non è legata al loro nome reale. (TRUSTe and TNS 2009)

◦ Il 66% degli adulti non vuole pubblicità personalizzata. Questa stima sale all’86% quando i partecipanti vengono informati delle tecniche come l’utilizzo di cookie di terze parti. (Turow et al. 2009)

Esempi: (Schafer et al. 2007), (Cranor 2003), Nissenbaum (2004). A

proposito di sistemi CF (Culnan and Milne 2001) ostacoli tecnologici Mehta (2006, 2007). campi di descrizione semantica o algoritmi

di apprendimento automatico (Tsai et al. 2011) Le preoccupazione sulla privacy cambiano il

comportamento degli utenti e degli inserzionisti

Behavioral profiling and data aggregation (2/2)

Location-based personalization Adozione di smarphone dotati di GPS e Wi-Fi ed

incremento della larghezza di banda. L’evoluzione dei dispositivi mobili offre una migliore

localizzazione e servizi basati sulla posizione fisica degli utenti.

La locazione fisica è utilizzata in molti modi durante la personalizzazione: Aumenta la personalizzazione dei risultati di ricerca Servizi di E-commerce Altri servizi (ricerca di venditori, annunci personali, meteo…)

Esempi: Tsai et al. (2010) varie preoccupazioni riguardo ai servizi di locazione:

l’essere perseguitati, l’essere seguiti dal capo, l’essere seguiti dal governo e rivelare la locazione della propria abitazione.

Benisch et al. (2011) metodi valutati empiricamente per il controllo della privacy in scenari di condivisione della posizione tempo e locazione diventano più privati.

Toch et al. (2010) modelli per la privacy nelle applicazioni che condividono la posizione poco confortevoli nel condividere posti meno frequentati.

Le metodologie per ridurre i rischi legati alla privacy

Ridurre i rischi sulla Privacy

Vengono proposti molti metodi nella letteratura che possono essere utilizzati per ridurre i rischi legati alla privacy.

Il problema non viene eliminato, ogni metodo proposto deve essere rapportato con l’efficacia del sistema di personalizzazione.

Pseudonymous personalization (1/2)Viene utilizzato uno pseudonimo al posto

dell’identità reale delle persone

Le attività online vengono tracciate su questo pseudonimo.

Una persona può avere diversi pseudonimi in base all’attività (es: lavoro o multimedialità).

In realtà non è una soluzione molto efficacie: si può risalire all’identità delle persone.

Pseudonymous personalization (2/2) Esempio sul rischio privacy

A destra i dati medici del Group Insurance Commission (GIC), Massachusetts venduti all’industria e donati ai ricercatori.

A sinistra i dati dei votanti della città di Cambridge, Massachusetts. Attualmente disponibile al prezzo di 20 dollari.

Possibilità di trovare l’identità di una persona associando i dati in comune, in questo caso tramite il CAP, la data di nascita ed il sesso. [Sweeney, 2002]

Client-side personalization I dati dell’utente sono memorizzati nel client ed

anche il processo di personalizzazione avviene nel client. Esempio: WHAT (Web Host Access Tool) [Cassel, 2001].

L’utente pensa di aver più controllo sui suoi dati e meno problemi di privacy.

Problemi: gli attuali sistemi di personalizzazione devono essere riprogettati per funzionare a livello client e devono essere protette le logiche di business utilizzate in questi sistemi.

Problema aggiuntivo: il livello client-side è meno protetto da minacce rispetto al server-side.

Distribution personalizationI dati degli utenti

vengono distribuiti attraverso le macchine locali.

Il sistema ricava i dati degli altri utenti tramite una rete p2p.

Viene preservata la privacy siccome i dati degli altri utenti, una volta aggiornato il modello dell’utente locale, vengono scartati. PocketLens [Miller et al. 2004]

Perturbation and Obfuscation personalization

Il metodo di perturbazione consiste nel modificare i dati degli utenti alternandoli prima di inviarli al database centrale. [Polat and Du 2003]

Il metodo di offuscamento prevede il rimpiazzo con dati random di una certa percentuale di dati di ogni utente. [Berkovsky, 2005]

In questi due casi diventa più difficile identificare gli utenti mantenendo comunque l’efficacia dei sistemi di personalizzazione.

User controls personalization (1/2)

Scrutability: dare all’utente la possibilità di capire e controllare gli aspetti del proprio user model. In altre parole l’utente può decidere quali informazioni sono a disposizione dei vari servizi e come esse sono utilizzate e mantenute.

Sistema Personis[Kay et al. 2003]

Evidenze

Associare data di scadenza

Trasformare

Compattare

Restringere

User controls personalization (2/2)

Do-not-track: si tratta di aggiungere un parametro all’HTTP header per specificare la volontà di non essere tracciati. [Mayer and Narayanan 2011)]

User-controllable policy learning : sistema che utilizza tecniche di machine learning per predire le preferenze di un’utente sulla base delle sue decisioni sulla privacy. Nello specifico il sistema suggerisce impostazioni sulla privacy e l’utente deve decidere se accettarle o meno. [Kelley et al. 2008]

Framework su rischi e soluzioni

In sintesiLe nuove tecnologie presentate

hanno vari impatti sulla privacyUn framework può aiutare a

comprendere meglio le nuove sfide e a modellare approcci migliorativi della privacy.

La privacy nelle fasi di personalizzazione

Raccolta dati◦Es.: localizzazione

Creazione di un modello utente◦Es.: collaborative filtering e machine learning

, abitudine delle aziende di scambiarsi i dati Adattamento

◦Es.: le nuove tecnologie di personalizzazione distribuiscono il contenuto personalizzato e adattato per tutto il WEB

[Kobsa ( 2001 , 2007a)]

Controllo della privacyLe tecnologie che limitano il

controllo dell’utente sulla sua privacy sono percepite come più intrusive [Awad and Krishnan (2006)]

Le tecnologie basate su un alto livello di automazione pongono maggiori rischi per la privacy degli utenti

Framework

Datacollection

User –provided

informationTracking user

actionsAutomatic

context information

User Model Creation

Inference-based analysis

Inference-based analysis

Collaborative analysis

Adaptation Only to user To user’s social relation

To the World Wide Web

More user control

Less user control

Progettare sistemi di personalizzazione

Nella fase di progettazione dei sistemi si possono distinguere due tipi di approcci ingegneristici al problema della privacy [Spiekermann and Cranor (2009)]◦Privacy-by-policy:

Si focalizza sull’implementazione dei principi di notifica e scelta

Es.: Do-not-track◦Privacy-by-architecture:

Minimizzano la raccolta di dati personali Enfatizzano l’anonimato e il processo e la

conservazione dei dati lato client Es.: WHAT

Progettare sistemi di personalizzazione

Privacy-by- architecture Privacy-by-policy

Datacollection

Pseudonymous

personalization

Client-based Personalization

Scrutable personalization

Do-not-track

User Model Creation

Distributed CF

Encrypted aggregation

Perturbation and obfuscation

Configurable user modeling

Adaptation

Social network privacy controls

Alcune noteC’è un tradeoff tra l’utilità del

sistema percepita dall’utente e le preoccupazioni per la propria privacy

Le attuali impostazioni della privacy per i SNS possono essere usate per limitare l’accesso al contenuto personale, ma non controllano la distribuzione

Cosa riserva il futuroE’ difficile fare previsioni, ma il framework proposto aiuta ad analizzare quale può essere l’impatto sulla privacy e come attenuarlo.Data collection: riconoscimento dei volti (

www.face.com)User model creation: più la predizione è

accurata più crescono le preoccupazioni per la privacy

Adaptation: SNS e CIF potrebbero comunicare informazioni sensibili ai contatti

Bibliografia

RiferimentiArticolo di riferimento di tutta la

presentazione: Personalization and privacy: a survey of privacy risks and remedies in personalization-based systems [Eran Toch · Yang Wang · Lorrie Faith Cranor, 2012]

Tutti gli altri riferimenti utilizzati si trovano all’interno dello stesso articolo.