27
DIRPEN Dirección de Regulación, Planeación, Estandarización y Normalización Lineamientos para la Anonimización de microdatos 8 Agosto de 2014 CÓDIGO: DSO-020-LIN-08 VERSIÓN: 01 FECHA: 29-08-2014

Lineamientos para la anonimización de microdatos

Embed Size (px)

Citation preview

Page 1: Lineamientos para la anonimización de microdatos

DIRPENDirección de Regulación, Planeación,Estandarización y Normalización

Lineamientos para la Anonimización

de microdatos

8

Agosto de 2014 CÓDIGO: DSO-020-LIN-08VERSIÓN: 01

FECHA: 29-08-2014

Page 2: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

2 DIRPEN DSO-020-LIN-08

Directora Técnica Dirección de Regulación, Planificación, Estandarización y Normalización DIRPEN Nelcy Araque García

Coordinación Regulación EstadísticaFredy Yahirs Rodríguez Galvis

Líder de Conceptualización y Diseño EstratégicoGrace Andrea Torres Pineda

Equipo técnicoConceptualización y Diseño EstratégicoFredy Yahirs Rodríguez GalvisMauricio Adolfo Ricaurte Moncaleano

Revisión de coherenciaSonia Marcela Naranjo Morales

Agradecemos a las Coordinaciones de la DIRPEN y a las Direcciones Técnicas del DANE, quienes contribuyeron con sus aportes en la elaboración de este documento.

Page 3: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

3 DIRPEN DSO-020-LIN-08

CONTENIDO

PRESENTACIÓN ......................................................................................... 4

INTRODUCCIÓN ........................................................................................ 5

1. CONCEPTOS BÁSICOS ............................................................................ 7

2. PRINCIPIOS RELACIONADOS .................................................................. 9

3. ANONIMIZACIÓN DE MICRODATOS ..................................................... 10

4. PROCESO DE ANONIMIZACIÓN .......................................................... 11 Preanonimización ........................................................................... 11 Anonimización de microdatos de uso interno ................................... 12 Anonimización de microdatos ........................................................... 15

5. ACTORES DEL PROCESO DE ANONIMIZACIÓN DE MICRODATOS ............ 17

6. TÉCNICAS DE ANONIMIZACIÓN DE MICRODATOS ................................. 19

BIBLIOGRAFÍA ......................................................................................... 26

Page 4: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

4 DIRPEN DSO-020-LIN-08

PRESENTACIÓN

El Departamento Administrativo Nacional de Estadística (DANE), como coordinador del Sistema Estadístico Nacional (SEN) y en el marco del proyecto de Plani�cación y Armonización Estadística, trabaja por el fortalecimiento y consolidación del SEN mediante los siguientes procesos: la producción de estadísticas estratégicas; la generación, adaptación, adopción y difusión de estándares; la consolidación y armonización de la información estadística y la articulación de instrumentos, actores, iniciativas y productos. Estas acciones tienen como �n mejorar la calidad de la información estadística estratégica, su disponibilidad, oportunidad y accesibilidad para responder a la gran demanda que se tiene de ella.

Consciente de la necesidad y obligación de brindar a los usuarios mejores productos, el DANE desarrolló una serie de lineamientos que contribuyen a la visualización y el entendimiento del proceso estadístico. Allí se presentan de manera estándar, completa y de fácil lectura las principales características técnicas de los procesos y subprocesos de cada investigación, lo que permite su análisis, control, replicabilidad y evaluación.

Esta serie de documentos favorecen la transparencia, con�anza y credibilidad de la calidad técnica de la institución para un mejor entendimiento, comprensión y aprovechamiento de la información estadística. Tal información es producida bajo los principios de coherencia, comparabilidad, integralidad y calidad de las estadísticas.

Page 5: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

5 DIRPEN DSO-020-LIN-08

INTRODUCCIÓN

La información disponible al público debe contener un valor agregado permitiendo así su utilización en la elaboración de planes sociales y económicos o para la investigación de fenómenos en diferentes temáticas. Por ello, tanto personas como empresas requieren datos desagregados que faciliten la generación de nueva información para usos particulares. No obstante, se debe respetar lo establecido en la Ley 79 de 1993, que indica «los datos suministrados al Departamento Administrativo Nacional de Estadística (DANE), en el desarrollo de los censos y encuestas, no podrán darse a conocer al público ni a las entidades u organismos o�ciales, ni a las autoridades públicas, sino únicamente en resúmenes numéricos1».

Teniendo en cuenta lo anterior, se hace posible la entrega de datos desagregados a los usuarios. Sin embargo, existen problemas en la de�nición de mecanismos que eviten la identi�cación de quienes proveen la información. Esto se debe, principalmente, a la cantidad de variables establecidas en las operaciones estadísticas que al cruzarse pueden facilitar la identi�cación de personas o empresas. Dicha información puede ser utilizada con �nes inapropiados generando una reducción de la con�anza de quienes entregan información al DANE y afectando considerablemente la credibilidad de la entidad. Entonces se plantea la pregunta ¿qué debe hacer el DANE para entregar datos e información completa, y al mismo tiempo proteger los datos y la información misma contra los problemas mencionados?

La respuesta reside en la aplicación rigurosa de la legislación vigente en materia de protección de la con�dencialidad y que está consagrada en la Constitución Política y en leyes como la que corresponde a la reserva estadística y al Habeas Data. En este punto cabe recordar que es necesario trabajar en la creación de una ley estadística que profundice en estos temas y que garantice al máximo la protección y la sanción ejemplar a la vulneración del derecho fundamental a la intimidad y al Habeas Data.

La ley no establece mecanismos o instrumentos para la protección de la información; por ello el DANE, como ente rector, debe promover la protección de la privacidad individual de sujetos y empresas que le reportan información. Debido a esta situación, la entidad debe generar un documento para la anonimización de los microdatos, así como desarrollar y aplicar técnicas basadas en estándares y buenas prácticas internacionales.

1 Congreso de Colombia. Ley 79 de 1993, por la cual se regula la realización de los Censos de Población y Vivienda en todo el territorio nacional. Octubre de 1993.

Page 6: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

6 DIRPEN DSO-020-LIN-08

En este documento se desarrollan los lineamientos generales para implementar procesos de anonimización de los microdatos en las operaciones estadísticas producidas por la entidad. Se hace referencia a algunas técnicas que permiten reducir el riesgo de identi�cación de fuentes de los datos.

El documento presenta inicialmente las de�niciones fundamentales para comprender el proceso de anonimización de microdatos. Luego, presenta la de�nición del proceso y los actores que intervienen y por último se exponen algunas técnicas de anonimización.

Page 7: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

7 DIRPEN DSO-020-LIN-08

1. CONCEPTOS BÁSICOS

Anonimización de microdatos: es el proceso que impide la identi�cación de las unidades de estudio que son fuente para los registros individuales del conjunto de microdatos.

Archivo: es el conjunto de registros con datos estadísticos donde interviene una o más variables (categóricas o numéricas) y que presenta información sobre los individuos y empresas (unidades de observación2).

Criterios de sensibilidad: son las reglas aplicadas para la detección de celdas sensibles en tablas de frecuencias y/o magnitud. Estas reglas pueden estar basadas en el número de contribuciones a la celda (regla del valor umbral) o en el valor de las contribuciones dominantes de la celda (reglas de dominancia). La primera detecta celdas con frecuencias pequeñas y la segunda con aportaciones dominantes al valor de la celda. En ambos casos, estas celdas son potencialmente «peligrosas» de cara a su difusión, ya que pueden contener o derivar en la revelación de información sensible3.

Datos de carácter personal: es toda información numérica, alfabética, grá�ca, fotográ�ca, acústica o de cualquier otro tipo, susceptible de recogida, registro, tratamiento y transmisión, concerniente a personas físicas identi�cadas o identi�cables (tales como nombre, apellidos, estado civil, sexo, edad, domicilio, número de la seguridad social, número de matrícula del empleado, identi�cación personal, número de teléfono, etc.)

Datos estadísticos: se re�ere a toda información numérica, alfabética, grá�ca, fotográ�ca, acústica o de cualquier otro tipo, concerniente a unidades estadísticas (personas naturales o jurídicas, entes u organismos públicos, etc.) recogida con �nes estadísticos y sujeta, por lo tanto, a las normas que rigen el secreto estadístico, tales como nombres, direcciones o números de identidad.

Identificaciones indirectas: son las características que pueden ser compartidas por varios de los encuestados, y cuya combinación podría conducir a la reidenti�cación de uno de ellos.

2 De�nición que aplica exclusivamente al marco del presente documento; por tanto, la misma no debe hacerse extensiva a otras publicaciones de la entidad.

3 Eurostat. Tratamiento de la con�dencialidad en las operaciones estadísticas de Eurostat. 2007.

Page 8: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

8 DIRPEN DSO-020-LIN-08

Por ejemplo, se podría identi�car la combinación de variables tales como el lugar de residencia, edad, sexo y profesión, si sólo una persona de ese determinado sexo, edad y profesión vivió en ese lugar particular.

Información sensible: es la información considerada como estrictamente con�dencial. Información y características referentes a la edad, procedencia, salud, raza, religión, ideología, a�liación, �nanzas, etc., se consideran de carácter sensible y requieren de una protección especial.

Microdatos: son los datos sobre las características de las unidades de una población, (individuos, hogares, establecimientos, entre otros), que constituyen una unidad de información en una base de datos y que son recogidos por medio de una operación estadística4.

Operación estadística: es el conjunto de procesos y actividades que partiendo de la recolección sistemática de datos conduce a la producción de resultados agregados.

Preanonimización de microdatos: es el proceso mediante el cual se establecen los criterios para incorporar ciertas variables de identi�cación en el diseño de los instrumentos de recolección teniendo en cuenta las necesidades de los usuarios.

Reserva estadística: según el artículo 5 de la Ley 79 de 1993, se contempla que «Los datos suministrados al Departamento Administrativo Nacional de Estadística (DANE), en el desarrollo de los censos y encuestas, no podrán darse a conocer al público ni a las entidades u organismos o�ciales, ni a las autoridades públicas, sino únicamente en resúmenes numéricos, que no hagan posible deducir de ellos información alguna de carácter individual que pudiera utilizarse para �nes comerciales, de tributación �scal, de investigación judicial o cualquier otro diferente del propiamente estadístico»5.

Seudoanonimización: método utilizado para ocultar identidades. La �nalidad del uso de seudónimos es poder recopilar más datos sobre una misma persona sin necesidad de conocer su identidad. Su uso es especialmente pertinente en los ámbitos estadístico e investigador6.

Variable sensible: corresponde a la variable numérica o categórica que contiene información sensible7.

4 Departamento Administrativo nacional de Estadística. Decreto 1503 de 2011. Se conforma el comité de reserva estadística. 2011.5 Congreso de la República de Colombia. Ley 79 de 1993. Por la cual se regula la realización de los Censos de Población y Vivienda en

todo el territorio nacional.6 Dictamen 4/2007 sobre el concepto de datos personales, grupo de trabajo del artículo 29, Consejo Europeo.7 Eustat. Tratamiento de la con�dencialidad en las operaciones estadísticas de Eustat. 2007.

Page 9: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

9 DIRPEN DSO-020-LIN-08

2. PRINCIPIOS RELACIONADOS

La anonimización de los microdatos es una práctica internacional para garantizar el acceso a la información y es la forma como diferentes organismos establecen instrumentos con lineamientos generales para el manejo de los microdatos. La División de Estadísticas de Naciones Unidas instauró el principio que indica: «Los datos que reúnan los organismos de estadística para la compilación estadística, ya sea que se re�eran a personas naturales o jurídicas, deben ser estrictamente con�denciales y utilizarse exclusivamente para �nes estadísticos»8.

De la misma manera, el Código Nacional de Buenas Prácticas para las Estadísticas O�ciales se re�ere a la anonimización de los microdatos en el siguiente principio y sus respectivas prácticas:

Principio 5: Confidencialidad. Las entidades pertenecientes al SEN deben garantizar la protección y la con�dencialidad de la información con la que se producen las estadísticas o�ciales, así como evitar la identi�cación de las fuentes9.

Las buenas prácticas asociadas a dicho principio y aplicadas a este documento son:

5.3. «Asegurar que la publicación de las estadísticas o�ciales no permita la identi�cación individual de las fuentes».

5.6. «El acceso a microdatos anonimizados por parte de los usuarios debe estar sujeto a protocolos que garanticen la con�dencialidad».

8 Naciones Unidas. Principios fundamentales de las estadísticas o�ciales. 1994.9 Código Nacional de Buenas Prácticas para las Estadísticas O�ciales.

Page 10: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

10 DIRPEN DSO-020-LIN-08

3. ANONIMIZACIÓN DE MICRODATOS

El proceso de anonimización tiene como objetivo controlar el riesgo de identi�cación al que pueden estar sujetas las personas naturales o jurídicas que brindan información para �nes estadísticos. Se entiende que la posibilidad de extraer datos a partir de una agregación permite la identi�cación de la fuente, de manera que la implementación de un proceso adecuado de anonimización evita la posibilidad de dar mal uso a la información desagregada (microdatos).

Al realizarse el proceso de anonimización de los microdatos siempre se debe tener en cuenta que el �n último de la información es su utilidad para los usuarios. Por tanto, se debe preservar el aprovechamiento de los datos, tratando de introducir el menor ruido posible en los resultados y protegiendo la privacidad de las fuentes de información. Los archivos, los macrodatos o información estadística, grá�cos, documentos y publicaciones que sean derivados de cualquier operación estadística y distribuidos por los canales y medios de comunicación establecidos por la entidad, conforman la difusión de cualquier operación estadística. Por ningún motivo, en ellos se debe dar la posibilidad de identi�cación individual directa, según lo establecido en la Ley 79, Artículo 5º sobre la Reserva Estadística.

Las medidas y criterios para la protección de los datos en la fase de difusión estadística de estos, están encaminados a evitar identi�caciones directas o indirectas de individuos o entidades. Todo esto puede ocurrir a partir de la publicación de análisis o desagregaciones muy detalladas que puedan derivar en la revelación de información sensible o con�dencial sobre los mismos. Las directrices dependen en gran medida del formato en el que se difunda la información y del carácter general o especí�co de la misma. Considerando lo anterior, se presentarán a continuación los pasos en el proceso de anonimización así como las actividades especí�cas en cada caso.

Page 11: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

11 DIRPEN DSO-020-LIN-08

4. PROCESO DE ANONIMIZACIÓN

Este proceso cuenta con tres etapas que permiten desarrollar el procedimiento para evitar la identi�cación de las fuentes estadísticas, estas son:

ETAPA 1. Preanonimización ETAPA 2. Anonimización de microdatos de uso interno ETAPA 3. Anonimización

Cada etapa del proceso deberá ser documentada mediante un registro de con�dencialidad de la operación estadística. A continuación, se presentan las actividades a seguir en cada etapa.

Preanonimización

En el momento en que se esté concibiendo el diseño de la operación estadística, se deberá realizar la etapa de preanonimización, entendida como un paso previo que permite determinar con claridad de las variables, los identi�cadores directos y demás datos con carácter con�dencial que se obtendrán en el desarrollo de la operación estadística.

Para llevar a cabo este paso, se deberán tener en cuenta las siguientes actividades:

1. El equipo temático responsable de la operación debe clasi�car cada una de las variables a ser recolectadas para ser puestas en el archivo o base de datos, teniendo en cuenta estas categorías:

I. Variables de identi�cación geográ�ca. II. Variables de identi�cación directa de personas o empresas. III. Variables con magnitudes o numéricas. IV. Variables de carácter sensible o con�dencial. V. Variables sin restricción para el acceso público. VI. Variables categóricas.

Page 12: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

12 DIRPEN DSO-020-LIN-08

2. Una vez de�nidas la categorización de las variables, se deberán señalar los mecanismos de protección de la privacidad de las fuentes de información de�niendo la cantidad de datos personales necesarios para el desarrollo de la operación estadística y determinando las variables directas e indirectas (es necesario incluir en las de�niciones, cada una de estas variables),que puedan llevar a la identi�cación de la fuente. La premisa, en estos casos, debe ser minimizar la cantidad de información personal que deba ser recolectada. Esta minimización tiene relación directa con el método de recolección de la información y la forma en que esta debe ser registrada en las bases de datos.

Debe tenerse especial cuidado con los datos que contengan información sensible. Para esto será necesario generar un procedimiento que de�na la necesidad y la cantidad de datos sensibles a obtener mediante las diferentes operaciones estadísticas, asimismo, la forma como se debe proceder en caso de que la información sensible deba ser omitida de las bases de datos una vez es recolectada. En caso de ser posible, se deben especi�car las condiciones para que las unidades y fuentes estadísticas tengan el efectivo control de su información personal que se considera sensible, siendo ellos los que deberán dar el consentimiento libre e informado a la entidad estadística que acceda a la misma.

Anonimización de microdatos de uso interno

La anonimización de microdatos de uso interno debe ser realizada durante la etapa de Producción Estadística y se caracteriza por la implementación de actividades de protección de la privacidad de los datos una vez hagan parte de las bases de datos de la entidad y han sido recolectados por los funcionarios encargados.

El objetivo de esta etapa es transferir las variables con�denciales estrictamente necesarias para realizar el respectivo análisis de la operación a los temáticos directamente involucrados en la ejecución y análisis de la operación estadística, evitando que otros funcionarios de la entidad o equipos temáticos que no hacen parte del desarrollo de la operación tengan acceso ilimitado a las variables de identi�cación directa de la fuente.

El anterior proceso debe hacerse con el �n de evitar riesgo para la fuente estadística y atendiendo a la garantía de reserva y con�dencialidad de los datos.

Page 13: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

13 DIRPEN DSO-020-LIN-08

Las actividades a realizar son las siguientes:

1. En el proceso de producción estadística se deben establecer criterios para evitar la fuga de información recolectada y establecer los procedimientos de ocultamiento, supresión y seudoanonimización de los datos personales por parte del equipo de sistemas, con el objeto de que los temáticos u otros funcionarios del DANE que no están involucrados directamente en la operación estadística no puedan deducir con facilidad los datos sensibles y con�denciales de las fuentes.

Este procedimiento resulta útil en los casos en los que se pierde información por mal manejo por parte de los empleados del DANE. Si el equipo temático o el custodio de la información trabajan rutinariamente con información cuyas variables de identi�cación directa han sido suprimidas, ocultadas o han sido reemplazados por seudónimos, gracias al trabajo del equipo de sistemas, habría menos riesgo de violación de datos10.

Allí se resalta que en los casos en que la información de carácter con�dencial repose en una memoria USB o algún equipo de hardware, y la cual previamente ha sido sometida a algún tratamiento de eliminación de variables de identi�cación directa, sea hurtado o se encuentre extraviada. Es poco posible que el sujeto externo a la entidad que esté en posesión de información tenga la capacidad técnica y los motivos para hacerla identi�cable, pero si la información no ha sido tratada y los identi�cadores directos se encuentran registrados en la base de datos, es factible que la información sea utilizada con �nes maliciosos, o en el peor de los casos revelaría mal manejo de la información. Muchos de estos accidentes respecto a fugas de la información ocurren dentro de las o�cinas estadísticas. Esto se reduce si la mayor cantidad de datos personales que reposan en las bases de datos de la entidad se mantienen en forma no identi�cable.

A continuación, se presenta una lista de variables, a manera de ejemplo, de identi�cación directa que son susceptibles de ser eliminadas o suprimidas para resguardar la con�dencialidad, en todo caso el equipo temático es el encargado de de�nir cuáles serán las variables sujetas a dicho proceso:

i Nombres. i Todos los elementos de fecha de nacimiento, fecha de constitución en Cámara de Comercio, excepto el año.

10 Un ejemplo de este último caso, es descrito en el texto publicado por el Comisionado para la Privacidad y la Comunicación de Ontario, Canadá. «Dispelling the Myths Surrounding De-identi�cation».

Page 14: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

14 DIRPEN DSO-020-LIN-08

i Números de teléfono y fax. Números de identi�cación: cédula de ciudadanía, pasaporte, tarjeta de identidad, números asociados a la seguridad social, licencias de conducción, NIT, RUT, RUP, RUE, etc. i Direcciones de correo electrónico. i Números de cuentas bancarias. i Identi�cadores del vehículo, placa, etc. i Identi�cadores de dispositivos móviles y números de serie. i Direcciones de IP. i Identi�cadores biométricos. i Fotografías e imágenes similares. i Cualquier otro número único de identi�cación. i Dirección de domicilio.

2. La seudoanonimización como actividad de disminución del riesgo de identi�cación, supone asignar seudónimos a las variables de identi�cación directa de los individuos: nombres, cédulas, etc.; estableciendo un identi�cador ciego llamado seudónimo, obteniendo así una base seudoanonimizada. La identi�cación del individuo solo es conocida por el equipo de sistemas o los temáticos de la operación estadística, por lo que los demás miembros de la organización no pueden establecer la relación entre el identi�cador ciego y el original, bajo ciertas condiciones de criptografía. Esta actividad, como lo señala Galindo11, no resuelve los riesgos asociados a la reidenti�cación indirecta de la base de datos, simplemente disminuye el nivel de riesgo de identi�cación directa dentro del DANE.

Para realizar la técnica de seudoanonimización se puede: a. Asignar un único seudónimo a cada objeto de la información personal identi�cable.b. El seudónimo debe ser utilizado en reemplazo de números de identi�cación formales,

como cédula, licencias de conducción, etc. Se recomienda que los seudónimos tengan la misma longitud y formato para aumentar la legibilidad.

c. Tener en cuenta el impacto de los sistemas de información en la asignación de los seudónimos en relación con los usos internos.

d. Si se utilizan seudónimos para uso externo, estos deben ser diferentes a los seudónimos generados para uso interno, y no tener una relación entre uno y otro.

e. El equipo de sistemas deberá establecer las técnicas criptográ�cas para llevar a cabo la incorporación de seudónimos que reemplacen las variables de identi�cación directa.

11 Al respecto el texto de Galindo se encuentra citado en la Bibliografía, y fue escrito en el marco de una reunión en la Unión Europea sobre temas relacionados a la anonimización.

Page 15: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

15 DIRPEN DSO-020-LIN-08

La etapa de anonimización de microdatos de uso interno permite que la información recolectada tenga un criterio de seguridad y con�dencialidad al ser manejada de forma exclusiva por los temáticos de la operación. Esto evita que otros funcionarios de la entidad tengan acceso a esa base de datos en donde se reconozcan a los identi�cadores directos o en donde estos no hayan sido reemplazados por seudónimos. Por tanto, los temáticos de la operación y el equipo de sistemas a cargo son los directamente responsables de custodiar la información.

En resumen, el paso de anonimización de microdatos de uso interno busca disminuir los riesgos de identi�cación al interior del DANE, realizando actividades como:

a. Eliminación de los identi�cadores asociados a una persona o empresa. b. Utilización de rangos para los identi�cadores, por ejemplo, valores de rango a cambio

de la edad especí�ca del individuo.c. Uso de seudoidenti�cadores (seudonimización)

En tales condiciones, un efectivo procedimiento de anonimización de microdatos de uso interno, ayudará en el cumplimiento de principios internacionales como el de limitación de uso12 evitando que se �ltren o divulguen datos personales para propósitos no estadísticos, al interior del DANE, así la actuación que haya generado el riesgo no sea cali�cada de dolosa.

La anonimización de microdatos de uso interno como etapa que busca la eliminación, supresión o enmascaramiento bajo seudónimos de identi�cadores directos asociados con un individuo o empresa, es un paso intermedio al proceso de anonimización reseñado en la etapa 3 que mediante técnicas matemáticas de algoritmos elimina la posibilidad de reidenti�cación.

Anonimización de microdatos

Como última etapa en el proceso de anonimización, encontramos la anonimización de microdatos, los cuales tienen como objetivo proveer los datos desagregados para el público en general, y como tal supone la utilización de las técnicas que se describirán a continuación. (Se considera que antes de de�nir las actividades para la realización del proceso de anonimización, se describan los actores que se incluyen en la siguiente página).

Esta etapa implica la eliminación del máximo riesgo de identi�cación de la fuente, con el menor daño a la utilidad de los datos, y se compone de las siguientes actividades:

12 Dicho principio está reseñado en la Guía para la protección de la privacidad y el uso transfronterizo de información personal de la OCDE.

Page 16: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

16 DIRPEN DSO-020-LIN-08

1. El equipo temático debe establecer la técnica de anonimización más apropiada que debe aplicarse para cada una de las variables sujetas al proceso de anonimización, asimismo, el equipo debe incluir casos de uso de aplicación de la técnica para cada variable.

2. Posteriormente, la propuesta de anonimización se remite a los expertos del equipo del Comité de Aseguramiento de la Reserva Estadística.

3. El equipo técnico de sistemas responsable de la operación estadística implementa los algoritmos de anonimización propuestos por el equipo temático responsable, ejecuta el proceso de anonimización, realiza pruebas y efectúa la entrega al equipo temático para su aceptación �nal.

Las siguientes son algunas consideraciones adicionales que se deben tener en cuenta durante el proceso de anonimización:

• Los archivos de microdatos que se difundan no incluirán en ningún caso identi�cadores directos e indirectos de registro ni datos de carácter personal.

• Se debe evitar publicar celdas con magnitudes o valores numéricos donde se pueda derivar de forma fácil la contribución o contribuciones de alguna de las unidades estadísticas (personas o empresas) que aportan valor a la celda. Esto se produce en presencia de pocos contribuyentes o cuando existen contribuciones dominantes o superiores al promedio de la celda (técnica de criterios de sensibilidad).

• Para evitar la aparición de dichas celdas se pueden aplicar criterios de sensibilidad y técnicas de recodi�cación de variables y/o métodos de supresión de celdas que protejan el archivo de forma adecuada y preserven la mayor cantidad de información posible.

• El detalle del resto de variables incluidas en el archivo de microdatos dependerá del nivel geográ�co aportado y de la sensibilidad de la propia variable, permitiendo una mayor desagregación conceptual, cuanto más grande sea el ámbito geográ�co difundido y menor el grado de sensibilidad de la variable.

• En aras de proveer una mayor protección se pueden aplicar técnicas de reducción o perturbación de microdatos (se recomienda la segunda), modi�cando variables cuantitativas en pequeñas cantidades aleatorias y/o intercambiando atributos de forma controlada entre registros de áreas geográ�cas próximas, respetando en todo caso las distribuciones (medias, totales, etc.) por territorio histórico.

• Los archivos anonimizados son validados y aprobados por los expertos que conforman el Comité de Aseguramiento de la Reserva Estadística antes de su publicación.

Page 17: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

17 DIRPEN DSO-020-LIN-08

5. ACTORES DEL PROCESO DE ANONIMIZACIÓN DE MICRODATOS

La reserva estadística involucra a todo el personal del DANE y a las personas naturales o jurídicas que tengan conocimiento de la información estadística individualizada a no difundir, ni directa ni indirectamente, datos individuales o individualizados de las fuentes de la información. Implica la prohibición de utilizar para �nalidades distintas a las estadísticas los datos obtenidos directamente de los informantes.

Todo el personal que realiza la recolección de la información, así como cualquier otra labor dentro del DANE relacionada con el proceso estadístico, debe �rmar una cláusula de con�dencialidad.

En la resolución 1503 de 2011 se reglamenta la difusión estadística y la conformación del comité de aseguramiento, teniendo en cuenta esta resolución se deben considerar los siguientes actores para llevar a cabo el proceso:

Comité de Aseguramiento de la Reserva Estadística

Este comité experto es el encargado de validar y aprobar las técnicas propuestas en materia de anonimización por el equipo temático responsable de la operación estadística en la planeación, esto en cumplimiento de la Resolución 1503, Artículo 1 numeral 3 y 613.

De la misma manera, en cumplimiento del numeral 2 al �nal del proceso de anonimización es el responsable de validar y aprobar los archivos anonimizados antes de su publicación.

Equipo temático Es el encargado de realizar la propuesta de anonimización considerando las actividades del proceso anteriormente descritas. Es importante destacar que el equipo temático debe considerar el proceso de anonimización de archivos de microdatos desde la planeación estadística.

El equipo temático es responsable de la operación estadística, así como de las técnicas de anonimización que se aplicarán a cada una de las variables que se deben anonimizar.

13 Departamento Administrativo Nacional de Estadística. Decreto 1503 de 2011. Se conforma el comité de reserva estadística. 2011

Page 18: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

18 DIRPEN DSO-020-LIN-08

Equipo de sistemas

Es el equipo de soporte a la operación estadística que procederá a desarrollar e implementar los algoritmos necesarios para anonimizar el archivo de microdatos, conforme a la clasi�cación de variables y la de�nición de las técnicas de anonimización para cada variable. El equipo de sistemas regresa los archivos de microdatos anonimizados al equipo temático, para su respectiva validación.

El siguiente grá�co muestra las actividades de anonimización de microdatos y la relación con los actores del proceso:

Cuadro Actores del proceso y actividades

Fuente: DIRPEN - DANE

Page 19: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

19 DIRPEN DSO-020-LIN-08

6. TÉCNICAS DE ANONIMIZACIÓN DE MICRODATOS

Existen varias técnicas que permiten la anonimización de los microdatos. El principal factor para seleccionar una u otra técnica es el soporte internacional que tenga la técnica, esto quiere decir la relevancia del referente internacional en los temas y las experiencias exitosas comprobadas de implementación en otros institutos nacionales de estadística.

Los métodos se re�eren a la limitación de divulgación estadística y pueden clasi�carse en dos categorías: métodos basados en la perturbación de datos y métodos basados en la reducción de datos.

Métodos basados en la perturbación de datos

Estos se re�eren a procedimientos que implican la modi�cación sistemática de datos (a veces en pequeñas cantidades aleatorias), de manera tal que las cifras no sean lo su�cientemente precisas como para revelar información sobre casos individuales. Pueden incluirse nuevos datos, suprimir y/o modi�car los existentes bene�ciando la con�dencialidad estadística.

Las principales técnicas de perturbación de los datos son:

• Microagregación14: es una técnica de perturbación propuesta por Eurostat como forma de divulgación estadística para variables numéricas. La idea es reemplazar un valor observado con la media calculada sobre un pequeño grupo de unidades (agregado pequeño o micro-agregado), incluido el investigado. Consiste en agrupar los registros individuales en pequeños grupos antes de su publicación, manteniendo los resultados al aplicar las operaciones estadísticas. Fijando un parámetro k, la microagregación de un conjunto de datos numérico sería:

• Agrupación: los registros contenidos en el conjunto original se agrupan en subconjuntos de cardinalidad; por lo menos k mediante algún criterio de similitud (e.g. la distancia euclidiana). El resultado de este proceso es una k-partición (Una k-partición es una partición en la que cada una de las partes tiene por lo menos k elementos).

14 Agusti Solanas, Antoni Martínez-Ballesté, Josep Domingo-Ferrer, Susana Bujalance y Josep M. Mateo-Sanz, Métodos de Microagregación para k-anonimato: privacidad en bases de datos. Dpto. Ingeniería Informática y Matemáticas, Universidad Rovira y Virgili, Av. Paısos Catalans 26, E-43007 Tarragona, Catalonia, España.

Page 20: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

20 DIRPEN DSO-020-LIN-08

• Substitución: cada registro del conjunto original es substituido por el registro medio del subconjunto al cual ha sido asignado en la etapa anterior15.

Fuente: U. Gonzalez-Nicolas y A. Solanas Protección de la Privacidad mediante Microagregación Multivariante basada en

Algoritmos Genéticos: Selección por Ruleta vs. Selección Uniforme.

Las unidades pertenecientes al mismo grupo estarán representadas en el archivo publicado por el mismo valor. Los grupos contienen un mínimo prede�nido número k de unidades. K mínimo valor aceptado es 3. Para un determinado k, el problema consiste en determinar la partición del conjunto de unidades en grupos de por lo menos k unidades (k-partición), lo que minimiza la pérdida de información, la cual se expresa, generalmente, como una pérdida de variabilidad. Por lo tanto, los grupos están construidos de acuerdo con un criterio de máxima similitud entre unidades. El mecanismo de micro-agregación logra la protección de datos, garantizando que no se encuentran en unidades de por lo menos k con el mismo valor en el archivo de datos.

Existen varios métodos que consisten en modi�car valores (provenientes de vectores de variables continuas) según diversos criterios como: el método de Distancia Máxima (Maximum Distance, MD), el método de Distancia Máxima al Vector Promedio (Maximum Distance to Average Vector, MDAV), y la Distancia Máxima al Vector Promedio de Tamaño Variable o MDAV de Tamaño Variable (Variable- MDAV, V-MDAV).

15 U. Gonzalez-Nicolas y A. Solanas. Protección de la Privacidad mediante Microagregación Multivariante basada en Algoritmos Genéticos: Selección por Ruleta vs. Selección Uniforme

Page 21: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

21 DIRPEN DSO-020-LIN-08

El método MDAV es el más común en las herramientas de anonimización sobre microdatos, pero se ha demostrado que en términos de e�ciencia el método V-MDAV ha presentado mejores resultados. Otras técnicas de perturbación16 de microdatos se presentan a continuación:

• Intercambio aleatorio de datos - PRAM (Post Randomization Method) es un método de control de la difusión estadística que se puede aplicar a los datos categóricos. Es un método perturbador y probabilístico para la protección de archivos de microdatos.

En comparación con otros métodos como la recodi�cación global, la supresión local y la codi�cación superior e inferior que pueden conducir a una elevada pérdida de información para los archivos de datos seguros, el método PRAM es una mejor alternativa ya que mantiene el nivel de detalle mientras que el nivel de control de la difusión se realiza a través de la introducción de incertidumbre en los resultados de las variables de identi�cación.

El PRAM puede ser utilizado para producir los archivos de microdatos con la misma estructura que el archivo original de microdatos, pero con algún tipo de datos sintéticos. También puede producir archivos de datos seguros y dejar algunas de las características del archivo más o menos inalteradas.

Es un método que se de�ne en términos de probabilidades de transición; se resume en una matriz de PRAM. Produce archivos de microdatos en el que los valores de algunas variables categóricas se cambian para determinados registros en relación con los valores del archivo original de microdatos. Normalmente, se aplica a las variables de identi�cación, es decir, variables que se pueden utilizar para identi�car al encuestado. El resultado es la obtención de los archivos de microdatos con valores incorrectos en las variables de identi�cación, lo que hace que el riesgo de identi�cación sea mínimo.

El método PRAM puede ser considerado como una forma de error de clasi�cación. • Datos sintéticos. Los datos son generados de forma aleatoria, preservando algunas

estadísticas o relaciones internas del conjunto de datos original.

16 Microagregación híbrida, Visión histórica sobre el control estadístico de revelación. Un panorama sobre la estadística pública. Instituto de Estadística de Andalucía, España.

Page 22: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

22 DIRPEN DSO-020-LIN-08

• Distorsión de datos por una distribución de probabilidades: este método puede ser utilizado tanto en variables categóricas, como en variables continuas.

Se pretende obtener un conjunto de datos protegido aleatoriamente a partir del conjunto de datos original.

La distorsión se realiza en tres etapas:

i Identi�car la función de densidad subyacente para cada variable con�dencial en el conjunto de datos y estimar los parámetros asociados con la función de densidad.

i Generar una serie obtenida aleatoriamente a partir de la función de densidad, para cada variable con�dencial.

i Mapeo que signi�ca clasi�car la serie alterada y la serie original en el mismo orden y substituir cada elemento de la serie original con el correspondiente elemento de la serie alterada. El mapeo y la sustitución son necesarios solo si las variables alteradas fueran a ser utilizadas en conjuntos con otras variables no alteradas.

Enfoque de los microdatos híbridos: consiste en el cálculo de datos enmascarados como una combinación de datos originales y de datos sintéticos. Esta combinación permite un mejor control de los datos totalmente sintéticos sobre las características individuales de los datos enmascarados. El enmascaramiento híbrido implica la combinación de datos originales con datos sintéticos.

i Intercambio de registros o permutación17, es un método de control de la revelación aplicado a los microdatos que consiste en intercambiar los valores de algunas variables que �guran en registros apareados por medio de una variable clave representativa. Este método es a veces denominado «transformación multidimensional». Se trata de una técnica de transformación que garantiza (bajo ciertas condiciones) la preservación de un conjunto de estadísticas, como los promedios, las varianzas y las distribuciones univariantes.

i Redondeo: puede ser basado en técnicas determinísticas o aleatorias (si se quiere aplicar sobre solo una variable o sobre varias). Consiste en la sustitución del valor de las variables originales por valores redondeados.

17 Tomado de http://www.eustat.es/documentos/datos/Documento_web-con�dencialidad_c.pdf Se re�ere al Rank Swapping

Page 23: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

23 DIRPEN DSO-020-LIN-08

i Reajuste de pesos: si se conoce el tipo de muestreo que se ha aplicado al conjunto de datos original se podría realizar dicho muestreo en sentido contrario, de forma que a partir de los pesos, se puede proceder a la reidenti�cación. Estos métodos modi�can dichos pesos de forma que el muestreo no pueda ser fácilmente llevado para atrás.

i Adición de ruido: consiste en la adición de ruido aleatorio con la misma estructura de correlación de los datos originales. Esta técnica consiste en la generación de valores aleatorios que se pueden agregar a los reportados por el demandado. Esto se puede hacer de varias maneras, dependiendo de si se aplica a las variables individuales o múltiples, o el ruido se añade por lo que las medias, varianzas y covarianzas se conservan. Además, las técnicas de programación lineal pueden reducir al mínimo las diferencias entre los valores alterados y las verdaderas.

i Remuestreo: este método fue propuesto originalmente para proteger los datos en tablas, pero también se puede utilizar para proteger a los microdatos.

Sea V una variable original en un conjunto de datos con n registros, t muestras independientes X1,…,, Xt. Todas las muestras son ordenadas usando el mismo criterio de clasi�cación, después se crea una variable mascarada como x1,…, xn, donde: n es el número de registro, xj es la media del j-ésimo valor clasi�cado en X1,…, Xt.Suponiendo que los microdatos z1,…, zn son agregados para crear macrodatos en una tabla de contingencia X, con I �las y J columnas, y con determinadas especi�caciones, xij es la frecuencia original de la i-ésima �la y de la j-ésima columna. Con el �n de crear una tabla anonimizada X’, la muestra z’1,…, z’n es obtenida de los datos originales z1,…, zn n veces y con sustitución. Así, la tabla X’ es una estimativa de la tabla original X, no permitiendo obtener ninguna información precisa de X18.

Métodos basados en la reducción de datos

Existen métodos basados en la reducción de datos en donde aplicando estas técnicas no se alteran los datos, sino que producen supresiones parciales o reducciones del nivel de detalle del conjunto original. Estos procedimientos tienden a evitar la presencia de individuos reconocibles únicos o atípicos.

18 Elsa Cristina Pinto Mendes. Re-Amostragem de Con�dencialidade de Dados: Aplicação e Comparação de Técnicas de Controlo da Divulgação Estatística. Página 38. 2010

Page 24: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

24 DIRPEN DSO-020-LIN-08

Las principales técnicas de reducción son:

• Eliminación de variables: la primera aplicación de este método es la eliminación de identi�cadores directos desde el archivo de datos. Una variable debe eliminarse cuando está muy identi�cada y no puede aplicarse otro método de protección. También puede quitar una variable cuando es demasiado sensible para uso público o irrelevante a efectos analíticos. Por ejemplo, información sobre la raza, religión, VIH, etc., no podría ser entrada en un archivo de uso público mientras que podría ser entregada en un archivo de licencia.

• Eliminación de registros: puede adoptarse como medida extrema de protección de datos, cuando la unidad es identi�cable a pesar de la aplicación de otras técnicas de protección. Por ejemplo, en un conjunto de datos de las encuestas manufactureras o empresariales, una empresa puede pertenecer ella sola a un sector especí�co. En este caso, es preferible eliminar este registro concreto en lugar de eliminar la variable «industria» de todos los registros. Dado que en gran medida afecta las propiedades estadísticas de los datos liberados, la eliminación de registros debe evitarse tanto como sea posible. Es un procedimiento adecuado para variables categóricas. En variables continuas, el riesgo de revelación se eleva. Cuando los registros que se desea eliminar son seleccionados según una planeación estadística realizada por muestreo se denomina sampling (o muestreo).

• Recodificación global: Combina categorías para formar nuevas categorías menos especí�cas. En variables continuas, hace discretos los valores (paso de in�nito a �nito). La técnica se aplica a las variables numéricas, continuas o discretas. Afecta a todos los registros del archivo de datos. Consideremos, por ejemplo, la variable «Estado civil» que a menudo se observa en las siguientes categorías: soltero(a), casado(a), separado(a), divorciado(a), viudo(a). La frecuencia de muestreo de la categoría separada podría ser baja, especialmente, cuando se hacen cruces con otras variables. Las dos categorías adyacentes separados y divorciados se pueden unir en una sola «separados o divorciados». Las frecuencias observadas de las combinaciones de la participación a esta nueva categoría sería más alto que las relativas a «separados» y «divorciados» por separado. Las categorías a unir se elegirán teniendo en cuenta la utilidad de los datos, así como el control estadístico de las frecuencias. El método también se puede aplicar a las variables clave (como los códigos geográ�cos) para reducir sus efectos de identi�cación.

Page 25: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

25 DIRPEN DSO-020-LIN-08

• Codificación superior e inferior: esta técnica puede referirse a un caso especial de recodi�cación global que se puede aplicar a las variables categóricas numéricas u ordinales. Las variables «Sueldo» y «Edad» son dos ejemplos típicos. Los valores más altos de estas variables son generalmente muy atípicas y por lo tanto, identi�cables. La codi�cación superior, introduce nuevas categorías tales como «salario mensual superior a 10 millones de pesos» o «edad superior a 75 años», dejando sin cambios en los valores observados. El mismo razonamiento se aplica a los menores valores o umbrales observados y de�ne la codi�cación inferior. Cuando se trabaja con las variables categóricas ordinales, se de�ne una categoría superior (o inferior) agregando las categorías «más altas» o «más bajas».

• Supresión de celdas: aplicado a los datos tabulados, los métodos de supresión de celdas comprenden la supresión primaria y la supresión complementaria (secundaria). La supresión primaria consiste en no publicar el valor de ninguna celda reveladora, así como no presentar sus valores en la tabla y de reemplazarlos por un símbolo (p.ej. falta o suprimido) para indicar la supresión. Según la de�nición de criterio de sensibilidad serán celdas reveladoras y deben ser objeto de una supresión primaria aquellas cuyo valor es bajo en tablas de frecuencias y las celdas cuyo valor es bajo o que presentan un caso de dominancia en las tablas de variables cuantitativas. Para lograr el grado deseado de protección de las celdas reveladoras es necesario en ocasión, suprimir celdas adicionales que hacen necesario recalcular el valor de la supresión primaria, es allí, cuando se habla de supresión complementaria (secundaria).

• El criterio de selección de las celdas complementarias suprimidas debe ser elegidoprudentemente con el �n de garantizar el nivel deseado de protección, y al mismo tiempo suprimir la menor cantidad posible de información. Por ejemplo, supongamos que la combinación «estado civil = viuda; edad = 17» es una población única. Si se suprime la información sobre la edad, la combinación «estado civil = viuda; edad = falta o suprimido» no será identi�cable.

• Sepuedenrealizarcombinacionesenlaaplicacióndelastécnicasdeanonimizaciónporreducción; por ejemplo, se puede aplicar en estricto orden la técnica de recodi�cación global y luego la supresión de celdas.

Page 26: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

26 DIRPEN DSO-020-LIN-08

BIBLIOGRAFÍA

Congreso de Colombia. Ley 79 de 1993, por la cual se regula la realización de los Censos de Población y Vivienda en todo el territorio nacional. Octubre de 1993.

Departamento Administrativo Nacional de Estadística. Resolución 1503 de 2011. Por la cual se deroga la Resolución nro. 173 del 2 de abril de 2008, se conforma el Comité de Aseguramiento de la Reserva Estadística y se establecen otras disposiciones.

DANE. Decreto 1503 de 2011. Se conforma el Comité de Reserva Estadística. 2011

Departamento Administrativo Nacional de Estadística. Código Nacional de Buenas Prácticas para las Estadísticas o�ciales.

Duncan, George. Exploring the Tension between Privacy and the Social Bene�ts of Governmental Databases Paper presented at Security, Technology, and Privacy: Shaping a 21st Century Public Information Policy, 2003 April 24-25

Galindo David, Verheul Eric R. Microdata sharing via pseudonymization en: http://epp.eurostat.ec.europa.eu/portal/page/portal/conferences/documents/unece_es_work_session_statistical_data_conf/TOPIC%201-WP.03%20IP%20GALINDO.PDF

INE Instituto Nacional de Estadísticas de Chile «Dimensiones de la calidad según OCDE y EUROSTAT». Noviembre 2007.

Instituto Vasco de Estadística. Tratamiento de la con�dencialidad en las operaciones estadísticas de EUSTAT. Tomado de: http://www.eustat.es/documentos/datos/Documento_web-con�dencialidad_c.pdf

Mendes Pinto Elsa Cristina. Con�dencialidade de Dados: Aplicação e Comparação de Técnicas de Controlo da Divulgação Estatística. 2010.

Naciones Unidas. Principios fundamentales de las estadísticas o�ciales. 1994. http://unstats.un.org/unsd/methods/statorg/Principles_stat_activities/principles_stat_activities.asp

Page 27: Lineamientos para la anonimización de microdatos

Lineamientos para la anonimización de microdatos

27 DIRPEN DSO-020-LIN-08

OECD. “Quality Framework and Guidelines for OECD Statistical Activities” Version 2003.

O�cina del Comisionado para la Privacidad y la Información de Ontario, Canadá. Dispelling the Myths Surrounding De-identi�cation: Anonymization Remains a Strong Tool for Protecting Privacy. 2011.

Ursula Gonzalez-Nicolas y Agusti Solanas. Protección de la Privacidad mediante Microagregación Multivariante basada en Algoritmos Genéticos: Selección por Ruleta vs. Selección Uniforme. 2009.