Blog de Internet Security Auditors: Anonimización y Seudonimización de datos de carácter personal

1. Introducción

Desde la entrada en escena del nuevo Reglamento General de Protección de Datos personales (en adelante, RGPD) han sido muchas las técnicas estudiadas y utilizadas para cumplir con cada uno de los artículos del mismo y, en particular, para proteger de una manera efectiva los datos de carácter personal que se tratan por parte de una organización, de tal manera que, exista un equilibrio entre seguridad y negocio. Sin embargo, existen una serie de técnicas y/o conceptos que todavía causan bastante confusión en la industria y de los cuales se suelen utilizar indistintamente, cuando en realidad, son totalmente distintos. Estas técnicas de protección de datos personales son las que se conocen con el nombre de Anonimización y Seudonimización de datos de carácter personal. Realmente, el único concepto nuevo que se ha introducido con el RGPD ha sido el de Seudonimización, ya que la Ley de protección de Datos, anterior al reglamento, ya recogía en su cuerpo el proceso de anonimización.

En la actualidad, pocas empresas, debido precisamente a la falta de entendimiento de este tipo de técnicas tan beneficiosas en algunas ocasiones, utilizan la Anonimización y Seudonimización para la protección de los datos personales que tratan en sus procesos de negocio.

2. Riesgos básicos

Estas técnicas de protección sirven para combatir varios riesgos que afectan a la confidencialidad de los datos de carácter personal, principalmente:

Singularización: Consiste en la posibilidad de extraer de un conjunto de datos algunos registros (o todos los registros) que identifican a una persona.
Vinculabilidad: Consiste en la capacidad de vincular, al menos, dos datos referentes al mismo interesado o grupo de interesados, ya sea a través de una única fuente de datos o varias.
Inferencia: Consiste en la posibilidad de deducir, con una probabilidad significativa, el valor de un atributo al que no se debería tener acceso a través de otros, menos críticos, a los que sí se tiene o se puede tener acceso en un conjunto de atributos.

3. Diferencias entre Anonimización y Seudonimización de datos

3.1. Anonimización de datos personales

El proceso o el concepto de anonimización (o disociación de datos personales) consiste en eliminar o reducir al mínimo el riesgo remanente de reidentificación de los datos de carácter personal anonimizados, es decir, se trata de una técnica por la cual se eliminan las posibilidades de identificar al titular de los datos de carácter personal, manteniendo la veracidad y exactitud de los resultados del tratamiento de los mismos, es decir, además, de evitar la identificación de las personas a las cuales pertenecen dichos datos, se debe garantizar que cualquier operación sobre los datos anonimizados no conlleva una desviación en los resultados que se hubieran obtenido con los datos reales antes de ser sometidos al proceso de anonimización.

En definitiva, la anonimización debería eliminar los datos personales que permiten la identificación de las personas de “forma irreversible”. Es decir, los datos personales se disocian de forma completa, de tal forma que un individuo no pueda ser identificado con el resto de los datos. Una vez que se ha completado el proceso de anonimización, el tratamiento de los datos anonimizados no estaría dentro del ámbito del RGPD.

A partir de este momento, el responsable del tratamiento podrá hacer uso de esta información en la forma y modo que necesite ya que la privacidad de las personas no se encuentra comprometida de ningún modo.

Por otro lado, para determinar si una persona física o interesado puede ser identificado tras someter sus datos a un proceso de anonimización, el Grupo de Trabajo del Artículo 29 hace referencia a la “razonabilidad de medios usados” como criterio para evaluar si el procedimiento de anonimización es suficientemente sólido y robusto y, por tanto, la identificación de los datos anonimizados es considerada “razonablemente imposible”. Es decir, si los medios que deben o tienen que usarse para “romper” los resultados obtenidos de las técnicas de anonimización empleadas son excesivos o desproporcionados, se considerará que la técnica de anonimización utilizada provee una disociación de los datos “irreversible”.

El avance de la tecnología y la información disponible hacen difícil garantizar el anonimato absoluto, especialmente a lo largo del tiempo, pero, en cualquier caso, la anonimización va a ofrecer mayores garantías de privacidad a las personas.

3.1.1. Técnicas de Anonimización de datos personales

De forma general, existen dos tipos de anonimización: generalización y aleatorización:

Aleatorización: La aleatorización consiste en un conjunto de técnicas que tienen como objetivo modificar la veracidad de un dato con la finalidad de eliminar la conexión existente entre éste y el titular del mismo. Si los datos son lo suficientemente ambiguos o inciertos, se evita que se pueda llegar a identificar a una persona física concreta. De forma particular, podemos encontrar las siguientes técnicas:

Adición de ruido: Esta técnica consiste en modificar los atributos de un conjunto de datos para que sean menos precisos o exactos, pero conservar su distribución general. Los datos son veraces hasta determinado punto.
Permutación: La técnica de permutación consiste en mezclar los valores de los atributos de un conjunto de datos para que algunos de ellos puedan vincularse artificialmente a distintos interesados, es decir, se intercambian algunos valores contenidos en un conjunto de datos, con los de otro conjunto, teniendo cuidado de no alterar la relación lógica existente.
Privacidad diferencial: La privacidad diferencial es diferente del resto de técnicas anteriores, ya que se basa en la recolección de datos del global de usuarios sin saber a quién corresponde cada dato, es decir, el responsable del tratamiento de datos genera vistas anonimizadas del conjunto de datos, pero almacenando, de forma paralela, una copia de los originales.

Generalización: La técnica de generalización consiste en generalizar y diluir los atributos de los interesados o personas físicas modificando las respectivas escalas u ordenes de magnitud. La generalización puede ser efectiva para descartar la singularización o el aislamiento, pero no permite obtener una anonimización eficaz para todos los casos; siendo necesario aplicar otros enfoques (cuantitativos y sofisticados) que impidan la vinculabilidad y la inferencia.

Agregación y anonimato k: Con esta técnica se pretende impedir que una persona sea aislada al agruparla con al menos un grupo k de personas. Para ello los valores de los atributos se generalizan de modo que cada individuo comparta el mismo valor.
Diversidad l / proximidad t: Añade un poco de complejidad a la técnica anteriormente descrita y se amplía el “k-anonymity” asegurándose de que, en cada clase de equivalencia, cada atributo tenga al menos l valores diferentes.

Otras técnicas que pueden utilizarse para llevar a cabo el proceso de anonimización, se indican a continuación:

Algoritmos de Hash con clave secreta y borrado de clave: Esta técnica equivale a generar un número aleatorio como seudónimo para cada atributo de una base de datos y, posteriormente, al borrado de la tabla de correspondencia (datos reales).
Cifrado Homomórfico: Un algoritmo de cifrado homomórfico permite realizar operaciones con datos cifrados (sin la necesidad de ser descifrado en ningún momento) de tal manera que el resultado de las operaciones no varía con respecto a si las operaciones se hubieran llevado a cabo con los datos en claro (sin cifrar). Los resultados de las operaciones con datos cifrados dan por resultado valores igualmente cifrados. El esquema de cifrado homomórfico abre la posibilidad del tratamiento de datos personales anonimizados garantizando la privacidad del tratamiento y que los resultados de los tratamientos van a ser accesibles únicamente al poseedor de la clave de descifrado, si es que es necesario.

NOTA: Hay que tener en cuenta que esta tecnología todavía se encuentra en una fase de prueba y debe estabilizarse antes de su uso masivo.
Sello de tiempo: Se debe tener en cuenta la posibilidad de utilizar en el proceso de anonimización algoritmos de sello de tiempo con el fin de garantizar la fecha y hora en la que la anonimización ha sido realizada, o incluso algoritmos de firma electrónica que permiten garantizar la identidad electrónica de quien ha realizado la anonimización.

3.2. Seudonimización de datos personales

Según el RGPD el proceso de seudonimización se corresponde al proceso de tratamiento de datos de carácter personal de tal manera que no puedan atribuirse a un individuo sin utilizar información adicional, siempre que dicha información adicional figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable

Es decir, consiste en tratar los datos de carácter personal sin los datos que permiten la identificación del interesado, pero sin suprimir la conexión existente entre los datos que permiten determinar la persona propietaria de los mismos. Esto hace que siga existiendo una alta probabilidad de identificar a la persona física propietaria de los datos de carácter personal que se están tratando.

A pesar de que la información que se ha sometido a un proceso de seudonimización no permite la identificación directa del interesado o propietario de los datos, no se debe olvidar que dichos datos siguen siendo de carácter personal (ya que es posible averiguar la identidad del interesado a través de información adicional) y, como tales, objeto de protección de la normativa en materia de protección de datos vigente. Por ello, es muy importante proteger aquellos sistemas que permiten realizar la traducción inversa y obtener la identidad de la persona a la cual pertenecen los datos que han sido sometidos a un proceso de seudonimización.

3.2.1. Técnicas de Seudonimización de datos personales

Las técnicas de seudonimización más relevantes, tal y como se indica en el Dictamen 05/2014 del Grupo de Trabajo del Artículo 29 son las siguientes:

Algoritmos de Hash: El uso de algoritmos de Hash (MD5, SHA, etc.) son considerados como una técnica unidireccional o de una sola vía, ya que no son “reversibles”. Se trata de una función matemática que puede recibir como entrada un conjunto infinito de datos y produce como salida un resumen o conjunto finito de datos que identifican inequívocamente al conjunto de caracteres de entrada. Es imposible derivar u obtener la entrada partiendo de su hash. Existe la posibilidad, dado que siempre se obtiene la misma salida para la misma entrada y, conociendo el rango de los valores de entrada y el hash, obtener los datos personales de entrada que fueron sometidos a este proceso.
Cifrado con clave secreta: Los datos personales se cifran con una clave de cifrado custodiada por un individuo. El custodio de la clave de cifrado con la cual se han cifrado los datos de carácter personal podrá, de una forma sencilla, descifrar el conjunto de datos de carácter personal identificando así al interesado y propietario de los datos.
Función con clave almacenada: Es un tipo de función hash que hace uso de una clave secreta a modo de valor de entrada suplementario (la ejecución de la función se podría reproducir con el valor de entrada y la clave secreta).
Descomposición en tokens: Consiste en la sustitución o reemplazo de datos de carácter personal (sensibles) por otros datos o conjunto de caracteres que no lo son, pero que garantizan la misma operatividad. Dado que debe existir una tabla de correspondencia entre el par token – dato personal, se puede identificar a la persona o interesado propietario de los datos de carácter personal, teniendo acceso a dicha tabla.

4. Conclusiones

Como se ha podido apreciar, las técnicas de anonimización y seudonimización actuales no cumplen de forma completa los criterios que permitan obtener una anonimización o seudonimización efectivas; de una u otra forma todas ellas entrañan o suponen algún riesgo en cuanto a la identificación de un individuo a través de datos anonimizados, es por ello que se hace imprescindible estudiar y diseñar de forma cuidadosa cada técnica a emplear atendiendo a varios factores como, la naturaleza de los datos personales y el posterior uso o tratamiento de los datos anonimizados. Como puede observarse en la siguiente tabla extraída del dictamen 05/2014 sobre técnicas de anonimización del GT29, se concluye que ninguna de las técnicas actuales cumple al 100% los criterios de anonimización y seudonimización efectivas:

Técnica	¿Existe riesgo de singularizació?	¿Existe riesgo de vinculabilidad?	¿Existe riesgo de inferencia?
Adicción de ruido	Sí	Puede que no	Puede que no
Sustitución	Sí	Sí	Puede que no
Agregación y anonimato k	No	Sí	Sí
Diversidad 1	No	Sí	Puede que no
Privacidad diferencial	Puede que no	Puede que no	Puede que no
Hash / Token	Sí	Sí	Puede que no
Seudonimización	Sí	Sí	Sí

Al no garantizar completamente la no reidentificación de las personas, es importante que los responsables del tratamiento o, en su defecto, los delegados de protección de datos de carácter personal conozcan bien todas las fortalezas y debilidades de cada una de las técnicas, así como las circunstancias precisas para aplicar una u otra técnica o un conjunto de ellas, de tal forma que se garantice la privacidad de los datos de carácter personal. Para paliar más aún los efectos de estos riesgos residuales que existen tras la aplicación de este tipo de técnicas, los responsables del tratamiento deberán implantar medidas de seguridad compensatorias que ayuden a mitigar dichas debilidades y aumenten así la fortaleza y la privacidad de los datos.

Además, sea cual sea la técnica elegida, no hay que olvidar que este proceso de anonimización y/o seudonimización debe trasladarse a una política interna o procedimiento el cual, debe estar disponible y accesible para todas las partes interesadas en el tratamiento de los datos anonimizados. Esta documentación debe ser correctamente auditada, con una periodicidad lógica que permita garantizar su cumplimiento por parte de todas las partes y detectar posibles desviaciones y/o modificaciones necesarias dado el rápido avance de la tecnología. Es por esto último, que la anonimización o seudonimización debe plasmarse como un proceso continuo y vivo en el cual el responsable del tratamiento evalúa de forma regular los riesgos existentes e incorporando las soluciones y medidas de seguridad necesarias para reducir el nivel de riesgo a una cota aceptable por la organización.

Finalmente, tanto la anonimización como la seudonimización (teniendo en cuenta los riesgos anteriores) son excelentes métodos que ayudan a reducir los riesgos inherentes al tratamiento de datos personales por parte de una organización y ayudan a los responsables y encargados del tratamiento de estás a cumplir con sus obligaciones derivadas de la normativa de protección de datos de carácter personal. Estas técnicas no deben ser vistas como una exención del cumplimiento, sino como herramientas útiles y necesarias para la mitigación de los riesgos asociados al procesamiento, transmisión, almacenamiento o cualquier otro tipo de operación efectuada sobre este tipo de datos, que no son definitivas debido a que son altamente dependientes del avance de la tecnología.

5. Referencias

Autor: Sergio Moreno - CCNA, PCIP, CCSP, CISSP, CDPSE, ISO 27001 L.A.
Dpto. Consultoría