Por Ceyhun Necati Pehlivan
El amplio alcance del Reglamento General de Protección de Datos (RGPD) y sus reglas flexibles y tecnológicamente neutrales lo sitúan en una posición ideal para regular nuevas tecnologías como la inteligencia artificial (IA) generativa, junto con otras normativas específicas, como la nueva ley europea de la IA.
Sin embargo, no siempre resulta claro cómo deben aplicarse estas reglas a las tecnologías emergentes. En lo que respecta a los modelos de IA generativa, surgen algunas preguntas importantes — incluso potencialmente decisivas para su desarrollo — sobre su compatibilidad con el RGPD. A continuación, se presentan algunas de estas
Uso de datos públicos para entrenar los modelos de lenguaje
Los modelos de lenguaje a gran escala (LLM) requieren enormes cantidades de texto para aprender, y ese texto generalmente proviene de fuentes abiertas, incluyendo la internet pública. Por ejemplo, la tercera generación de los LLM de la serie GPT creados por OpenAI, GPT-3, fue entrenada con 45 terabytes de texto comprimido provenientes, entre otras fuentes, del conjunto de datos amasados por CommonCrawl (una base de datos abierta que cuenta con más de 250 mil millones de páginas web), de textos de libros y Wikipedia. Además, cuenta con una capacidad de 175 mil millones de parámetros para el aprendizaje automatizado. Estos datos inevitablemente incluyen información personal sobre individuos.
¿Cuál es la base que legitima el uso de estos enormes conjuntos de datos personales de acuerdo con la legislación sobre protección de datos? Parece evidente que sería imposible obtener el consentimiento de cada individuo cuya información se encuentra en esos conjuntos de datos de entrenamiento. En la gran mayoría de los casos, la única base legitimadora viable conforme a la normativa de protección de datos sería el llamado interés legítimo (art. 6.1 f RGPD). Esto implica identificar el interés que se persigue, evaluar si el tratamiento de los datos es necesario para satisfacer dicho interés y establecer un equilibrio entre ese interés y los derechos de los afectados. Esta ponderación entre interés legítimo y derecho del afectado depende de muchos factores. Por ejemplo, hay que valorar qué medidas de seguridad se han aplicado por el que utiliza esos datos para proteger los intereses de los individuos.
No hay todavía una posición definitiva de las autoridades de protección de datos de la UE respecto a este asunto. Sin embargo, existen argumentos sólidos para considerar que, tras implementar una serie de salvaguardias apropiadas, esta base legitimadora – la del interés legítimo – sería suficiente para permitir el desarrollo de la IA. En esta valoración, es particularmente relevante el hecho de que los modelos de IA de uso general están obteniendo reconocimiento legislativo en la legislación sobre IA de la propia Unión Europea.
Los datos de categoría especial
Estos conjuntos de datos probablemente incluirán datos personales de categoría especial como, por ejemplo, el hecho de que Donald Trump es candidato del Partido Republicano a la Casa Blanca. Este tipo de datos personales solo pueden ser tratados en circunstancias limitadas, como cuando el individuo ha dado su consentimiento explícito o ha hecho esa información pública de forma manifiesta. El interés legítimo no es suficiente para tratar estos datos. De nuevo, este es un problema crítico para el desarrollo de la IA. Dada la magnitud de los conjuntos de datos de entrenamiento, es difícil imaginar cómo podrían cumplirse las condiciones requeridas legalmente (art. 9 RGPD) en relación con todos los datos personales de categoría especial contenidos en ellos, o cómo podría hacerse cumplir en la práctica.
Se han sugerido varias soluciones a este problema.
La más obvia pasa por filtrar los datos personales de categoría especial de cualquier conjunto de datos de entrenamiento, pero no parece que esta solución sea viable. Identificar con precisión todas las instancias de datos personales de categoría especial sería imposible dada la flexibilidad del lenguaje natural y el hecho de que este concepto jurídico incluye la información de la cual se puedan inferir datos personales de categoría especial. Por ejemplo, consideremos las siguientes declaraciones encontradas aleatoriamente en internet: “Estoy investigando el cáncer de vesícula biliar”, “Voy a correr la Carrera Madrid en Marcha Contra el Cáncer” y “Pedro Sánchez ha sido un cáncer para España”. Solo la última podría considerarse posiblemente datos personales de categoría especial, porque expresa una opinión política de su autor (que debería acogerse a la excepción indicada de haber sido hecho pública por el que expresó tal opinión).
Cualquier solución que implique eliminar los datos personales de categoría especial, como la información relativa a la orientación sexual o la discapacidad, podría resultar en que el modelo de IA no sea representativo o sea discriminatorio.
Una alternativa sería interpretar flexiblemente el Reglamento teniendo en cuenta, especialmente, que los proveedores de IA generativa típicamente no tienen interés en que sus modelos aprendan de datos personales de categoría especial sobre individuos específicos (como los pescadores no tienen ningún interés en pescar delfines). Así se refleja en el enfoque adoptado para los motores de búsqueda, que tratan también una gran cantidad de datos personales de categoría especial. En un caso anterior al RGPD, el TJUE concluyó que no era deseable ni posible que los motores de búsqueda filtraran datos personales sensibles antes de facilitar información porque tal exigencia impediría ofrecer un servicio de búsquedas en internet.
Minimización de datos
La minimización de datos es otro principio esencial del RGPD, diseñado para proteger los datos personales de los individuos al asegurar que se recabe y trate la cantidad mínima necesaria para los fines específicos y legítimos del que trata los datos. No obstante, este principio resulta de difícil aplicación en el contexto de la IA.
Como se ha mencionado anteriormente, el entrenamiento de la IA requiere, por su naturaleza, grandes volúmenes de información diversificada para identificar patrones y formular predicciones. Esto es difícilmente compatible con el principio de minimización de datos que, precisamente, restringe la recogida y tratamiento de datos a los que sean estrictamente necesarios. Además, los sistemas de IA suelen emplear métodos estadísticos para descubrir nuevas correlaciones dentro de grandes conjuntos de datos. Es obvio que este proceso, que requiere acceso a grandes cantidades de datos, puede entrar en conflicto con el principio de minimización. Para resolver este conflicto, la minimización de datos debe interpretarse con un enfoque de proporcionalidad. Es decir, interpretarlo en el sentido de que se pueden incluir datos personales adicionales en el tratamiento si los beneficios de hacerlo para los objetivos legítimos superan los riesgos para los derechos de los titulares de los datos.
Además, la seudonimización con otras medidas de seguridad puede mitigar los riesgos y mejorar el cumplimiento del principio de minimización. La seudonimización implica tratar los datos de tal manera que, sin disponer de información adicional, no puedan atribuirse a un individuo específico reduciendo así los riesgos para la privacidad y seguridad.
El tratamiento de datos personales con fines estadísticos, incluido el entrenamiento por parte de los sistemas de IA, puede estar sujeto a normas más flexibles en cuanto a minimización de datos porque este tratamiento no afecta directamente los resultados personales de los individuos. Como se ve, la flexibilidad de las normas permite a los desarrolladores de IA aprovechar grandes volúmenes de datos para mejorar la precisión y eficacia de los modelos a la vez que implementar salvaguardias adecuadas para proteger la privacidad.
Como se habrá podido deducir, será fundamental establecer directrices claras que orienten la aplicación del principio de minimización en el tratamiento estadístico y en el contexto de la IA. Por ejemplo, los responsables del tratamiento deben asegurar que los datos sean anonimizados desde la fase de diseño. De esta manera, se minimizan los riesgos para la privacidad de los individuos al tiempo que se maximiza el potencial del análisis de IA.
Exactitud
Otra preocupación relevante es la precisión del resultado (output), es decir, la información emitida por un sistema de IA generativa. Los modelos de lenguaje a gran escala (LLM) simplemente predicen cuál es la secuencia de palabras más probable que debería seguir a la solicitud del usuario. Por lo tanto, existe el riesgo de que este output sea estadísticamente probable pero fácticamente incorrecto. ¿Son estas «alucinaciones» compatibles con el principio de exactitud del RGPD?
De hecho, se ha presentado una queja ante la autoridad de protección de datos de Austria en este sentido. La queja alega que, cuando se le pregunta por la fecha de nacimiento de un individuo en particular, ChatGPT inventa varias respuestas incorrectas. La resolución de tal queja vaya, probablemente, en la línea de afirmar que los resultados de los LLM tienen que ser presentado en contexto. En otras palabras, los proveedores de estos sistemas deben advertir a los usuarios que no están generando hechos, sino que funcionan como meros «mecanismos de creación de output probabilística» con un «nivel limitado de fiabilidad«, esto es, informar a los usuarios sobre cómo interpretar la información generada por la IA subrayando el carácter indicativo de los resultados y la necesidad de verificación ulterior. En todo caso, mejorar la exactitud en los sistemas de IA generativa requiere implementar procesos de validación cruzada para verificar la precisión de la información antes de su aplicación en contextos críticas. Es esencial desarrollar mecanismos que permitan corregir errores en tiempo real, incorporando el feedback de los usuarios para mejorar progresivamente la precisión de los datos generados.
Derechos individuales
El último desafío clave surge de los derechos otorgados a los individuos conforme al RGPD, como el derecho de acceso, el derecho de oposición y el derecho al olvido.
El cumplimiento de estos derechos plantea varios desafíos para los LLM. Por ejemplo, ¿cómo se atendería una solicitud de un individuo pidiendo acceso a todos sus datos personales contenidos en un conjunto de datos de entrenamiento?¿Y si un individuo pide que sus datos personales sean eliminados de un LLM entrenado?
En la práctica, la mayoría de los proveedores de LLM abordan esto mediante el filtrado del output. Esto conlleva identificar situaciones en las que el LLM genera contenido problemático sobre un individuo específico y luego suprimir ese contenido. No obstante, ¿sería esto suficiente para cumplir con el derecho de supresión?
Asimismo, el derecho de acceso permite a los individuos obtener confirmación de si sus datos personales están siendo tratados y, en caso afirmativo, acceder a dichos datos y recibir información sobre el tratamiento. En el contexto de los LLM, cumplir con este derecho es particularmente difícil. Los conjuntos de datos de entrenamiento que se utilizan para desarrollar estos modelos son extremadamente vastos y probablemente contienen datos personales de innumerables individuos. Atender una solicitud de acceso implicaría identificar y extraer todos los datos personales relacionados con el solicitante de entre estos masivos conjuntos de datos, lo cual resulta logísticamente complejo y técnicamente exigente.
En términos de cumplimiento (compliance) de la IA generativa con el RGPD, estos aspectos son «desconocidos conocidos». Esto significa que, aunque conocemos las normativas y los principios vigentes, su aplicación práctica en contextos específicos de uso de IA generativa sigue presentando áreas grises que requieren clarificación.
* Una versión más breve de esta entrada se publicó en El Confidencial.
foto: JJBOSE