El Reglamento Europeo de Inteligencia Artificial (en inglés AI Act) es una realidad. El Consejo de la UE ya ha dado su aprobación definitiva a un texto revisado, corregido y traducido a las lenguas de los veintisiete. Esta supone un hito en esta materia, ya que es el primer marco regulatorio de esta tecnología en el mundo.
Además de sentar un precedente, el objetivo es proteger los derechos de los ciudadanos a la vez que se impulsa la innovación en la industria europea. Es por esto que el reglamento tiene un carácter práctico y establece varios niveles de riesgo de los sistemas de IA según su impacto en la sociedad, con los requisitos que deben cumplir y hasta la prohibición de algunos de ellos.
Por supuesto, este reglamento también afecta al desarrollo y aplicación de los modelos de lenguaje o LLM. Como organización que desarrolla modelos de lenguaje propios, en el Instituto de Ingeniería del Conocimiento (IIC) repasamos esto. En este post, destacamos dos puntos relevantes en este sentido: los derechos de autor y los sesgos en los corpus lingüísticos.
ÍNDICE
- ¿Y ahora qué? ¿Cómo se aplica el Reglamento de IA?
- La AESIA en la aplicación del Reglamento de IA
- Cómo afecta el Reglamento de IA a los modelos de lenguaje
- Corpus lingüísticos masivos y derechos de autor
- ¿Cómo detectar contenidos protegidos por derechos de autor?
- Evitar los sesgos de la inteligencia artificial
- Corregir los sesgos de los LLM
- Retos a partir del Reglamento de Inteligencia Artificial
¿Y ahora qué? ¿Cómo se aplica el Reglamento de IA?
El proceso que se abre con la aprobación del Reglamento de Inteligencia Artificial se asemeja al que vivimos de 2016 a 2018, cuando se aplicó el Reglamento General de Protección de Datos (RGPD) en toda la UE. Antes de la implantación del RGPD, en España teníamos la Ley Orgánica de Protección de Datos (LOPD) de 1999 y el reglamento de desarrollo de la misma (RD 1720/2000).
Con la aprobación del RGPD (2016), se impulsó una nueva Ley Orgánica de Protección de Datos Personales y garantía de los derechos digitales (LOPD-GDD) que derogó la anterior. Esta adaptación se alargó durante dos años, desde que entró en vigor el RGPD (24 de mayo de 2016) hasta que se aprobó la LOPD-GDD (6 de diciembre de 2018).
La puesta en marcha del nuevo Reglamento de IA durará también dos años. No es necesario aprobar una ley de inteligencia artificial nacional que adapte el reglamento europeo, ya que es de aplicación directa en todos los Estados miembros. Sin embargo, es probable que se tengan que reformar leyes como la Ley de Protección Intelectual (LPI) para regular los nuevos usos de la IA Generativa.
La AESIA en la aplicación del Reglamento de IA
Lo que sí se puede garantizar es la criticidad de la Agencia Española de Supervisión de la Inteligencia Artificial (AESIA) en la aplicación del Reglamento de IA. En línea con las declaraciones de la nueva secretaria de Digitalización e Inteligencia Artificial, Mayte Ledo, que señalaba a la AESIA como un actor fundamental en este nuevo marco regulatorio.
Ignasi Belda como director general de la AESIA, ubicada en La Coruña, es el encargado de asumir importantes retos en un entorno tecnológico que está en constante cambio. A diferencia de la Agencia Española de Protección de datos (AEPD), que llevaba 25 años en funcionamiento cuando se implantó el RGPD en España, el futuro director tendrá que levantar la AESIA desde los cimientos.
Cómo afecta el Reglamento de IA a los modelos de lenguaje
En este contexto, la AESIA deberá afrontar múltiples desafíos de cara a la aplicación del Reglamento Europeo de Inteligencia Artificial. Como profesional implicado en el desarrollo de modelos del lenguaje de gran tamaño (LLM, del inglés Large Language Models) y soluciones basadas en los mismos, me gustaría destacar dos:
- Protección de los derechos de autor, que plantea cuestiones fundamentales sobre la propiedad intelectual y la protección de la creatividad.
- Mitigación de los sesgos, que introducen la preocupación crucial por la imparcialidad y la equidad en la toma de decisiones.
Los LLM se encuadran dentro de lo que en el reglamento se denomina «IA de uso general». Estos modelos se distinguen porque realizan de manera autónoma y competente una amplia variedad de tareas diferenciadas relacionadas con el lenguaje natural. Los grandes modelos de IA generativa son un buen ejemplo: permiten la generación flexible de contenidos, por ejemplo, en formato de texto, audio, imágenes o vídeo, que pueden adaptarse fácilmente según las instrucciones del usuario.
Estos modelos tienen la particularidad de que necesitan grandes volúmenes de datos para ser entrenados y que se consigan generalizar. Cuando los datos son principalmente documentos, estas colecciones se denominan corpus lingüísticos. Dentro de estos corpus, puede haber obras protegidas por derechos de autor y sesgos replicables después por el modelo.
Corpus lingüísticos masivos y derechos de autor
Tal como se indica en la introducción del Reglamento de IA, todo uso de contenidos protegidos por derechos de autor requiere la autorización del titular de los derechos de los que se trate. La única excepción es que el uso del LLM sea para fines de investigación. En concreto, en el artículo 53, «Obligaciones de los proveedores de IA de uso general», se recoge en el punto c) que los proveedores «establecerán directrices para cumplir el Derecho de la Unión en materia de derechos de autor y derechos afines».
Así pues, la primera dificultad que nos encontramos radica en cómo identificamos cuales son las obras que pudieran estar sujetas a derechos de autor dentro de un corpus masivo. Para que nos hagamos una idea de la problemática, el último modelo LlaMa 3 liberado por Meta ha sido entrenado empleando un corpus de 15 trillones de palabras (1). La Wikipedia completa incluye 4 billones de palabras, por lo que el corpus utilizado por Meta es 4.000 veces mayor. No parece tarea fácil localizar obras protegidas. Veámoslo con un ejemplo.
El Washington Post (WP) analizó una colección de documentos publicada por Google y denominada c4, que ocupa 156 billones de palabras. Para los curiosos, el nombre proviene de Colossal cleaned version of Common Crawl’s. El corpus está disponible en abierto para ser utilizado por quien quiera y, siendo pequeño si se le compara con el de Meta (2), hacía honor a su nombre cuando se publicó en el 2020.
El WP identifica hasta 15 millones de dominios relevantes dentro de este corpus (entre ellos, se encuentra el dominio del IIC, que contribuye al corpus con 17.000 palabras, un 0.00001 % del total). En su análisis les fue fácil localizar un dominio de venta ilegal de libros, que ha sido cerrado posteriormente, así como dominios que podían contribuir con material sesgado, de lo que hablaremos más abajo.
Ahora bien, un dato revelador es que encontraron 200 millones de menciones al término «copyright». Este término puede aparecer en multitud de contextos, no sólo como indicador de que un documento está sujeto a derechos de autor. Determinar cuáles son los documentos cuyos titulares no han dado su consentimiento en semejante escenario es prácticamente inabordable.
¿Cómo detectar contenidos protegidos por derechos de autor?
Al menos, sería interesante saber si una aproximación como la que realiza el WP valdría para cumplir el Reglamento de IA. De esta manera, los titulares de los derechos de autor podrían consultar si sus dominios están incluidos en el corpus o, en un escenario más sofisticado, podrían subir uno o varios documentos para que se realice una búsqueda sobre el corpus.
Esto nos acerca más a una solución como la que emplea YouTube para detectar si un vídeo ha infringido los derechos de propiedad de algún titular. Para ello, los titulares han provisto a YouTube de una copia de cada una de las obras protegidas, de manera que YouTube puede comprobar si en cada nuevo vídeo hay incumplimiento de derechos. Hay que considerar que los costes de implementar esta infraestructura aumentan a medida que se sofistica, pudiendo ser inasumibles por la gran mayoría de empresas.
En mi opinión, sería más práctico si los sitios web incluyeran un metadato que indicara explícitamente que no se utilicen sus contenidos para entrenar un modelo de lenguaje, de la misma manera que el archivo denominado robots.txt indica qué buscadores pueden indexar un sitio web. No obstante, esta solución no previene de usos indebidos de los corpus masivos ya existentes.
Independientemente de lo compleja que sea la solución, me parece básico que sea la misma para cada uno de los corpus. El reglamento europeo deja claro que la responsabilidad de establecer los mecanismos es del proveedor del LLM, no del propietario del corpus. Pero, teniendo en cuenta que cada uno de estos corpus masivos se emplea en múltiples LLM, no creo que sea muy eficiente que cada proveedor implemente su propia solución.
Tendría más sentido que fuera la organización que recopila y libera el corpus la que se encargara de establecer esta solución, o bien un tercero de confianza que certificara que el corpus cumple con las directrices del reglamento, y a partir de ahí todos los proveedores de LLM pudieran utilizarlo sin más que citar la fuente.
Evitar los sesgos de la inteligencia artificial
En el caso de los sesgos, El Reglamento Europeo de Inteligencia Artificial recoge varios artículos relacionados. El artículo 10 enfatiza la relevancia de adoptar medidas adecuadas para detectar, prevenir y reducir sesgos en los datos y su gestión. En este artículo se especifican las condiciones necesarias para asegurar la prevención y mitigación de dichos sesgos. Por otro lado, en el artículo 14 se resalta la importancia de la supervisión humana en la prevención de sesgos en los sistemas de IA considerados de «alto riesgo», como los sistemas autónomos. Asimismo, en el artículo 15 se hace hincapié en la importancia de evitar sesgos en cuanto a la precisión, robustez y ciberseguridad de los modelos.
Identificar y mitigar los sesgos en los LLM es crucial para garantizar que produzcan resultados justos, imparciales y representativos. El impacto de los sesgos se puede resumir en dos grandes grupos estrechamente relacionados: la perpetuación de estereotipos, que implica la persistencia y refuerzo de ideas simplificadas sobre grupos sociales, culturales o de género, y la discriminación, que se puede definir como el trato injusto hacia personas o colectivos minoritarios. Además, si se detecta sesgo en un modelo se puede erosionar la confianza de los usuarios y rechazar su uso, lo que puede dificultar la adopción de estos sistemas y reducir así sus posibles beneficios.
Los sesgos provienen, principalmente, de los datos o corpus de entrenamiento. Y existen multitud de dimensiones que pueden ser afectadas: el género, la orientación sexual, la religión, la cultura, la nacionalidad, la etnia, la edad, la discapacidad, el nivel educativo o el estatus socioeconómico, entre otros. Por ejemplo, un estudio publicado en Science Advances concluyó que el término “gente” no es neutral en cuanto al género: su significado está sesgado hacia el concepto “hombres”. Los autores analizaron más de 630 000 millones de palabras (la mayoría en inglés) usadas en 3 000 millones de páginas web.
Tomando de nuevo como ejemplo la pieza del Washington Post, se analiza también el impacto de los sesgos religiosos. Según sus cálculos, aproximadamente el 5 % de los dominios del corpus analizado son de contenido religioso. Dentro de los 20 dominios religiosos, 14 son cristianos y el resto se reparte en judíos, musulmanes, mormones y testigos de Jehová. Esta desproporción puede afectar a las respuestas de los LLM en cuestiones religiosas. Y no sólo la desigual distribución es un problema. En el pasado, se han reportado respuestas islamófobas en la versión 3 de ChatGPT. Si se introducía la frase “Two muslims walked into a…”, el 66 % de las veces completaba la frase con referencias violentas. En versiones más modernas este problema ya ha sido mitigado.
Corregir los sesgos de los LLM
Llegados a este punto, surge la siguiente pregunta: ¿quién decide qué sesgos hay que corregir? En el Reglamento de IA se señalan aquellos posibles sesgos que puedan afectar a la salud y la seguridad de las personas, afectar negativamente a los derechos fundamentales o dar lugar a algún tipo de discriminación prohibida por el Derecho de la Unión. Pero es necesario aterrizar las categorías anteriores en criterios prácticos que formalicen cuándo se considera que un LLM produce una salida con sesgo.
La corrección de sesgos es un proceso complejo e iterativo que requiere impactar en múltiples puntos del desarrollo del LLM. Por un lado, es clave la selección de los corpus de entrenamiento y su posterior limpieza, para reducir los sesgos desde el origen lo máximo posible. Por otro lado, se pueden aplicar técnicas de corrección de sesgos durante el ajuste fino del modelo, con revisores humanos. Como vemos, este proceso requiere de una continua supervisión y evaluación híbrida, tanto humana como automática. Toda estandarización que se pueda proveer en cuanto a las métricas a cumplir y el tipo de sesgos a evitar van a servir de gran ayuda a las organizaciones.
Retos a partir del Reglamento de Inteligencia Artificial
En definitiva, la aprobación del Reglamento Europeo de Inteligencia Artificial es un momento clave que inicia la cuenta atrás para su implantación definitiva. Cualquier tecnología que tiene un impacto importante en la sociedad requiere una regulación. Y la inteligencia artificial lo tiene, sin duda. Los sistemas basados en IA pueden impactar en la autonomía, la dignidad, la libertad de expresión y la toma de decisiones de las personas, por lo que es una buena noticia que la UE haya tomado la decisión de liderar el primer marco regulatorio a nivel mundial.
Además, ya están surgiendo otras iniciativas que van a la zaga, como el proyecto de ley americano Generative AI Copyright Disclosure Act, presentado por el congresista Adam Schiff. Según este, se requeriría que las empresas de IA declararan cualquier obra con derechos de autor que pudiera haber en sus conjuntos de datos de entrenamiento antes de publicar una IA generativa.
Precisamente si hablamos de modelos de lenguaje, hemos visto en este post que su construcción, integración y uso tiene retos importantes todavía abiertos. Hay que seguir trabajando en la protección de los derechos de autor o de la propiedad intelectual, la protección de datos y la mitigación de posibles respuestas sesgadas o inapropiadas.
En mi opinión, estos retos se deben abordar con un enfoque abierto y multidisciplinar. Para proteger los mismos derechos, existen múltiples interpretaciones posibles del reglamento europeo. Habría que escoger aquellas que no impidan la innovación a las pymes y empresas tecnológicas europeas, si no queremos aumentar la dependencia tecnológica con Estados Unidos. No obstante, ya estamos en camino y solo nos queda aprender y pulir este gran hito.
Notas
- En el texto se emplea la interpretación de trillones y billones americanos.
- El corpus de LlaMa incluye a c4.