Los sesgos y la explicabilidad de la Inteligencia Artificial son dos de los temas que más impactan en la adopción de esta tecnología. Desde la Inteligencia Artificial responsable, se trata de trabajarlos con distintas métricas desde la concepción de cualquier modelo.
La Cátedra UAM-IIC de Ciencia de Datos y Aprendizaje Automático abordó este tema con el seminario “Inteligencia Artificial responsable”, impartido por Alberto Barbado, Telefónica Tech IoT & Big Data. En concreto, se trató el origen de los sesgos, su impacto y cómo evitarlos con varios ejemplos. Y, por otro lado, qué tipos de técnicas de explicabilidad en IA se pueden aplicar.
Problemas a abordar desde la IA responsable
Alberto Barbado explicó que el concepto de Inteligencia Artificial Responsable no existía como tal hasta que, con el auge del Machine Learning, surge la demanda de comprensión sobre cómo funcionan los algoritmos y modelos e intentar que los responsables de estos sean capaces de rendir cuenta sobre su funcionamiento.
En las películas, empezó el experto, se reflejan muchos malos usos y consecuencias negativas de la Inteligencia Artificial (IA). No obstante, “estos futuros distópicos no son tan futuros”, advirtió, y existen casos reales de cajas negras, sistemas sesgados o desarrollos inesperados, en concreto:
- Cajas negras o sistemas de IA opacos que pueden “engañarnos”. Por ejemplo, ante algunas aplicaciones, no somos capaces de distinguir que hay un sistema IA por debajo, y mucho menos se nos explica lo que hace o las decisiones que toma.
- Falsos positivos y discriminación fruto de sistemas sesgados. Fue el caso de un modelo para predecir la potencial reincidencia penal de una persona. El sistema estaba sesgado y penalizaba a personas negras.
- Desarrollos inesperados o negativos al poner en producción la Inteligencia Artificial. Puso el ejemplo de un chatbot que aprendía de las interacciones en Twitter con los usuarios y que replicó malas palabras y conductas.
Para evitar estos problemas, Barbado sugiere no esperar a que un sistema IA funcione mal para hacer algo. Por ello, varias organizaciones han establecido algunos principios que guíen el desarrollo de los productos de Inteligencia Artificial desde el principio. Entre estos, se propone tener en cuenta aspectos como la privacidad, la transparencia, la seguridad o la explicabilidad desde la concepción del producto de IA.
Sesgos en Inteligencia Artificial
Uno de los principios que deberían guiar el desarrollo de la Inteligencia Artificial es el de fairness o justicia. Este pasa por asegurarnos de que las decisiones de nuestros algoritmos son justas y no se ven condicionadas por sesgos de raza o género, entre otros, y que normalmente vienen de los propios datos.
De hecho, estos sesgos pueden expandirse desde los datos a las decisiones del modelo. Un ejemplo de esto son los word embeddings generados con herramientas como GloVe, que se basan en textos de Wikipedia. Como explicó Alberto Barbado, estos infieren el valor semántico de las palabras en función de las que aparecen alrededor. Y mostró cómo el valor semántico de algunas profesiones estaba correlacionado con el valor semántico de he (él) o el de she (ella), existiendo un sesgo en los mismos word embeddings que luego se utilizarán para desarrollar herramientas y soluciones de Procesamiento del Lenguaje Natural (PLN).
También suelen aparecer problemas de sesgos en sistemas de recomendación para la búsqueda de candidatos desde RR. HH. En otro ejemplo, vimos cómo una mujer con más experiencia y formación que un hombre estaba por debajo en el ranking resultante del modelo, cuando estas variables deberían ser las más determinantes.
Tipos y origen de los sesgos en IA
Cuando hablamos de sesgos, podemos hablar de dos tipos. Por un lado, se puede producir una discriminación intencional o explícita (disparate treatment) y, por otro, una discriminación no intencional (disparate impact). Los sistemas de Inteligencia Artificial normalmente reproducen esta última, pues los sesgos suelen ser fruto de un mal tratamiento de los datos con los que se ha entrenado el modelo.
Así pues, el origen de los sesgos puede darse en distintos pasos relacionados con los datos y variables de entrenamiento, como son:
- La adquisición de los datos, que tienen un sesgo de por sí.
- La definición o etiquetado de los datos, por error humano o criterios subjetivos.
- El utilizar menos variables de las necesarias, por lo que se infieren relaciones erróneas entre los datos.
- El desequilibrio de datos, que no son representativos y pueden discriminar a las minorías.
- El trabajo con variables correlacionadas con otras variables sensibles, produciéndose sesgos indirectos.
En este sentido, para trabajar con datos variables sensibles y abordar la problemática de los sesgos, hay que tener en cuenta el contexto legal. Según explicaba Alberto Barbado, “el tema de las variables sensibles está ya muy trabajado, ahora queda tenerlo en cuenta en el ámbito tecnológico”. En muchas regulaciones ya se dice que variables como el sexo, la raza o la religión, entre otras, tienen que estar protegidas y no se puede discriminar por ellas.
¿Cómo evitar los sesgos en Inteligencia Artificial?
La primera decisión que se suele tomar para desarrollar una Inteligencia Artificial sin sesgos es evitar las variables sensibles. No obstante, estas pueden estar correlacionadas con otras que sí se utilicen y que reproducen los mismos sesgos indirectamente. Por ello, surgen distintas métricas de fairness para saber si se puede estar discriminando a un colectivo.
Para entenderlas, Alberto Barbado puso el ejemplo de un modelo que decide a quién darle un crédito y que podía tener un sesgo de género, medible mediante:
- Criterios de independencia, que comprueban que la predicción del modelo condicionada a la variable de género no tenga valores muy dispares. No son infalibles, porque no tienen en cuenta cierta información.
- Criterios de separación, para que la proporción de predicciones del modelo sea similar, no solamente condicionada a que la persona sea hombre o mujer, sino también condicionada a si ha devuelto el crédito o no.
- Criterios de suficiencia, para que la proporción de personas que han devuelto en crédito sea similar en el caso de hombres y en el de mujeres.
¿Cómo trabajamos con estas métricas? Las métricas de fairness las podemos aplicar en distintos puntos del proceso de desarrollo de un modelo: al analizar los datos de entrada, para corregir un posible desequilibrio, durante el entrenamiento del modelo, o si el modelo ya está desplegado, hay técnicas de fairness para corregir el sesgo.
Inteligencia Artificial explicable
La explicabilidad en IA también ha tenido un interés creciente en los últimos años, tanto a nivel tecnología como a nivel casos de uso. Incluso dentro de la regulación, Alberto Barbado comentó que la RGPD tiene artículos en los que se dice explícitamente que es deseable que, cuando un sistema de IA tome decisiones sensibles, dé explicaciones.
Antes de la Inteligencia Artificial explicable, ya se hablaba de modelos interpretables y transparentes, pero, según el experto, no es suficiente para que un usuario comprenda sus decisiones. “Si queremos dar explicaciones de una predicción, por ejemplo, hay que convertir la información del modelo interpretable en una explicación en línea con las expectativas y conocimientos de un usuario concreto”.
Tipos de técnicas de explicabilidad en IA
Las técnicas de explicabilidad en IA buscan que no haya que sacrificar el rendimiento de un modelo para entender cómo funciona. Se trata de un subconjunto de técnicas que nos ayudan a explicar sus decisiones a posteriori.
En primer lugar, estas técnicas se clasifican en función de cómo se relacionan con el modelo y pueden ser:
- Específicas del modelo o para un tipo concreto de algoritmo, que genera las explicaciones en función de datos concretos de su desarrollo.
- Agnósticas, que infieren el porqué de las decisiones de cualquier modelo. No se centran en los detalles técnicos, sino en qué salidas da ante unas entradas concretas.
De hecho, también se pueden clasificar según qué salida o información nos dan en:
- Técnicas de explicación globales, que nos dan explicaciones del modelo en general.
- Técnicas de explicación individuales, al nivel de una predicción o punto de datos en concreto.
Y ese output también presenta la información de diferentes formas: explicación sobre las variables relevantes, cómo han contribuido las variables a un valor concreto de predicción, explicaciones basadas en reglas, explicaciones visuales (taxonomía), etc.
El futuro de la IA responsable
La Inteligencia Artificial responsable tiene que seguir desarrollándose. Sobre todo, para que se aplique a todo tipo de modelos, incluso los que puedan surgir, y que estos nos den cada vez mejores explicaciones. Estas son algunas de las líneas de investigación actuales:
- Nuevas métricas. Por ejemplo, que nos ayuden a comparar qué técnicas de explicabilidad son mejores para cada caso o a ver cómo de alineadas están las explicaciones con el conocimiento a priori de los usuarios.
- Explicabilidad del Deep Learning. Cómo aplicar técnicas de explicabilidad para los modelos más novedosos. Al final, trabajar con redes neuronales recurrentes, por ejemplo, hace necesario explicar sus predicciones, pero no es fácil con técnicas de explicabilidad pensadas para otro tipo de modelos.
- Combinación de las técnicas y métricas. Cómo combinar todo lo que hemos visto: las explicaciones con la detección de vulnerabilidades en los modelos, para ayudarnos a entender qué limites hay en el entrenamiento o en los datos de entrada y para mejorar el modelo y detectar las vulnerabilidades antes de desplegar el modelo en producción.