En los sistemas de inteligencia artificial que usamos a diario, las predicciones no siempre son decisiones sin riesgos. En muchos casos, como es el caso de diagnósticos médicos o decisiones empresariales, la incertidumbre está siempre presente, por lo tanto, es crucial cuantificar la incertidumbre asociada a los modelos para evitar consecuencias graves.
Las métricas tradicionales como la precisión o el AUC (Area Under the Curve) son útiles para cuantificar la incertidumbre de un sistema de IA, pero no siempre nos dan una imagen completa. Por ejemplo, podemos tener un modelo de inteligencia artificial con una precisión del 90%, pero ¿qué pasa con el 10% restante? Aquí es donde la predicción conforme entra en juego: en lugar de darnos una única respuesta para cada punto, nos ofrece un conjunto de respuestas posibles dentro del cual es muy probable que esté el verdadero valor con una garantía de cobertura.
¿Qué es la predicción conforme?
A diferencia de los métodos tradicionales que proporcionan un único valor como predicción, la predicción conforme nos proporciona un rango de valores dentro del cual es probable que se encuentre el verdadero valor de la predicción con cierto nivel de confianza predefinido. Este enfoque estadístico no solo mejora la transparencia de las predicciones, sino que también cuantifica la incertidumbre.
La clave de este método es que no requiere supuestos sobre la distribución de los datos (como la normalidad), lo que lo hace muy flexible y robusto. Sin embargo, la definición formal de predicción conforme sí exige que los datos sean independientes e idénticamente distribuidos (i.i.d.). Además, la predicción conforme es aplicable incluso en tamaños de muestra pequeños, mediante algunas modificaciones simples.
¿Cómo funciona la predicción conforme?
El proceso de predicción conforme es más simple de lo que parece. Vamos a analizar la idea intuitiva con un problema de clasificación de imágenes siguiendo estos pasos:
- Dividir los datos. Comenzamos separando un conjunto de datos que llamaremos datos de calibración. Estos datos no se utilizan en el entrenamiento del modelo de IA, lo que garantiza que las predicciones del modelo sobre ellos no estén sesgadas.
- Entrenar el modelo predictivo. Utilizamos cualquier modelo predictivo, como una red neuronal para clasificación de imágenes. Este modelo predictivo nos proporcionará probabilidades estimadas para cada clase (por ejemplo, mediante el uso de una función de activación softmax).
- Nuevo punto de validación. Tomamos un nuevo punto de validación (una nueva imagen, en este caso), para el cual buscamos predecir un conjunto de etiquetas posibles que incluya la etiqueta real con alta probabilidad predefinida.
- Garantía de cobertura. El objetivo es que este conjunto de etiquetas cumpla una garantía de cobertura, lo que significa que la probabilidad de que la etiqueta correcta esté dentro de nuestro conjunto de predicción debe ser al menos 1−α, donde α es una tasa de error elegida por el usuario previamente.
En términos simples, si seleccionamos un α del 5%, garantizamos que el conjunto de predicciones contenga la etiqueta correcta en el 95% de los casos. Esto proporciona una gran ventaja frente a una predicción puntual, ya que nos permite tratar la incertidumbre de manera controlada.
Predicción conforme de forma generalizada
La predicción conforme no solo afecta a los problemas de clasificación de imágenes. También puede considerarse como un método para tomar cualquier noción heurística de incertidumbre de cualquier modelo (el resultado de la predicción) y convertirla en una noción rigurosa. La predicción conforme es aplicable tanto en problemas de predicción discretos como continuos, así como en problemas de clasificación y regresión.
Veamos, a continuación, los pasos para construir la predicción conforme de forma generalizada dada una entrada y una salida:
- Seleccionar un conjunto de calibración. Como se señalaba en la idea intuitiva, comenzaremos escogiendo una muestra de datos que no formará parte de la fase de entrenamiento.
- Definir una función de no-conformidad (non-conformity score). Calcularemos una función que nos devuelva una puntuación de tal forma que las puntuaciones más altas indiquen más incertidumbre (peor conformidad), es decir, una función que mida cómo de “lejos” está el valor predicho del valor real (cuanto más lejos estén mayor puntuación recibirá). Por ejemplo, en un problema de regresión la función de no-conformidad podría ser la diferencia entre el valor real y el predicho. Y en un problema de clasificación, la diferencia entre 1 y la salida de la función softmax de la clase verdadera.
- Calcular la función de no-conformidad para todos los puntos del conjunto de calibración, ordenar sus resultados y elegir el cuantil\( \frac{\left\lfloor \frac{(n+1)(1-\alpha)}{n} \right\rfloor}{n} \) siendo n el tamaño del conjunto de calibración y la tasa de error prefijada. Este cuantil se denominará \( \hat{q} \).
- Usar este valor, \( \hat{q} \), para calcular los conjuntos de predicción de nuevos puntos. Para ello, se tendrán en cuenta todas las salidas de forma que el valor de la función de no-conformidad para cada punto nuevo y esa salida sea siempre menor o igual que \( \hat{q} \) con una probabilidad \( 1 – \alpha \).
El motivo por el que podemos garantizar que esto se cumple para cualquier , modelo y tamaño muestral es por la simetría de los datos, ya que partimos siempre del supuesto de que son i.i.d.
Ventajas y desventajas de la predicción conforme
La predicción conforme supone grandes ventajas en muchos aspectos:
-
-
- Es independiente del modelo y del tamaño muestral, lo que hace que sea aplicable a cualquier sistema.
- Ofrece garantías teóricas fáciles de explicar.
- No necesita modificar ni reentrenar el modelo, funciona como un «método de caja negra”.
- Desde un punto de vista computacional, la predicción conforme tiene bajo coste y es eficiente.
- Es ideal para reforzar las salidas de modelos en entornos críticos.
-
Sin embargo, también tiene algunas desventajas:
-
-
- La predicción conforme requiere que los datos sean i.i.d. para garantizar la validez estadística, lo cual no siempre se cumple en la práctica.
- Se necesita un conjunto de datos independiente para calibrar los intervalos. Esto reduce el tamaño efectivo de datos que se pueden usar para entrenar el modelo, lo cual puede afectar su rendimiento, especialmente si son pocos datos.
-
En un momento en el que la inteligencia artificial está presente en decisiones críticas, ya no es suficiente con que un modelo acierte. El verdadero valor es que reconozca su incertidumbre. La predicción conforme no es solo una herramienta estadística, es una forma de hacer que los sistemas basados en inteligencia artificial sean más humanos, responsables y transparentes.