El término Inteligencia Artificial (IA) engloba una amalgama de tecnologías que responden a un objetivo común. Si nos fijamos en el temario de alguna asignatura de grado que responda a este nombre nos encontramos una ensalada de técnicas y algoritmos muy variopinta. Sin ir más lejos, uno de los libros de referencia –Inteligencia Artificial: un enfoque moderno, de Stuart Russell y Peter Norvig– desgrana técnicas tan heterogéneas como algoritmos de búsqueda, programación por restricciones, teoría de juegos, lógica, ontologías o algoritmos de planificación, entre otros.
Una de las técnicas dominantes durante la última década cuando se trata de sistemas de IA en producción es el aprendizaje automático (machine learning, en inglés). A esta notoriedad han contribuido, en especial desde el año pasado, la popularización de las IA generativas como GPT-4, DALL-E o Stable Diffusion. Estas IA generativas se sustentan en una rama del aprendizaje automático que se denomina aprendizaje profundo (deep learning, en inglés). En este artículo veremos que estas técnicas dependen en gran medida de los datos y de su calidad, y cómo el concepto de “Inteligencia Artificial centrada en datos” viene para prestarles atención.
¿Cómo funciona el aprendizaje automático?
Dentro del aprendizaje automático encontramos a su vez una enorme variedad de algoritmos y arquitecturas, como las redes neuronales (neural networks, en inglés), que son el sustrato del aprendizaje profundo. Más allá de las diferencias notables, todos estos algoritmos tienen en común que requieren un conjunto de datos o ejemplos iniciales que muestren, para cada entrada al algoritmo, cuál es la salida correcta.
A partir de estos ejemplos, los algoritmos infieren patrones y aprenden a generalizar, de manera que, cuando reciben una nueva entrada que no está en el conjunto inicial, pueden predecir cuál es la salida correcta. Por ejemplo, los modelos generativos de imagen a partir de textos, como Stable Diffusion, se construyen mediante enormes volúmenes de datos que contienen pares descripción-imagen. Una vez entrenados, son capaces de crear una imagen original que responda a una nueva descripción.
Esta manera de construir software aporta una gran ventaja, ya que es más sencillo explicar “qué” tarea tiene que hacer el algoritmo mediante ejemplos que tener que formalizar “cómo” se hace mediante un lenguaje de programación. No es necesario realizar una representación muy sesuda y profunda del proceso que se quiere automatizar, simplemente se requiere dar ejemplos de entrada y de salida.
¿Qué es la IA centrada en datos?
No es difícil imaginar que los datos son un elemento clave para el desarrollo de estos algoritmos, pues al final van a aprender de las regularidades que encuentren en el conjunto de ejemplos inicial. Se estima que más del 80 % del esfuerzo de un proyecto de aprendizaje automático se dedica a preparar los datos y, paradójicamente, tal como señala Andrew Ng, el 99 % de la investigación en esta área está centrada en mejorar los modelos.
Es cierto que las mejoras en modelos de Inteligencia Artificial han supuesto un avance sin precedentes, pero tal como señala el propio Ng en sus charlas, «ahora que los modelos han avanzado hasta cierto punto, tenemos que conseguir que los datos funcionen también» (Forbes, 2021). Mientras que las arquitecturas y algoritmos de aprendizaje automático han alcanzado un elevado grado de madurez, las técnicas para crear conjuntos de datos de calidad van por detrás. Esto no significa aparcar la investigación de modelos de IA, sino dedicar más atención a cómo se preparan los datos.
La Inteligencia Artificial centrada en datos (DCAI, Data-Centric Artificial Intelligence en inglés) es el término que se ha acuñado para englobar aquellas técnicas centradas en mejorar los datos. El prestigioso departamento CSAIL del MIT ha lanzado el primer curso en DCAI. Además, Andrew Ng lanzó una competición basada en DCAI donde se cambiaban las tornas: en vez de fijar el conjunto de datos y probar distintos modelos, se elegía un modelo concreto común para todos los participantes y estos tenían que mejorar el conjunto de datos de entrenamiento. En un vídeo reciente, Santiago Valdarrama, resumía lo que podría ser el lema de la IA centrada en datos:
Datos mejores aportan la diferencia, no el modelo
Cuando se dice “datos mejores” se apunta directamente a la calidad por encima del volumen, entendiendo por datos de calidad datos representativos y consistentes. Es frecuente que ante la pregunta de un cliente sobre cuántos datos necesitamos para desarrollar su solución de aprendizaje automático, respondamos que cuantos más mejor, pero esto viene precisamente heredado de un contexto en el que la mayor parte de las organizaciones estaban poco preparadas en el gobierno y la gestión de los datos.
Una vez recibidos los datos del cliente, comienza un proceso delicado en el que tenemos que, por un lado, filtrar y limpiar los datos para eliminar los que no sean representativos. Por otro lado, puede ser preciso etiquetar los datos, o lo que es lo mismo, añadir a los ejemplos la salida esperada cuando no se disponga.
Este proceso de etiquetado requiere previamente una buena selección de las etiquetas que se quieren anotar, algo que puede ser más determinante para mejorar el rendimiento del modelo que recolectar más datos.
En el caso de que el cliente disponga ya de las etiquetas, también puede ser necesario tener que corregir errores, añadir ejemplos que representan casos extremos, aumentar los datos artificialmente (por ejemplo, con técnicas basadas en GANs), profundizar en el entendimiento de los datos o generar nuevas variables que mejoren las predicciones mediante técnicas de ingeniería de características (en inglés, featuring engineering).
Cómo asegurar la calidad de los datos: inversión e impacto
Con todo esto, parece que es una buena idea invertir en conseguir un buen conjunto de datos antes de lanzarse a un proyecto de IA y, en concreto, de aprendizaje automático. En este sentido, una primera medida es contar con una metodología adecuada, como es la metodología CRISP-DM, un buen ejemplo por ser fácil de explicar a interesados en el proyecto con responsabilidades sobre el negocio.
Más allá de la metodología que se elija, es casi obligado realizar una primera fase 0 de auditoría de datos. El objetivo es aumentar el éxito del proyecto desde el principio, ya que no se empieza a trabajar hasta que no se asegura que hay material de calidad. Cassie Kozyrkov va más lejos en este artículo en Medium: si todos entendemos que diseñar conjuntos de datos de calidad no es trivial, ¿no deberíamos tener un puesto específico dentro de la empresa encargado de diseñar, recopilar, gobernar, documentar y preservar una calidad alta en los conjuntos de datos de la organización?
Es una buena noticia que los consejos de dirección empiecen a incorporar la figura del jefe de datos (CDO, Chief Data Officer en inglés), un puesto estratégico que es responsable de la gestión y explotación de los mismos. Sin embargo, se queja Kozyrkov de que, en los niveles más operativos, estas tareas terminan siendo responsabilidad de todos, que es como decir que son responsabilidad de nadie.
Hay que reconocer que la importancia de los datos en los proyectos de IA requiere ir más allá y no quedarse en frases hechas como que «los datos son el nuevo petróleo». Hay que traducir estos lugares comunes a políticas efectivas de gobernanza del dato sobre las que poder construir proyectos que tengan impacto y que sean confiables.
No obstante, cualquier mejora o corrección de errores requiere reentrenar los modelos con más ejemplos, lo cual puede ser un proceso costoso en tiempo, hardware y personas. Según el informe AI Index 2023 de la Universidad de Stanford, el coste de entrenamiento de un modelo de lenguaje como GPT-3 o Megatron-Turing ronda entre un millón y diez millones de dólares, y requiere varias semanas para completarlo. En el caso de GPT-4 este proceso llegó a durar hasta seis meses, ya que requirió de un proceso iterativo para ajustar las respuestas del sistema bastante intensivo en intervención humana. Estos expertos crean y seleccionan preguntas y respuestas válidas y luego evalúan la salida del modelo de lenguaje cuando opera de manera desasistida.
Por otro lado, hay que recordar los datos seleccionados determinan la salida de los modelos. NewsGuard, una agencia de verificación americana, realizó una prueba con GPT-3, suministrándole contextos para generar narrativas de desinformación. El 80 % de las entradas generaron una noticia falsa creíble. Cuando publicaron GPT-4, repitieron el experimento con los mismos textos, consiguiendo el 100 %. Mejoras sustanciales en los modelos revierten en mejores tasas de acierto, pero si GPT es capaz de completar la tarea con tanta precisión es debido a que el conjunto de entrenamiento incluye datos de dónde ha aprendido a redactar estas narrativas.
En un artículo reciente, The Washington Post analiza un corpus masivo de documentos extraído de más de 15 millones de sitios web similar al que han utilizado para entrenar ChatGPT. Entre los sitios web que contribuyen con más palabras encontramos reconocidos sitios de propaganda y desinformación intencionada. Por todo ello, es prioritario en cualquier proyecto basado en aprendizaje automático poner foco en asegurar la calidad de los datos de entrenamiento.
Este es el caso de Falcon-40B, el mejor modelo de lenguaje publicado en abierto en el momento que se realiza esta publicación. Este modelo fue entrenado utilizando un conjunto de datos obtenido de la web. Los investigadores lograron obtener un conjunto de datos de alta calidad al aplicar múltiples filtros para eliminar contenido para adultos, textos generados automáticamente o duplicados y, además, lo expandieron con contenido cuidadosamente seleccionado. Al final, la correcta combinación de algoritmos y datos es la clave para conseguir sistemas de IA alineados con nuestros intereses, construidos sobre una base legal sólida, robustos y que tomen decisiones lo más imparcialmente posible.
Muy bien, no tenia esta perspectiva de la importancia respecto a la calidad de los datos. Gracias!