Herramienta para detectar y mitigar sesgos en las respuestas generadas por los LLM en catalán
Objetivo
Equicat es una herramienta centrada en el desarrollo de sistemas para la monitorización, el control y/o la alineación en el uso de los modelos de IA en catalán.
Está desarrollada por el Instituto de Ingeniería del Conocimiento (IIC) dentro del reto #2 de AinaChallenge, una iniciativa del proyecto Aina, impulsado por el Gobierno de la Generalitat de Catalunya, y coordinada por el Barcelona Supercomputing Center (BSC).
Para cumplir con este marco, Equicat está diseñado e implementado para contribuir a garantizar un uso más ético, equitativo y fiable de los modelos de lenguaje de gran escala (LLMs) que operan en catalán. Su objetivo principal es identificar, mitigar y evaluar distintos tipos de sesgos en las respuestas de los modelos LLM como los relacionados con el género, la ideología política, la raza, la edad, la orientación sexual, la clase social, etc.
Solución
Equicat ofrece una solución integral para la evaluación comparativa de modelos de lenguaje en catalán, contribuyendo así a su mejora continua.
Equicat se apoya en un conjunto de más de 1.000 prompts traducidos y adaptados al catalán a partir de fuentes de referencia como los conjuntos de BiasLLMs, BOLD y BBVA-SocialStigma-QA. Además, Equicat implementa metodologías innovadoras para la evaluación automática como la técnica LLM-as-a-Judge, combinándola con una evaluación y un análisis manual realizados por lingüistas computacionales. Esta metodología se ha aplicado para identificar y evaluar las respuestas generadas por Salamandra-7b, GPT4o-mini entre otros modelos LLM.
Esta combinación permite contrastar modelos como Salamandra-7B y GPT4o-mini, identificando fortalezas, debilidades y patrones de sesgo en diferentes contextos de uso.
La herramienta integra los siguientes componentes:

Análisis automático de sesgos
Un sistema automatizado de análisis de sesgos, que permite evaluar de forma sistemática la presencia y el tipo de sesgo en las respuestas generadas por distintos modelos.

Interfaz interactiva
Una interfaz interactiva, que facilita la identificación y el análisis de sesgos, y está orientada tanto a usuarios no expertos como a equipos técnicos y responsables de calidad y ética en inteligencia artificial.

Metodología de evaluación integral
Una metodología de evaluación integral, que combina métodos de evaluación automática con análisis manuales, complementando la perspectiva automatizada con una visión lingüística y extralingüística del comportamiento de los modelos.
Beneficio
Gracias a su enfoque sistemático y específico para el catalán, Equicat contribuye a:
Mejorar la fiabilidad y la transparencia de los modelos de lenguaje utilizados en entornos institucionales y empresariales.
Reducir la propagación de sesgos culturales, políticos y sociales en aplicaciones basadas en IA.
Facilitar la toma de decisiones informadas en el desarrollo y despliegue de LLMs, apoyando políticas públicas de innovación responsable.



