Detección y mitigación de sesgos en LLMs en catalán

Equicat: Detección y mitigación de sesgos en LLMs en catalán

Herramienta para detectar y mitigar sesgos en las respuestas generadas por los LLM en catalán

Objetivo

Equicat es una herramienta centrada en el desarrollo de sistemas para la monitorización, el control y/o la alineación en el uso de los modelos de IA en catalán.

Está desarrollada por el Instituto de Ingeniería del Conocimiento (IIC) dentro del reto #2 de AinaChallenge, una iniciativa del proyecto Aina, impulsado por el Gobierno de la Generalitat de Catalunya, y coordinada por el Barcelona Supercomputing Center (BSC).

Para cumplir con este marco, Equicat está diseñado e implementado para contribuir a garantizar un uso más ético, equitativo y fiable de los modelos de lenguaje de gran escala (LLMs) que operan en catalán. Su objetivo principal es identificar, mitigar y evaluar distintos tipos de sesgos en las respuestas de los modelos LLM como los relacionados con el género, la ideología política, la raza, la edad, la orientación sexual, la clase social, etc.

Solución

Equicat ofrece una solución integral para la evaluación comparativa de modelos de lenguaje en catalán, contribuyendo así a su mejora continua.

Equicat se apoya en un conjunto de más de 1.000 prompts traducidos y adaptados al catalán a partir de fuentes de referencia como los conjuntos de BiasLLMs, BOLD y BBVA-SocialStigma-QA. Además, Equicat implementa metodologías innovadoras para la evaluación automática como la técnica LLM-as-a-Judge, combinándola con una evaluación y un análisis manual realizados por lingüistas computacionales. Esta metodología se ha aplicado para identificar y evaluar las respuestas generadas por Salamandra-7b, GPT4o-mini entre otros modelos LLM.

Esta combinación permite contrastar modelos como Salamandra-7B y GPT4o-mini, identificando fortalezas, debilidades y patrones de sesgo en diferentes contextos de uso.

La herramienta integra los siguientes componentes:

Análisis automático de sesgos

Un sistema automatizado de análisis de sesgos, que permite evaluar de forma sistemática la presencia y el tipo de sesgo en las respuestas generadas por distintos modelos.

Interfaz interactiva

Una interfaz interactiva, que facilita la identificación y el análisis de sesgos, y está orientada tanto a usuarios no expertos como a equipos técnicos y responsables de calidad y ética en inteligencia artificial.

Metodología de evaluación integral

Una metodología de evaluación integral, que combina métodos de evaluación automática con análisis manuales, complementando la perspectiva automatizada con una visión lingüística y extralingüística del comportamiento de los modelos.

Beneficio

Gracias a su enfoque sistemático y específico para el catalán, Equicat contribuye a:

Mejorar la fiabilidad y la transparencia de los modelos de lenguaje utilizados en entornos institucionales y empresariales.

Reducir la propagación de sesgos culturales, políticos y sociales en aplicaciones basadas en IA.

Facilitar la toma de decisiones informadas en el desarrollo y despliegue de LLMs, apoyando políticas públicas de innovación responsable.

Proyectos relacionados

Resumen de privacidad
Instituto de Ingeniería del Conocimiento

En Asociación para el Desarrollo de la Ingeniería del Conocimiento usamos cookies propias y de terceros necesarias para que nuestro sitio web funcione adecuadamente y para fines analíticos. política de cookies

Al pulsar “Guardar cambios”, se guardará la selección de cookies que hayas realizado. Si no has seleccionado ninguna opción, pulsar este botón equivaldrá a rechazar todas las cookies.

Cookies necesarias

Son aquellas que ayudan a hacer una página web utilizable activando funciones básicas como la navegación en la página y el acceso a áreas seguras de la página web. La página web no podrá funcionar adecuadamente sin estas cookies. Le informamos de que puede configurar su navegador para bloquear o alertar sobre estas cookies, sin embargo, es posible que determinadas áreas de la página web no funcionen. Estas cookies no almacenan ninguna información de identificación personal. El reproductor de Youtube usa cookies publicitarias, el cual usamos para poder ver vídeos insertados.

Cookies de analítica

Son aquellas que permiten al Editor de las mismas, el seguimiento y análisis del comportamiento de los usuarios de los sitios web a los que están vinculadas. La información recogida mediante este tipo de cookies se utiliza en la medición de la actividad de los sitios web, aplicación o plataforma, con el fin de introducir mejoras en función del análisis de los datos de uso que hacen los usuarios del servicio. Las cookies analíticas utilizadas son:

Cookies que se utilizan:
_ga (Google Analytics) | _gid (Google Analytics) |