Modelo del lenguaje especializado para el dominio legal y administrativo en lengua catalana
Objetivo
El modelo JurAIcat surge para dar respuesta a una necesidad estratégica del ecosistema digital en catalán: la falta de modelos de lenguaje especializados en lengua catalana para el ámbito legal y administrativo.
En este contexto, el proyecto Aina, impulsado por el Gobierno de la Generalitat de Catalunya, ha promovido la iniciativa AinaChallenge, una convocatoria de retos coordinada por el Barcelona Supercomputing Center (BSC).
El modelo JurAIcat, desarrollado por el Instituto de Ingeniería del Conocimiento (IIC) en el marco del reto #3 de AinaChallenge, representa una contribución relevante al ecosistema de la IA en catalán y supone un paso más en la capacidad de procesar y generar textos legislativos y administrativos con un elevado nivel de adecuación lingüística y contextual, favoreciendo así su uso en entornos institucionales y administrativos.
Entre los objetivos de JurAIcat se encuentran:

Modelo de IA generativo
Contribuir al ecosistema de la IA con un modelo base generativo adaptado tanto a la lengua catalana como al dominio legal y administrativo.

Modelo pregunta-respuesta
Aportar una evaluación automática y manual del desempeño del modelo ajustado en una tarea de Pregunta-Respuesta (Question-Answering QA).

Comparación y evaluación de modelos
Comparar y evaluar el desempeño del modelo JurAIcat con otros modelos en la misma tarea.
Solución
El IIC ha desarrollado el modelo JurAIcat, un modelo de lenguaje generativo entrenado y adaptado específicamente al ámbito legal y administrativo en catalán, a partir del modelo base Salamandra-7B.
Para ello, se ha recopilado un corpus de 4 GB de textos legales y administrativos en catalán, procedentes de boletines oficiales de Cataluña y Baleares, publicados entre enero y agosto de 2025.
Este conjunto de datos ha sido sometido a procesos de preprocesamiento, limpieza y filtrado lingüístico para garantizar su calidad y coherencia.
El rendimiento de JurIAcat se ha evaluado mediante:
- Evaluaciones automáticas, basadas en la similitud semántica entre respuestas generadas y respuestas de referencia, utilizando embeddings y métricas como la distancia del coseno.
- Evaluaciones manuales, centradas en la relevancia de las respuestas y su correcta fundamentación en los textos legales.
Los resultados muestran que JurIAcat ofrece un rendimiento competitivo frente a modelos abiertos generalistas y constituye una base sólida para el desarrollo de herramientas jurídicas en catalán, especialmente en términos de especialización de dominio.
Beneficio
JurIAcat representa un avance significativo en la aplicación de la inteligencia artificial al ámbito jurídico-administrativo en catalán. Su principal impacto radica en que puede actuar como punto de partida y como recurso integrable en soluciones que ofrecen:
Mejora del acceso a la información legal, facilitando consultas más ágiles y comprensibles en lengua catalana.
Apoyo a la eficiencia administrativa, reduciendo el tiempo necesario para localizar, interpretar y analizar normativa y documentos oficiales.
Soberanía lingüística y tecnológica, al disponer de un modelo propio, adaptado al contexto legal catalán y alineado con los objetivos estratégicos del proyecto Aina.
JurIAcat sienta las bases para futuras aplicaciones de inteligencia artificial en el sector público, contribuyendo a una administración más accesible, eficiente y digitalmente avanzada, sin renunciar al uso pleno del catalán como lengua de trabajo y servicio a la ciudadanía.



