En un contexto europeo que promueve la soberanía digital y el uso responsable de los datos, el proyecto INESData se posiciona como una iniciativa clave en el ecosistema español para el desarrollo de Espacios de Datos federados, donde entidades públicas y privadas pueden compartir información de forma segura. Esta infraestructura, impulsada por el programa UNICO I+D Cloud y financiada por la Unión Europea a través de los fondos NextGenerationEU, busca fomentar la creación de soluciones innovadoras basadas en datos en sectores estratégicos.
Una de las áreas con mayor impacto de INESData ha sido el ámbito jurídico. A través de un sistema de inteligencia artificial (IA) especializada en lenguaje legal, el Instituto de Ingeniería del Conocimiento (IIC) ha liderado una línea de trabajo centrada en la extracción y análisis automatizado de información jurídica compleja, como cláusulas contractuales, boletines oficiales y licitaciones públicas.
¿Qué es INESData?
INESData, o Infraestructura para la Investigación de Espacios de Datos Distribuidos, es un proyecto coordinado por la Universidad Politécnica de Madrid (UPM) dentro de la convocatoria ÚNICO I+D Cloud, promovida por el Ministerio para la Transformación Digital y de la Función Pública. Forma parte del Plan de Recuperación, Transformación y Resiliencia (PRTR) y recibe financiación directa de la Unión Europea.
El objetivo principal de INESData es la creación de una incubadora nacional de espacios de datos seguros. Estos espacios, en línea con la Estrategia Europea del Dato, están pensados como ecosistemas colaborativos donde distintos actores —empresas, administraciones públicas, universidades, centros de investigación— pueden compartir información de forma segura, ética y técnicamente controlada, incluso cuando se trata de datos sensibles o confidenciales.
El papel del IIC en INESData: IA Jurídica de alta precisión
Dentro del ecosistema INESData, el Instituto de Ingeniería del Conocimiento (IIC) ha jugado un papel clave desarrollando un sistema de inteligencia artificial aplicada al análisis de documentos jurídicos, centrado en la extracción automática de cláusulas contractuales.
Este reto técnico ha sido especialmente complejo por las características del lenguaje jurídico: alta especialización terminológica, ambigüedad contextual, estructura gramatical no convencional y necesidad de precisión semántica.
Para lograr resultados fiables, el equipo del IIC ha trabajado en estrecha colaboración con expertos juristas y lingüistas computacionales, formando un equipo multidisciplinar.
Casos de uso desarrollados por el IIC en INESData
Durante los 18 meses de duración del proyecto, el IIC ha desarrollado tres casos de uso clave dentro del dominio jurídico-administrativo:
- Detección automática de cláusulas en contratos. Se trata de un sistema de IA capaz de identificar y clasificar cláusulas relevantes dentro de documentos contractuales extensos. Esto permite acelerar tareas de revisión legal y garantizar coherencia documental.
- Reconocimiento de entidades en Boletines Oficiales del Estado (BOE). Mediante técnicas de procesamiento de lenguaje natural (PLN), el sistema detecta nombres de entidades, fechas, normativas, ubicaciones, entre otros elementos clave en textos administrativos oficiales.
- Análisis de licitaciones públicas. El sistema también ha sido entrenado para extraer información estructurada de textos sobre licitaciones, facilitando la consulta y automatización de procesos de contratación.
Además, como parte de esta línea de trabajo, se ha desarrollado uno de los pocos modelos lingüísticos entrenados específicamente en lenguaje legal en español. El modelo de lenguaje MEL, permite generalizar y aplicar la tecnología a otros contextos del sector jurídico.
La importancia del equipo multidisciplinar
Uno de los pilares del éxito del sistema de IA jurídica de INESData ha sido la conformación de un equipo multidisciplinar con expertos en derecho, lingüística computacional y ciencia de datos.
La colaboración entre juristas y lingüistas fue esencial desde el inicio para definir qué tipos de cláusulas o conceptos legales debían ser detectados, cómo debían anotarse y bajo qué criterios.
La interacción continua entre ambos perfiles permitió:
- Resolver ambigüedades terminológicas.
- Definir un esquema de anotación robusto.
- Garantizar que el modelo aprendiera correctamente las complejidades del dominio legal.
Este tipo de trabajo colaborativo no solo mejora la calidad técnica del sistema, sino que también acerca la tecnología a las necesidades reales del sector jurídico español.
Anotación y creación del corpus jurídico
La base de todo sistema de aprendizaje automático es el conjunto de datos anotados. En este proyecto, el proceso de anotación del corpus jurídico fue fundamental:
- Se definieron criterios de etiquetado guiados por expertos legales.
- Se resolvieron cientos de dudas interpretativas sobre cláusulas y estructuras.
- Se construyó un corpus robusto, homogéneo y alineado con la realidad documental española.
Este corpus anotado no solo ha sido clave para entrenar los modelos, sino que también representa una valiosa aportación al campo de la IA jurídica en español, que hasta ahora contaba con recursos muy limitados.
El futuro de la inteligencia artificial jurídica en España
El proyecto INESData ha demostrado cómo una combinación inteligente de datos, tecnología y conocimiento experto puede generar soluciones innovadoras con alto impacto en sectores clave. En el caso del derecho, el desarrollo de sistemas de IA que entienden el lenguaje legal en español abre la puerta a herramientas que automatizan tareas repetitivas, reducen errores humanos y mejoran la eficiencia de profesionales jurídicos y administrativos.
A medida que España avanza hacia una economía digital basada en el dato, iniciativas como INESData sientan las bases para el futuro de la IA jurídica, donde la colaboración entre juristas, lingüistas y tecnólogos será esencial para adaptar las herramientas digitales a la complejidad del lenguaje y la normativa legal.