El Procesamiento del Lenguaje Natural (PLN) demuestra cada vez más su utilidad en el ámbito legal. Son muchas las aplicaciones que están surgiendo para clasificar y anonimizar documentos o buscar información automáticamente. Y una muestra de ello fue el último webinar de DiverTLes, la comunidad de mujeres que trabajan e investigan en Tecnologías del Lenguaje (TL) en España.
Uno de los últimos proyectos del Instituto de Ingeniería del Conocimiento (IIC) en este contexto es Mapa del Expediente, realizado en colaboración con el despacho de abogado Garrigues. Marta Guerrero, coordinadora de los proyectos de PLN en el IIC, se encargó de explicar cómo han desarrollado una herramienta para optimizar el tiempo que los profesionales del sector legal dedican a la revisión de expedientes judiciales.
Igualmente, presentaron sus proyectos de PLN en el sector legal Mercedes García, líder del Departamento de Investigación en Pangeanic, y Elena Montiel, titular del Departamento de Lingüística Aplicada de la UPM.
Modelo de lenguaje para el sector legal
El objetivo principal de Mapa del Expediente es reducir el esfuerzo que los abogados dedican a la búsqueda de información entre grandes volúmenes de texto, con una herramienta capaz de procesar los expedientes judiciales y todos los documentos que contienen automáticamente. En concreto, el sistema desarrollado permite:
- Clasificar en tipos de documentos
- Detectar entidades jurídicas (personas y organizaciones)
- Visualizar en un mapa los documentos, las entidades y sus relaciones
Para el desarrollo de esta herramienta, Garrigues llegó a proporcionar al IIC 79.6 GB de datos sin etiquetar, pertenecientes a 6 expedientes judiciales. No obstante, para asegurar la calidad de los textos, hubo que realizar algunas tareas adicionales: reconocimiento de caracteres para digitalizar los documentos, descartar páginas no informativas y detectar los límites de los documentos.
Una vez conseguido el corpus, se hizo una anotación manual de dos corpus: uno para clasificar los tipos de documentos y otro para detectar las entidades jurídicas. Con esto, se entrenó al modelo de lenguaje que se iba a encargar de hacerlo automáticamente.
De hecho, este proyecto enmarca un hito para el IIC: Mapa del Expediente integra el primer modelo de lenguaje en español adaptado al sector legal. Con una metodología propia, se hizo una adaptación en dos pasos; primero al dominio legal en general y después con datos del despacho de abogados.
Además, Marta Guerrero destacó otros dos elementos del proyecto. Por un lado, el trabajo realizado para la visualización de la información resultando, con un grafo de relaciones entre documentos y entidades por el que navegar. Y por otro, la colaboración con los propios abogados de Garrigues, que estuvieron presentes en los procesos de anotación y validación para enriquecer el proceso.
Video de la sesión sobre PLN legal en DiverTLes