Procesamiento del Lenguaje Natural en el sector legal: retos e iniciativas

El uso de tecnologías de Inteligencia Artificial (IA) y, sobre todo, de las técnicas del Procesamiento del Lenguaje Natural (PLN) en el sector legal ya es una realidad. Dado el gran volumen de textos que se suele manejar en este dominio, ha surgido un interés, cada vez mayor, por el procesamiento de textos legales y por el desarrollo de aplicaciones inteligentes que puedan beneficiar a diferentes usuarios claves en el sector.

Entre los posibles beneficiarios, se encuentran los abogados, los juristas, los jueces, los documentalistas jurídicos, además del sector de la administración pública que, aunque no trate textos estrictamente jurídicos, sí maneja textos administrativos con un alto contenido legal, como los textos de la contratación pública o los convenios.

Las líneas de trabajo más abordadas por el estado de la cuestión incluyen la mejora de los sistemas de recuperación de la información, las técnicas de extracción de información adaptadas al dominio como el reconocimiento de entidades legales, los sistemas de pregunta-respuesta y la clasificación de documentos (Kim et al., 2015) (Chalkidis y Androutsopoulos, 2017), (Andrew y Tannier, 2018) (Do et al., 2017), (Leitner et al., 2019) (Samy, 2021). Además, existen otras líneas de gran interés, aunque menos tratadas, como el análisis de la estructura de textos legales, la generación de resúmenes automáticos, la anonimización de textos, la generación de grafos de conocimiento o la generación de líneas temporales para trazar la evolución de un caso judicial o de ciertas legislaciones en el tiempo.

No obstante, pese a las oportunidades que supone el PLN para el sector legal, todavía son pocos los estudios, recursos y herramientas en este dominio, sobre todo en español. Hagamos un repaso de los principales retos y de algunas iniciativas y recursos que están potenciando su aplicación.

Retos del PLN en el sector legal

Los trabajos de PLN en el área legal se enfrentan con retos que podemos clasificar en lo siguiente:

Retos propios del dominio

La amplitud del dominio en cuanto a tipología textual (textos legislativos, textos jurisprudenciales, textos judiciales, textos administrativos, etc.). Cada tipo de texto tiene una funcionalidad y, por tanto, reúne rasgos lingüísticos y estructurales distintos.
La variedad de grupos destinatarios como, por ejemplo, los profesionales del derecho, los jueces, los administrativos, los juristas, etc., lo cual implica enfrentarse a diferentes retos técnicos asociados a diferentes casos de uso. Por ejemplo, para el procesamiento de textos judiciales se necesita anonimizar los textos o convertir documentos en formato PDF a formato texto, lo cual puede conllevar cierto ruido. Por otro lado, a los juristas y jueces les puede interesar otro tipo de soluciones que les faciliten extraer la información de una forma más eficiente.
Los rasgos lingüísticos propios del dominio, como, por ejemplo, la complejidad sintáctico-semántica fruto de la longitud de algunas oraciones, el uso frecuente de latinismos o una terminología compleja. Además, en este último caso, no solo se abarca la terminología legal propia del dominio, sino que esta también suele co-ocurrir con terminologías de todos los ámbitos, como es el caso de las legislaciones referentes a sanidad, energía, actividad económica, educación, etc.

Retos relacionados con las técnicas de Inteligencia Artificial y el PLN

El número limitado de recursos y herramientas de PLN adaptados al dominio en general.
La predominancia del inglés, ya que la mayoría de los recursos y las herramientas disponibles se desarrollan para el tratamiento de textos en inglés.
Una adopción ralentizada de las tecnologías inteligentes en el sector legal y administrativo en comparación con otros sectores como el sector biomédico o el financiero.
La heterogeneidad de formatos en los que se encuentran los datos. Por ejemplo, los datos pueden contener textos, imágenes o grabaciones, como en el caso de vistas judiciales. Esto implica la necesidad de aplicar diferentes técnicas para procesar los distintos formatos.

Iniciativas y recursos para el uso del PLN en el sector legal

Para hacer frente a estos retos y conseguir que el Procesamiento del Lenguaje Natural se vea como una tecnología útil para el sector legal, están surgiendo cada vez más iniciativas que fomentan su aplicación práctica. Entre estas, encontramos programas y actividades gubernamentales, recursos de particulares o proyectos de la industria.

Iniciativas internacionales y europeas del PLN en el sector legal

En el ámbito internacional y europeo, existen iniciativas marco como el programa de Europa Digital (Digital Europe Programme) o el portal de e-Justice, que ponen énfasis en la interoperabilidad judicial y el papel de la inteligencia artificial en una transformación digital inclusiva que permita potenciar valores de ciudadanía digital y una interacción ágil entre ciudadanos y administración pública.

En términos de recursos, se destaca EUR-Lex como un meta recurso de legislación con un total de 314.233 documentos, de los cuales 13.451 están en español. Otro recurso interesante es el tesauro europeo multilingüe y multidisciplinar EuroVoc que abarca, entre 21 dominios, el de “Derecho”, junto a los dominios “Unión Europea” y “Relaciones internacionales”.

Por otro lado, Vogel et al. (2017) enumera algunos corpus disponibles de forma abierta, como el BLaRC (The British Law Report Corpus), con 8.5 millones de palabras, el ALC (The American Law Corpus), con 5.5 millones, o el Corpus del Derecho Europeo (The Corpus of European Law), en inglés y alemán, con 1.000 millones de palabras.

Otros recursos incluyen WordEmbeddings calculados sobre grandes colecciones de textos legales, como por ejemplo los WordEmbeddings en inglés calculados por Chalkidis & Kampas (2019) sobre un conjunto de legislaciones procedentes de Reino Unido, Unión Europea, Estados Unidos, Australia y Canadá. Por otro lado, Nay (2016) publicó “Gov2vec”, en el que se comparan los embeddings calculados sobre distintos corpus de textos administrativos y políticos procedentes de diferentes instituciones públicas.

A nivel de soluciones proporcionados por la industria internacional y europea, se destacan los productos ofrecidos por ThomsonReuters, LexisNexis, ContraXsuite. No obstante, la mayoría de estas soluciones procesan textos en inglés y no ofrecen soporte para el procesamiento de textos legales en español.

Iniciativas y proyectos españoles de PLN en el dominio legal

En el ámbito nacional español, han aparecido algunas iniciativas recientes. En diciembre de 2019 y con el fin de impulsar el desarrollo de recursos y herramientas de PLN en el dominio legal en español se organizó la jornada “IberLegal”, dentro del marco de las actividades del Plan español de Tecnologías del Lenguaje (Plan TL).

La jornada abarcó un abanico de temas de interés, como la extracción de terminología legal, búsquedas inteligentes en documentos y recuperación de información legal, herramientas para asistir a la ciudadanía en la redacción de textos para la administración pública y, por último, expresiones temporales en textos legales (PlanTL, 2019).

En la misma línea, en 2020 se organizó el taller “LT4Gov” en el marco del congreso internacional LREC 2020 (Language Resources and Evaluation Conference). El taller se centraba en estudios e iniciativas que abordan el uso de las tecnologías del lenguaje en el ámbito de la administración pública y las entidades gubernamentales.

En cuanto a la industria, el Instituto de Ingeniería del Conocimiento (IIC) ha sido uno de los pioneros en ofrecer soluciones a este sector, aplicando técnicas de PLN sobre textos legales en general y textos judiciales en particular. Ejemplo de ello son:

La colaboración con Garrigues para el desarrollo de Proces@, un sistema para automatizar la gestión de la documentación legal y facilitar la recuperación de información relevante.
El proyecto Mapa del Expediente, también con Garrigues, para la identificación de entidades nombradas en textos judiciales y el desarrollo de visualizaciones interactivas de esta información.
El desarrollo del primer modelo de lenguaje adaptado al dominio legal, como es LegalBeto.

En términos de recursos, se ha desarrollado el corpus Legal-ES (Samy et al. 2020), considerado como un meta corpus que reúne varias fuentes del dominio legal en lengua española. Este cuenta con más de dos mil millones de palabras recopiladas a partir de fuentes públicas españolas como el Boletín Oficial del Estado (BOE), europeas como Eur-Lex o el Diario Oficial de la Unión Europea (DOUE). Además, en este trabajo se han identificado fuentes hispanoamericanas, como legislación mexicana y argentina, y fuentes internacionales, como documentos jurídicos de las Naciones Unidas y sentencias de la Corte Internacional de Justicia.

Estas fuentes representan una variedad de textos jurídicos que incluyen textos legislativos, jurisprudenciales (sentencias) y textos administrativos. Además, el estudio presenta resultados preliminares sobre cálculos de Embeddings del español jurídico y un modelo de tópico entrenado sobre el conjunto de la legislación.

Por último, en los últimos meses se han lanzado dos modelos de lenguaje en español adaptados al dominio legal: el modelo LegalBeto, desarrollado por el IIC y comentado más arriba, y el modelo Robertalex. Estos modelos representan un avance significativo de cara a las aplicaciones de IA en el sector legal, ya que supone un paso consolidado hacia la mejora de las soluciones y los resultados obtenidos en este dominio.

Las evaluaciones llevadas a cabo reflejan una mejora considerable en los porcentajes de acierto en tareas como la clasificación de documentos o la identificación de entidades nombradas cuando se utilizan modelos de lenguaje adaptados al dominio en vez de los modelos generales del lenguaje como Beto.

Con este paso, el sector legal y la IA entran en una nueva era en la que se pueden aprovechar al máximo estas tecnologías. Es un momento idóneo para emprender nuevos caminos en el desarrollo de soluciones que respondan a las necesidades del ámbito legal, con el fin de alcanzar un impacto real en los diferentes procesos legales, administrativos y judiciales. El IIC, en este respecto, ha sido visionario, ya que ha apostado por este dominio desde hace años y seguirá en esta línea.

Referencias

Andrew, J. y X. Tannier. 2018. Automatic Extraction of Entities and Relation from Legal Documents. En Proceedings of the Seventh Named Entities Workshop, Association for Computational Linguistics. pp 1–8. Melbourne, Australia, July 20, 2018.

Chalkidis, I. y Kampas, D. (2019). Deep learning in law: early adaptation and legal word embeddings trained on large corpora. Artif Intell Law 27, 171–198 (2019). https://doi.org/10.1007/s10506-018-9238-9.

Chalkidis I. e I. Androutsopoulos. 2017. A deep learning approach to contract element extraction. En Proceedings of the 30th International Conference on Legal Knowledge and Information Systems, Luxembourg, pp 155–164.

Do PK, Nguyen HT, Tran CX, Nguyen MT, Nguyen ML (2017). Legal Question Answering using Ranking SVM and Deep Convolutional Neural Network. CoRR abs/1703.0. arXiv:1703.05320.

Kim My, Xu Y, Goebel R (2015) A convolutional neural network in legal question answering. In: Ninth International Workshop on Juris-informatics (JURISIN).

Leitner, E., G. Rehm, y J. Moreno-Schneider. 2019. Fine-grained Named Entity Recognition in Legal Documents. En Maribel Acosta, et al., (eds.), Semantic Systems. The Power of AI and Knowledge Graphs. Proceedings of the 15th International Conference (SEMANTiCS2019), number 11702. Lecture Notes in Computer Science, pages 272–287, Karlsruhe, Germany, 9. Springer. 10/11 September 2019.

Nay JJ (2016) Gov2vec: Learning distributed representations of institutions and their legal text. In: Proceedings of the first workshop on NLP and computational social science. Association for Computational Linguistics, pp 49–54, Austin, Texas. DOI:10.18653/v1/W16-5607.

PlanTL-IberLegal. 2019. Recursos y aplicaciones de tecnologías del lenguaje para el dominio legal en lenguas de la Península Ibérica. Disponible en: https://plantl.mineco.gob.es/tecnologias-lenguaje/comunicacion-formacion/eventos/Paginas/iberlegal-2019.aspx

Samy, D., J. Arenas-García, y D. Pérez-Fernández. 2020. Legal-ES: A Set of Large Scale Resources for Spanish Legal Text Processing. En Samy, D. et al. (eds.) Proceedings of Workshop on Language Technologies in Government and Public Administration (LT4Gov 2020), co-located with LREC 2020, Marseille, France. Disponible en: https://aclanthology.org/2020.lt4gov-1.6/

Samy, Doaa. Reconocimiento y clasificación de entidades nombradas en textos legales en español. Procesamiento del Lenguaje Natural, [S.l.], v. 67, p. 103-114, sep. 2021. ISSN 1989-7553. Disponible en: http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6381/3801.

Vogel, F., Hammann, H. y Gauer, I. 2017. Computer Assisted Legal Linguistics: Corpus Analysis as a New Tool for Legal Studies. Law & Social Inquiry, 2017. DOI: https://doi.org/10.1111/lsi.12305.

Blog

Procesamiento del Lenguaje Natural en el sector legal: retos e iniciativas

Retos del PLN en el sector legal

Iniciativas y recursos para el uso del PLN en el sector legal

Iniciativas internacionales y europeas del PLN en el sector legal

Iniciativas y proyectos españoles de PLN en el dominio legal

Sobre Dooa Samy khalil

Dejar un comentario Cancelar la respuesta

Búsqueda

Suscríbete

Categorías