¿Por qué estamos viviendo una revolución del Procesamiento del Lenguaje Natural (PLN)? Eso fue el tema principal de la charla de Marta Guerrero, coordinadora de los proyectos de PLN en el Instituto de Ingeniería del Conocimiento (IIC), en la primera edición del Technology Business Summit organizado por ESIC.
Este evento, centrado en las últimas tecnologías, sirvió a nuestra experta para explicar algunos conceptos básicos de PLN y repasar el estado del arte de los modelos de lenguaje, tanto en inglés como en español. Esto le dio pie a contar cómo se ha desarrollado y cómo funciona RigoBERTa, el modelo propio del IIC.
Modelos de lenguaje y RigoBERTa
Las grandes empresas tecnológicas venían marcando el paso en PLN, por lo que la investigación en este campo se ha hecho mayoritariamente en inglés. Uno de los primeros modelos de lenguaje fue BERT, entrenado primero para aprender a “leer” el lenguaje en general y luego para realizar una tarea concreta (clasificar temas, detectar emociones, resumir documentos, contestar preguntas, etc.).
Ahora, están surgiendo cada vez más proyectos de este tipo en nuestro idioma. El PLN avanza muy deprisa y, como explicaba Marta Guerrero, “en el IIC queríamos aportar para que esta revolución fuera también en español”.
Así se emprendió el proyecto RigoBERTa, para desarrollar un modelo de lenguaje en español de calidad. Para ello, el equipo multidisciplinar del IIC se marcó unas metas:
- Corpus grande y de calidad
- Hardware potente y eficiente
- Mejor arquitectura neuronal
- Adaptaciones a dominios
Después de su desarrollo y puesta en marcha, RigoBERTa se probó junto a otros modelos de lenguaje en español con los datasets disponibles. Según explicaba Marta Guerrero, se consiguió un modelo más solvente, dando un paso más en la investigación.
Además, RigoBERTa obtiene mejores resultados cuando se adapta, además, a un dominio específico como es el médico o el legal. En el IIC, aplican una metodología de adaptación que incluye un paso más respecto al proceso habitual de entrenamiento de los modelos de lenguaje. Una vez conoce el lenguaje general, se entrena con un corpus del ámbito en cuestión, antes de adaptarlo a la tarea concreta a realizar. Un ejemplo de ello fue el proyecto de análisis de expedientes judiciales realizado en colaboración con el despacho de abogados Garrigues.