Una nueva tecnología para mejorar las aplicaciones de Procesamiento del Lenguaje Natural

RigoBERTa cuenta con un rendimiento mayor que otros modelos de lenguaje disponibles en español en un gran número de tareas de PLN.

¿Qué es RigoBERTa?
RigoBERTa es el modelo de lenguaje español del IIC, entrenado para la comprensión general de nuestro idioma. Este cuenta con la posibilidad de adaptarse a diferentes dominios del lenguaje (legal, salud, etc.) para mejorar las aplicaciones del Procesamiento del Lenguaje Natural (PLN) en ámbitos específicos.
En el IIC, llevamos tiempo trabajando en modelos de lenguaje, en el marco de un proyecto de investigación que tenía como principal objetivo desarrollar este modelo propio con más y mejores datos, mayor hardware de entrenamiento y mejor arquitectura de red neuronal que otros modelos del lenguaje español.
RigoBERTa es el resultado de la labor constante de nuestro centro de investigación e innovación, junto con el apoyo al grupo de trabajo de nuestra Cátedra UAM-IIC de Lingüística Computacional.
Los modelos del lenguaje son redes neuronales artificiales de gran tamaño, capaces de analizar ingentes volúmenes de texto escrito para aprender la estructura con la que se presentan las palabras de un determinado idioma.
Con este pre-entrenamiento, se convierten en modelos generales que se pueden re-entrenar con fines y corpus más específicos, ya sea para resolver una tarea concreta de PLN o para adaptarlo al lenguaje y terminología de un dominio.
Esta tecnología está mucho más desarrollada en inglés, con modelos conocidos como BERT o GPT-3. En español no existen actualmente tantos recursos, por lo que RigoBERTa surge de la necesidad de desarrollar un modelo de lenguaje sólido en nuestro idioma.

¿Cómo funciona un modelo de lenguaje general?
Los modelos del lenguaje son la base de la mayoría de sistemas y aplicaciones modernas de Procesamiento del Lenguaje Natural (PLN).
Si quieres conocer el modelo de lenguaje español RigoBERTa, no dudes en escribirnos.

Desarrollo y resultados de RigoBERTa
Un equipo multidisciplinar del IIC, formado sobre todo por data scientists y lingüistas computacionales, se encargó del desarrollo y entrenamiento del modelo de lenguaje en español RigoBERTa.
Nuestros expertos han desarrollado el modelo de lenguaje en español del IIC siguiendo:
Arquitectura del modelo de lenguaje
El modelo se basa en la arquitectura del modelo de lenguaje DeBERTa, un tipo de red neuronal de referencia que ya supera al rendimiento humano en tareas de PLN en inglés según el test de SuperGLUE.
Entrenamiento del modelo de lenguaje
El modelo de lenguaje RigoBERTa se ha entrenado con cuatro fuentes de datos en español que suponen más de 450.000 millones de palabras, asegurando su calidad.
RigoBERTa ha conseguido un rendimiento mayor que los modelos de lenguaje en español disponibles en un gran número de tareas de Procesamiento del Lenguaje Natural (PLN).
La tabla muestra los resultados de un benchmark comparativo entre RigoBERTa y varios modelos de lenguaje español disponibles públicamente. El benchmark mide el nivel de acierto con el que los diferentes modelos de lenguaje son capaces de resolver una diversidad de tareas de PLN:
- Clasificación de documentos (Class).
- Reconocimiento de entidades (Named Entity Recognition, NER).
- Búsqueda en el texto de respuestas a preguntas (Question Answering, QA).
Cuanto más altas son las cifras de la tabla, mejor es el resultado del modelo en la tarea. Además, en cada tarea se marca con una estrella el modelo de lenguaje que obtiene los mejores resultados en esa tarea.
Como puede observarse, el modelo de lenguaje en español del IIC RigoBERTa, obtiene los mejores resultados en 10 de las 13 tareas, convirtiéndose así el mejor modelo de lenguaje en español de entre los comparados.

Potencial y aplicaciones de RigoBERTa
En el IIC, seguimos trabajando para adaptar los avances en modelos de lenguaje a cualquier negocio o sector, especialmente en los que manejan grandes cantidades de documentos y, en definitiva, texto:
TAREAS DE PLN
Los modelos de lenguaje se pueden aplicar para resolver eficazmente distintas tareas de PLN, desde la clasificación de documentos hasta la detección de entidades.
ADAPTACIÓN DEL MODELO
Somos capaces de adaptar esta tecnología a distintos dominios del lenguaje, con el fin de que reconozcan la terminología específica de distintos ámbitos.
Nuestro modelo de lenguaje en español RigoBERTa, es capaz de adaptarse a distintos dominios del lenguaje: legal, financiero, médico, etc.