Una nueva tecnología para mejorar las aplicaciones de Procesamiento del Lenguaje Natural

En el IIC desarrollamos un modelo del lenguaje propio y lo adaptamos a distintos dominios del lenguaje y tareas de PLN.

¿Qué es RigoBERTa?
RigoBERTa es el modelo de lenguaje español del IIC, entrenado para la comprensión general de nuestro idioma. Este cuenta con la posibilidad de adaptarse a diferentes dominios del lenguaje (legal, salud, etc.) para mejorar las aplicaciones del Procesamiento del Lenguaje Natural (PLN) en ámbitos específicos.
En el IIC, llevamos tiempo trabajando en modelos de lenguaje, en el marco de un proyecto de investigación que tenía como principal objetivo desarrollar este modelo propio con más y mejores datos, mayor hardware de entrenamiento y mejor arquitectura de red neuronal que otros modelos del lenguaje español.
RigoBERTa es el resultado de la labor constante de nuestro centro de investigación e innovación, junto con el apoyo al grupo de trabajo de nuestra Cátedra UAM-IIC de Lingüística Computacional.
Los modelos del lenguaje son redes neuronales artificiales de gran tamaño, capaces de analizar ingentes volúmenes de texto escrito para aprender la estructura con la que se presentan las palabras de un determinado idioma.
Con este pre-entrenamiento, se convierten en modelos generales que se pueden re-entrenar con fines y corpus más específicos, ya sea para resolver una tarea concreta de PLN o para adaptarlo al lenguaje y terminología de un dominio.
Esta tecnología está mucho más desarrollada en inglés, con modelos conocidos como BERT o GPT-3. En español no existen actualmente tantos recursos, por lo que RigoBERTa surge para contribuir al desarrollo del PLN en nuestro idioma.

¿Cómo funciona un modelo de lenguaje general?
Los modelos del lenguaje son la base de la mayoría de sistemas y aplicaciones modernas de Procesamiento del Lenguaje Natural (PLN).
Si quieres conocer el modelo de lenguaje español RigoBERTa, no dudes en escribirnos.

Desarrollo de RigoBERTa
Un equipo multidisciplinar del IIC, formado sobre todo por data scientists expertos en PLN y lingüistas computacionales, se encargó del desarrollo y entrenamiento del modelo de lenguaje en español RigoBERTa.
Nuestros expertos desarrollaron el modelo de lenguaje en español del IIC siguiendo:
Arquitectura del modelo de lenguaje
El modelo se basa en la arquitectura del modelo de lenguaje DeBERTa, un tipo de red neuronal de referencia que ya supera al rendimiento humano en tareas de PLN en inglés según el test de SuperGLUE.
Entrenamiento del modelo de lenguaje
El modelo de lenguaje RigoBERTa se ha entrenado con cuatro fuentes de datos en español que suponen más de 450.000 millones de palabras, asegurando su calidad.
Actualmente ya está disponible una nueva versión: RigoBERTa 2.0, entrenada con mayor cantidad de datos, y que supone una mejora en calidad sobre el modelo RigoBERTa original.
Potencial y aplicaciones de RigoBERTa
En el IIC, investigamos el desarrollo del PLN y los modelos de lenguaje, pero también trabajamos para aplicarlos en diferentes ámbitos. Tenemos una metodología propia de adaptación en dos pasos:
ADAPTACIÓN A LAS TAREAS DE PLN
Los modelos de lenguaje se pueden aplicar para resolver eficazmente distintas tareas de PLN, desde la clasificación de documentos hasta la detección de entidades.
ADAPTACIÓN A DOMINIOS DEL LENGUAJE
Adaptación a distintos dominios del lenguaje, a través de corpus específicos y representativos y con el fin de que reconozcan la terminología específica de distintos ámbitos.
Esta metodología nos permite dar a los modelos de lenguaje generales una utilidad más concreta. Además, los modelos pequeños como RigoBERTa son fácilmente adaptables y pueden llegar a ser más eficientes, siendo posible instalarlos en la misma infraestructura del cliente.