Modelo de lenguaje español: RigoBERTa

Modelo de lenguaje español: RigoBERTa

Una nueva tecnología para mejorar las aplicaciones de Procesamiento del Lenguaje Natural

Rigoberta

En el IIC desarrollamos un modelo del lenguaje propio y lo adaptamos a distintos dominios del lenguaje y tareas de PLN.

Modelo del Lenguaje

¿Qué es RigoBERTa?

RigoBERTa es el modelo de lenguaje español del IIC, entrenado para la comprensión general de nuestro idioma. Este cuenta con la posibilidad de adaptarse a diferentes dominios del lenguaje (legal, salud, etc.) para mejorar las aplicaciones del Procesamiento del Lenguaje Natural (PLN) en ámbitos específicos.

En el IIC, llevamos tiempo trabajando en modelos de lenguaje, en el marco de un proyecto de investigación que tenía como principal objetivo desarrollar este modelo propio con más y mejores datos, mayor hardware de entrenamiento y mejor arquitectura de red neuronal que otros modelos del lenguaje español.

RigoBERTa es el resultado de la labor constante de nuestro centro de investigación e innovación, junto con el apoyo al grupo de trabajo de nuestra Cátedra UAM-IIC de Lingüística Computacional.

Los modelos del lenguaje son redes neuronales artificiales de gran tamaño, capaces de analizar ingentes volúmenes de texto escrito para aprender la estructura con la que se presentan las palabras de un determinado idioma.

Con este pre-entrenamiento, se convierten en modelos generales que se pueden re-entrenar con fines y corpus más específicos, ya sea para resolver una tarea concreta de PLN o para adaptarlo al lenguaje y terminología de un dominio.

Esta tecnología está mucho más desarrollada en inglés, con modelos conocidos como BERT o GPT-3. En español no existen actualmente tantos recursos, por lo que RigoBERTa surge para contribuir al desarrollo del PLN en nuestro idioma.

Crear modelo del lenguaje

¿Cómo funciona un modelo de lenguaje general?

Los modelos del lenguaje son la base de la mayoría de sistemas y aplicaciones modernas de Procesamiento del Lenguaje Natural (PLN).

Si quieres conocer el modelo de lenguaje español RigoBERTa, no dudes en escribirnos.

QUIERO SABER MÁS
Desarrollo RigoBERTa

Desarrollo de RigoBERTa

Un equipo multidisciplinar del IIC, formado sobre todo por data scientists expertos en PLN y lingüistas computacionales, se encargó del desarrollo y entrenamiento del modelo de lenguaje en español RigoBERTa.

Nuestros expertos desarrollaron el modelo de lenguaje en español del IIC siguiendo:

Arquitectura del modelo de lenguaje

El modelo se basa en la arquitectura del modelo de lenguaje DeBERTa, un tipo de red neuronal de referencia que ya supera al rendimiento humano en tareas de PLN en inglés según el test de SuperGLUE.

Entrenamiento del modelo de lenguaje

El modelo de lenguaje RigoBERTa se ha entrenado con cuatro fuentes de datos en español que suponen más de 450.000 millones de palabras, asegurando su calidad.

Actualmente ya está disponible una nueva versión: RigoBERTa 2.0, entrenada con mayor cantidad de datos, y que supone una mejora en calidad sobre el modelo RigoBERTa original.

Potencial y aplicaciones de RigoBERTa

En el IIC, investigamos el desarrollo del PLN y los modelos de lenguaje, pero también trabajamos para aplicarlos en diferentes ámbitos. Tenemos una metodología propia de adaptación en dos pasos:

ADAPTACIÓN A LAS TAREAS DE PLN

Los modelos de lenguaje se pueden aplicar para resolver eficazmente distintas tareas de PLN, desde la clasificación de documentos hasta la detección de entidades.

ADAPTACIÓN A DOMINIOS DEL LENGUAJE

Adaptación a distintos dominios del lenguaje, a través de corpus específicos y representativos y con el fin de que reconozcan la terminología específica de distintos ámbitos.

Esta metodología nos permite dar a los modelos de lenguaje generales una utilidad más concreta. Además, los modelos pequeños como RigoBERTa son fácilmente adaptables y pueden llegar a ser más eficientes, siendo posible instalarlos en la misma infraestructura del cliente.

Contacta con nosotros


    He leído y acepto las condiciones de uso y la política de privacidad*.

     Sí deseo recibir comunicaciones comerciales.

     

    Información básica sobre Protección de Datos

    • Responsable: Asociación para el Desarrollo de la Ingeniería del Conocimiento.

    • Dirección: Ctra. de Colmenar Viejo, km.15, Calle Francisco Tomás y Valiente 11; EPS, Edificio B, 5ª planta; 28049 Madrid.

    • Teléfono: 914972323

    • Correo electrónico: contacto.iic@iic.uam.es

    • Delegado de Protección de Datos: dpd@iic.uam.es


    En nombre de Asociación para el Desarrollo de la Ingeniería del Conocimiento, tratamos la información que nos facilita con el fin de dar respuesta a la solicitud realizada por usted en relación con los servicios que prestamos y los productos que suministramos. Los datos proporcionados se conservarán mientras se mantenga el contacto, siendo eliminados una vez finalizada la solicitud. Los datos no se cederán a terceros salvo en los casos en que exista una obligación legal. Usted tiene derecho a obtener confirmación sobre si en Asociación para el Desarrollo de la Ingeniería del Conocimiento estamos tratando sus datos personales, por tanto, tiene derecho a acceder a sus datos personales, rectificar los datos inexactos o solicitar su supresión cuando los datos ya no sean necesarios. Asimismo, podrá oponerse al tratamiento de sus datos, solicitar la limitación al tratamiento y la portabilidad de sus datos. Si considera que sus datos personales no han sido tratados conforme a la normativa, puede contactar con derechosrgpd@iic.uam.es. Asimismo, podrá presentar una reclamación ante la Agencia Española de Protección de Datos, especialmente cuando no haya obtenido la satisfacción en el ejercicio de sus derechos, a través de la sede electrónica en www.aepd.es.


    Asimismo, se desean utilizar sus datos para ofrecerle productos y servicios relacionados con los solicitados por Usted, por cualquier medio, incluido el electrónico, incluso una vez terminada la relación negocial/contractual.