Modelo de lenguaje español: RigoBERTa

Modelo de lenguaje español: RigoBERTa

Una nueva tecnología para mejorar las aplicaciones de Procesamiento del Lenguaje Natural

Rigoberta

RigoBERTa cuenta con un rendimiento mayor que otros modelos de lenguaje disponibles en español en un gran número de tareas de PLN.

Modelo del Lenguaje

¿Qué es RigoBERTa?

RigoBERTa es el modelo de lenguaje español del IIC, entrenado para la comprensión general de nuestro idioma. Este cuenta con la posibilidad de adaptarse a diferentes dominios del lenguaje (legal, salud, etc.) para mejorar las aplicaciones del Procesamiento del Lenguaje Natural (PLN) en ámbitos específicos.

En el IIC, llevamos tiempo trabajando en modelos de lenguaje, en el marco de un proyecto de investigación que tenía como principal objetivo desarrollar este modelo propio con más y mejores datos, mayor hardware de entrenamiento y mejor arquitectura de red neuronal que otros modelos del lenguaje español.

RigoBERTa es el resultado de la labor constante de nuestro centro de investigación e innovación, junto con el apoyo al grupo de trabajo de nuestra Cátedra UAM-IIC de Lingüística Computacional.

Los modelos del lenguaje son redes neuronales artificiales de gran tamaño, capaces de analizar ingentes volúmenes de texto escrito para aprender la estructura con la que se presentan las palabras de un determinado idioma.

Con este pre-entrenamiento, se convierten en modelos generales que se pueden re-entrenar con fines y corpus más específicos, ya sea para resolver una tarea concreta de PLN o para adaptarlo al lenguaje y terminología de un dominio.

Esta tecnología está mucho más desarrollada en inglés, con modelos conocidos como BERT o GPT-3. En español no existen actualmente tantos recursos, por lo que RigoBERTa surge de la necesidad de desarrollar un modelo de lenguaje sólido en nuestro idioma.

Crear modelo del lenguaje

¿Cómo funciona un modelo de lenguaje general?

Los modelos del lenguaje son la base de la mayoría de sistemas y aplicaciones modernas de Procesamiento del Lenguaje Natural (PLN).

Si quieres conocer el modelo de lenguaje español RigoBERTa, no dudes en escribirnos.

QUIERO SABER MÁS
Desarrollo RigoBERTa

Desarrollo y resultados de RigoBERTa

Un equipo multidisciplinar del IIC, formado sobre todo por data scientists y lingüistas computacionales, se encargó del desarrollo y entrenamiento del modelo de lenguaje en español RigoBERTa.

Nuestros expertos han desarrollado el modelo de lenguaje en español del IIC siguiendo:

Arquitectura del modelo de lenguaje

El modelo se basa en la arquitectura del modelo de lenguaje DeBERTa, un tipo de red neuronal de referencia que ya supera al rendimiento humano en tareas de PLN en inglés según el test de SuperGLUE.

Entrenamiento del modelo de lenguaje

El modelo de lenguaje RigoBERTa se ha entrenado con cuatro fuentes de datos en español que suponen más de 450.000 millones de palabras, asegurando su calidad.

RigoBERTa ha conseguido un rendimiento mayor que los modelos de lenguaje en español disponibles en un gran número de tareas de Procesamiento del Lenguaje Natural (PLN).

La tabla muestra los resultados de un benchmark comparativo entre RigoBERTa y varios modelos de lenguaje español disponibles públicamente. El benchmark mide el nivel de acierto con el que los diferentes modelos de lenguaje son capaces de resolver una diversidad de tareas de PLN:

  • Clasificación de documentos (Class).
  • Reconocimiento de entidades (Named Entity Recognition, NER).
  • Búsqueda en el texto de respuestas a preguntas (Question Answering, QA).

Cuanto más altas son las cifras de la tabla, mejor es el resultado del modelo en la tarea. Además, en cada tarea se marca con una estrella el modelo de lenguaje que obtiene los mejores resultados en esa tarea.

Como puede observarse, el modelo de lenguaje en español del IIC RigoBERTa, obtiene los mejores resultados en 10 de las 13 tareas, convirtiéndose así el mejor modelo de lenguaje en español de entre los comparados.

Benchmar PLN

Potencial y aplicaciones de RigoBERTa

En el IIC, seguimos trabajando para adaptar los avances en modelos de lenguaje a cualquier negocio o sector, especialmente en los que manejan grandes cantidades de documentos y, en definitiva, texto:

TAREAS DE PLN

Los modelos de lenguaje se pueden aplicar para resolver eficazmente distintas tareas de PLN, desde la clasificación de documentos hasta la detección de entidades.

ADAPTACIÓN DEL MODELO

Somos capaces de adaptar esta tecnología a distintos dominios del lenguaje, con el fin de que reconozcan la terminología específica de distintos ámbitos.

Nuestro modelo de lenguaje en español RigoBERTa, es capaz de adaptarse a distintos dominios del lenguaje: legal, financiero, médico, etc.

Contacta con nosotros


    He leído y acepto las condiciones de uso y la política de privacidad*.

     Sí deseo recibir comunicaciones comerciales.

     

    Información básica sobre Protección de Datos

    • Responsable: Asociación para el Desarrollo de la Ingeniería del Conocimiento.
    • Dirección: Ctra. de Colmenar Viejo, km.15, Calle Francisco Tomás y Valiente 11; EPS, Edificio B, 5ª planta; 28049 Madrid.
    • Teléfono: 914972323
    • Correo electrónico: contacto.iic@iic.uam.es
    • Delegado de Protección de Datos: dpd@iic.uam.es

    En nombre de Asociación para el Desarrollo de la Ingeniería del Conocimiento, tratamos la información que nos facilita con el fin de dar respuesta a la solicitud realizada por usted en relación con los servicios que prestamos y los productos que suministramos. Los datos proporcionados se conservarán mientras se mantenga el contacto, siendo eliminados una vez finalizada la solicitud. Los datos no se cederán a terceros salvo en los casos en que exista una obligación legal. Usted tiene derecho a obtener confirmación sobre si en Asociación para el Desarrollo de la Ingeniería del Conocimiento estamos tratando sus datos personales, por tanto, tiene derecho a acceder a sus datos personales, rectificar los datos inexactos o solicitar su supresión cuando los datos ya no sean necesarios. Asimismo, podrá oponerse al tratamiento de sus datos, solicitar la limitación al tratamiento y la portabilidad de sus datos. Si considera que sus datos personales no han sido tratados conforme a la normativa, puede contactar con derechosrgpd@iic.uam.es. Asimismo, podrá presentar una reclamación ante la Agencia Española de Protección de Datos, especialmente cuando no haya obtenido la satisfacción en el ejercicio de sus derechos, a través de la sede electrónica en www.aepd.es.

    Asimismo, se desean utilizar sus datos para ofrecerle productos y servicios relacionados con los solicitados por Usted, por cualquier medio, incluido el electrónico, incluso una vez terminada la relación negocial/contractual.