IIC publica RigoBERTa 2 en abierto: modelo de lenguaje en español

En la esfera del procesamiento del lenguaje natural (PLN) parece que los grandes modelos de lenguaje generativos marcan diferencia respecto a otros modelos. Estos grandes modelos no son siempre válidos para todos los casos de uso. En muchas ocasiones, es más adecuado tener modelos eficientes, robustos y especializados en comprensión del lenguaje.

En este contexto, el Instituto de Ingeniería del Conocimiento (IIC) anuncia la apertura a la comunidad open source de RigoBERTa 2, un modelo de lenguaje en español a disposición de la comunidad como recurso para la investigación y la experimentación.

¿Qué es el modelo de lenguaje RigoBERTa 2?

RigoBERTa 2 es un modelo de lenguaje encoder-only, es decir, no generativo, diseñado y optimizado para tareas de comprensión y análisis de texto en español.

Este tipo de modelos son especialmente adecuados para tareas como:

Clasificación de textos.
Detección de entidades (Named Entity Recognition, NER).
Búsqueda semántica y recuperación de información.
Filtrado, moderación y análisis de contenido.
Extracción de información estructurada para pipelines de inteligencia documental.

A diferencia de los grandes modelos generativos, RigoBERTa 2 se centra en entender el texto, no en producirlo, lo que lo hace más eficiente y controlable en muchos escenarios reales. Es, por lo tanto, apropiado su uso en conjuntos de datos propios, o como punto de partida para adaptaciones a dominios concretos (legal, clínico, jurídico, etc.)

hugging-face –limitada a fines de investigación y no comerciales–

¡Quiero probarlo!

–Para fines comerciales–

¡Quiero probarlo!

El repositorio incluye:

Model card
Instrucciones de uso
Referencias a evaluaciones y trabajos científicos relacionados

¿Por qué importa que esté entrenado en español?

Entrenar y optimizar un encoder específicamente para español es relevante por varias razones clave:

Mejor rendimiento en el idioma objetivo. Los datos, las decisiones de preprocesado y el diseño del entrenamiento están orientados al español, lo que permite capturar mejor matices lingüísticos, entidades, variaciones regionales y usos propios del idioma.
Eficiencia y coste de despliegue. Los modelos encoder-only suelen requerir menos recursos computacionales que los grandes modelos generativos, facilitando su adopción en producción por: Pymes, despacho de abogados, administraciones públicas, centros de investigación, etc.
Atención a lenguas infrarrepresentadas. Actualmente existe menos investigación y menos recursos abiertos centrados en encoders para lenguas como el español. La liberación de RigoBERTa 2 contribuye a corregir este desequilibrio y a fortalecer el ecosistema de PLN en español.
Base para dominios especializados. RigoBERTa 2 ya ha demostrado su aplicabilidad en dominios específicos, como el clínico, con resultados sólidos en tareas de NER y clasificación, lo que lo convierte en una base fiable para adaptaciones sectoriales.

¿A quién va dirigido RigoBERTa 2?

La apertura de RigoBERTa 2 busca beneficiar a distintos perfiles:

Investigadores y grupos académicos. Modelo 100% abierto para experimentación, evaluación y publicación científica.
Empresas y sector público. El modelo puede integrarse como componente estable y eficiente en sistemas de análisis de texto. Para usos comerciales o despliegues productivos, existe la posibilidad de acuerdos comerciales y soporte ampliado.
Desarrolladores y comunidades de PLN en español. Base sólida para fine-tuning, adaptaciones y creación de recursos en dominios como salud, jurídico, financiero, educativo, etc.

¿Cómo puede usarse RigoBERTa 2?

El modelo puede cargarse utilizando la librería Hugging Face Transformers y es compatible con los principales frameworks de redes neuronales, está disponible en el repositorio IIC/RigoBERTa-2.0.

Los modelos encoder-only como RigoBERTa 2 son especialmente versátiles y pueden utilizarse:

Sin hacer tarea alguna, es decir, tal cual se presenta (Fill-Mask)
Afinado (fine-tuning) con datos propios
Como punto de partida para adaptaciones a dominios concretos, como ya se ha demostrado en el ámbito clínico.

Modelo de lenguaje en español abierto y validado

RigoBERTa 2 se publica como recurso abierto para la comunidad investigadora y desarrolladora.

En evaluaciones y benchmarks multi-dataset en español, el modelo:

Supera a otros encoders abiertos y multilingües en tareas de clasificación y NER
Mantiene un diseño ligero y eficiente, pensado para facilitar su despliegue en entornos reales sin necesidad de la infraestructura asociada a los LLMs más grandes

Condiciones de uso y acceso

Licencia: RigoBERTa 2 se publica con una licencia 100% abierta para experimentación e investigación (uso no comercial)
Uso comercial: para usos comerciales o despliegues con fines comerciales, se debe contactar con el departamento de ventas del IIC.
Repositorio y pesos: disponibles en Hugging Face.

¿Qué aporta frente a otros modelos libres o de pago?

RigoBERTa 2 destaca por ofrecer un mejor rendimiento en español en tareas de comprensión del lenguaje, superando a otras alternativas abiertas y multilingües en escenarios donde entender el texto es clave.

Además, su diseño como modelo encoder-only permite un menor coste de despliegue frente a los grandes modelos generativos cuando no se requiere generación de texto, lo que lo hace especialmente adecuado para entornos productivos. A esto se suma el respaldo institucional IIC, con una trayectoria consolidada en procesamiento del lenguaje natural, que aporta garantías de calidad y continuidad. Por último, la apertura a la comunidad open source y la transparencia favorecen la reproducibilidad, la auditoría del modelo y la mejora continua a través de las contribuciones de la comunidad.

RigoBERTa 2 como recurso público

La apertura de RigoBERTa 2 marca un paso importante, como es el convertir a este modelo de lenguaje en un recurso público que destaca en comprensión de texto en español.

Con esta liberación, el IIC reafirma su compromiso con la transmisión de conocimiento y la colaboración abierta. Investigadores, desarrolladores, empresas y administraciones públicas están invitados a probar el modelo, adaptarlo y compartir feedback.

No nos olvidemos de que la comunidad es la que hace crecer y mejorar los modelos abiertos, por esto te animamos a:

Compartir issues
Publicar resultados de adaptación
Difundir trabajos y artículos derivados

Liberando este modelo, RigoBERTa 2, en el IIC damos un nuevo paso para seguir impulsando la IA en español, reforzando nuestro compromiso con la comunidad y con el desarrollo de tecnologías lingüísticas abiertas y de calidad, facilitando a investigadores, empresas y desarrolladores el acceso a un modelo de lenguaje de alto rendimiento entrenado específicamente para nuestro idioma.

Blog

IIC publica RigoBERTa 2 en abierto: modelo de lenguaje en español

¿Qué es el modelo de lenguaje RigoBERTa 2?

¿Por qué importa que esté entrenado en español?

¿A quién va dirigido RigoBERTa 2?

¿Cómo puede usarse RigoBERTa 2?

Modelo de lenguaje en español abierto y validado

Condiciones de uso y acceso

¿Qué aporta frente a otros modelos libres o de pago?

RigoBERTa 2 como recurso público

Sobre Instituto de Ingeniería del Conocimiento

Dejar un comentario Cancelar la respuesta

Búsqueda

Suscríbete

Categorías