En la esfera del procesamiento del lenguaje natural (PLN) parece que los grandes modelos de lenguaje generativos marcan diferencia respecto a otros modelos. Estos grandes modelos no son siempre válidos para todos los casos de uso. En muchas ocasiones, es más adecuado tener modelos eficientes, robustos y especializados en comprensión del lenguaje.
En este contexto, el Instituto de Ingeniería del Conocimiento (IIC) anuncia la apertura a la comunidad open source de RigoBERTa 2, un modelo de lenguaje en español a disposición de la comunidad como recurso para la investigación y la experimentación.
¿Qué es el modelo de lenguaje RigoBERTa 2?
RigoBERTa 2 es un modelo de lenguaje encoder-only, es decir, no generativo, diseñado y optimizado para tareas de comprensión y análisis de texto en español.
Este tipo de modelos son especialmente adecuados para tareas como:
- Clasificación de textos.
- Detección de entidades (Named Entity Recognition, NER).
- Búsqueda semántica y recuperación de información.
- Filtrado, moderación y análisis de contenido.
- Extracción de información estructurada para pipelines de inteligencia documental.
A diferencia de los grandes modelos generativos, RigoBERTa 2 se centra en entender el texto, no en producirlo, lo que lo hace más eficiente y controlable en muchos escenarios reales. Es, por lo tanto, apropiado su uso en conjuntos de datos propios, o como punto de partida para adaptaciones a dominios concretos (legal, clínico, jurídico, etc.)
RigoBERTa 2
–limitada a fines de investigación y no comerciales–

- Model card
- Instrucciones de uso
- Referencias a evaluaciones y trabajos científicos relacionados
¿Por qué importa que esté entrenado en español?
Entrenar y optimizar un encoder específicamente para español es relevante por varias razones clave:
- Mejor rendimiento en el idioma objetivo. Los datos, las decisiones de preprocesado y el diseño del entrenamiento están orientados al español, lo que permite capturar mejor matices lingüísticos, entidades, variaciones regionales y usos propios del idioma.
- Eficiencia y coste de despliegue. Los modelos encoder-only suelen requerir menos recursos computacionales que los grandes modelos generativos, facilitando su adopción en producción por: Pymes, despacho de abogados, administraciones públicas, centros de investigación, etc.
- Atención a lenguas infrarrepresentadas. Actualmente existe menos investigación y menos recursos abiertos centrados en encoders para lenguas como el español. La liberación de RigoBERTa 2 contribuye a corregir este desequilibrio y a fortalecer el ecosistema de PLN en español.
- Base para dominios especializados. RigoBERTa 2 ya ha demostrado su aplicabilidad en dominios específicos, como el clínico, con resultados sólidos en tareas de NER y clasificación, lo que lo convierte en una base fiable para adaptaciones sectoriales.
¿A quién va dirigido RigoBERTa 2?
La apertura de RigoBERTa 2 busca beneficiar a distintos perfiles:
- Investigadores y grupos académicos. Modelo 100% abierto para experimentación, evaluación y publicación científica.
- Empresas y sector público. El modelo puede integrarse como componente estable y eficiente en sistemas de análisis de texto. Para usos comerciales o despliegues productivos, existe la posibilidad de acuerdos comerciales y soporte ampliado.
- Desarrolladores y comunidades de PLN en español. Base sólida para fine-tuning, adaptaciones y creación de recursos en dominios como salud, jurídico, financiero, educativo, etc.
¿Cómo puede usarse RigoBERTa 2?
El modelo puede cargarse utilizando la librería Hugging Face Transformers y es compatible con los principales frameworks de redes neuronales, está disponible en el repositorio IIC/RigoBERTa-2.0.
Los modelos encoder-only como RigoBERTa 2 son especialmente versátiles y pueden utilizarse:
- Sin hacer tarea alguna, es decir, tal cual se presenta (Fill-Mask)
- Afinado (fine-tuning) con datos propios
- Como punto de partida para adaptaciones a dominios concretos, como ya se ha demostrado en el ámbito clínico.
Modelo de lenguaje en español abierto y validado
RigoBERTa 2 se publica como recurso abierto para la comunidad investigadora y desarrolladora.
En evaluaciones y benchmarks multi-dataset en español, el modelo:
- Supera a otros encoders abiertos y multilingües en tareas de clasificación y NER
- Mantiene un diseño ligero y eficiente, pensado para facilitar su despliegue en entornos reales sin necesidad de la infraestructura asociada a los LLMs más grandes
Condiciones de uso y acceso
- Licencia: RigoBERTa 2 se publica con una licencia 100% abierta para experimentación e investigación (uso no comercial)
- Uso comercial: para usos comerciales o despliegues con fines comerciales, se debe contactar con el departamento de ventas del IIC.
- Repositorio y pesos: disponibles en Hugging Face.
¿Qué aporta frente a otros modelos libres o de pago?
RigoBERTa 2 destaca por ofrecer un mejor rendimiento en español en tareas de comprensión del lenguaje, superando a otras alternativas abiertas y multilingües en escenarios donde entender el texto es clave.
Además, su diseño como modelo encoder-only permite un menor coste de despliegue frente a los grandes modelos generativos cuando no se requiere generación de texto, lo que lo hace especialmente adecuado para entornos productivos. A esto se suma el respaldo institucional IIC, con una trayectoria consolidada en procesamiento del lenguaje natural, que aporta garantías de calidad y continuidad. Por último, la apertura a la comunidad open source y la transparencia favorecen la reproducibilidad, la auditoría del modelo y la mejora continua a través de las contribuciones de la comunidad.
RigoBERTa 2 como recurso público
La apertura de RigoBERTa 2 marca un paso importante, como es el convertir a este modelo de lenguaje en un recurso público que destaca en comprensión de texto en español.
Con esta liberación, el IIC reafirma su compromiso con la transmisión de conocimiento y la colaboración abierta. Investigadores, desarrolladores, empresas y administraciones públicas están invitados a probar el modelo, adaptarlo y compartir feedback.
No nos olvidemos de que la comunidad es la que hace crecer y mejorar los modelos abiertos, por esto te animamos a:
- Compartir issues
- Publicar resultados de adaptación
- Difundir trabajos y artículos derivados
Liberando este modelo, RigoBERTa 2, en el IIC damos un nuevo paso para seguir impulsando la IA en español, reforzando nuestro compromiso con la comunidad y con el desarrollo de tecnologías lingüísticas abiertas y de calidad, facilitando a investigadores, empresas y desarrolladores el acceso a un modelo de lenguaje de alto rendimiento entrenado específicamente para nuestro idioma.
