En el campo del Procesamiento del Lenguaje Natural (PLN), los modelos de lenguaje son una revelación que permite abordar de manera generalizada varias tareas en diferentes dominios. Estos avanzan rápidamente en la actualidad, aunque suelen desarrollarse sobre todo en inglés.
Por ello, el Instituto de Ingeniería del Conocimiento (IIC) ha estado trabajando en un nuevo modelo de lenguaje en español que Álvaro Barbero, chief data sicentist, presentó en su charla en Big Things Conference 2020: Fine-tuning language models for spanish NLP tasks.
En su segundo año consecutivo en uno de los eventos más importantes sobre Big Data e Inteligencia Artificial, mostró la evolución y mejoras de los modelos de lenguaje y avanzó los primeros resultados del modelo RigoBERTa, el nuevo proyecto del IIC.
RigoBERTa: modelo de lenguaje en español para tareas de PLN
Los modelos de lenguaje aprenden el funcionamiento del lenguaje en general viéndolo en un gran volumen de textos sin anotar y realizando diferentes tareas básicas, como rellenar huecos en frases. De esta forma, se pueden aplicar a diferentes tareas de PLN –clasificar textos, identificar temas o detectar entidades– en diferentes dominios, o al menos servir de base para desarrollar modelos más específicos. Es el caso de BERT, uno de los modelos de lenguaje en inglés más conocidos.
Y es que la mayoría de modelos y mejoras se desarrollan en inglés. Por eso, aunque existe la versión multilingüe de BERT (aplicable a más de 100 idiomas), están apareciendo modelos específicos para cada idioma, con un mayor rendimiento que este. En español, encontramos a BETO, creado en la Universidad de Chile y entrenado con un corpus de 3 mil millones de tokens.
Estos modelos son generalizables y funcionan mejor ante la variedad de textos que si un modelo de PLN entrenado para una tarea o dominio concretos se aplicara a otros diferentes. Sin embargo, queda mucho que mejorar en nuestro idioma. Con la intención de incorporar las novedades de los modelos en inglés, se formó el equipo encargado de RigoBERTa, que quiere desarrollar un nuevo modelo de lenguaje en español.
Modelo de lenguaje en español RigoBERTA
Mejoras del modelo de lenguaje RigoBERTa
De momento, los profesionales del IIC, entre los que se encuentran lingüistas computacionales, data scientists y expertos en Machine Learning, van a centrarse en algunas mejoras clave:
Mayor corpus
RigoBERTa se entrena con un corpus 10 veces mayor que el de BETO. Este está formado por el corpus OSCAR (149 GB de textos de webs en español), un dataset propio (128 GB de noticias de diferentes medios) y los textos de Wikipedia en español (3.6 GB).
Textos de más calidad
Además de borrar textos duplicados y palabras en otros idiomas, se aplica un filtro de calidad para quedarse con los textos más representativos en cuanto a cómo escribe la gente en español. Esto se consigue con guías sobre las características que se asocian a esa calidad, una anotación manual para conseguir un gold standard y, con esta, el desarrollo de un modelo de machine learning que evalúa la calidad de los textos.
Mejor hardware y arquitectura neuronal
Como parte del proyecto, se realizará un benchmark de arquitecturas GPU y TPU de cálculo intensivo, con el fin de encontrar la más eficiente. Además, se incorporan detalles técnicos del diseño y modo de entrenamiento de la red neuronal que han funcionado bien en los modelos de lenguaje de referencia en inglés, así como los ya mencionados procesos de limpieza de datos.
Adaptación al dominio
La adaptación a diferentes dominios se consigue reentrenando el modelo general con corpus específicos de los mismos, para que aprenda las estructuras y terminología características de cada tipo de lenguaje. Por ejemplo, en el caso de la versión legal de RigoBERTa, el IIC está colaborando con Garrigues para encontrar aplicaciones en el sector jurídico en español. Y se hará así con otros dominios.
Entre las primeras pruebas del modelo, se demuestra que el filtro de calidad de los textos mejora los resultados en el modelado del lenguaje español y que, en un caso de análisis de sentimiento, RigoBERTa supera al BERT multilingüe y a BETO. Los modelos de lenguaje demuestran ser útiles con un objetivo práctico, y son un avance muy importante en el mundo del PLN, aunque estemos lejos de lograr una Inteligencia Artificial auténtica. El PLN y los modelos de lenguaje constituyen una de las líneas de investigación actuales del IIC.
El modelo RigoBERTa está público en algun sitio?
Hola Sergio, de momento no está público ni accesible «en abierto». Para cualquier novedad te puedes suscribir a nuestro blog. Gracias por tu interés!