Desarrollar recursos de procesamiento del lenguaje natural (PLN) en nuestro idioma es esencial para que el español tenga su lugar en el mundo de los LLMs (large language models). La comunidad SomosNLP reúne a expertos en la materia con este fin y su último hito ha sido desarrollar la primera leaderboard pública de modelos de lenguaje generativos en español y lenguas cooficiales (catalán, euskera y gallego).
Desde el Instituto de Ingeniería del Conocimiento (IIC), hemos participado en el desarrollo de esta tabla de clasificación para evaluar y comparar los diferentes modelos disponibles en nuestras lenguas. Alojada en Hugging Face, es en sí un buen recurso para medir cuantitativamente el avance del PLN en español.
La ‘Leaderboard de Variedades del Español y Lenguas Oficiales’, que así se llama, es resultado del Hackathon de PLN en español que organiza anualmente SomosNLP y que hace unos meses se propuso crear el mayor corpus de instrucciones de calidad que representara las variedades del español para entrenar modelos nativos e inclusivos. El IIC también aportó a este primer paso donando dos corpus de evaluación propios.
¿Qué es una leaderboard de modelos de lenguaje?
Una leaderboard es un ranking público de modelos de lenguaje, que se clasifican según su rendimiento en distintas tareas de procesamiento del lenguaje natural (PLN). De esta forma, se estandariza su evaluación y se puede hacer una comparación más justa de los mismos.
Ya hace tiempo que se encuentra accesible una leaderboard de LLMs opensource en inglés. Y si bien es cierto que en español existe una reciente tabla de clasificación para modelos discriminativos, llamada ODESIA, la propuesta ahora por SomosNLP es la primera que da una visión general de los modelos de lenguaje generativos en español y lenguas cooficiales.
Para conseguir un puesto en este nuevo ranking se evalúan diferentes aspectos:
- Generación de respuestas a preguntas sobre contextos (Abstractive Question Answering)
- Compresión lectora
- Clasificación temática
- Resúmenes automáticos
- Problemas matemáticos
Y así hasta más de 50 tareas de comprensión y generación del lenguaje natural, distribuidas entre el español y las lenguas cooficiales, en cuyo desarrollo han participado expertos del IIC. Esta tabla en constante actualización ayudará a investigadores, profesionales y curiosos del PLN a comparar las capacidades de los diferentes modelos en abierto y a estar al día de los mismos.
Corpus para evaluar modelos de lenguaje
Los modelos de lenguaje se entrenan y evalúan con corpus o conjuntos de textos anotados. Por ello, el creado en el Hackathon de SomosNLP sirvió de base para esta leaderboard. Desde el IIC, donamos a la iniciativa dos corpus en español creados por nuestro equipo de lingüistas computacionales, que también están disponibles en abierto en Hugging Face:
– AQuAS para extracción de información.
– RagQuAS para RAG y extracción de información.
Además, han donado también sus bases de datos para la creación de esta leaderboard otros grupos de investigación como la Language Technologies Unit del Barcelona Supercomputing Center (BSC), el centro HiTZ de la Universidad del País Vasco, la Universidad de Santiago de Compostela (USC) a través de los centros CiTIUS (Centro Singular de investigación en Tecnologías Inteligentes) e ILG (Instituto da Lingua Galega), LenguajeNatural.AI y el Grupo de Internet de Nueva Generación (GING) de la Escuela Técnica Superior de Ingenieros de Telecomunicación de la Universidad Politécnica de Madrid (UPM). Una colaboración liderada por SomosNLP a través del proyecto #Somos600M, que tiene el objetivo de representar en el mundo digital la diversidad de las lenguas de España, LATAM y El Caribe.
Todos los corpus de evaluación han sido originalmente creados o manualmente traducidos a las correspondientes lenguas, por la importancia de evaluar los modelos de lenguaje con datos “nativos”. En el IIC dedicamos especial atención a preparar estos textos, contando con una metodología propia de anotación de corpus lingüísticos. Además, tenemos experiencia en el entrenamiento posterior de los modelos de lenguaje, por lo que seguiremos colaborando para impulsar la creación de recursos abiertos de PLN en español.