La competición online de PLN en español por excelencia se suma a la revolución de los LLMs en su tercera edición. El Hackathon organizado por SomosNLP ya está en marcha y desde el Instituto de Ingeniería del Conocimiento (IIC) hemos puesto nuestro granito de arena como patrocinador oro.
El objetivo principal es desarrollar un corpus que represente a los 600 millones de hispanohablantes. Desde el IIC, por la importancia que damos a la preparación de los textos, no podíamos dejar de contribuir a este fin, donando algunos corpus propios. También hablaremos de ellos en una de las charlas divulgativas que se organizan a lo largo de toda la competición. Marta Guerrero, directora técnica del área de Buisiness and Language Analytics, explicará «¿Cómo anotar corpus lingüísticos para entrenar LLMs?».
Además, con esta base de textos y tras la competición, se espera crear el primer ranking de evaluación de LLMs en español, para comparar los diferentes modelos que van surgiendo. Todo un reto colaborativo que al final busca crear más recursos abiertos de PLN en nuestro idioma.
Corpus y LLMs de calidad en español
Un idioma tan extendido y rico como el español merece su representación en un momento de auge del Procesamiento del Lenguaje Natural (PLN). Desde SomosNLP lo tienen claro: necesitamos LLMs que representen todas las variedades de nuestra lengua, así como las lenguas cooficiales.
Para ello, el primer paso va a ser crear un corpus de instrucciones diverso y de calidad en español, objetivo principal de su Hackathon. En el IIC también dedicamos especial atención a preparar los textos con los que se entrenan los modelos de lenguaje, contando con una metodología propia de anotación. Por ello, aportamos a la competición algunos de nuestros corpus, para que sumen al reto.
Esta gran base de datos permitirá luego entrenar modelos de lenguaje nativos e inclusivos y, como resultado de la competición, crear una leaderboard pública de LLMs en español para estandarizar cómo evaluar y comparar los diferentes modelos de lenguaje en nuestro idioma.
En las dos ediciones anteriores, Somos NLP ha contado en total con más de 1.000 participantes de 30 países distintos, superando las 20.000 visualizaciones de los eventos. Una muestra del interés creciente por el PLN en español.