Los corpus de RigoChat-v2: entrenamiento de un LLM para tareas y dominios en español
El trabajo con los corpus en el marco de RigoChat-v2 merece capítulo aparte. Como adelantábamos en el post sobre cómo desarrollamos nuestro modelo de lenguaje generativo en español, la preparación de estos conjuntos de textos es esencial para adaptar un LLM existente a tareas y dominios concretos en nuestro idioma. Como el modelo de lenguaje que queríamos obtener estaba pensado para que sea conversacional y resuelva de forma satisfactoria las consultas de los usuarios, en este trabajo nos hemos centrado solamente en los corpus en formato de instrucción: es decir, en aquellos conjuntos de datos con conversaciones entre usuarios y un LLM. En esta segunda parte, repasamos cómo hemos preparado los corpus de entrenamiento y evaluación de RigoChat-v2, como previa al artículo científico que publicaremos próximamente y que profundizará más en algunos aspectos. ¿Cómo se crean los corpus? Metodología seguida en el IIC En la fase de pre-entrenamiento de un modelo de lenguaje, lo único que se le pide es que infiera cuál será la siguiente palabra sobre un texto plano y sin ningún tipo de formato ni interacción con usuarios. El problema de esta fase es que requiere mucho tiempoy recursos, además de que es necesario un corpus de … Sigue leyendo Los corpus de RigoChat-v2: entrenamiento de un LLM para tareas y dominios en español
Copia y pega esta URL en tu sitio WordPress para incrustarlo
Copia y pega este código en tu sitio para incrustarlo