Evaluación de LLM con un corpus personalizado en español

Como parte de nuestra misión de implementar soluciones de vanguardia en procesamiento del lenguaje natural (PLN) y de encontrar la tecnología que mejor se adapte a las necesidades de nuestros clientes, desde el Instituto de Ingeniería del Conocimiento (IIC) llevamos recientemente a cabo una evaluación integral para comparar varios modelos de lenguaje de gran tamaño (LLM) especializados en IA generativa. Esta se centró en aplicaciones del mundo real en español (dominios de retail, seguros y preguntas frecuentes de ciudadanos) y se realizó con diferentes corpus lingüísticos anotados en español, para identificar el modelo que ofrezca las respuestas en nuestro idioma más precisas desde el punto de vista semántico en escenarios relevantes y prácticos. En concreto, decidimos enfocarnos en modelos en el rango de 7 a 12 mil millones de parámetros (7B a 12B), ya que ofrecen un equilibrio ideal entre capacidades lingüísticas y rentabilidad. Comparamos los modelos más populares entre los desarrolladores y clientes, y que, en particular, pudieran ejecutarse en instancias G5 de AWS (que son más económicas que las instancias de alta gama requeridas para modelos más grandes) y, aun así, ofrecer un rendimiento competitivo. Los modelos comparados incluyen aquellos de organizaciones líderes en IA como Meta, MistralAI, … Sigue leyendo Evaluación de LLM con un corpus personalizado en español