¿Qué tiene que saber hacer un data scientist? ¿Qué habilidades o técnicas debe manejar? Spain AI los puso a prueba en su último Hackaton, retando a los participantes en tres de las principales áreas y técnicas de Inteligencia Artificial: Procesamiento del Lenguaje Natural (PLN), series temporales y Computer Vision.
El Instituto de Ingeniería del Conocimiento (IIC) estuvo presente en los tres podios, gracias al conocimiento e ingenio de Álvaro Barbero, chief data scientist, y Alejandro Vaca, data scientist. Este último fue además nombrado el mejor de la competición, al conseguir dos primeros puestos y una medalla de bronce.
Desde la organización, buscaban identificar a los mejores data scientists con tres casos de uso que tuvieran aplicación en diferentes negocios y ámbitos. Los resultados se dieron a conocer en una entrega de premios virtual, en la que los ganadores contaron su experiencia.
Generación de texto con PLN
La prueba de PLN del Hackathon Spain AI, consistía en desarrollar un sistema para generar automáticamente nombres para productos de Zara a partir de sus descripciones en texto libre.
La misma marca puso a disposición del reto un dataset real, con los textos con los que se podía entrenar a un nuevo algoritmo de generación de texto.
En este caso, Alejandro Vaca consiguió un tercer puesto, aumentando primero los datos de entrenamiento con la información pública en Internet, limpiándolos, y después trabajando con distintos modelos Transformer de generación de texto. Probó diferentes alternativas, desde reentrenar el propio modelo de lenguaje, pasando por hacer Population Based Training, hasta el entrenamiento de modelos gigantes con DeepSpeed. Finalmente combinó varios de estos modelos.
Álvaro Barbero se hizo con el segundo puesto, empezando de forma similar a su compañero con la aplicación de modelos de generación de lenguaje condicionada. A lo largo de la competición entrenó diversos modelos de lenguaje diferentes, empleando diversas arquitecturas, y explotando tanto los datos de la competición como datos obtenidos mediante un sistema de crawling avanzado.
La solución final de Álvaro en el reto de PLN del Hackathon Spain AI, fue la de combinar las propuestas de 94 de estos modelos de lenguaje en un único ensemble con rendimiento superior al de los modelos individuales.
Puedes ver el vídeo del reto de PLN del Hackathon Spain AI
Ambos destacaban el nivel de los participantes y que se trataba de un problema no tan habitual en competiciones de este tipo, pero que eso lo hacía más interesante para mejorar. “He podido poner en practica técnicas con las que trabajo casi a diario en modelos de lenguaje y otras que no había probado en mi vida”, explicaba Vaca. “Estos hackatones ayudan a que el sector avance, poniéndonos retos “casi” imposibles”, comentó Barbero.
Series temporales para el mercado financiero
Otro de los retos consistió en desarrollar un algoritmo para optimizar el patrimonio de una cartera de valores en base a decisiones automatizadas y a través de los activos proporcionados por Darwinex (DARWINs).
En este caso, Alejandro Vaca dio con la clave y consiguió el primer puesto. Se dio cuenta de que no se podía utilizar la típica solución de gestión de carteras o activos, pues no valía solo con maximizar el retorno de la cartera, sino que había que obtener la menor varianza posible. Tras probar con Reinforcement Learning y con algoritmos basados en clusters sin mucho éxito, optó por redes neuronales que tuvieran una capa de optimización numérica al final.
Así pues, la red neuronal aprendía como se relacionan los activos del mercado con los DARWINs de los que disponían. En concreto, se quedó con ThorpeNet, incluyó datos en abierto de Darwinex y se basó en los datos generados durante la pandemia, pues había diferencias en la distribución de los mercados.
Puedes ver el vídeo del reto de series temporales del Hackathon Spain AI
Como decíamos, estos retos pueden tener una aplicación real. Para Alejandro Vaca, “el uso de las herramientas de Inteligencia Artificial aplicadas al trading o su integración en sistemas de trading automático son importantes para democratizar los mercados financieros”.
Imágenes de alta resolución con Computer Vision
Algunas obras de arte fueron la temática de la última prueba propuesta por Spain AI. En concreto, se trataba de obtener un algoritmo capaz de generar imágenes de alta resolución a partir de otras de menos calidad.
En este caso, Alejandro Vaca volvió a hacerse con el primer puesto, aunque esta vez compartido con otros dos participantes. Con la dificultad añadida de que eran imágenes poco realistas, abstractas en algunos casos y sin trazos definidos, la solución del data scientist del IIC se basó en Deep Learning y, en concreto, utilizó Enhanced Super Resolution GAN.
Él mismo destacaba que se trata de un campo que está progresando mucho en los últimos años, como vemos en los filtros de redes sociales o los deepfakes, que había despertado su curiosidad y que había sido interesante poder probarlo.
Puedes ver el vídeo del reto de Computer Vision del Hackathon Spain AI
Por último, Alejandro Vaca también fue nombrado mejor data scientist del Hackathon de Spain AI, al obtener la mejor calificación general entre los tres retos. Para él, “han sido meses de aprendizaje y esfuerzo mayúsculo” y cree que “estos eventos hacen visible la comunidad de IA en España”. Además, agradeció la oportunidad de trabajar en el IIC junto a su “mentor” Álvaro Barbero, que aseguró que “hemos aprendido nuevas técnicas, para hacer las cosas mejor y para abordar problemas con otras peculiaridades”.
Enhorabuena Alvaro. Enhorabuena Alejandro. Qué orgullo y qué alegría siento por vuestros logros y premios.
Muchas gracias por vuestro compromiso con nuestro IIC.
Un afectuoso saludo.
Jose Miguel Mata
¡Muchas gracias por tus palabras José Miguel! Me alegra ver que sigues al tanto de todo lo que estamos haciendo.