Alejandro Vaca Serrano, Data Scientist en el Instituto de Ingeniería del Conocimiento (IIC), ha sido uno de los ganadores del Cajamar UniversityHack 2020, la competición de analítica de datos más grande de España.
En concreto, él y su compañero Armando Robles, con el que estudió el máster en Data Science y Big Data de la Escuela de Finanzas Afi, obtuvieron el primer premio del reto Minsait Land Classification, cuyo objetivo era encontrar el mejor modelo de clasificación automática de suelos (residencial, industrial, oficinas, etc.) en base a datos extraídos de las imágenes de satélite.
Para Alejandro Vaca, la dedicación necesaria para sacar adelante el proyecto tiene su recompensa. En el aprendizaje, se dio cuenta de que echarle horas y prestar atención a los detalles son factores clave para obtener el mejor resultado.
Ofrecer una experiencia cercana al mundo profesional del análisis Big Data y la Inteligencia Artificial con diferentes retos. Ese es el objetivo del Cajamar UniversityHack 2020, dirigida a los alumnos de los centros formativos en Data Science de España.
Modelo para la clasificación automática de suelos
Tras las dos primeras fases del UniversityHack 2020, una local en el centro formativo y otra nacional, el proyecto fue elegido como uno de los mejores trabajos para la presentación final. Así, Alejandro Vaca y su compañero expusieron un modelo generalizado que utiliza gran variedad de datos y que es útil, por ejemplo, en el plan de posicionamiento geográfico de cualquier tipo de empresa.Con los datos proporcionados, herramientas y fuentes de datos de libre acceso, consiguieron un modelo cuyo desarrollo puede resumirse en tres procesos de optimización:
- Corregir el desbalanceo de las clases del terreno que había en los datos proporcionados. Se hizo un submuestreo obteniendo el porcentaje óptimo de la clase mayoritaria, para conseguir la mejor predicción posible sin importar la proporción de las clases.
- Se entrenaron 6 modelos diferentes, optimizando los parámetros de cada uno y consiguiendo que fueran competitivos.
- Estos modelos y sus predicciones fueron consejeros de un nuevo modelo de stacking, que toma la decisión con menor sesgo.
En cuanto al aprendizaje, además de sumergirse en el mundo del remote sensing, la información que se obtiene de esas imágenes del satélite, en esta competición trabajaron todas las competencias de un data scientist:
- Programación.
- Matemáticas para la distribución de los datos.
- Conocimiento de negocio para darle una utilidad al modelo.
- Comunicación para hacer llegar el proyecto de forma amena e interesante
Según Alejandro Vaca, “no solo es importante llegar a la solución técnica, sino también que luego seas capaz de contarlo y venderlo”. Y así explican su proyecto en la presentación final:
Puedes consultar los recursos y el código utilizado