Conocer la experiencia de las organizaciones y sus profesionales puede ser interesante para los estudiantes universitarios, por ser una muestra de la aplicación que tiene lo que están aprendiendo y lo que tendrán que hacer en el mundo laboral.
Por ello, por segundo año consecutivo, expertos del Instituto de Ingeniería del Conocimiento (IIC) impartieron dos talleres tecnológicos para los alumnos del Máster de Big Data de la Universidad Rey Juan Carlos (URJC) de Madrid. En sendos talleres se mostraron y se pusieron en práctica herramientas para el procesado de datos y el entrenamiento de modelos. Estas pueden facilitar el trabajo de los data scientist en proyectos, por ejemplo, de Machine Learning.
mlflow para proyectos de Machine Learning
En un primer taller sobre la plataforma mlflow, Sergio N. Khayyat, arquitecto Big Data en el IIC, explicó que se trata de una herramienta útil para poner orden al trabajo de los data scientists, pudiendo hacer pruebas de manera rápida y consistente.
mlflow permite seguir el entrenamiento de los modelos: guardar los experimentos, recuperarlos, empaquetar el proceso para reproducirlo después. Además, se puede trabajar en grupo y compartir los modelos para que otras personas los prueben.
Herramientas Big Data: AWS Glue y EMR
Otra de las tareas fundamentales de un data scientist es el procesamiento de Big Data, un paso inicial para el que Amazon ofrece dos servicios: AWS Glue y EMR. En el taller «Modelado masivo de datos con Glue y EMR», Rubén García, Ingeniero de datos en el IIC, les mostró a los estudiantes cómo estas dos herramientas pueden facilitar ese tratamiento de la información procedente de varias fuentes de datos.
Ambas son útiles para recoger, transformar, organizar y almacenar los datos. Por un lado, AWS Glue es serverless, adecuada para tareas simples y algo más rígida que EMR. Esta otra se adapta mejor a cada negocio y permite instalar aplicaciones y librerías, por lo que también requiere más conocimientos técnicos.