El tratamiento y procesado de grandes volúmenes de datos es gran parte del trabajo de un científico de datos. Este proceso ocupa el 80% de su tiempo y permitirá analizar esa información y que los datos sean útiles para las empresas que los generan.
Amazon proporciona servicios que facilitan ese procesamiento de Big Data: AWS Glue y EMR (Elastic Map Reduce). De sus diferencias y funcionalidades habló Rubén García, ingeniero de datos en el Instituto de Ingeniería del Conocimiento (IIC), en el taller “Modelado masivo de datos con Glue y EMR” que impartió para la Universidad Rey Juan Carlos (URJC).
De forma online, los alumnos del Máster de Big Data vieron además una demostración con datos reales sobre el manejo de ambas herramientas y su posible utilidad en proyectos de mach
ine learning. En concreto, se preparó y procesó la información procedente de dos fuentes de datos y se entrenó un modelo predictivo.
Herramientas para el procesado de datos: AWS Glue y EMR
La ETL (Extract, Tranform, Load) es el paso inicial de cualquier proyecto de análisis Big Data. Consiste en recoger, transformar, organizar y almacenar los datos de diferentes fuentes para analizarlos conjuntamente. Este procesado de información puede hacerse con ambos servicios de Amazon, aunque tienen diferencias.
Por un lado, AWS Glue es una herramienta serverless para la gestión de fuentes de datos simplificada, adecuada para tareas simples y que dispone de una potente herramienta de catálogo de datos. Aun así, este servicio para ETLs es más caro y rígido que EMR.
EMR se puede utilizar en ETLs complejas, permite instalar un amplio catálogo de aplicaciones y librerías y puede adaptarse a cualquier requisito de negocio. Por ello, requiere conocimientos técnicos para su utilización.