Aquí te presentamos lo básico que se debe aprender sobre Big Data, aunque depende bastante de si el curso está dirigido al profesional de la informática o de los negocios. Los cursos de Big Data para informáticos y matemáticos profundizan más en aspectos técnicos, dan por sentado que el alumno posee conocimientos básicos de programación y abarcan una mayor variedad de herramientas. Por otro lado, los cursos de Big Data orientados al negocio incluyen nociones técnicas básicas y están muy enfocados en el Business Intelligence y la aplicación de las tecnologías Big Data en las empresas.
Si estás interesado en realizar un curso de Big Data, hay numerosas ofertas de formación presencial o en modalidad online. Los másteres en Big Data y los cursos acelerados no solo están dirigidos a perfiles técnicos, sino también a profesionales de los negocios y el Marketing.
Todo curso Big Data debería incluir formación en:
- lenguajes de programación
- procesamiento y almacenamiento de datos
- herramientas de visualización de datos
- otros conocimientos: análisis de datos, estadística descriptiva y predictiva
Además, deben enseñar a analizar la información y a detectar oportunidades de negocio, diseñar arquitectura Big Data e incluso construir un data lake.
Lenguajes de programación
En el temario de un curso de Big Data no pueden faltar los lenguajes de programación. Los más utilizados son Python (relativamente fácil para profesionales no informáticos) y R, que presenta muchas similitudes con el lenguaje matemático y sirve sobre todo para cálculo estadístico y gráficos. Java se utiliza mucho porque es la base del ecosistema Hadoop, pero la mayoría de los cursos no dedican formación al aprendizaje de este lenguaje.
Otro lenguaje que se está incorporando cada vez más por su versatilidad a los programas de cursos de Big Data es Scala, ya que Storm y Spark permiten operar con él.
Procesamiento y almacenamiento de datos
Sin duda el núcleo de la formación en procesamiento de datos es Hadoop, que es el ecosistema estándar consolidado (ha cumplido ya 10 años), y por eso se ha convertido casi en un sinónimo de Big Data. Tiene un sistema de procesamiento distribuido (MapReduce) y un sistema de ficheros distribuido HDFS (Hadoop Distributed File System) de licencia libre para el almacenamiento en clústeres de ordenadores. Para manejarlo necesitas saber programar en Java, pero merece la pena el esfuerzo: millones de compañías ya lo están adaptando para sus actividades de negocio.
En paralelo, el ecosistema Apache Spark está dejando de lado a Hadoop y se ha revelado como su claro sucesor. Su éxito se debe en gran parte a que lo ha superado en velocidad: se calcula que es 100 veces más rápido en cálculo en memoria y 10 veces más ágil en disco. Además, puede operarse con cuatro lenguajes distintos: Scala, Python, R y Java. Es bastante versátil y cuenta con una serie de herramientas interesantes: Spark SQL, Spark Streaming, MLlib y GraphX. Por eso, los cursos de Big Data se han hecho eco de esto y algunos lo incluyen como parte central de su formación en procesamiento de datos.
La última herramienta de procesamiento en el ámbito del Big Data es Apache Storm, una de las más populares porque realiza en tiempo real lo que Hadoop hace en procesamiento Batch, pero por ahora es el gran ausente en estos cursos. Se puede utilizar con varios lenguajes de programación: desarrollado en Clojure, es compatible con componentes y aplicaciones escritas en lenguajes Java, C#, Python, Scala, Perl o PHP.
Atendiendo al almacenamiento de datos, no puede faltar la formación en bases de datos no convencionales o NoSQL. El término NoSQL (Not only SQL) apareció con la llegada de la web 2.0, al experimentarse un crecimiento exponencial de los datos de los usuarios. Mongo DB y Cassandra son las más utilizadas, aunque también se está prestando atención a las bases Elasticsearch, Cloudant, Neo4j y Redis.
Herramientas de visualización de datos
Si eres un principiante en el Big Data y aún no has podido realizar un curso, puede que las bases de datos no sean la mejor opción para comenzar, ya que son relativamente complejas y hay que tener ciertos conocimientos de código para operar con ellas. Por ello, el mercado ha creado numerosas herramientas de minería, análisis, integración y visualización de datos aptas para todos los públicos. Algunas de ellas se enseñan en los cursos de Big Data, como las herramientas de visualización de datos QuickView y Tableau. No obstante, son bastante intuitivas y están diseñadas para facilitar su uso a principiantes, como la que ofrece la start-up española Carto DB.
Otros conocimientos de un curso de Big Data
Un curso en Big Data debería incluir nociones básicas sobre el análisis de datos. Un ejemplo de ello son fundamentos matemáticos, estadísticos y de metodología del análisis de datos. Además, una formación técnica avanzada requiere formación en Aprendizaje Automático (principales técnicas y tendencias actuales), redes neuronales, Deep Learning, reconocimiento de patrones, modelos predictivos, clustering, etc.
Después de realizar un curso de Big Data, deberías tener claras las diferencias entre Aprendizaje Automático y Minería de datos o Data Mining, y haber tratado aunque sea solo de manera superficial sus variantes text mining y web mining.
Si te animas a formarte en Big Data, en el Instituto de Ingeniería del Conocimiento aplicamos todos los conocimientos que puedas aprenden en los cursos, ya que somos expertos en tecnologías Big Data.