Al realizar un proyecto de Big Data, lo más interesante no es centrarse solo en los datos del negocio o sector (Banca, Energía, RR. HH., etc.) con el que se trabaja, sino integrarlos con fuentes de datos open, cada vez más disponibles. Un ejemplo de estas fuentes podrían ser las redes sociales, datos de variables macroeconómicas o de meteorología, que permiten hacer un análisis más avanzado.
Este fue uno de los aspectos que destacó Álvaro Barbero, Chief Data Scientist en el IIC, en su intervención dedicada a los datos y la analítica en el evento Big Boom Data, organizado para explorar las posibilidades de la aplicación del Big Data en diferentes sectores de la actividad empresarial y pública.
3 niveles de analítica de datos aplicada al negocio
En el mundo de la analítica de datos aplicada al negocio se pueden distinguir 3 niveles de analítica de datos correspondientes a las formas de procesar la información. El primer nivel es el descriptivo, en el que se analizan los datos para saber cómo está funcionando un negocio hoy. Pero, para poder tomar decisiones, muchas veces hay que ir al siguiente paso, el nivel predictivo, en el que se utilizan técnicas de Machine Learning (Aprendizaje Automático) para predecir qué va a pasar después o para predecir datos que, por lo que sea, no se pueden capturar. Finalmente, el nivel prescriptivo es el ideal, y aquí es realmente cuando el Big Data conecta con el negocio: es un análisis que responda a las preguntas que uno se hace y ayude a gestionar mejor la forma en que trabajamos. Usar solo la intuición para tomar decisiones de negocio no ofrece una ventaja competitiva.
De hecho, a la hora de tomar decisiones lo ideal sería que se siguiera una especie de ciclo de mejora continua de decisiones y procesos, que podemos llamar Kaizen, en el que se toman datos sobre un negocio y se aplica la analítica de datos, que recomendará tomar una serie de decisiones. Posteriormente, hay que volver a analizar qué impacto han tenido las decisiones sobre el negocio, lo que dará lugar a nuevos datos que pueden incorporarse a la fuente de datos.
El origen: la gran capacidad de computación actual
Esto se puede hacer hoy en día gracias a la gran capacidad de computación con que contamos, que ha experimentado un crecimiento exponencial en la capacidad de cálculo desde el primer ordenador comercial de los años 50 (de 5.000 tubos de vacío) hasta hoy, en que podemos procesar volúmenes de datos hasta ahora impensables. Y si comparamos esta capacidad con la del cerebro humano, que se calcula que tiene 50.000 millones de neuronas, podemos imaginar las posibilidades que nos depara el futuro por lo que respecta al desarrollo de la capacidad de cálculo.
Un cerebro presenta habilidades derivadas de una capacidad de procesamiento que las máquinas de hoy en día no tienen: puede interpretar el arte, traducir una misma idea en idiomas diferentes, lanzar pelotas con cierta velocidad y puntería, etc. ¿Cómo hacer que los ordenadores sean capaces de hacer este tipo de cosas?
Todo es cuestión de números
Todo o casi todo puede convertirse en números. Si tomamos la música, por ejemplo, una melodía se escribe en una partitura y las notas o la situación que ocupan se pueden traducir a números (o vectores de números). Así, un ordenador podría escribir música. Algo similar se puede hacer con palabras, utilizando Deep Learning: la red neuronal Word2vec estudia documentos con miles de millones de palabras y para cada palabra calcula una lista de números —o vectores— que representa su significado. La ventaja de hacer esto es que podemos hacer operaciones con palabras, y si dos palabras muestran vectores parecidos es porque tienen significados parecidos. Empresas de la talla de Google o Facebook utilizan este tipo de técnicas para traducir idiomas, y por medio de este aprendizaje, algunas redes neuronales pueden escribir texto, clasificar documentos, etc.
También podría hacerse con imágenes, que pueden trasladarse a números en base a cómo percibimos las señales lumínicas y el color a través de la retina. Hay una serie de neuronas del córtex visual que detectan estructuras como bordes o cambios de luz y parece ser que, en la capa más profunda del córtex, hay neuronas especializadas en detectar cosas muy concretas, que se activan al ver ciertas imágenes, y esto se puede imitar mediante redes neuronales artificiales.
Y por si fuera poco, estos vectores de números pueden mezclarse: en la Universidad de Stanford están desarrollando redes neuronales que generan texto para describir imágenes. Cuando se genera esta descripción textual, la red es capaz de detectar, para cada palabra que genera, la parte de la imagen que está relacionada a ella. Esto implica una capacidad de procesamiento que antes era exclusivamente humana.
Números para patrones de comportamiento
De manera similar, podríamos hacer una equivalencia de personas con una serie de números, basada en recoger algunos componentes de la persona y construir una equivalencia con números. El sistema de detección de fraude del IIC funciona de manera similar: el comportamiento de una persona se convierte en un vector de números muy grande, y ese vector representa aspectos como qué compra, cómo usa su tarjeta o cómo interacciona con el banco, de forma que al detectar una desviación sobre esos comportamientos somos capaces de inferir que puede tratarse de un fraude o de una sustracción de la tarjeta.
Se puede hacer lo mismo en el campo de los Recursos Humanos y ya estamos trabajando en ello con el Santander Selección. En líneas generales, se trabaja sobre la misma idea: recoger toda la información que tenemos sobre una persona en el proceso de selección (currículum, entrevistas previas, pruebas psicométricas, etc.) y generar unas recomendaciones o predecir si el perfil de esta persona se parece o no a lo que se necesita para el puesto ofertado.
En un nivel más allá, podemos estudiar el comportamiento en una red social y generar vectores con los que trabajar para obtener grafos de conversaciones en Twitter y observar grupos de gente que está más o menos en consenso, las relaciones entre grupos y sus ligazones, etc.
Conclusiones sobre proyectos de Big Data
Las principales conclusiones que podemos extraer de todo esto son:
- Cada vez hay más fuentes de datos con las que podemos trabajar.
- Ya no basta con utilizar los datos internos propios del negocio, provenientes de los datamarts o CRMs internos, sino que hay que recurrir a información externa.
- No hay que limitarse a los tipos de datos tradicionales, sino que podemos incorporar información compleja y no estructurada de formas cada vez más sencillas: textos, imágenes, vídeos, etc.
- Ir más allá, no solo pintar dashboards o generar KPI, sino emitir predicciones, recomendaciones o prescripciones relacionadas directamente con el negocio, que informen de lo que hay que hacer para que funcione.
- Y lo más impresionante de todo, que todas estas técnicas son libres (open source): las tecnologías, las redes neuronales y otras herramientas pueden descargarse y utilizarse como software libre.
Y, ¿qué es lo único que necesita uno para poder realmente aplicar esto a los datos? Los expertos: Data Scientists, con la capacidad y el conocimiento para aplicar estas técnicas. Así que si estáis interesados en hacer proyectos de datos a estos niveles y buscáis expertos, contad con nosotros.