-
APRENDIZAJE PROFUNDO POR REFUERZOCon el aprendizaje profundo por refuerzo una máquina o agente inteligente aprende a optimizar un proceso de decisión.
El Aprendizaje profundo por refuerzo o Deep Reinforcement Learning, es uno de los campos de investigación más prometedores en el mundo de la Inteligencia Artificial.

¿Qué es el aprendizaje profundo por refuerzo?
El aprendizaje profundo por refuerzo es una nueva generación de las técnicas de aprendizaje automático o Machine Learning, que se caracteriza por un paso más en la evolución de la forma en que la máquina aprende a realizar una tarea.
Sistemas programables
Los sistemas programables resuelven problemas técnicos muy concretos, para los que han sido programados explícitamente.
Sistemas expertos
Los sistemas expertos se basan en reglas fijas que reflejan el conocimiento de un experto en una materia concreta.
Sistemas de aprendizaje automático
Los sistemas de aprendizaje automático, de forma automática aprenden reglas de decisión complejas, mediante el análisis estadístico de datos.
Sistemas de aprendizaje por refuerzo
Los sistemas de aprendizaje por refuerzo exploran y adquieren datos sobre el problema por propia iniciativa, diseñando automáticamente estrategias que le den solución.
La existencia de este tipo de sistemas puede remontarse a 1960, pero no ha sido hasta los últimos años cuando los avances en Deep Learning han permitido que estos sistemas puedan resolver problemas de mayor complejidad. La unión de Machine Learning y de Deep Learning es lo que hoy conocemos como Aprendizaje Profundo por Refuerzo o Deep Reinforcement Learning.
¿Cómo funciona el aprendizaje profundo por refuerzo?
Un sistema de aprendizaje profundo por refuerzo está conformado por una máquina o agente inteligente que aprende a optimizar un proceso de decisión.

¿Cómo aprende una máquina?
Para que la máquina aprenda, el agente interactúa con un “entorno”, que puede ser el proceso de decisión real o una simulación del mismo. El agente trabaja observando el entorno, y tomando una decisión para comprobar qué efectos produce.
Si el resultado de esa decisión es beneficioso, el agente aprende automáticamente a repetir esa decisión en el futuro, mientras que si el resultado fuera perjudicial evitará volver a tomar la misma decisión.

De este modo, siguiendo un proceso de aprendizaje por condicionamiento similar al de los seres vivos, el agente aprende qué decisiones son más adecuadas según la situación, y desarrolla estrategias a largo plazo que maximicen los beneficios.
El “cerebro” o la capacidad de aprendizaje del agente viene dada por un modelo de Deep Learning o red neuronal profunda. Esto permite explotar todos los avances recientes en redes neuronales artificiales, pudiendo así tratar con problemas que requieran analizar datos no estructurados como imágenes, sonidos o lenguaje natural.
¿Qué aplicaciones reales tiene el aprendizaje profundo por refuerzo?
El aprendizaje profundo por refuerzo es una disciplina que se encuentra en fase de adaptación, sin embargo, algunas aplicaciones reales son:
Sistemas de navegación
Se han desarrollado sistemas de navegación en robots, drones y coches autónomos.
Gestión de recursos
Mejora en la gestión de recursos, como el uso de sistemas de enfriamiento, los turnos del personal o el stock y transporte en puntos de venta.
Perfeccionar
Perfeccionar los diseños de materiales o piezas, para reducir costes o aumentar su efectividad.

Tratamientos a medida
Optimización de tratamientos médicos de largo recorrido, de forma que se hagan recomendaciones sobre los medicamentos a administrar y las dosis (Dynamic Treatment Regime).
Personalización
Personalización en eCommerce para aprender cuál es el modelo de relación adecuado con cada cliente, ajustando las comunicaciones y ofertas que se realizan a cada cliente para mejorar su fidelidad, promocionar cross-selling, etc.
¿Tienes un caso de negocio en el que quieras aplicar esta tecnología? Podemos ayudarte.