Percepción y planificación mediante Deep Reinforcement Learning

La paradoja de Moravec nos dice que, a la hora de construir sistemas de Inteligencia Artificial, aquellas tareas que resultan intuitivas para los seres humanos son extremadamente complejas de aprender por una máquina.

Tareas de percepción y el aprendizaje profundo por refuerzo

Este es el caso de tareas como la percepción, visual o sonora, y la planificación o toma de decisiones en entornos del mundo real.

Mientras que los humanos contamos con miles de millones años de evolución que han contribuido a que seamos cada vez más capaces en estas funciones, la inteligencia artificial como disciplina científica apenas alcanza los 100 años de historia. Y tampoco podemos olvidar que las máquinas han invertido este tiempo en resolver problemas matemáticos, y no en escapar de depredadores en la sabana.

Tareas de planificación y el aprendizaje profundo por refuerzo

En particular, las tareas de planificación resultan especialmente complejas de resolver. Hablamos de tareas como pueden ser controlar un dron o un brazo robótico, decidir el plan de tratamiento adecuado para un paciente o elegir los anuncios y mensajes a mostrar durante el paseo de un visitante por nuestra web.

Encontrar soluciones efectivas para estos casos implica emplear algoritmos capaces de aprender estrategias, que puedan recomendar cada uno de los pasos a realizar para alcanzar el objetivo. Por ejemplo, ser un buen jugador de ajedrez requiere de capacidad para planificar nuestros movimientos de antemano. No llegaremos muy lejos si nos concentramos únicamente en pensar qué movimiento es el mejor ahora y no nos arriesgaremos a sacrificar una pieza para conseguir una ventaja en el futuro.

Esta complejidad se incrementa aún más cuando las decisiones se deben tomar en problemas menos abstractos que el ajedrez y más pegados al mundo real. Problemas donde la decisión correcta dependa de observar un detalle en una imagen o discernir un sonido característico.

El ajedrez es un buen campo de juego para probar la potencia lógica de nuestras máquinas y algoritmos, pero, ¿cómo incluir estos componentes de percepción en un juego?

El aprendizaje profundo por refuerzo en los videojuegos

La respuesta nos la dio un artículo de Nature (2015) en el que investigadores de DeepMind plantearon un reto: que una inteligencia artificial aprendiera por sí sola a competir en videojuegos de Atari, sin ninguna ayuda humana. Un videojuego resulta ser un campo de pruebas idóneo para las IAs, ya que, a pesar de su complejidad, puede ejecutarse a gran velocidad desde un ordenador, permitiendo así a la IA experimentar con millones de partidas por hora para descubrir las estrategias ganadoras.

Los sorprendentes resultados demostraron no solo que era posible resolver un videojuego utilizando técnicas de aprendizaje por refuerzo profundo, sino que, además, en 49 de los juegos, la IA era capaz de rendir al nivel de un jugador profesional. Las complejas tareas de percepción visual de una pantalla y planificación de acciones demostraron ser resolubles empleando un único algoritmo.

Hoy en día, 4 años después de aquel hito, las técnicas de aprendizaje profundo por refuerzo se han generalizado y estandarizado. Esto permite que actualmente cualquier experto en el campo pueda replicar lo que antes eran solo experimentos de laboratorio, si se cuentan con los conocimientos adecuados.

En el Instituto de Ingeniería del Conocimiento (IIC) también estamos haciendo investigación aplicada a estas tecnologías, midiendo el funcionamiento de nuestros algoritmos en problemas similares. En este vídeo se puede comprobar que nuestros métodos de aprendizaje profundo por refuerzo pueden resolver problemas de percepción y planificación muy variados.

Esto es solo el principio. Seguiremos investigando y trabajando para traer la capacidad de esta nueva forma de inteligencia artificial a soluciones reales de negocio.

Recursos gráficos Picabay.

Blog

Percepción y planificación mediante Deep Reinforcement Learning

Tareas de percepción y el aprendizaje profundo por refuerzo

Tareas de planificación y el aprendizaje profundo por refuerzo

El aprendizaje profundo por refuerzo en los videojuegos

Sobre Álvaro Barbero

Dejar un comentario Cancelar la respuesta

Búsqueda

Suscríbete

Categorías

Blog

Percepción y planificación mediante Deep Reinforcement Learning

Tareas de percepción y el aprendizaje profundo por refuerzo

Tareas de planificación y el aprendizaje profundo por refuerzo

El aprendizaje profundo por refuerzo en los videojuegos

Sobre Álvaro Barbero

Related Posts

Dejar un comentario Cancelar la respuesta

Búsqueda

Suscríbete

Categorías