Investigadores del MIT han encontrado una aplicación muy interesante para el aprendizaje por refuerzo: el tratamiento del glioblastoma, una forma muy agresiva de tumor cerebral. Su objetivo era obtener tratamientos tan efectivos como los que se emplean en la actualidad, pero reduciendo al máximo la exposición de los pacientes a la quimioterapia y la radioterapia para mejorar su calidad de vida.
Modelos de recomendación de tratamiento y aprendizaje por refuerzo
Para cada paciente, los modelos construidos aprenden, mediante simulaciones, un tratamiento de una eficacia similar a la de los tratamientos tradicionales, aunque con dosis menores o menos tóxicas de fármacos. En muchas ocasiones, el algoritmo decide saltarse algunas dosis, recomendando administrar los tratamientos correspondientes dos veces al año en lugar de una vez al mes.
El agente del modelo (el médico) es quien tiene que tomar las decisiones. El especialista médico decide, una vez al mes, una entre varias acciones. Puede suministrar o no una dosis al paciente, y si lo hace, debe decidir si es necesaria la dosis completa o sólo una parte (el 25%, el 50%, el 75% o el 100% de la dosis máxima permitida).
Una vez tomada la decisión, otro modelo clínico muy empleado en la actualidad, predice cómo cambia con esta actuación el tamaño del tumor:
- Si el tumor se reduce, el agente recibe una recompensa.
- Si crece, el agente es penalizado.
La recompensa y la penalización son proporcionales a la disminución o aumento del diámetro medio del tumor, respectivamente, en cada mes. Al final del tratamiento, también se calcula la diferencia entre el diámetro inicial y el final, y se recompensa de forma similar al agente en función del valor de dicha diferencia.
Para, además, reducir al máximo los efectos secundarios de los pacientes, se penaliza a medida que aumenta el tanto por ciento de dosis completa que receta el modelo, en función de lo tóxico que sea el tratamiento. De este modo, se evita que el modelo suministre fármacos de forma irresponsable.
Con este sistema de recompensas y penalizaciones, se consigue equilibrar la eficacia de los tratamientos con la toxicidad de los tratamientos.
Aprendizaje a partir de experiencia ajena y con simulaciones
Los investigadores entrenaron varios agentes con los datos de 50 pacientes reales tomados al azar, que ya habían sido sometidos a tratamientos tradicionales. Entre otros, entrenaron un agente que no era penalizado por suministrar demasiados fármacos, uno que era levemente castigado y otro que era duramente penalizado por usar tratamientos tóxicos.
Se realizaron como máximo 20.000 ensayos simulados para cada paciente, con los que los modelos aprendieron los parámetros de su red neuronal para proporcionar los tratamientos óptimos. A continuación, se probó la eficacia de los agentes aprendidos sobre 50 nuevos pacientes.
Los investigadores observaron que el agente que no era penalizado por administrar demasiados fármacos había aprendido una estrategia muy similar, en dosis y eficacia, a los tratamientos tradicionales, basados en protocolos que se vienen usando desde hace décadas. Los agentes que sí recibían un castigo eran capaces de proponer otros tratamientos que tenían una eficacia algo menor, pero que empleaban dosis menos tóxicas.
El método tradicional para dar tratamiento consiste en suministrar la dosis según unas directrices, comprobar la respuesta del tumor y ajustar la siguiente dosis de acuerdo con el resultado. Las directrices, por su parte, se suelen obtener con ensayos clínicos en los que generalmente se agrupan los pacientes sin tener en cuenta el tamaño del tumor, las historias médicas, o el perfil genético.
No obstante, este algoritmo tiene acceso a estas variables y, gracias a ellas, es capaz de proporcionar un tratamiento personalizado para cada paciente. Es por esto que estos resultados suponen una mejora de los tratamientos actuales.
Este estudio es una aplicación del aprendizaje por refuerzo al sector salud que da recomendaciones de tratamiento real para pacientes y así les mejora a ellos la calidad de vida y también facilita a los profesionales su labor. Pero no sólo destaca este trabajo por sus aplicaciones.
Normalmente, un sistema de aprendizaje por refuerzo aprende experimentado y cometiendo errores, y, evidentemente, esto no es posible en este contexto. Por este motivo, en lugar de trabajar con pacientes reales, se realizaron simulaciones con datos históricos reales. Este trabajo también demuestra que un sistema de aprendizaje por refuerzo puede aprender de “experiencia ajena”, desarrollando una estrategia útil a partir de bases de datos históricas.