Predicción de abandono de clientes

Objetivo

Predecir qué clientes no renovarán con una entidad aseguradora en base al histórico de pólizas y siniestros, mejorando la ratio de retención.

Las técnicas de machine learning permiten aprender de los datos sobre el comportamiento de los clientes, conocer qué determinó su baja y predecir si otros seguirán los mismos pasos.

Con esta metodología, la aseguradora quería predecir qué clientes en el ramo del hogar tenían más probabilidad de abandonar el contrato, para centrar sus esfuerzos de retención en un porcentaje más pequeño de personas.

En este caso, la aseguradora no tenía experiencia previa con el modelado predictivo, lo que no impidió que se pudiera trabajar con la información de la que disponía y obtener resultados con un modelo de machine learning basado en un gran número de variables.

Solución

La fase de auditoría y pre-procesado de los datos fue especialmente importante en este proyecto, a la hora de trasladar todo el histórico de datos de los sistemas de la aseguradora a las tablas analíticas en las variables y formatos necesarios para el entrenamiento del modelo.

Para ello, se aplicó a la información disponible dos filtros: trabajar con datos posteriores a 2010, para conseguir una muestra más homogénea, y con pólizas de más de 1 año de antigüedad, para contar con más historia registrada de cada cliente.

Para alimentar al modelo de machine learning, hubo que generar una tabla a partir de las siguientes:

  • Tabla de pólizas y sus modificaciones: nuevas coberturas, asegurados o aumentos de la prima.
  • Tabla de recibos y devoluciones, del hogar y de otros ramos que pudieran influir.
  • Tabla de siniestros, reserva y pagos.

Junto a estas tablas, se tenían en cuenta otras características de los clientes, como la antigüedad, y se terminó trabajando con más de 500 variables que podían influir en el abandono de los clientes.

Una buena gestión de las fechas era crítica para que el modelo aprendiera correctamente. Las de las bajas, por ejemplo, eran esenciales para construir variables históricas a pasado y conocer qué había podido provocar la baja. Con todos los datos por pólizas en una única tabla analítica, se hizo un recorrido hacia atrás del dataset, creando ventanas temporales y prestando especial atención a los momentos de renovación o baja de las pólizas.

Por último, se determinó el horizonte de predicción, con el tiempo de antelación que necesitaba la aseguradora para evitar esa posible baja, y que se decidió que fueran cuatro meses.

Beneficio

Teniendo en cuenta toda la información, el modelo de machine learning da un score o probabilidad de abandono a las nuevas pólizas que se analizan. Estas se ordenan de más a menos propensión a darse de baja.

Según los resultados del test de validación, una vez ordenadas las pólizas, se captura el 50% de futuras bajas revisando solo el 16% de las pólizas con más probabilidad de abandono. Por ejemplo, en el caso de analizar 2.000 pólizas con una media del 10 % de bajas, se detectarán 100 clientes que van a abandonar si se revisan las 320 primeras según el orden del modelo.

De esta forma, el orden sirve de guía al departamento comercial de la aseguradora en la supervisión de los clientes para centrar sus esfuerzos de retención en los primeros puestos. Además, el modelo entrenado es completamente ciego al conocimiento de negocio, por lo que la combinación de los resultados con el conocimiento experto de la aseguradora puede mejorar la precisión de las predicciones.

Proyectos relacionados