Las técnicas de Machine Learning demuestran cada vez más ser de utilidad en diferentes negocios y sectores. No obstante, aplicarlas en las organizaciones no consiste sólo en desarrollar y entrenar modelos, sino que hay que dar una serie de pasos previos y posteriores relacionados con la definición del caso de uso y del target, la monitorización una vez puestos en producción y consideraciones relacionadas con su interpretabilidad y los posibles sesgos.
Irene Rodríguez, Lead Data Scientist en Openbank, recorrió todo el ciclo de vida de un proyecto de Machine Learning en la empresa en el último seminario de la Cátedra UAM-IIC de Ciencia de Datos y Aprendizaje Automático: Machine Learning en acción, que siguieron en directo alrededor de 100 personas.
Irene, habló de la aplicación del Machine Learning en un entorno real, de los retos que presenta cada una de las fases y de algunas particularidades de la aplicación de modelos de Machine Learning en el sector bancario.
Industrialización, trazabilidad y verificabilidad en Machine Learning
En primer lugar, Irene Rodríguez partió de la premisa de que, a la hora de implementar modelos de Machine Learning, sobre todo en el sector bancario, “necesitamos que los modelos sean trazables, reproducibles y verificables”, además de industrializables.
Esta industrialización es la que permite estandarizar los procesos que suelen darse en todos los proyectos de Machine Learning, ser ágiles a la vez que se garantizan los tres aspectos comentados y reducir el coste de mantenimiento de los modelos.
La experta puso un ejemplo: “en el banco, tenemos que ser capaces de responder por qué se le denegó un préstamo a una persona, trazando el camino del dato hasta el score que emite el modelo”. Para ello, hay que saber qué versión del modelo está en producción y qué datos se usaron o dónde se almacenaron las predicciones, por lo que, para cubrir la parte de trazabilidad y reproducibilidad, se suelen guardar varias versiones de datos, asociadas a los modelos que estén en cada momento en producción.
Por otro lado, de la verificabilidad se ocupa un comité en el que intervienen distintas áreas del banco (model owner, riesgos, legal, etc.). El modelo de Machine Learning no puede salir en producción si no se aprueba por el comité. Además, se toman otras decisiones de negocio: umbrales de decisión, cuándo se lanza o cuándo se va a reentrenar el modelo.
Análisis y diseño del modelo de Machine Learning
Según explicó Irene Rodríguez, el diseño y desarrollo de un modelo de Machine Learning se rige por una serie de requisitos: que sea sencillo, monitorizable, interpretable, que no esté sesgado, que las variables de entrada cumplan la regulación y que se ajuste al caso de uso y a las restricciones operacionales.
Todo esto supone tener en cuenta algunos aspectos y abordar algunos retos en las diferentes fases del proceso:
- Definición del caso de uso, en la que se involucran distintas áreas. Se responde a varias cuestiones fundamentales para el desarrollo del modelo: qué variables y qué muestras se pueden utilizar, si existen restricciones legales que limiten el uso del modelo, si el modelo va a funcionar en modo batch o en tiempo real, así como la tecnología necesaria para ello.
- Análisis de la población objetivo, una de las fases que más tiempo lleva según la experta. Primero hay que decidir sobre qué población se va a entrenar el modelo y sobre cuál se va a aplicar, con la posibilidad de que no se haya tratado históricamente. Después se estudia la disponibilidad de variables y se define el target, que debe estar alineado con negocio y riesgos en cuanto a criterios, entre otras cosas.
- Data splitting o división de datos en los conjuntos de train, test y validación. Se decide cómo hacer los cortes (de manera temporal, agrupada o estratificada), siempre teniendo en cuenta que sean compatibles.
- Posible preselección de variables. Aunque la selección de variables se siga haciendo sobre los datos de entrenamiento, sí se puede intentar hacer una preselección distribuida para reducir el volumen de datos.
- Entrenamiento y predicciones del modelo. Openbank tiene una herramienta de Auto-ML propia y flexible, para adaptarse a la variedad de casos de uso que se abordan. Aquí hay que saber ajustar los parámetros para asegurar la trazabilidad y reproducibilidad mencionadas y evitar cajas negras.
- Interpretabilidad, para la que también tienen una herramienta propia. Una vez entrenado el modelo, se intenta responder y explicar, por ejemplo, por qué se le ha asignado un determinado score a un cliente. Además, esta misma herramienta se puede aplicar a modelos que no se han llegado a implantar.
- Monitorización, de dos tipos: la clásica que hace negocio con sus KPIs para hacer un seguimiento estándar de las mejoras en el negocio o, desde un punto de vista más técnico, dirigida a medir el denominado data shift.
- Posibles sesgos. Según la experta, ya no pueden permitirse desarrollar modelos sesgados y cree que hay que definir, ya desde la política de la empresa, qué tipo de fairness se quiere alcanzar, usando para ello varias estrategias para maximizar el beneficio con restricciones.
Como vemos, un proyecto de Machine Learning en la empresa no puede limitarse a desarrollar y entrenar un modelo útil. Hay que atender a una serie de consideraciones previas y durante el proceso: por ejemplo, que los modelos se ajusten al objetivo, pero que también se puedan generalizar para ser más eficientes, o no perder de vista temas legales o éticos.
Te puede interesar ver el vídeo del seminario