Control de calidad de cuestionarios contables

Objetivo

Reducir el porcentaje de cuestionarios contables descartados para un estudio de la Central de Balances (Banco de España).

logo banco españa

A partir de cuestionarios que cumplimentan las empresas no financieras españolas, la Central de Balances -organismo del Banco de España- analiza esta información y publica un estudio anualmente.

Sin embargo, muchos de estos cuestionarios llegan con falta de datos o campos sin rellenar (valores faltantes) y errores o anomalías. Por ello, desde su conocimiento de negocio, Central de Balances aplica técnicas de control de calidad para descartar aquellos cuestionarios que no son aptos para su análisis y publicación.

Tras este filtrado, hasta un 20% de los cuestionarios y, por tanto, de las empresas quedan descartados. Ante el riesgo de que la muestra no sea representativa, buscan en la aplicación del machine learning un complemento a sus reglas actuales, para reducir la cantidad de cuestionarios que se quedan fuera del análisis. En concreto, se persiguen dos objetivos:

  • Mejorar la detección de anomalías en los cuestionarios.
  • Imputación de valores faltantes en los cuestionarios.

Solución

Para ambos objetivos, se ha trabajado con el histórico de datos de los últimos 10 años. En total, más de 8 millones de cuestionarios debidamente anonimizados con los que entrenar a los algoritmos de machine learning.

En primer lugar, se realizó un pre-procesado de esta información, para reducir los posibles errores del algoritmo en cuanto a desconocimiento del negocio. Por ejemplo, se generaron ventanas temporales que muestran el comportamiento histórico de una empresa en concreto.

En esta misma línea, para trabajar con cuestionarios que podían incurrir fácilmente en anomalías por reflejar cantidades aparentemente raras o excesivas en algunos indicadores, se aportaron otras variables para que sirvieran de contexto a los algoritmos.

En concreto, se normalizaron estos valores en función del CNAE o grupo de negocio y el tamaño de la empresa. De esta forma, los algoritmos reconocen que determinados valores son “normales” para determinadas empresas y no se trata de una anomalía.

Con la información resultante, se entrenaron dos algoritmos complementarios:

  • Detección de anomalías: se desarrolló un algoritmo para clasificar los cuestionarios como anómalos y no anómalos en base a la información dada. Como parte de ese desarrollo, se hizo posible su funcionamiento a pesar de la existencia de valores faltantes. En este caso, se utilizó también un método de explicabilidad que indicaba las variables que habían pesado más en la decisión del algoritmo, para poder justificarla.
  • Imputación de valores faltantes: se desarrolló un algoritmo para rellenar los campos incompletos de los cuestionarios en base al histórico de datos. Para ello, el algoritmo tiene en cuenta las variables contextuales u otros datos del cuestionario.

Beneficio

Con los algoritmos desarrollados, se ha conseguido mejorar la detección de cuestionarios anómalos y completar campos críticos para el análisis con técnicas de machine learning. Se tuvo un especial éxito con la imputación de la variable empleo –número de empleados–, que es relevante para las estadísticas que elabora el Banco de España.

De esta forma, se reduce el número de cuestionarios y, por tanto, de empresas descartadas. Y el consiguiente aumento de la muestra contribuye al objetivo final de la Central de Balances: que los informes sean representativos de la población de sociedades no financieras españolas.

Proyectos relacionados