Accuracy of explanations of machine learning models for credit decisions

Accuracy of explanations of machine learning models for credit decisions

Serie: Documentos de Trabajo. 2222.

Autor: Andrés Alonso y José Manuel Carbó.

Publicado en: Financial Innovation, Volume 8, Issue 70, July 2022Abre en nueva ventana

Documento completo

PDF
Accuracy of explanations of machine learning models for credit decisions (1 MB)

Resumen

Uno de los principales retos en el uso de modelos de aprendizaje automático, o machine learning en inglés (ML), en finanzas es cómo explicar sus resultados. Recientemente han aparecido técnicas de interpretabilidad con este objetivo, pero existe discusión sobre su fiabilidad. En este documento contribuimos al debate proponiendo una metodología para evaluar la precisión de estas técnicas de interpretabilidad. Partimos de la generación de conjuntos de datos sintéticos, siguiendo un enfoque que nos permite controlar la importancia de cada variable explicativa (feature) en nuestra variable objetivo. Al definir nosotros la importancia de las features, podemos posteriormente calcular en qué medida las explicaciones dadas por las técnicas de interpretabilidad coinciden con la verdad subyacente. Por lo tanto, si en nuestro conjunto de datos sintéticos definimos una feature como relevante para la variable objetivo, la técnica de interpretabilidad también debería identificarla como una feature relevante. Desarrollamos un ejemplo empírico en el que generamos conjuntos de datos sintéticos de manera que se parezcan a datos de suscripción y calificación crediticia, donde la variable objetivo es una variable binaria que representa el incumplimiento del solicitante. Usamos modelos de ML no interpretables, como redes neuronales, para predecir el incumplimiento, y luego explicamos sus resultados usando dos técnicas populares de interpretabilidad, SHAP y permutation Feature Importance (FI). Nuestros resultados usando la metodología propuesta sugieren que SHAP identifica mejor las variables relevantes como tales, aunque los resultados pueden variar significativamente según las características del conjunto de datos y el modelo ML utilizado. Concluimos que el recurso a la generación sintética de bases de datos muestra un elevado potencial para supervisores y entidades financieras que precisen evaluar la fidelidad de estas técnicas.

Anterior The term structure of inter... Siguiente Mortgage securitization and...