Serie: Notas Estadísticas. 18.
Autor: Alejandro Morales Fernández.
Documento completo
Resumen
El propósito de este documento es presentar el trabajo sobre la sectorización y clasificación de Holdings usando Machine Learning (en español, Aprendizaje Automático) que se ha desarrollado en la Central de Balances en el Banco de España durante el último año. Este trabajo también ha sido presentado en el World Statistics Congress (WSC) en Ottawa en julio de 2023, organizado por el International Statistics Institute (ISI). Este documento es parte de una serie de charlas sobre Bancos Centrales organizadas por el Comité Irving Fisher (IFC) en el mismo congreso.
El trabajo presentado se puede dividir en dos partes diferenciadas: en primer lugar, obtener un procedimiento automatizado que ayude a distinguir compañías como Holding o Sede Central en el contexto de Actividad Económica. En otras palabras, el propósito es detectar entidades con posibles CNAE 6420 o 7010 verificando si aquellas que declaran tales actividades muestran indicadores (ratios económicos y financieros) de serlo, y viceversa, entre aquellas que no declaran esas actividades, sus datos (principalmente sus estados financieros anuales) indican el potencial de serlo. En segundo lugar, el objetivo es realizar una sectorización institucional (es decir, la clasificación necesaria para los sistemas de Cuentas Nacionales, diferente a la mera actividad económica) de compañías Holding/Sede Central, es decir, clasificarlas en sectores Financiero/No Financiero. Para lograr esto, se utiliza como punto de partida el modelo y la información generada en la primera parte del proyecto.
Para cumplir con ambas tareas, se utiliza Inteligencia Artificial, en particular modelos de aprendizaje automático supervisado para clasificación. Un modelo supervisado requiere un conjunto previo de compañías etiquetadas, lo que significa que necesita compañías categorizadas de antemano y con total certeza como Holding/Sede/otras o Financiera/No Financiera. En las bases de datos disponibles en la Central de Balances (de ahora en adelante, CB) del Departamento de Estadística, hay una amplia gama de compañías previamente procesadas por el personal de negocio, y esto ha resultado en tener información etiquetada, un factor esencial para construir el modelo.
Además, se han realizado otras tareas imprescindibles para la creación del modelo final de aprendizaje automático. Entre ellas, está la integración de varias fuentes de datos del CB y la posterior adaptación a la estructura necesaria para la creación del modelo. Esto incluye la selección, eliminación y transformación de variables utilizando métodos estadísticos, así como la selección y/o eliminación de variables por razones de negocio.
Finalmente, después de construir y evaluar el modelo, se propone un control de calidad. Los CNAE propuestos a veces difieren de los CNAE originalmente registrados. En tales casos, se proponen dos acciones independientes como resultado de la aplicación del modelo: la asignación automática de más de 8.500 compañías donde el resultado del modelo se alinea con las reglas de negocio, y la revisión sugerida, manualmente, de aproximadamente 5.300 compañías. En cuanto al modelo de sectorización institucional, proporciona un conjunto más pequeño de entidades para revisar su sector y, por lo tanto, ahorra esfuerzo humano.
En el Apéndice: Detalles Técnicos del Modelo, se describen los pasos seguidos para llegar al modelo propuesto, junto con otros detalles técnicos.