Investigación destacada – Diciembre 2023

A score function to prioritize editing in household survey data: a machine learning approach.

Nicolás Forteza and Sandra García-UribeAbre en nueva ventana

Resumen.Los errores en la recopilación de datos de las encuestas financieras de los hogares podrían propagarse y afectar a las estimaciones poblacionales, sobre todo cuando existe un sobremuestreo de algunos grupos de población. Hasta ahora se han realizado revisiones manuales de cada entrevista para identificar y corregir los posibles errores y omisiones, como es el caso de los activos, ingresos o deudas omitidos o recogidos con información errónea. En este trabajo se ofrece un enfoque de aprendizaje automático para clasificar aquellos datos de encuestas que presentan errores y omisiones importantes durante la fase de revisión. Utilizando datos de la Encuesta Financiera de las Familias, se muestra el mejor algoritmo de clasificación supervisado con el fin de priorizar tales casos. Asimismo, se demuestra que con un modelo Gradient Boosting Trees (árboles de potenciación del gradiente) se obtienen mejores resultados que con otros clasificadores. Finalmente, se proporciona un marco que tiene en cuenta la disyuntiva entre precisión y exhaustividad (recall) en la entidad encuestadora para escoger el umbral óptimo de clasificación.