Retriever or reasoner? Decomposing retrieval-augmented generation performance in external audit supervision
Serie: Documentos Ocasionales. 2613.
Autor: Andrés Alonso-Robisco, José Manuel Carbó, Carlos José García, Jorge Quintana y Javier Tarancón
Instituciones financieras, Bancos
- Métodos cuantitativos
Documento completo
Resumen
Motivación
La revisión supervisora de los informes de auditoría externa requiere extraer una evidencia precisa de documentos extensos y confidenciales. Este trabajo evalúa si los sistemas de recuperación y generación de texto (RAG, por sus siglas en inglés), basados en inteligencia artificial (IA) generativa, pueden ayudar a responder de forma fiable a las preguntas sobre las auditorías planteadas por los supervisores. Se propone para ello descomponer las respuestas sugeridas por los sistemas automáticos, separando la calidad del proceso de recuperación del texto relevante de la capacidad de razonamiento y generación de lenguaje del modelo de IA.
Ideas principales
- Antes de responder una pregunta sobre un informe de auditoría externa, el sistema RAG debe buscar el texto relevante donde sea más probable que se encuentre la respuesta.
- Este paso importa: la recuperación semántica (basada en la similitud del significado mediante representaciones numéricas del texto) aumenta la precisión entre 6,2 y 6,3 puntos porcentuales de los modelos grandes de lenguaje como Kimi y Llama 70B.
- Sin embargo, los modelos más grandes no son siempre mejores. Con recuperación semántica, Llama 70B alcanza un rendimiento muy similar a Kimi, mientras que los modelos Mistral 7B y Llama 3B, con una arquitectura de menor capacidad, alcanzan una menor precisión.
- Las preguntas que exigen juicio humano abstracto son la principal limitación de los sistemas RAG. La automatización es más fiable en las tareas con información factual y requiere supervisión humana en las tareas interpretativas.