Natural Language Processing and Financial Markets: Semi-supervised Modelling of Coronavirus and Economic News
Serie: Documentos de Trabajo. 2228.
Autor: Carlos Moreno Pérez and Marco Minozzo.
Publicado en Advances in Data Analysis and Classification, publicado en línea (June 2024)
Documento completo
Resumen
Este documento estudia las reacciones de los mercados financieros de Estados Unidos a nuevas noticias de la prensa desde enero de 2019 hasta el primero de mayo de 2020. Con este fin, construimos medidas del contenido y del sentimiento de las noticias mediante el desarrollo de índices apropiados a partir de los titulares y fragmentos de The New York Times, utilizando técnicas de aprendizaje automático no supervisado. En particular, usamos el modelo Asignación Latente de Dirichlet para inferir el contenido (temas) de los artículos, y Word Embedding (implementado con el modelo Skip-gram) y K-Medias para medir su sentimiento (incertidumbre). De esta forma, elaboramos un conjunto de índices de incertidumbre temáticos diarios. Estos índices se utilizan luego para explicar el comportamiento de los mercados financieros de Estados Unidos mediante la implementación de un conjunto de modelos EGARCH. En conclusión, encontramos que dos de los índices de incertidumbre temáticos (uno relacionado con noticias del COVID-19 y otro con noticias de la guerra comercial) explican gran parte de los movimientos en los mercados financieros desde principios de 2019 hasta los cuatro primeros meses de 2020. Además, encontramos que el índice de incertidumbre temático relacionado con la economía y la Reserva Federal está positivamente relacionado con los mercados financieros, capturando las acciones de la Reserva Federal durante períodos de incertidumbre.