20 junio, 2019

Predecir el comportamiento de enfermedades contagiosas puede salvar vidas. Sin duda, sería de gran valor conocer dónde y cuándo se originan los brotes, cuál va a ser su virulencia, cómo va a expandirse la enfermedad, qué grupos de población van a ser los más afectados o qué impacto va a tener en hospitalizaciones.
Todo esto hace que existan centro como el CDC (Centers for Disease Control and Prevention) centro que se encarga de la predicción de enfermedades contagiosas en Estados Unidos. Dicho centro tiene una división específica para la gripe.
La división de la gripe del CDC colabora con laboratorios, hospitales y centros médicos de todo Estados Unidos. Estas entidades reportan cada semana al CDC unos 700.000 informes de pacientes tratados con síntomas de la gripe y hasta 5.000 test de laboratorio. Esta información, junto con un de tratamiento de la misma, se utiliza para generar semanalmente el informe FluView (https://www.cdc.gov/flu/weekly/).
El CDC venía realizando y mejorando periódicamente esta predicción, pero en 2008, investigadores de Google tuvieron una idea que, si funcionaba significaría un cambio de paradigma en el modelo de predicción. La idea era sencilla. La gente utiliza a diario internet para relacionarse en las redes sociales y buscar aquello de lo que requiere información. De este modo, es esperable que cuando alguien contraiga la gripe busque en google información relacionada con sus síntomas. Esta información se tiene disponible diariamente y además, en muchos casos, se conoce la edad y otros datos sociológicos de la persona.
Si esta idea era correcta, se podía adelantar la predicción del CDC de la gripe en casi dos semanas. Esto podría significar muchas vidas salvadas. Google Flu Trends (GFT) fue entonces creado con el propósito de predecir los informes del CDC con dos semanas de antelación.

Google flu trends

GFT trabajó entonces en un modelo que relacionase las búsquedas de los síntomas de la gripe con las predicciones del CDC.

La idea fue publicada en un artículo en Nature en 2009 en el que se decía lo siguiente:

 “…podemos estimar con exactitud el nivel actual de la actividad semanal de la gripe en cada región de los Estados Unidos, con un retraso de aproximadamente un día”

Las predicciones eran buenas, como se observa en el siguiente gráfico:

predicciones de Google Flu Trends
En azul las predicciones de GFT con dos semanas de antelación. En amarillo los datos del CDC

Pero, pocos meses después, en 2009, se produjo la pandemia de la gripe A (H1N1). Google Flu Trends no lo detectó.
El modelo de GFT se actualizó, mejorando su predicción. Pero desde agosto de 2011 el modelo predijo mal 100 de 108 semanas. En febrero de 2013 predijo el doble de casos y visitas médicas relacionadas con la gripe de los que realmente se producían.

Pandemia Gripe A

En 2014 se publicó otro artículo en Science documentando el fracaso de GFT y, en 2015, este ceso su actividad.

Si se supiera con exactitud que es lo que hizo fallar las predicciones de GFT, el modelo, actualizado, seguiría existiendo. Hay dos factores principales a los que se culpa de su mal funcionamiento. Un primer factor es la sobreestimación de la enfermedad por parte de los pacientes (sólo un 8,8% de las muestras de laboratorio dan positivo por gripe, esto es, más de un 90% de la gente que visita al médico con síntomas de gripe no tiene gripe). Un segundo factor es la continua evolución de los buscadores (por ejemplo la prestación de sugerir diferentes finalizaciones para el texto que se está escribiendo se introdujo con posterioridad al modelo del GFT y esta funcionalidad cambia el comportamiento en las búsquedas).

Este caso de Goolge Flu Trends suele ponerse como ejemplo de la arrogancia del Big Data (Big Data hubris). El problema es creer, implícitamente, que el Big Data es el sustituto y no un suplemento del análisis de datos tradicional.

Pero Google Flu Trends no fue un fracaso, fue un esfuerzo más en el proceso de predecir mejor las enfermedades infecciosas y así poder salvar más vidas. En 2013 el CDC lanzó una competición para predecir el comportamiento de la gripe (“Predict the Influenza Season Challenge”). El modelo que mejor predijese la temporada de gripe 2013-14 se llevaría 75.000 dólares.

Actualmente el modelo del CDC incorpora a su fuente de datos original información de las redes sociales como Twitter y de los motores de búsqueda de internet como Google, habiendo mejorado la exactitud de su predicción. Investigadores del CDC publicaron los resultados de la competición en un artículo online en BMC Infectious Diseases.

Google Flu Trends fue un fallo que ayudó a tener una mejor solución de los modelos predictivos de enfermedades contagiosas.

fail fast succeed sooner
José Manuel Meroño Pastor

JOSÉ MANUEL MEROÑO PASTOR

Banner Content
Tags:

Related Article

0 Comments

Leave a Comment