Aprendizaje profundo para mejorar las predicciones de calidad del aire

Lunes, July 17, 2023

Imagen de cabecera que ilustra mediciones de calidad del aire en una ciudad imaginaria

La mala calidad del aire fue responsable de al menos 4,2 millones de muertes prematuras en todo el mundo en 2019, según las estimaciones de la Organización Mundial de la Salud (OMS). Esta agencia de la ONU alerta de que se trata de “uno de los mayores riesgos medioambientales para la salud” y asegura que la reducción de la contaminación atmosférica rebajaría de manera significativa los riesgos de infarto o de padecer enfermedades cardiovasculares, cáncer de pulmón o asma, entre otras afecciones.

Es por ello que conocer, controlar y predecir la calidad del aire que respiramos cada día se convierte en una información vital para la salud de toda la población del planeta (la propia OMS asevera que el 99% de la población habitaba en 2019 en zonas en las que no se cumplen sus directrices para garantizar la calidad del aire).

En este sentido, en los últimos años, el servicio de vigilancia de la atmósfera de Copernicus (CAMS, por sus siglas en inglés) ha estado proporcionando información consistente y con un exhaustivo control de calidad acerca de los componentes de la atmósfera que afectan a la calidad del aire. Por ejemplo, ofrecen predicciones en tiempo real acerca de un conjunto de agentes meteorológicos y de composición de la atmósfera. Sin embargo, estas predicciones -de escala global- muestran un sesgo o desviación sistemática de las observaciones, como se puede observar en la siguiente imagen:

Diagrama mostrando en sesgo entre predicción y observación en el caso de Atenas. — Figura 1. Serie temporal de la concentración de dióxido de nitrógeno en la ciudad de Atenas (Grecia). Se muestran las predicciones (azul) y las observaciones (naranja) entre las fechas del 20 de Abril de 2020 y el 31 de Marzo de 2021, añadiendo en rojo, el sesgo negativo correspondiente a las predicciones.

Para tratar de corregir este importante sesgo, nuestros compañeros Antonio Pérez y Mario Santa Cruz se enfrentaron a uno de los retos propuestos por el Centro Europeo de Predicciones Meteorológicas a Medio Plazo (ECMWF, por sus siglas en inglés) como parte del programa Summer of Weather Code (ESoWC) de 2021. Esto daría lugar a un modelo de aprendizaje profundo para corregir los sesgos de las predicciones de calidad del aire hechas en el contexto de CAMS usando diversas fuentes abiertas, entre ellas, las observaciones disponibles a través de la plataforma OpenAQ. Te lo explicamos a continuación.

Una arquitectura adaptada a la naturaleza de los datos

Para este objetivo, se desarrolló en el repositorio público AQ-BiasCorrection una arquitectura específica que permitiera explotar toda la información disponible para la estimación de los sesgos (véase Figura 2, más abajo). Debido a la heterogénea naturaleza de los datos, se crearon tres módulos independientes. Los dos primeros tienen una estructura común y reciben como entrada las variables del CAMS con dimensión temporal. La única diferencia entre estos dos módulos es que uno de ellos utiliza las variables del día anterior (incluye observaciones y predicciones) y el otro las del día siguiente (predicciones). El tercer módulo por su parte, extrae la información más relevante de los atributos de la estación.

Las características extraídas por los tres módulos mencionados son utilizadas por una red perceptrón multicapa para predecir el sesgo horario en las siguientes horas.

Estructura del modelo creado — Figura 2. Estructura del modelo de aprendizaje profundo utilizado para inferir el error horario de las predicciones de CAMS para las siguientes 24 horas.

Además, para reducir la variabilidad en el desempeño del modelo se consideró un conjunto de cinco modelos entrenados con inicializaciones aleatorias de sus pesos.

Una mejora general en las predicciones del CAMS

Las previsiones de CAMS de las variables de calidad del aire estaban muy sesgadas independientemente del lugar de interés y de la variable (en promedio el sesgo era de -22,76, 44,30, 12,70 para NO₂ , O₃, y PM_2.5). Además, el desempeño del modelo -medido por la correlación de Pearson, - no alcanzó el 0,5 para ninguna de las variables, con valores notablemente bajos para el NO₂ y el O₃.

ρ_NO₂=0,10
ρ_O₃=0,14

El sistema de corrección de sesgos desarrollado consiguió una reducción global de los sesgos predictivos del CAMS. Por ejemplo, el número de estaciones cuyos sesgos se redujeron tanto en el conjunto de entrenamiento como en el de prueba fueron: 52 de 61 (85%) para NO₂, 62 de 67 (92%) para O₃ y 80 de 102 (78%) para PM_2.5. En general, el sesgo medio en las estaciones consideradas se redujo en -1,1%, -9,7% y -13,9% para NO₂, O₃ y PM_2.5 respectivamente. Además, se produjo un aumento en el desempeño del modelo, con una mejora de valores en el rango del 100-400% en cada variable.

En la siguiente imagen (Figura 3) se puede observar el ejemplo de la ciudad de Glasgow, en el Reino Unido, relativo a las distintas predicciones de ozono frente a la observación:

Gráfica de comparativas entre las observaciones y las predicciones en la ciudad de Glasgow entre 2020 y 2021 — Figura 3. Gráfico de los resultados del modelo desarrollado durante AQ-BiasCorrection sobre la serie temporal de observaciones de la ciudad de Glasgow, en el Reino Unido.

Si quieres conocer más detalles del proyecto, puedes ver la presentación final del reto del ESoWC 2021 y la presentación que nuestros compañeros realizaron para la EGU 2022.

Y si necesitas predicciones de calidad del aire de alta precisión en tu municipio, no dudes en ponerte en contacto con nuestro equipo a través de predictia@predictia.es.