Digitala Vetenskapliga Arkivet

Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Leveraging Machine Learning methods alongside chemical transport, weather and land use data for organic aerosols component estimation
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2025 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgaveAlternativ tittel
Utnyttja maskininlärningsmetoder tillsammans med data om kemisk transport, väder och markanvändning för uppskattning av organiska aerosolers komponenter (svensk)
Abstract [en]

Organic aerosols (OA) are a major component of fine particulate matter and are strongly linked to elevated mortality rates. Since different OA sources have distinct impacts on human health, accurately identifying their spatial and temporal distributions is essential for effective health risk assessments and policy-making. In this thesis, we leverage a large European dataset that provides 85,000 daily OA mass concentration measurements from 175 stations, only 15,000 of which include detailed source information. While physical models (e.g., chemical transport models) can estimate OA sources, their accuracy often suffers from incomplete or uncertain emission data. To address these limitations, we incorporate outputs from these models alongside land-use and weather information as input features for a suite of Machine Learning and Deep Learning methods. Specifically, we compare Random Forest, several Gradient Boosting models, Multi-Layer Perceptrons, Gated Recurrent Units, and a beta Variational AutoEncoder, with all models fine-tuned to optimize performance and tested under different target normalization schemes. Our findings show that every Machine Learning approach outperforms CAMx—the baseline physical model used in our study. By improving source estimations at sites lacking detailed data, this work contributes to more accurate OA modeling, supporting refined health risk analyses and more effective policy interventions.

Abstract [sv]

Organiska aerosoler (OA) är en viktig komponent i finpartiklar och är starkt kopplade till ökade dödsfallsfrekvenser. Eftersom olika OA-källor har olika påverkan på människors hälsa är det avgörande att noggrant identifiera deras rumsliga och tidsmässiga fördelningar för att möjliggöra effektiva hälsoriskbedömningar och policyskapande. I denna avhandling utnyttjar vi ett stort europeiskt dataset som innehåller 85 000 dagliga mätningar av OA-masskoncentrationer från 175 stationer, varav endast 15 000 inkluderar detaljerad källinformation. Även om fysiska modeller (t.ex. kemiska transportmodeller) kan uppskatta OA-källor, försämras deras noggrannhet ofta på grund av ofullständiga eller osäkra utsläppsdata. För att hantera dessa begränsningar integrerar vi utsignaler från dessa modeller tillsammans med information om markan- vändning och väderförhållanden som indata för en uppsättning ML- och DL-metoder. Specifikt jämför vi Random Forest, flera Gradient Boosting- modeller, Multi-Layer Perceptrons, Gated Recurrent Units och en beta Variational AutoEncoder, där samtliga modeller finjusteras för att optimera prestandan och testas med olika normaliseringsscheman för måldata. Våra resultat visar att alla ML-metoder presterar bättre än CAMx – den grundläggande fysiska modell som användes i vår studie. Genom att förbättra källuppskattningarna vid platser med bristande detaljerad data bidrar detta arbete till en mer exakt modellering av OA, vilket understöder mer förfinade hälsoriskanalyser och effektivare policyinsatser.

sted, utgiver, år, opplag, sider
2025. , s. 65
Serie
TRITA-EECS-EX ; 2025:68
Emneord [en]
Machine learning, Deep learning, Organic aerosols, Time-series modeling, Data imputation, Air quality modeling, Environmental data science, Spatio- temporal predictions, Random Forest, Gradient Boosting, Multi-layer percep- tron, Variational autoencoder, Gated recurrent units
Emneord [sv]
Maskininlärning, Deep learning, Organiska aerosoler, Tidsseriemodelle- ring, Dataimputation, Luftkvalitetsmodellering, Miljödatavetenskap, Spatio- temporal predictions, Random Forest, Gradient Boosting, Multi-layer per- ceptron, Variational autoencoder, Gated recurrent units
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-362113OAI: oai:DiVA.org:kth-362113DiVA, id: diva2:1950539
Eksternt samarbeid
Paul Scherrer Institute
Veileder
Examiner
Tilgjengelig fra: 2025-04-11 Laget: 2025-04-08 Sist oppdatert: 2025-04-11bibliografisk kontrollert

Open Access i DiVA

fulltext(3979 kB)82 nedlastinger
Filinformasjon
Fil FULLTEXT02.pdfFilstørrelse 3979 kBChecksum SHA-512
877ab25dceafce676df135ecd71207dc5f11d80f05ea9abe4ad6a2959cd53a8a2627ec2c1bf77a2627fce57c0e2987ea8be09588b6c03967cf4d732a22321dcc
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 83 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 402 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf