Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
A Comprehensive Evaluation Framework for Synthetic Time Series Data: Assessing Population Fidelity and Utility in the Context of Machine Learning Classification
Karlstad University, Faculty of Health, Science and Technology (starting 2013), Department of Mathematics and Computer Science (from 2013). (DATAVETENSKAP)
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
En omfattande utvärderingsram för syntetiska tidsseriedata : Utvärdering av population trohet och användbarhet i samband med klassificering i maskininlärning (Swedish)
Abstract [en]

In data-driven decision-making, \ac{STSD} addresses challenges like data scarcity, privacy, and the need for robust \ac{ML} models. \ac{TS} data is crucial in fields such as healthcare and finance, but generating high-quality synthetic data that maintains temporal dependencies remains difficult. This work tackles the need for reliable evaluation frameworks to ensure synthetic data fidelity and utility for safer \ac{ML} workflows in sensitive environments.

A major challenge is the lack of standardized metrics for assessing \ac{STSD}. Existing methods fail to simultaneously evaluate statistical alignment, distributional similarity, and temporal consistency, leading to inconsistencies in determining reliability. Moreover, the link between fidelity measures and synthetic data usefulness in classification tasks remains unclear, risking misrepresentation and bias in critical \ac{ML} applications.

This thesis introduces a framework that integrates \ac{PF} metrics with classification performance. It explores two key questions: (1) How can \ac{STSD} be systematically evaluated across statistical, distributional, and temporal dimensions? (2) How do \ac{PF} metrics correlate with classification utility? 

The methodology involves data preprocessing, synthetic data generation with quality variations, fidelity evaluation, and statistical correlation analysis. Time series are segmented using sliding windows, and synthetic data is generated across increasing training epochs. Fidelity metrics compare synthetic and real data, while classification models trained on synthetic sets are tested on real holdouts. Spearman’s correlation and confidence intervals assess relationships between PF metrics and F1-ratios, revealing dataset-specific fidelity-utility patterns.

The final results highlight dataset-dependent variations. In one dataset, \ac{PF} metrics showed significant correlations with the utility metric at varying strengths, while another dataset lacked notable correlations, reinforcing the context-specific nature of synthetic data evaluation. Future research directions can be applied by expanding \ac{PF} metrics across additional dimensions or assessing datasets from other domains.

Abstract [sv]

Inom datadrivet beslutsfattande hanterar syntetiska tidsseriedata (\ac{STSD}) utmaningar som dataskrävhet, integritet och behovet av robusta maskininlärningsmodeller (\ac{ML}). Tidsseriedata (\ac{TS}) är avgörande inom områden som hälso- och sjukvård samt finans, men att generera högkvalitativa syntetiska data som bevarar temporala beroenden är fortfarande en utmaning. Detta arbete adresserar behovet av tillförlitliga utvärderingsramverk för att säkerställa syntetiska datas kvalitet och användbarhet i känsliga ML-miljöer.

En central utmaning är bristen på standardiserade metoder för att bedöma STSD. Befintliga metoder misslyckas ofta med att samtidigt utvärdera statistisk överensstämmelse, distributionell likhet och temporal konsistens, vilket skapar inkonsekvenser i tillförlitlighetsbedömningen. Dessutom är sambandet mellan kvalitetsmått och syntetiska datas användbarhet i klassificeringsuppgifter fortfarande oklart, vilket riskerar att leda till felaktiga representationer och bias i kritiska ML-tillämpningar.

Denna avhandling presenterar ett ramverk som integrerar populationsfidelitetsmått (\ac{PF}) med klassificeringsprestanda. Två nyckelfrågor undersöks: (1) Hur kan STSD systematiskt utvärderas utifrån statistiska, distributionella och temporala dimensioner? (2) Hur korrelerar PF mätvärden med användbarheten av syntetiska data i klassificeringsuppgifter?

Metodiken omfattar datapreprocessing, syntetisk datagenerering med varierande kvalitet, kvalitetsutvärdering och statistisk korrelationsanalys. Tidsserier delas upp i segment med hjälp av sliding window-teknik, och syntetiska data genereras över ökande tränings-epoker. Kvalitetsmått jämför syntetiska och verkliga data, medan klassificeringsmodeller tränade på syntetiska dataset testas på verkliga. Spearmans korrelation och konfidensintervall används för att analysera sambanden mellan \ac{PF} mätvärden och F1-ratio, vilket avslöjar dataset-specifika mönster i relationen mellan datafidelitet och användbarhet.

Slutresultaten visar på datasetberoende variationer. I ett dataset uppvisade \ac{PF} mätvärden signifikanta korrelationer med användbarheten i varierande styrkor, medan ett annat dataset saknade tydliga samband, vilket bekräftar att utvärderingen av syntetiska data är kontextberoende. Framtida forskning kan fokusera på att utöka \ac{PF} mätvärden över fler dimensioner eller analysera dataset från andra domäner.

Place, publisher, year, edition, pages
2025. , p. 79
Keywords [en]
Time Series Data, Synthetic Data, Synthetic Time Series Data, Machine Learning, Classification, Population Fidelity, Temporal Correlation.
Keywords [sv]
Tidsseriedata, syntetiska data, syntetiska tidsseriedata, maskininlärning, klassificering, befolkningstrohet, tidsmässig korrelation.
National Category
Computer and Information Sciences Computer Sciences Other Computer and Information Science
Identifiers
URN: urn:nbn:se:kau:diva-104025OAI: oai:DiVA.org:kau-104025DiVA, id: diva2:1954330
External cooperation
CGI Inc.
Subject / course
Computer Science
Educational program
Engineering: Computer Engineering (300 ECTS credits)
Presentation
2025-04-14, Karlstad University, Karlstad, 14:00 (English)
Supervisors
Examiners
Available from: 2025-04-25 Created: 2025-04-24 Last updated: 2025-04-25Bibliographically approved

Open Access in DiVA

A Comprehensive Evaluation Framework for Synthetic Time Series Data(4839 kB)40 downloads
File information
File name FULLTEXT01.pdfFile size 4839 kBChecksum SHA-512
7ce72b07720c84c800f62a3569b94dc63c7705320758188716e1c6ef3fe4cf1ecec1224a0b954daebaf8db61c9fb1febad6d8e5ba0a5f4c9169308ba6c7cf7cd
Type fulltextMimetype application/pdf

By organisation
Department of Mathematics and Computer Science (from 2013)
Computer and Information SciencesComputer SciencesOther Computer and Information Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 40 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 115 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf