MRI image data generation based on generative adversarial networks to share data while protecting privacy
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
MRI-bilddatagenerering baserad på generativa motståndsnätverk för att dela data samtidigt som integriteten skyddas (Swedish)
Abstract [en]
This thesis focuses on the application of Generative Adversarial Networks (GANs) in generating synthetic medical images, with a specific emphasis on breast cancer and normal tissue data. The subject area lies at the intersection of machine learning and healthcare, addressing the critical issue of data scarcity in medical imaging. Accurate and diverse medical datasets are essential for training robust diagnostic models, but the collection and sharing of such data are often limited due to privacy concerns and logistical challenges. The problem is significant because it hinders advancements in medical imaging-based diagnostics, particularly in rare diseases or scenarios with imbalanced datasets. It is also of appropriate complexity for a Master’s thesis, as it requires both theoretical understanding of advanced GAN architectures and practical implementation in a healthcare context. Despite progress in GAN research, the challenge of creating high-fidelity, clinically relevant synthetic medical data remains unresolved, providing a novel and meaningful avenue for exploration. To solve this problem, the study employed advanced GAN architectures, such as StyleSwin GAN and CNN-based GAN enhanced feature retention. Quantitative metrics, including Fréchet Inception Distance (FID), Learned Perceptual Image Patch Similarity (LPIPS), and Kolmogorov-Smirnov (KS) statistics, were used to evaluate the quality and fidelity of the generated images. Additionally, synthetic data was integrated into classification models, demonstrating significant improvements in accuracy, precision, and recall. The results highlight that GAN-generated data can effectively augment medical datasets, overcoming data scarcity and imbalance while preserving patient privacy. This work lays the groundwork for broader adoption of synthetic data in medical imaging and opens opportunities for further advancements, such as using the synthetic data for large-scale diagnostic tool development.
Abstract [sv]
Denna avhandling fokuserar på tillämpningen av Generative Adversarial Networks (GAN) för att generera syntetiska medicinska bilder, med särskild tonvikt på bröstcancer och normal vävnadsdata. Ämnesområdet ligger i skärningspunkten mellan maskininlärning och hälsovård, och tar upp den kritiska frågan om databrist inom medicinsk bildbehandling. Exakta och mångsidiga medicinska datauppsättningar är viktiga för att träna robusta diagnostiska modeller, men insamlingen och delning av sådana data är ofta begränsad på grund av integritetsproblem och logistiska utmaningar. Problemet är betydande eftersom det hindrar framsteg inom medicinsk bildbehandlingsbaserad diagnostik, särskilt vid sällsynta sjukdomar eller scenarier med obalanserade datauppsättningar. Det är också av lämplig komplexitet för en magisteruppsats, eftersom det kräver både teoretisk förståelse av avancerade GAN-arkitekturer och praktisk implementering i hälsovårdssammanhang. Trots framsteg inom GAN-forskningen förblir utmaningen att skapa kliniskt relevanta syntetiska medicinska data olöst, vilket ger en ny och meningsfull väg för utforskning. För att lösa detta problem använde studien avancerade GAN-arkitekturer, såsom StyleSwin GAN och Wasserstein GAN förbättrad funktionsbevarande. Kvantitativa mätvärden, inklusive Fréchet Inception Distance (FID), Learned Perceptual Image Patch Similarity (LPIPS) och Kolmogorov-Smirnov (KS) statistik, användes för att utvärdera kvaliteten och troheten hos de genererade bilderna. Dessutom integrerades syntetiska data i klassificeringsmodeller, vilket visar betydande förbättringar i noggrannhet, precision och återkallelse. Resultaten visar att GAN-genererad data effektivt kan utöka medicinska datauppsättningar, övervinna databrist och obalans samtidigt som patientens integritet bevaras. Detta arbete lägger grunden för en bredare användning av syntetiska data inom medicinsk bildbehandling och öppnar möjligheter för ytterligare framsteg, såsom att använda syntetiska data för storskalig utveckling av diagnostiska verktyg.
Place, publisher, year, edition, pages
2025. , p. 41
Series
TRITA-EECS-EX ; 2025:32
Keywords [en]
Image Generation, Generative Adversarial Networks, Breast Cancer Images, Medical Image Data Sharing
Keywords [sv]
Bildgenerering, generativa motståndsnätverk, bilder på bröstcancer, Medi- cinsk bilddatadelning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-361836OAI: oai:DiVA.org:kth-361836DiVA, id: diva2:1948884
Supervisors
Examiners
2025-04-032025-04-012025-04-03Bibliographically approved