Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Unpaired Image-to-Image Translation for Domain Adaptation with Diffusion Model: a Novel Approach based on Masking and Inpainting Techniques
KTH, School of Electrical Engineering and Computer Science (EECS).
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Framsteg inom översättning av oparade bilder till bilder för domänanpassning med hjälp av diffusionsmodeller genom användning av maskerings- och inmålning-teknik : Undersökning av inmålning och översättning av en bild till en annan för diffusionsmodeller (Swedish)
Abstract [en]

Diffusion models have proven highly effective in generative tasks, particularly image generation, and are now integral to state-of-the-art image generator frameworks. These models operate by denoising images and exhibit remarkable adaptability, enabling their use in tasks like image editing without needing to train additional networks. This research focuses on image-to-image translation for domain adapta- tion. The task involves transforming an input image from one category (e.g., a cat) into another (e.g., a dog) while preserving the essential features of the original. This task is challenging as it requires minimal alterations to retain recognizability of the source image, while ensuring it conforms to the target category. While image-to-image translation has been previously explored, our in- vestigation aims to enhance existing methods without resorting to specialized models. This approach ensures the applicability of our methods to various transfers without the need for model re-training. By reinterpreting this task as an inpainting problem, we first conduct experiments to improve the efficiency of inpainting, including new techniques and theoretical results. Then, we explore sampling techniques from inpainting and novel masking methods to isolate regions for modification while preserving others for image- to-image translation. This approach led to the development of the Progressive Inpainting Mask (PIM), a new framework for diffusion models. PIM applies varying noise levels to the same input, enabling a more refined exploration beyond traditional single-level noise application. Experimental results confirm the statistical significance of adding a mask and using inpainting techniques. Our experimental findings demonstrate superior performance compared to state-of-the-art methods for the tasks of Cat-to-Dog translation and outperforming all diffusion models for the Male-to-Female translation, regardless of the inclusion of assistance from specialized networks. We have achieved more faithful images (−15% with the L2-distance), by deteriorating the realism by only 1.5%.

Abstract [sv]

Diffusionsmodeller har visat sig vara mycket effektiva i generativa uppgifter, särskilt bildgenerering, och är nu en integrerad del av de senaste ramverken för bildgenerering. Dessa modeller fungerar genom att ta bort brus i bilderna och uppvisar en anmärkningsvärd anpassningsförmåga. De gör det möjligt att utföra uppgifter som bildredigering utan att behöva träna ytterligare nätverk. Denna forskning fokuserar på översättning från bild till bild för domänanpassning. Uppgiften innebär att omvandla en inmatad bild från en kategori (t.ex. en katt) till en annan (t.ex. en hund) samtidigt som de väsentliga egenskaperna hos originalet bevaras. Denna uppgift är utmanande eftersom det krävs minimala ändringar för att bibehålla igenkännbarheten hos källbilden, samtidigt som man säkerställer att den överensstämmer med målkategorin. Bild-till-bild-översättning har tidigare undersökts, men vår undersökning syftar till att förbättra befintliga metoder utan att använda specialiserade modeller. Detta tillvägagångssätt säkerställer att våra metoder kan tillämpas på olika överföringar utan behov av omskolning av modeller. Genom att omtolka denna uppgift som ett inpainting-problem genomför vi först experiment för att förbättra effektiviteten i inpainting, inklusive nya tekniker och teoretiska resultat. Sedan utforskar vi samplingstekniker från inpainting och nya maskerings- metoder för att isolera regioner för modifiering samtidigt som andra bevaras för bild-till-bild-översättning. Detta tillvägagångssätt ledde till utvecklingen av Progressiv Inpainting Mask (PIM), ett nytt ramverk för diffusionsmodeller. PIM applicerar varierande brusnivåer på samma indata, vilket möjliggör en mer förfinad utforskning utöver traditionell brusapplicering på en nivå. Experimentella resultat bekräftar den statistiska betydelsen av att lägga till en mask och använda inpainting-tekniker. Våra experimentella resultat visar på överlägsna prestanda jämfört med de senaste metoderna för översättnings- uppgifterna katt-till-hund och bättre prestanda än alla diffusionsmodeller för översättningen man-till-kvinna, oavsett om hjälp från specialiserade nätverk inkluderas eller inte. Vi har uppnått mer verklighetstrogna bilder (−15% med L2-avståndet) genom att försämra realismen med endast 1, 5%.

Place, publisher, year, edition, pages
2025. , p. 103
Series
TRITA-EECS-EX ; 2025:25
Keywords [en]
Diffusion models, Unpaired image-to-image translation, Inpainting
Keywords [sv]
Diffusionsmodeller, Ôversättning av en bild till en annan, Inpainting
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-361700OAI: oai:DiVA.org:kth-361700DiVA, id: diva2:1947369
External cooperation
INRIA Paris
Supervisors
Examiners
Available from: 2025-03-31 Created: 2025-03-25 Last updated: 2025-03-31Bibliographically approved

Open Access in DiVA

fulltext(4708 kB)38 downloads
File information
File name FULLTEXT01.pdfFile size 4708 kBChecksum SHA-512
3f78d23d746a462db8b17b410d59bf1f28d5382f6028f75624db74193ea36ac039332f3ddbe1dabeba0c891d7ce1d49186bc7b84d3fd3440cd7df3e77648d1bb
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 38 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 462 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf