Unpaired Image-to-Image Translation for Domain Adaptation with Diffusion Model: a Novel Approach based on Masking and Inpainting Techniques
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Framsteg inom översättning av oparade bilder till bilder för domänanpassning med hjälp av diffusionsmodeller genom användning av maskerings- och inmålning-teknik : Undersökning av inmålning och översättning av en bild till en annan för diffusionsmodeller (Swedish)
Abstract [en]
Diffusion models have proven highly effective in generative tasks, particularly image generation, and are now integral to state-of-the-art image generator frameworks. These models operate by denoising images and exhibit remarkable adaptability, enabling their use in tasks like image editing without needing to train additional networks. This research focuses on image-to-image translation for domain adapta- tion. The task involves transforming an input image from one category (e.g., a cat) into another (e.g., a dog) while preserving the essential features of the original. This task is challenging as it requires minimal alterations to retain recognizability of the source image, while ensuring it conforms to the target category. While image-to-image translation has been previously explored, our in- vestigation aims to enhance existing methods without resorting to specialized models. This approach ensures the applicability of our methods to various transfers without the need for model re-training. By reinterpreting this task as an inpainting problem, we first conduct experiments to improve the efficiency of inpainting, including new techniques and theoretical results. Then, we explore sampling techniques from inpainting and novel masking methods to isolate regions for modification while preserving others for image- to-image translation. This approach led to the development of the Progressive Inpainting Mask (PIM), a new framework for diffusion models. PIM applies varying noise levels to the same input, enabling a more refined exploration beyond traditional single-level noise application. Experimental results confirm the statistical significance of adding a mask and using inpainting techniques. Our experimental findings demonstrate superior performance compared to state-of-the-art methods for the tasks of Cat-to-Dog translation and outperforming all diffusion models for the Male-to-Female translation, regardless of the inclusion of assistance from specialized networks. We have achieved more faithful images (−15% with the L2-distance), by deteriorating the realism by only 1.5%.
Abstract [sv]
Diffusionsmodeller har visat sig vara mycket effektiva i generativa uppgifter, särskilt bildgenerering, och är nu en integrerad del av de senaste ramverken för bildgenerering. Dessa modeller fungerar genom att ta bort brus i bilderna och uppvisar en anmärkningsvärd anpassningsförmåga. De gör det möjligt att utföra uppgifter som bildredigering utan att behöva träna ytterligare nätverk. Denna forskning fokuserar på översättning från bild till bild för domänanpassning. Uppgiften innebär att omvandla en inmatad bild från en kategori (t.ex. en katt) till en annan (t.ex. en hund) samtidigt som de väsentliga egenskaperna hos originalet bevaras. Denna uppgift är utmanande eftersom det krävs minimala ändringar för att bibehålla igenkännbarheten hos källbilden, samtidigt som man säkerställer att den överensstämmer med målkategorin. Bild-till-bild-översättning har tidigare undersökts, men vår undersökning syftar till att förbättra befintliga metoder utan att använda specialiserade modeller. Detta tillvägagångssätt säkerställer att våra metoder kan tillämpas på olika överföringar utan behov av omskolning av modeller. Genom att omtolka denna uppgift som ett inpainting-problem genomför vi först experiment för att förbättra effektiviteten i inpainting, inklusive nya tekniker och teoretiska resultat. Sedan utforskar vi samplingstekniker från inpainting och nya maskerings- metoder för att isolera regioner för modifiering samtidigt som andra bevaras för bild-till-bild-översättning. Detta tillvägagångssätt ledde till utvecklingen av Progressiv Inpainting Mask (PIM), ett nytt ramverk för diffusionsmodeller. PIM applicerar varierande brusnivåer på samma indata, vilket möjliggör en mer förfinad utforskning utöver traditionell brusapplicering på en nivå. Experimentella resultat bekräftar den statistiska betydelsen av att lägga till en mask och använda inpainting-tekniker. Våra experimentella resultat visar på överlägsna prestanda jämfört med de senaste metoderna för översättnings- uppgifterna katt-till-hund och bättre prestanda än alla diffusionsmodeller för översättningen man-till-kvinna, oavsett om hjälp från specialiserade nätverk inkluderas eller inte. Vi har uppnått mer verklighetstrogna bilder (−15% med L2-avståndet) genom att försämra realismen med endast 1, 5%.
Place, publisher, year, edition, pages
2025. , p. 103
Series
TRITA-EECS-EX ; 2025:25
Keywords [en]
Diffusion models, Unpaired image-to-image translation, Inpainting
Keywords [sv]
Diffusionsmodeller, Ôversättning av en bild till en annan, Inpainting
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-361700OAI: oai:DiVA.org:kth-361700DiVA, id: diva2:1947369
External cooperation
INRIA Paris
Supervisors
Examiners
2025-03-312025-03-252025-03-31Bibliographically approved