Evaluating the energy consumption of LPC-based and VAE-GAN timbre transfer models in Music AI
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesis
Abstract [en]
Energy efficiency in Music AI is becoming an increasingly important concern, especially as deep learning models continue to grow in size and complexity. Timbre transfer models, which transform one instrument’s sound to another, hold great potential in advanced music synthesis as well as growing energy demands. This thesis investigates two timbre transfer approaches: an LPC- based model representing classic signal processing methods, and a VAE- GAN model leveraging deep learning techniques. The aim is to quantify and compare their energy usage during both training and inference, raising awareness of energy-efficient practices in this domain. This study employed a smart plug to monitor energy consumption for timbre transfer models, capturing power usage during both CPU-based parallel processing for the LPC model and GPU-intensive training and inference of the VAE-GAN model. As the first investigation into smart plug-based energy measurement within the Music AI field, this research offers a novel perspective on energy assessment for music synthesis technologies. However, while the smart plug method provides an accessible and affordable solution, it has notable limitations such as ignorance of details during data processing and limited temporal resolution. Further development of high-resolution hardware and software tools would facilitate more precise measurement and analysis. Results indicate a substantial difference in energy consumption between the two models, with the LPC-based model showing higher efficiency in limited-data contexts and the VAE-GAN model excelling in complex and large-scale timbre transformations at the cost of increased energy usage. These findings underscore the importance of model design and dataset considerations for developing less resource intensive Music AI applications, promoting a balance that supports both artistic creativity and environmental responsibility.
Abstract [sv]
Energieffektivitet inom Music AI blir en allt viktigare fråga, särskilt när deep learning-modeller fortsätter att växa i storlek och komplexitet. Timbreöverföringsmodeller, som omvandlar ett instruments ljud till ett annat, har stor potential inom avancerad musiksyntes men medför också ökade energibehov. Denna avhandling undersöker två tillvägagångssätt för timbreöverföring: en LPC-baserad modell som representerar klassiska signalbehandlingsmetoder och en VAE-GAN-modell som utnyttjar deep learning-tekniker. Målet är att kvantifiera och jämföra deras energiförbrukning under både träning och inferens, för att öka medvetenheten om energieffektiva metoder inom detta område. Studien använde ett smart uttag för att övervaka energiförbrukningen hos timbreöverföringsmodeller, och fångade energiförbrukningen under både CPU-baserad parallellbearbetning för LPC-modellen och GPU-intensiv träning och inferens för VAE-GAN-modellen. Som den första undersökningen av smart plug-baserad energimätning inom Music AI erbjuder denna forskning ett nytt perspektiv på energibedömning för musiksynthesteknologier. Trots att metoden med smart uttag ger en tillgänglig och prisvärd lösning har den dock betydande begränsningar, som bristande detaljer i databehandlingen och begränsad tidsupplösning. Vidare utveckling av högupplösta hårdvaru- och mjukvaruverktyg skulle möjliggöra mer exakt mätning och analys. Resultaten visar på en betydande skillnad i energiförbrukning mellan de två modellerna, där LPC-modellen uppvisar högre effektivitet i sammanhang med begränsade datamängder, medan VAE-GAN-modellen utmärker sig vid komplexa och storskaliga klangfärgstransformationer till priset av ökad energiförbrukning. Dessa resultat understryker vikten av modellutformning och datamängdsval för att utveckla mindre resurskrävande applikationer inom Musik-AI, vilket främjar en balans som stöder både konstnärlig kreativitet och miljömässigt ansvar.
Place, publisher, year, edition, pages
2024. , p. 49
Series
TRITA-EECS-EX ; 2024:921
Keywords [en]
Timbre Transfer, Music Processing, Music AI, Energy Efficiency Assessment, Sustainable AI
Keywords [sv]
Klangfärgstransfer, Musikbearbetning, Musik-AI, Bedömning av energieffek- tivitet, Hållbar AI
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-361034OAI: oai:DiVA.org:kth-361034DiVA, id: diva2:1943527
Supervisors
Examiners
2025-03-172025-03-112025-03-17Bibliographically approved