Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Evaluating the energy consumption of LPC-based and VAE-GAN timbre transfer models in Music AI
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Energy efficiency in Music AI is becoming an increasingly important concern, especially as deep learning models continue to grow in size and complexity. Timbre transfer models, which transform one instrument’s sound to another, hold great potential in advanced music synthesis as well as growing energy demands. This thesis investigates two timbre transfer approaches: an LPC- based model representing classic signal processing methods, and a VAE- GAN model leveraging deep learning techniques. The aim is to quantify and compare their energy usage during both training and inference, raising awareness of energy-efficient practices in this domain. This study employed a smart plug to monitor energy consumption for timbre transfer models, capturing power usage during both CPU-based parallel processing for the LPC model and GPU-intensive training and inference of the VAE-GAN model. As the first investigation into smart plug-based energy measurement within the Music AI field, this research offers a novel perspective on energy assessment for music synthesis technologies. However, while the smart plug method provides an accessible and affordable solution, it has notable limitations such as ignorance of details during data processing and limited temporal resolution. Further development of high-resolution hardware and software tools would facilitate more precise measurement and analysis. Results indicate a substantial difference in energy consumption between the two models, with the LPC-based model showing higher efficiency in limited-data contexts and the VAE-GAN model excelling in complex and large-scale timbre transformations at the cost of increased energy usage. These findings underscore the importance of model design and dataset considerations for developing less resource intensive Music AI applications, promoting a balance that supports both artistic creativity and environmental responsibility.

Abstract [sv]

Energieffektivitet inom Music AI blir en allt viktigare fråga, särskilt när deep learning-modeller fortsätter att växa i storlek och komplexitet. Timbreöverföringsmodeller, som omvandlar ett instruments ljud till ett annat, har stor potential inom avancerad musiksyntes men medför också ökade energibehov. Denna avhandling undersöker två tillvägagångssätt för timbreöverföring: en LPC-baserad modell som representerar klassiska signalbehandlingsmetoder och en VAE-GAN-modell som utnyttjar deep learning-tekniker. Målet är att kvantifiera och jämföra deras energiförbrukning under både träning och inferens, för att öka medvetenheten om energieffektiva metoder inom detta område. Studien använde ett smart uttag för att övervaka energiförbrukningen hos timbreöverföringsmodeller, och fångade energiförbrukningen under både CPU-baserad parallellbearbetning för LPC-modellen och GPU-intensiv träning och inferens för VAE-GAN-modellen. Som den första undersökningen av smart plug-baserad energimätning inom Music AI erbjuder denna forskning ett nytt perspektiv på energibedömning för musiksynthesteknologier. Trots att metoden med smart uttag ger en tillgänglig och prisvärd lösning har den dock betydande begränsningar, som bristande detaljer i databehandlingen och begränsad tidsupplösning. Vidare utveckling av högupplösta hårdvaru- och mjukvaruverktyg skulle möjliggöra mer exakt mätning och analys. Resultaten visar på en betydande skillnad i energiförbrukning mellan de två modellerna, där LPC-modellen uppvisar högre effektivitet i sammanhang med begränsade datamängder, medan VAE-GAN-modellen utmärker sig vid komplexa och storskaliga klangfärgstransformationer till priset av ökad energiförbrukning. Dessa resultat understryker vikten av modellutformning och datamängdsval för att utveckla mindre resurskrävande applikationer inom Musik-AI, vilket främjar en balans som stöder både konstnärlig kreativitet och miljömässigt ansvar.

Place, publisher, year, edition, pages
2024. , p. 49
Series
TRITA-EECS-EX ; 2024:921
Keywords [en]
Timbre Transfer, Music Processing, Music AI, Energy Efficiency Assessment, Sustainable AI
Keywords [sv]
Klangfärgstransfer, Musikbearbetning, Musik-AI, Bedömning av energieffek- tivitet, Hållbar AI
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-361034OAI: oai:DiVA.org:kth-361034DiVA, id: diva2:1943527
Supervisors
Examiners
Available from: 2025-03-17 Created: 2025-03-11 Last updated: 2025-03-17Bibliographically approved

Open Access in DiVA

fulltext(1589 kB)46 downloads
File information
File name FULLTEXT01.pdfFile size 1589 kBChecksum SHA-512
428356ca287638ddd8f36e4a25704110de9d152acd7787b5c7e06cc9484b503ce71159301770cd9b20959d10bb3feadd37b819fd4a15f87a6cc4890ec1b933f6
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 46 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 280 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf