Applying textual inversion to control and personalize text-to-music models by audio reference
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Tillämpning av textinvertering för att styra och anpassa text-till-musik modeller enligt ljudreferens (Swedish)
Abstract [en]
Given the prompt “a guitar rock band playing in an arena”, a text-to-music (TTM) model trained on those concepts should synthesize audio that sounds like electric guitars in an arena. However, if a prompt references concepts that the TTM model has not been trained on, e.g., “me playing guitar in my living room”, the audio it synthesizes will likely not match. This work investigates how to expand the concept vocabulary of an existing TTM model without compromising the fidelity of concepts on which it has already been trained. Using relatively short recordings typifying specific concepts, we apply a simple gradient-based approach called textual inversion (TI) to create new “words” using a TTM model’s embedding space that targets those concepts. These can then be used in prompts to condition the music generation with text and audio. We apply this technique to the TTM model MusicGen and measure its reconstruction and editability quality using CLAP scores. Additionally, we conduct a subjective listening study to compare TI with MusicGen and AudioLDM. These experiments show that TI can effectively expand the concept vocabulary of a pretrained TTM model, and thus make it personalized and more controllable.
Abstract [sv]
Givet texten “ett gitarrrockband som spelar i en arena” borde en text-till-musik (TTM) modell som tränats på dessa koncept syntetisera ljud som låter som elgitarrer i en arena. När en text refererar till koncept som TTM-modellen inte har tränats på, t.ex. “jag spelar gitarr i mitt vardagsrum”, kommer ljudet den syntetiserar troligen inte stämma. Det här arbetet undersöker hur man utökar ordförrådet för en befintlig TTM-modell utan att förstöra begrepp den redan har tränats på. Genom att använda relativt korta inspelningar som kännetecknar specifika koncept, tillämpar vi en enkel gradientbaserad metod som kallas textual inversion (TI) för att skapa nya “ord” med hjälp av en TTM-modells inbäddningsrum som riktar sig mot dessa koncept. Dessa kan sedan användas för att konditionera musikgenereringen med både text och ljud. Vi tillämpar denna teknik på TTM-modellen MusicGen och mäter dess rekonstruktion- och redigerbarhets-kvalitet med hjälp av CLAP-poäng. Dessutom genomför vi en subjektiv lyssningsstudie för att jämföra TI med MusicGen och AudioLDM. Dessa experiment visar att TI effektivt kan utöka ordförrådet hos en förtränad TTM-modell, och därmed görs modellen personlig och mer kontrollerbar.
Place, publisher, year, edition, pages
2024. , p. 22
Series
TRITA-EECS-EX ; 2024:503
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-352390OAI: oai:DiVA.org:kth-352390DiVA, id: diva2:1893350
Supervisors
Examiners
2024-09-272024-08-292024-09-27Bibliographically approved