Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Applying textual inversion to control and personalize text-to-music models by audio reference
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Tillämpning av textinvertering för att styra och anpassa text-till-musik modeller enligt ljudreferens (Swedish)
Abstract [en]

Given the prompt “a guitar rock band playing in an arena”, a text-to-music (TTM) model trained on those concepts should synthesize audio that sounds like electric guitars in an arena. However, if a prompt references concepts that the TTM model has not been trained on, e.g., “me playing guitar in my living room”, the audio it synthesizes will likely not match. This work investigates how to expand the concept vocabulary of an existing TTM model without compromising the fidelity of concepts on which it has already been trained. Using relatively short recordings typifying specific concepts, we apply a simple gradient-based approach called textual inversion (TI) to create new “words” using a TTM model’s embedding space that targets those concepts. These can then be used in prompts to condition the music generation with text and audio. We apply this technique to the TTM model MusicGen and measure its reconstruction and editability quality using CLAP scores. Additionally, we conduct a subjective listening study to compare TI with MusicGen and AudioLDM. These experiments show that TI can effectively expand the concept vocabulary of a pretrained TTM model, and thus make it personalized and more controllable.

Abstract [sv]

Givet texten “ett gitarrrockband som spelar i en arena” borde en text-till-musik (TTM) modell som tränats på dessa koncept syntetisera ljud som låter som elgitarrer i en arena. När en text refererar till koncept som TTM-modellen inte har tränats på, t.ex. “jag spelar gitarr i mitt vardagsrum”, kommer ljudet den syntetiserar troligen inte stämma. Det här arbetet undersöker hur man utökar ordförrådet för en befintlig TTM-modell utan att förstöra begrepp den redan har tränats på. Genom att använda relativt korta inspelningar som kännetecknar specifika koncept, tillämpar vi en enkel gradientbaserad metod som kallas textual inversion (TI) för att skapa nya “ord” med hjälp av en TTM-modells inbäddningsrum som riktar sig mot dessa koncept. Dessa kan sedan användas för att konditionera musikgenereringen med både text och ljud. Vi tillämpar denna teknik på TTM-modellen MusicGen och mäter dess rekonstruktion- och redigerbarhets-kvalitet med hjälp av CLAP-poäng. Dessutom genomför vi en subjektiv lyssningsstudie för att jämföra TI med MusicGen och AudioLDM. Dessa experiment visar att TI effektivt kan utöka ordförrådet hos en förtränad TTM-modell, och därmed görs modellen personlig och mer kontrollerbar.

Place, publisher, year, edition, pages
2024. , p. 22
Series
TRITA-EECS-EX ; 2024:503
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-352390OAI: oai:DiVA.org:kth-352390DiVA, id: diva2:1893350
Supervisors
Examiners
Available from: 2024-09-27 Created: 2024-08-29 Last updated: 2024-09-27Bibliographically approved

Open Access in DiVA

fulltext(579 kB)206 downloads
File information
File name FULLTEXT01.pdfFile size 579 kBChecksum SHA-512
2d6b93bf4f8e20a513edb825f4fe6cb9b962b189106cef23d35e7448c90a010103e795e18bdf76214d5480c5bb0a1316dbfa6045b50451d3514690d9c6578716
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 206 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 96 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf