Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Multiple Choice Learning in Speech Separation. From Many to Variable Speakers' Separation
KTH, School of Engineering Sciences (SCI), Engineering Mechanics, Vehicle engineering and technical acoustics.
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Flervalsinlärning i talseparering. Från många till varierande talares separation (Swedish)
Abstract [en]

This report deals with the speech processing source separation task and introduces Multiple Choice Learning (MCL) to tackle the assignation ambiguity between predictions and ground-truth-separated signals. This inherently ambiguous task is customarily solved using Permutation Invariant Training (PIT) which finds the best assignation at the cost of a computationally expensive procedure. I demonstrate experimentally that MCL, originally introduced to tackle ambiguous tasks, matches the performances of PIT while being computationally advantageous in many-speaker settings. The variable number of speakers separation task is another approach tackled by introducing a scoring model that helps to quantify how "relevant" a prediction is during the separation. It is shown that the scoring model allows improvements in speech separation for 2 and 3-speakers based on a 5-speaker pre-trained model. Two new metrics W_EMD and T_EMD using scores are introduced and enable a better understanding of what the different predictions contain in a variable number of speaker settings. Finally, one can observe separation improvements while using the scoring, which is not detached from the separation.

Abstract [sv]

Den här rapporten handlar om källseparering inom talbehandling och introducerar Multiple Choice Learning (MCL) för att hantera tvetydigheten i tilldelningen mellan prediktioner och separerade signaler från marken. Denna i sig tvetydiga uppgift löses vanligtvis med hjälp av Permutation Invariant Training (PIT) som hittar den bästa tilldelningen på bekostnad av en beräkningsmässigt dyr procedur. Jag visar experimentellt att MCL, som ursprungligen introducerades för att hantera tvetydiga uppgifter, matchar prestandan hos PIT samtidigt som det är beräkningsmässigt fördelaktigt i inställningar med många talare. Separationsuppgiften med varierande antal talare är en annan metod som hanteras genom att införa en poängmodell som hjälper till att kvantifiera hur ”relevant” en förutsägelse är under separationen. Det visas att poängmodellen ger förbättringar i talseparationen för 2- och 3-talare baserat på en förtränad modell för 5-talare. Två nya mätvärden W_EMD och T_EMD som använder poäng introduceras och ger en bättre förståelse för vad de olika förutsägelserna innehåller i ett varierande antal högtalarinställningar. Slutligen kan man observera förbättringar av separationen när man använder poängsättningen, som inte är fristående från separationen.

Place, publisher, year, edition, pages
2025.
Series
TRITA-SCI-GRU ; 2025:017
Keywords [en]
Speech Separation, Multiple Choice Learning, Cocktail Party, Variable number of speakers, WSJ0 dataset, LibriMix dataset, Scoring
Keywords [sv]
Talseparation, flervalsinlärning, cocktailparty, variabelt antal talare, WSJ0-dataset, LibriMix-dataset, poängsättning
National Category
Vehicle and Aerospace Engineering
Identifiers
URN: urn:nbn:se:kth:diva-362057OAI: oai:DiVA.org:kth-362057DiVA, id: diva2:1949801
External cooperation
Télécom Paris - ADASP Group
Subject / course
Technical Acoustics
Educational program
Master of Science in Engineering - Vehicle Engineering
Supervisors
Examiners
Available from: 2025-04-03 Created: 2025-04-03 Last updated: 2025-04-03Bibliographically approved

Open Access in DiVA

fulltext(2012 kB)65 downloads
File information
File name FULLTEXT01.pdfFile size 2012 kBChecksum SHA-512
57804c8af5b5dddd6adfb621295571d266bbeebc717c8aaa83ed2aa442d57e73df706fc841a3838f2fccd73c343073862701b2734001171d3165ffbf1fbe6051
Type fulltextMimetype application/pdf

By organisation
Vehicle engineering and technical acoustics
Vehicle and Aerospace Engineering

Search outside of DiVA

GoogleGoogle Scholar
Total: 65 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 243 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf