Multiple Choice Learning in Speech Separation. From Many to Variable Speakers' Separation
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Flervalsinlärning i talseparering. Från många till varierande talares separation (Swedish)
Abstract [en]
This report deals with the speech processing source separation task and introduces Multiple Choice Learning (MCL) to tackle the assignation ambiguity between predictions and ground-truth-separated signals. This inherently ambiguous task is customarily solved using Permutation Invariant Training (PIT) which finds the best assignation at the cost of a computationally expensive procedure. I demonstrate experimentally that MCL, originally introduced to tackle ambiguous tasks, matches the performances of PIT while being computationally advantageous in many-speaker settings. The variable number of speakers separation task is another approach tackled by introducing a scoring model that helps to quantify how "relevant" a prediction is during the separation. It is shown that the scoring model allows improvements in speech separation for 2 and 3-speakers based on a 5-speaker pre-trained model. Two new metrics W_EMD and T_EMD using scores are introduced and enable a better understanding of what the different predictions contain in a variable number of speaker settings. Finally, one can observe separation improvements while using the scoring, which is not detached from the separation.
Abstract [sv]
Den här rapporten handlar om källseparering inom talbehandling och introducerar Multiple Choice Learning (MCL) för att hantera tvetydigheten i tilldelningen mellan prediktioner och separerade signaler från marken. Denna i sig tvetydiga uppgift löses vanligtvis med hjälp av Permutation Invariant Training (PIT) som hittar den bästa tilldelningen på bekostnad av en beräkningsmässigt dyr procedur. Jag visar experimentellt att MCL, som ursprungligen introducerades för att hantera tvetydiga uppgifter, matchar prestandan hos PIT samtidigt som det är beräkningsmässigt fördelaktigt i inställningar med många talare. Separationsuppgiften med varierande antal talare är en annan metod som hanteras genom att införa en poängmodell som hjälper till att kvantifiera hur ”relevant” en förutsägelse är under separationen. Det visas att poängmodellen ger förbättringar i talseparationen för 2- och 3-talare baserat på en förtränad modell för 5-talare. Två nya mätvärden W_EMD och T_EMD som använder poäng introduceras och ger en bättre förståelse för vad de olika förutsägelserna innehåller i ett varierande antal högtalarinställningar. Slutligen kan man observera förbättringar av separationen när man använder poängsättningen, som inte är fristående från separationen.
Place, publisher, year, edition, pages
2025.
Series
TRITA-SCI-GRU ; 2025:017
Keywords [en]
Speech Separation, Multiple Choice Learning, Cocktail Party, Variable number of speakers, WSJ0 dataset, LibriMix dataset, Scoring
Keywords [sv]
Talseparation, flervalsinlärning, cocktailparty, variabelt antal talare, WSJ0-dataset, LibriMix-dataset, poängsättning
National Category
Vehicle and Aerospace Engineering
Identifiers
URN: urn:nbn:se:kth:diva-362057OAI: oai:DiVA.org:kth-362057DiVA, id: diva2:1949801
External cooperation
Télécom Paris - ADASP Group
Subject / course
Technical Acoustics
Educational program
Master of Science in Engineering - Vehicle Engineering
Supervisors
Examiners
2025-04-032025-04-032025-04-03Bibliographically approved