In-game voice2face model with knowledge distillation: Knowledge distillation for 3D speech-driven facial animation with lip-sync
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesis
Abstract [en]
Voice2Face is a speech-driven 3D facial animation model that generates corresponding lip-sync animations from speech audio. However, the high computational and memory costs of the Voice2Face model pose challenges for real-time applications in games. This thesis investigates the potential of compressing the Voice2Face model using knowledge distillation techniques. We analyzed the architecture of Voice2Face and designed three smaller model candidates with different structures and a training framework that does not require ground truth. We then trained them on a public speech dataset LibriSpeech and evaluated their performance against the original model. Both qualitative and quantitative results indicate that all three candidates demonstrate competitive performance, with one model being sufficiently compact for real-time in-game use. Additionally, we propose a method to further reduce model latency.
Abstract [sv]
Voice2Face är en taldriven 3D-ansiktsanimationsmodell som genererar motsvarande läppsynkroniseringsanimationer från talljud. De höga beräknings- och minneskostnaderna för Voice2Face-modellen innebär dock utmaningar för realtidsapplikationer i spel. Denna avhandling undersöker potentialen i att komprimera Voice2Face- modellen med hjälp av kunskapsdestillationstekniker. Vi analyserade arkitekturen för Voice2Face och designade tre mindre modellkandidater med olika strukturer, tillsammans med ett utbildningsramverk som inte kräver grundsanning. Vi utbildade dem sedan i ett offentligt taldataset LibriSpeech och utvärderade deras prestanda mot den ursprungliga modellen. Både kvalitativa och kvantitativa resultat indikerar att alla tre kandidaterna visar konkurrenskraftiga prestanda, med en modell som är tillräckligt kompakt för realtidsanvändning i spelet. Dessutom föreslår vi en metod för att ytterligare minska modellfördröjningen.
Place, publisher, year, edition, pages
2024. , p. 42
Series
TRITA-EECS-EX ; 2024:761
Keywords [en]
real-time 3D lip-sync animation, cVAE, knowledge distillation
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360152OAI: oai:DiVA.org:kth-360152DiVA, id: diva2:1938578
External cooperation
Electronic Arts AB
Supervisors
Examiners
2025-02-242025-02-182025-02-24Bibliographically approved