Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Deep Learning for Speech Enhancement: A Study on WaveNet, GANs and General CNN-RNN Architectures
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Djupinlärning för talsignalförbättring : En studie om WaveNet, GANs och generell CNN-RNN-arkitektur (Swedish)
Abstract [en]

Clarity and intelligiblity are important aspects of speech, especially in a time of misinformation and mistrust. The breakthrough in generative models for audio files has brought massive improvements for speech enhancement. Google’s WaveNet architecture has been modified for noise reduction in a model called WaveNet denoising and has proven to be state-of-the-art. Another competitor on the market would be the Speech Enhancement Generative Adversarial Network (SEGAN) which adapts the GAN architecture into applications on speech. While most older models focus on feature extraction and spectrogram analysis, these two models attempt to skip those steps and become end-to-end models completely. While end-to-end is good, data preprocessing is still a valuable asset to consider. A network designed by Microsoft Research called EHNet uses the spectrogram data as input instead of the mere 1D waveforms to capture more relations between datapoints as a higher dimension can enable more information.

This thesis aims to explore the speech enhancement field of study from a deep learning perspective and focus on the three mentioned architectures in theory dissection and results from new datasets. There is also an implementation of the Wiener filter as a benchmark.

We arrive at the conclusion that all three networks are viable in the task of enhancing speech, however SEGAN performed better on our dataset and was more robust to new data in comparison. For future work one could improve the evaluation methods, change datasets and implement hyperparameter optimization for further comparative analysis.

Abstract [sv]

Klarhet och förståelse är viktiga aspekter av tal, särskilt i en tid då falsk information och misstrogenhet är vanligt. Genombrottet för generativa modeller inom ljud har medfört stora förbättringar inom talsignalförbättring. Googles WaveNet-arkitektur har modifierats för brusreducering i en modell som kallas för WaveNet-denoising vilket har visat goda resultat. En annan konkurrent på marknaden är den generella adversariella nätverket för talsignalförbättring (SEGAN) som anpassar GAN-arkitekturen till tillämpningar på tal. Medan de flesta äldre modeller fokuserar på särdragsextraktion och spektrogramanalys, så försöker de två nya modellerna med att ignorera dessa koncept och vara end-to-end istället. Medan end-to-end är bra är databehandling fortfarande en viktig aspekt som är värdefull att överväga. Ett nätverk som designats av Microsoft Research heter EHNet och använder spektrogramdata som input istället för enbart 1D-vågformer för att fånga upp fler relationer mellan datapunkter, då högre dimensioner möjliggör mer information.

Detta examensarbete syftar till att utforska studieområdet inom talsignalförbättring samt utreda de tre nämnda arkitekturerna genom teoretisk undersökning och resultat på nya dataset. Det kommer också vara en implementering av Wienerfilter som riktmärke för resultaten.

Vi kommer fram till slutsatsen att alla tre nätverk är möjliga alternativ inom talsignalförbättring men SEGAN är den bästa modellen när det kommer till resultat på vårt specifika dataset och med avseende på robusthet. För framtida arbeten kan man förbättra utvärderingsmetoderna, ändra datasetet och implementera hyperparameteroptimeringför ytterligare jämförande analyser.

Place, publisher, year, edition, pages
2019. , p. 75
Series
TRITA-EECS-EX ; 2019:482
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-260351OAI: oai:DiVA.org:kth-260351DiVA, id: diva2:1355369
Supervisors
Examiners
Available from: 2019-10-17 Created: 2019-09-27 Last updated: 2019-10-17Bibliographically approved

Open Access in DiVA

fulltext(3119 kB)36 downloads
File information
File name FULLTEXT01.pdfFile size 3119 kBChecksum SHA-512
a9c33a0cca5e4ac9a70169f154eecedb3093afa0072c2f7e3ebd589e32fe76e4830155d51eabe40b3e9a2801e8276ed638f14c12ff3dc88f61aa498e48087b6f
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 36 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 39 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf