Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Single Channel Spectrum-based Speech Enhancement Using Neural Networks
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

The ability to communicate is fundamental to form a relationship, and it is anecessity for a well-functioning society. Since a major part of our daily communicationtakes place orally, the ability to perceive speech is important. However,it is not always as easy to perceive the message, especially when the level of backgroundnoise partially masks the speech. For a person with hearing impairment,the situation gets even worse.The impact of background noise is also challenging other domains, and one ofthose is regarding virtual assistants, which have recently become more commondue to the technological advancements. Since virtual assistants have allowedus to interact with our technological devices in our daily lives, the dependencythat they work becomes more critical. This dependency especially holds whenwe are required to interact with them by speech. Still, in both suggested cases,background noise remains an issue to some degree. Hence, the possibility toreduce the noise influence is likely to have a significant role in how our societydevelops.In this report, we evaluate the possibility of reducing background noise.To do it, we proposed a new neural network architecture which is based on theprinciples of extreme learning machine. Considering that this report works withspectrum-based speech, appropriate constraints to ensure non-negativity in ouroptimization problem has been carried out. Moreover, different configurationsapplied to the architecture have been observed, which includes unprocessed vs.pre-processed features, masking filter, and stacking several single architecturelayers.The results show that the proposed architecture with the unprocessed, noisyspeech, input performs better than an input pre-processed by a well-knownmethod. Another finding observed was that relaxation in constraint yieldedbetter performance of a noisy speech than based on a non-negative convexconstrainedsolution.

Abstract [sv]

Att kunna kommunicera är fundamentalt för att forma relationer och är däraven nödvändighet för att få till ett fungerande samhälle. Eftersom en betydande del av den dagliga kommunikationen sker muntligt blir betydelsen av att kunna uppfatta vad som sägs betydelsefullt. Att kunna uppfatta vad som sägs är dock inte alltid helt enkelt, framförallt när ljudnivån av bakgrundsstim delvis maskerar talet. Desto svårare blir det för människor som har någon form av hörselskada.Effekterna av bakgrundsbrus framför även utmaningar inom andra områden. Ett av dessa områden är gällande virtuella assistenter, som blivit allt vanligare på grund av de tekniska framstegen. I och med att virtuella assistenter har möjliggjort möjligheten att för oss interagera med våra tekniska apparater, blir det allt viktigare att de fungerar. Detta gäller framför allt i de situationer där vi dessutom krävs att kommunicera muntligt med en virtuell assistent. Frågan som kvarstår är hur bakgrundsstim ska reduceras då bakgrundsstim i de båda ovannämnda fallen försvårar förståelseförmågan i olika omfattningar. Med detta sagt antyds möjligheten att kunna reducera bakgrundsstim ha stor betydelse för hur samhället kommer att utvecklas.I denna rapport kommer vi att utvärdera möjligheten att reducera bakgrundsstim. För att uppnå detta kommer vi att framföra en ny artificiella neurala nät arkitektur baserade utifrån id´eer från extrem inlärande maskin (eng. extreme learning machine). I och med att bearbetning sker på spektrumbaserat tal kommer lämpliga bivillkor appliceras för att garantera icke-negativ utsignal vid formulering av optimeringsproblem som har tagits fram. Vidare har olika sammansättningar undersökts, vilket inkluderar förarbetat kontra ickeförarbetat spektrum som insignal, filtrering och sammankoppling av flera lager av en viss arkitektur.Utifrån de erhållna resultaten visar det sig att den förslagna arkitekturen med insignal av ett icke-förarbetat brusigt tal presterar bättre än när insignalenär förädlad genom en välkänd metod inom detta område. Ett annat fynd som också har observerats är att lättnad i bivillkor resulterade till förbättring av ettbrusigt tal än när bivillkoret grundar sig i en icke-negativ konvex lösning.

Place, publisher, year, edition, pages
2019. , p. 71
Series
TRITA-EECS-EX ; 2019:279
National Category
Engineering and Technology
Identifiers
URN: urn:nbn:se:kth:diva-254410OAI: oai:DiVA.org:kth-254410DiVA, id: diva2:1331927
Educational program
Master of Science in Engineering - Electrical Engineering
Examiners
Available from: 2019-06-27 Created: 2019-06-27 Last updated: 2019-06-27Bibliographically approved

Open Access in DiVA

fulltext(6282 kB)18 downloads
File information
File name FULLTEXT01.pdfFile size 6282 kBChecksum SHA-512
2228fb18815143b8a0b6d31d79c02182d4360a386ae953c5bee1bd4dc370fe93ee946eec91ab62865428c2c4cf22c64dda8af42a0aacd1faba3cf5473cc26e67
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Engineering and Technology

Search outside of DiVA

GoogleGoogle Scholar
Total: 18 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 64 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf