Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Single Channel Spectrum-based Speech Enhancement Using Neural Networks
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2019 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgave
Abstract [en]

The ability to communicate is fundamental to form a relationship, and it is anecessity for a well-functioning society. Since a major part of our daily communicationtakes place orally, the ability to perceive speech is important. However,it is not always as easy to perceive the message, especially when the level of backgroundnoise partially masks the speech. For a person with hearing impairment,the situation gets even worse.The impact of background noise is also challenging other domains, and one ofthose is regarding virtual assistants, which have recently become more commondue to the technological advancements. Since virtual assistants have allowedus to interact with our technological devices in our daily lives, the dependencythat they work becomes more critical. This dependency especially holds whenwe are required to interact with them by speech. Still, in both suggested cases,background noise remains an issue to some degree. Hence, the possibility toreduce the noise influence is likely to have a significant role in how our societydevelops.In this report, we evaluate the possibility of reducing background noise.To do it, we proposed a new neural network architecture which is based on theprinciples of extreme learning machine. Considering that this report works withspectrum-based speech, appropriate constraints to ensure non-negativity in ouroptimization problem has been carried out. Moreover, different configurationsapplied to the architecture have been observed, which includes unprocessed vs.pre-processed features, masking filter, and stacking several single architecturelayers.The results show that the proposed architecture with the unprocessed, noisyspeech, input performs better than an input pre-processed by a well-knownmethod. Another finding observed was that relaxation in constraint yieldedbetter performance of a noisy speech than based on a non-negative convexconstrainedsolution.

Abstract [sv]

Att kunna kommunicera är fundamentalt för att forma relationer och är däraven nödvändighet för att få till ett fungerande samhälle. Eftersom en betydande del av den dagliga kommunikationen sker muntligt blir betydelsen av att kunna uppfatta vad som sägs betydelsefullt. Att kunna uppfatta vad som sägs är dock inte alltid helt enkelt, framförallt när ljudnivån av bakgrundsstim delvis maskerar talet. Desto svårare blir det för människor som har någon form av hörselskada.Effekterna av bakgrundsbrus framför även utmaningar inom andra områden. Ett av dessa områden är gällande virtuella assistenter, som blivit allt vanligare på grund av de tekniska framstegen. I och med att virtuella assistenter har möjliggjort möjligheten att för oss interagera med våra tekniska apparater, blir det allt viktigare att de fungerar. Detta gäller framför allt i de situationer där vi dessutom krävs att kommunicera muntligt med en virtuell assistent. Frågan som kvarstår är hur bakgrundsstim ska reduceras då bakgrundsstim i de båda ovannämnda fallen försvårar förståelseförmågan i olika omfattningar. Med detta sagt antyds möjligheten att kunna reducera bakgrundsstim ha stor betydelse för hur samhället kommer att utvecklas.I denna rapport kommer vi att utvärdera möjligheten att reducera bakgrundsstim. För att uppnå detta kommer vi att framföra en ny artificiella neurala nät arkitektur baserade utifrån id´eer från extrem inlärande maskin (eng. extreme learning machine). I och med att bearbetning sker på spektrumbaserat tal kommer lämpliga bivillkor appliceras för att garantera icke-negativ utsignal vid formulering av optimeringsproblem som har tagits fram. Vidare har olika sammansättningar undersökts, vilket inkluderar förarbetat kontra ickeförarbetat spektrum som insignal, filtrering och sammankoppling av flera lager av en viss arkitektur.Utifrån de erhållna resultaten visar det sig att den förslagna arkitekturen med insignal av ett icke-förarbetat brusigt tal presterar bättre än när insignalenär förädlad genom en välkänd metod inom detta område. Ett annat fynd som också har observerats är att lättnad i bivillkor resulterade till förbättring av ettbrusigt tal än när bivillkoret grundar sig i en icke-negativ konvex lösning.

sted, utgiver, år, opplag, sider
2019. , s. 71
Serie
TRITA-EECS-EX ; 2019:279
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-254410OAI: oai:DiVA.org:kth-254410DiVA, id: diva2:1331927
Utdanningsprogram
Master of Science in Engineering - Electrical Engineering
Examiner
Tilgjengelig fra: 2019-06-27 Laget: 2019-06-27 Sist oppdatert: 2019-06-27bibliografisk kontrollert

Open Access i DiVA

fulltext(6282 kB)18 nedlastinger
Filinformasjon
Fil FULLTEXT01.pdfFilstørrelse 6282 kBChecksum SHA-512
2228fb18815143b8a0b6d31d79c02182d4360a386ae953c5bee1bd4dc370fe93ee946eec91ab62865428c2c4cf22c64dda8af42a0aacd1faba3cf5473cc26e67
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 18 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 64 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf