Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Investigating the Possibility of Using Audiobook Data to Build Vowel Recognition for Pronunciation Guidance
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Undersöka Möjligheten av Ljudboksdata för Vokaligenkänning i Uttalsvägledning (Swedish)
Abstract [en]

In this study, we investigate the feasibility of utilizing audiobook data to develop a vowel recognition system for pronunciation guidance in Swedish. Existing Computer-Assisted Pronunciation Training (CAPT) systems often require large, annotated data sets, which are scarce for Swedish vowels. This project explores methods to automatically extract and annotate vowels from publicly available audio books using a combination of Whisper speech recognition, phonetic transcription, forced alignment, and Wav2Vec2-based phonetic transcription. We employed two extraction methods: (1) Whisper with forced alignment and (2) a combination of Whisper and Wav2Vec2 phonetic transcription. These methods generated four distinct data sets, which were then used to train two types of classification models: a Convolutional Neural Network (CNN) on mel-spectrograms and a Wav2Vec2 model on raw audio. The performance of these models varied, with accuracies ranging from 32.99% to 72.01%, with the Wav2vec2 model trained on the data set generated by the combined extraction method yielding the best results. However, the overall accuracy is still insufficient for practical use in pronunciation training. The challenges identified include inconsistencies in audiobook recordings, transcription errors, and the complexity of accurately aligning and annotating vowels. Future work should focus on improving the consistency and accuracy of vowel extraction methods and exploring additional data sources.

Abstract [sv]

I den här studien undersöks huruvida ljudboksinspelningar kan användas för att utveckla ett vokaligenkänningssystem i uttalsrättande syfte på svenska. Nuvarande datorstödda system för uttalsträning kräver ofta stora mängder annoterad data, som det finns ytterst begränsat av på svenska vokaler. Det här projektet utforskar metoder för att automatiskt extrahera och annotera vokaler från offentligt tillgängliga ljudböcker. Detta görs med en kombination av taligenkännaren Whisper, fonetiskt transkribering, forced alignment", samt en Wav2Vec2-baserad fonetisk transkriberare. Två extraheringsmetoder användes: Whisper med forced alignment, och en kombination av Whisper tillsammans med Wav2vec2 fonetiska transkriberaren. Dessa bildade totalt fyra datamängder, som sedan användes som träningsdata till två olika klassificeringsmodeller: ett faltande neuralt nätverk tränat på mel-spektrogram, och en Wav2vec2-modell tränat direkt på ljudet. Prestandan av modellerna variarar, och träffsäkerheten går från 32,99% to 72,01%, där Wav2Vec2-modellen tränad på data från den kombinerade extraheringsmetoden gav bäst resultat. Detta är dock inte tillräckligt bra för att ha några praktiska tillämpningar i uttalsträning. Problemen ligger i varierande kvalité på ljudböckerna, undermålig transkribering, och svårigheter i att träffsäkert nog hitta, klippa ut och annotera vokaler. Framtida forskning bör fokusera på att förbättra extraheringsmetoderna och finna fler datakällor.

Place, publisher, year, edition, pages
2024. , p. 45
Series
TRITA-EECS-EX ; 2024:781
Keywords [en]
Deep Learning; Swedish; Vowel Recognition; Audio Data set; Convolutional Neural Networks; Transformer; Mispronunciation Detection and Diagnosis
Keywords [sv]
Djupinlärning; Svenska; Vokaligenkänning; Ljuddatamängder; Faltande Neu- rala Nätverk; Transformator; Igenkänning och Diagnostisering av Uttalsfel
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360212OAI: oai:DiVA.org:kth-360212DiVA, id: diva2:1939027
External cooperation
Lingio AB
Supervisors
Examiners
Available from: 2025-02-24 Created: 2025-02-20 Last updated: 2025-02-24Bibliographically approved

Open Access in DiVA

fulltext(2770 kB)65 downloads
File information
File name FULLTEXT01.pdfFile size 2770 kBChecksum SHA-512
55f3e47ac8a9a28764b0ce87ed80c9832715fb35c8d977a7af346ce0126e325f7835ef3b4fc423128a49bc432f6af28155f7c89a2a1df176c297878e1e8d5ed2
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 65 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 238 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf