Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Automatic Word Decoding Assessment Using Whisper and Machine Learning Techniques: An Automatic Speech Recognition Method to Assess the Early Reading Abilities of Young Children Reading Swedish
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Automatisk bedömning av ordavkodning med användning av Whisper och maskininlärningstekniker : Ett tillvägagångssätt för automatisk taligenkänning för att bedöma tidig läsförmåga hos unga barn som läser svenska (Swedish)
Abstract [en]

Automatic Speech Recognition (ASR) and its many purposes have gained a large amount of attention in recent years, both in research and in commercial use. Technological pioneers have implemented speech-to-text systems into their products to offer more effective documentation and real- time transcriptions of meetings, and recent research has begun to investigate whether ASR systems could be used as a reading assessment tool to evaluate if a word was correctly decoded by a user. One of these systems is Whisper from OpenAI. Today, educators have to rely on manual assessment to determine the correctness of word decoding, which is both time-consuming and could be affected by preconceptions. This thesis focuses on word and nonword decoding assessment of young children reading Swedish by (i) adapting the Whisper source code for this purpose, (ii) collecting data in the form of audio recordings of specific words, and (iii) developing two machine learning solutions (Support Vector Machine (SVM) with a Radial Basis Function (RBF) kernel and a decision tree) to perform the assessment whether the word or nonword was correctly decoded or not. The performance of the two machine learning solutions was measured using recognized agreement metrics and compared to earlier research. The results showed similar agreement values for the normal words on correct word decoding detection and slightly improved performance on incorrect word decoding detection for both solutions. The nonwords displayed generally lower results compared to the normal words. This indicated that the solutions have an acceptable detection rate of correct decoding but have difficulties detecting incorrect decoding. Further research is required before the solutions can be used for commercial use.

Abstract [sv]

Automatisk taligenkänning (ASR) och dess flera användingsområden har fått stor uppmärksamhet under de senaste åren, både inom forskning och kom- mersiell använding. Teknikpionjärer implementerar tal-till-textsystem i sina produkter för att erbjuda effectivare documentation och realtidstranskriptioner av möten, och ny forskning har börjat undersöka ASR’s potential att bli ett läsbedömingsverktyg för att avgöra om ett ord är korrekt avkodat av en användare. Ett av dessa system är Whisper från OpenAI. Idag måste pedagoger använda sig av manuell bedömning för att avgöra avkodningens riktighet, vilket både är tidskrävande och kan påverkas av förutfattade meningar. Detta examensarbete fokuserar på bedömning av ord- och nonsensor- davkodning av unga barn som som läser svenska genom att (i) anpassa Whispers källkod till detta syfte, (ii) samla in data i form av ljudfiler och (iii) utveckla två maskininlärningslösningar (stödvektormaskin (SVM) med en radiell basfunktionskärna (RBF) och ett besultsträd) för att utföra bedömningen om ordet eller nonsensordet var korrekt avkodat eller inte. De två maskininlärningslösningarnas prestanda mättes med vedertagna överrensstämmelsemått och jämfördes med tidigare forskning. Resultaten visade likvärdiga överrensstämmelsevärden för de vanliga orden på detekte- ring av korrekt ordavkodning och något förbättrad prestanda på detektering av inkorrekt ordavkodning för båda lösningarna. Nonsensorden visade på generellt sämre resultat jämfört med de vanliga orden. Detta indikerar att lösningarna har en accepterbar detekteringsgrad av korrekt ordavkodning men har svårigheter att detektera inkorrekt ordavkodning. Ytterligare forskning behövs för att lösningarna ska kunna användas i kommersiellt syfte.

Place, publisher, year, edition, pages
2024. , p. 52
Series
TRITA-EECS-EX ; 2024:721
Keywords [en]
Automatic reading assessment, Automatic speech recognition, Decision tree, Radial basis function kernel, Support vector machine, Whisper, Word decoding
Keywords [sv]
Automatisk läsbedömning, Automatisk taligenkänning, Beslutsträd, Radiell basfunktionskärna, Stödvektormaskin, Whisper, Ordavkodning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-359755OAI: oai:DiVA.org:kth-359755DiVA, id: diva2:1936526
External cooperation
Lexplore
Supervisors
Examiners
Available from: 2025-02-17 Created: 2025-02-11 Last updated: 2025-02-17Bibliographically approved

Open Access in DiVA

fulltext(957 kB)66 downloads
File information
File name FULLTEXT01.pdfFile size 957 kBChecksum SHA-512
541ea7aa06adf8fafb7389f59ad57ce5a64a6cbf2fd0e145f3d253f99478e77adb25267cc0ba240a54fd83f70af93186e0a7756ad0dec85864d2c6164ec70e14
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 66 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 536 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf