Automatic Word Decoding Assessment Using Whisper and Machine Learning Techniques: An Automatic Speech Recognition Method to Assess the Early Reading Abilities of Young Children Reading Swedish
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Automatisk bedömning av ordavkodning med användning av Whisper och maskininlärningstekniker : Ett tillvägagångssätt för automatisk taligenkänning för att bedöma tidig läsförmåga hos unga barn som läser svenska (Swedish)
Abstract [en]
Automatic Speech Recognition (ASR) and its many purposes have gained a large amount of attention in recent years, both in research and in commercial use. Technological pioneers have implemented speech-to-text systems into their products to offer more effective documentation and real- time transcriptions of meetings, and recent research has begun to investigate whether ASR systems could be used as a reading assessment tool to evaluate if a word was correctly decoded by a user. One of these systems is Whisper from OpenAI. Today, educators have to rely on manual assessment to determine the correctness of word decoding, which is both time-consuming and could be affected by preconceptions. This thesis focuses on word and nonword decoding assessment of young children reading Swedish by (i) adapting the Whisper source code for this purpose, (ii) collecting data in the form of audio recordings of specific words, and (iii) developing two machine learning solutions (Support Vector Machine (SVM) with a Radial Basis Function (RBF) kernel and a decision tree) to perform the assessment whether the word or nonword was correctly decoded or not. The performance of the two machine learning solutions was measured using recognized agreement metrics and compared to earlier research. The results showed similar agreement values for the normal words on correct word decoding detection and slightly improved performance on incorrect word decoding detection for both solutions. The nonwords displayed generally lower results compared to the normal words. This indicated that the solutions have an acceptable detection rate of correct decoding but have difficulties detecting incorrect decoding. Further research is required before the solutions can be used for commercial use.
Abstract [sv]
Automatisk taligenkänning (ASR) och dess flera användingsområden har fått stor uppmärksamhet under de senaste åren, både inom forskning och kom- mersiell använding. Teknikpionjärer implementerar tal-till-textsystem i sina produkter för att erbjuda effectivare documentation och realtidstranskriptioner av möten, och ny forskning har börjat undersöka ASR’s potential att bli ett läsbedömingsverktyg för att avgöra om ett ord är korrekt avkodat av en användare. Ett av dessa system är Whisper från OpenAI. Idag måste pedagoger använda sig av manuell bedömning för att avgöra avkodningens riktighet, vilket både är tidskrävande och kan påverkas av förutfattade meningar. Detta examensarbete fokuserar på bedömning av ord- och nonsensor- davkodning av unga barn som som läser svenska genom att (i) anpassa Whispers källkod till detta syfte, (ii) samla in data i form av ljudfiler och (iii) utveckla två maskininlärningslösningar (stödvektormaskin (SVM) med en radiell basfunktionskärna (RBF) och ett besultsträd) för att utföra bedömningen om ordet eller nonsensordet var korrekt avkodat eller inte. De två maskininlärningslösningarnas prestanda mättes med vedertagna överrensstämmelsemått och jämfördes med tidigare forskning. Resultaten visade likvärdiga överrensstämmelsevärden för de vanliga orden på detekte- ring av korrekt ordavkodning och något förbättrad prestanda på detektering av inkorrekt ordavkodning för båda lösningarna. Nonsensorden visade på generellt sämre resultat jämfört med de vanliga orden. Detta indikerar att lösningarna har en accepterbar detekteringsgrad av korrekt ordavkodning men har svårigheter att detektera inkorrekt ordavkodning. Ytterligare forskning behövs för att lösningarna ska kunna användas i kommersiellt syfte.
Place, publisher, year, edition, pages
2024. , p. 52
Series
TRITA-EECS-EX ; 2024:721
Keywords [en]
Automatic reading assessment, Automatic speech recognition, Decision tree, Radial basis function kernel, Support vector machine, Whisper, Word decoding
Keywords [sv]
Automatisk läsbedömning, Automatisk taligenkänning, Beslutsträd, Radiell basfunktionskärna, Stödvektormaskin, Whisper, Ordavkodning
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-359755OAI: oai:DiVA.org:kth-359755DiVA, id: diva2:1936526
External cooperation
Lexplore
Supervisors
Examiners
2025-02-172025-02-112025-02-17Bibliographically approved