This master’s thesis project undertook the investigation of whether spelling correction would improve the performance of the classification of reports. The idea is to use different approaches of spelling correction to check which approach suits this particular dataset. Three different approaches were tested for spelling correction. The first two approaches considered only the erroneous word for correction. The third approach also considered context or the surrounding words to the erroneous word. The results after spelling correction were tested on a model classifier. No significant improvement in the performance of the classifier was observed when compared to the baseline. The reason for this might be because most of the reports do not contain more than a few spelling errors and the majority of words detected as spelling errors are not in English. However, the second approach performed better than the baseline for the dataset due to it being language independent as most of the non-words were non-english words which are dynamically updated based on input.
Det här examensarbetet undersökte huruvida stavningskontroll kan förbättra klassificering av rapporter. Tanken är att använda olika tillvägagångssätt för stavningskontroll för att finna det sätt som fungerar bäst på den här specifika datamängden. Tre olika tillvägagångssätt för stavningskontroll undersöktes. De två första tog bara hänsyn till enskilda felstavade ord. Det tredje sättet tog även hänsyn till det felstavade ordets kontext. Resultatet från stavningskontrollen testades på en klassificerare. Klassificeraren uppvisade inte någon signifikant förbättring vid jämförelse med en baslinje. Anledningen till detta kan vara att de flesta av rapporterna inte innehåller mer än några få stavfel och de flesta ord som upptäckts som stavfel är inte på engelska. Det andra tillvägagångssättet presterade dock bättre än baslinjen för datasetet tack vara att det var språkoberoende, eftersom de flesta av icke-orden var icke-engelska ord som dynamiskt uppdaterades baserat på input.