Multilingual document-level GEC evaluation
2025 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Flerspråkig utvärdering av automatisk grammatikrättning på dokumentnivå (Swedish)
Abstract [en]
Evaluation of grammatical error correction (GEC) has been studied in recent years. However, previous research has focused on sentence-level evaluation, as well as primarily using English data. This thesis aims to investigate how current GEC evaluation metrics perform on document level, as well as in other languages than English. As recent studies have found promising results for large language models as GEC evaluators, this study focuses on them, and their performance on texts from the Swedish and English subsets of the MultiGEC dataset, as well as GEC system output from the MultiGEC-2025 shared task. Results found that most models, except for the smallest one, performed similarly across criteria of grammaticality and fluency, with Swedish results generally being better than English ones when compared to a human-annotated gold standard. Across metrics of accuracy, Pearson’s r, Cohen’s κ, and Spearman’s ρ, performance was overall poor on document level compared to what previous research has found for sentence level. In addition, human annotation of the data found additional challenges in document-level GECevaluation, indicating a need to revise the evaluation criteria.
Abstract [sv]
Tidigare forskning på utvärdering av automatisk grammatikrättning (GEC) har främst fokuserat på utvärdering på meningsnivå, och huvudsakligen utförts på engelsk data. Denna uppsats syftar till att undersöka hur system för GEC-utvärdering) fungerar på dokumentnivå, och på andra språk än engelska. Eftersom tidigare studier har visat goda resultat för stora språkmodeller inom GEC-utvärdering ligger fokus på dessa, och hur de utvärderar texter från de svenska och engelska delarna av MultiGEC-databasen, samt utdata från GEC-system som deltagit i MultiGEC2025, enshared task somanväntsigavsammadata. Resultatenvisadeatt deflesta modeller som testades, förutom den minsta, uppvisade liknande resultat på kriterierna för grammatikalitet och flyt. De svenska resultaten tenderade att vara något bättre än de engelska när utvärderingarna jämfördes med en mänsklig guldstandard. Generellt var resultaten för utvärderingarna på dokumentnivå, när de jämfördes med en mänsklig guldstandard i noggrannhet, Pearsons r, Cohens κ och Spearmans ρ, sämre än vad som tidigare uppmätts på meningsnivå. Dessutom visade manuell annotering av datan att GEC-utvärdering på dokumentnivå innebär andra utmaningar än meningsnivå, vilket visar på ett behov av att revidera de annoteringsriktlinjer som används.
Place, publisher, year, edition, pages
2025. , p. 31
Keywords [en]
grammatical error correction, GEC, large language models, MultiGEC
Keywords [sv]
automatisk grammatikrättning, stora språkmodeller, MultiGEC
National Category
Natural Language Processing
Identifiers
URN: urn:nbn:se:su:diva-243763OAI: oai:DiVA.org:su-243763DiVA, id: diva2:1964404
Supervisors
Examiners
2025-06-052025-06-052025-06-16Bibliographically approved