Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Multilingual document-level GEC evaluation
Stockholm University, Faculty of Humanities, Department of Linguistics, Computational Linguistics.
2025 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Flerspråkig utvärdering av automatisk grammatikrättning på dokumentnivå (Swedish)
Abstract [en]

Evaluation of grammatical error correction (GEC) has been studied in recent years. However, previous research has focused on sentence-level evaluation, as well as primarily using English data. This thesis aims to investigate how current GEC evaluation metrics perform on document level, as well as in other languages than English. As recent studies have found promising results for large language models as GEC evaluators, this study focuses on them, and their performance on texts from the Swedish and English subsets of the MultiGEC dataset, as well as GEC system output from the MultiGEC-2025 shared task. Results found that most models, except for the smallest one, performed similarly across criteria of grammaticality and fluency, with Swedish results generally being better than English ones when compared to a human-annotated gold standard. Across metrics of accuracy, Pearson’s r, Cohen’s κ, and Spearman’s ρ, performance was overall poor on document level compared to what previous research has found for sentence level. In addition, human annotation of the data found additional challenges in document-level GECevaluation, indicating a need to revise the evaluation criteria.

Abstract [sv]

Tidigare forskning på utvärdering av automatisk grammatikrättning (GEC) har främst fokuserat på utvärdering på meningsnivå, och huvudsakligen utförts på engelsk data. Denna uppsats syftar till att undersöka hur system för GEC-utvärdering) fungerar på dokumentnivå, och på andra språk än engelska. Eftersom tidigare studier har visat goda resultat för stora språkmodeller inom GEC-utvärdering ligger fokus på dessa, och hur de utvärderar texter från de svenska och engelska delarna av MultiGEC-databasen, samt utdata från GEC-system som deltagit i MultiGEC2025, enshared task somanväntsigavsammadata. Resultatenvisadeatt deflesta modeller som testades, förutom den minsta, uppvisade liknande resultat på kriterierna för grammatikalitet och flyt. De svenska resultaten tenderade att vara något bättre än de engelska när utvärderingarna jämfördes med en mänsklig guldstandard. Generellt var resultaten för utvärderingarna på dokumentnivå, när de jämfördes med en mänsklig guldstandard i noggrannhet, Pearsons r, Cohens κ och Spearmans ρ, sämre än vad som tidigare uppmätts på meningsnivå. Dessutom visade manuell annotering av datan att GEC-utvärdering på dokumentnivå innebär andra utmaningar än meningsnivå, vilket visar på ett behov av att revidera de annoteringsriktlinjer som används.

Place, publisher, year, edition, pages
2025. , p. 31
Keywords [en]
grammatical error correction, GEC, large language models, MultiGEC
Keywords [sv]
automatisk grammatikrättning, stora språkmodeller, MultiGEC
National Category
Natural Language Processing
Identifiers
URN: urn:nbn:se:su:diva-243763OAI: oai:DiVA.org:su-243763DiVA, id: diva2:1964404
Supervisors
Examiners
Available from: 2025-06-05 Created: 2025-06-05 Last updated: 2025-06-16Bibliographically approved

Open Access in DiVA

fulltext(811 kB)112 downloads
File information
File name FULLTEXT01.pdfFile size 811 kBChecksum SHA-512
d295b270e034739db0f480e10eeac7e2299b9e0addf975519b64ea49ee0077775c735436ff97dc8785a317df3219ebd6d24194b6dbbdfad966899e2fd8cdbd57
Type fulltextMimetype application/pdf

By organisation
Computational Linguistics
Natural Language Processing

Search outside of DiVA

GoogleGoogle Scholar
Total: 112 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 375 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf