Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Automatisk utvinning av felaktigt särskrivna sammansättningar
Uppsala University, Disciplinary Domain of Humanities and Social Sciences, Faculty of Languages, Department of Linguistics and Philology.
2017 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [sv]

Denna uppsats beskriver en automatisk utvinning av särskrivningar som läggs i ett lexikon och implementeras i en redan existerande stavningskon- troll. Arbetet har utförts i samarbete med Svensk TalTeknologi. Många skribenter har svårt att förstå vilka fraser som ska skrivas samman och vilka fraser som kan stå isär. De datorstödda språkgranskningsprogram som finns för svenska idag har svårt att hantera både särskrivningar och sammansättningar vilket kan ge missvisande rekommendationer.

Metoden som har utvecklats i detta arbete extraherar sammanslagna bigram från en icke normativ korpus som är 84,6 MB stor för att jäm- föra mot unigram från en normativ korpus som är 99,2 MB stor. Med begränsningar utvinns 2492 möjliga särskrivningar som påträffas i båda korpusarna och som läggs i ett lexikon.

Lexikonets precision uppgår till 92 %. Stavningskontrollens täckning för felaktiga särskrivningar samt ord som det går bra att skriva både ihop och isär uppgår till 60,8 % medan täckningen för felaktiga särskrivningar uppgår till 41,6 %. Lexikonet visar hög noggrannhet och med enkla medel kan precisionen höjas ytterligare. Programmet presterar inte lika bra men med ett mer omfattande lexikon höjs även programmets prestation. 

Abstract [en]

This thesis describes an automatic extraction of split compounds that are added in a lexicon and implemented in an already existing spell checker. The work has been performed in cooperation with Svensk TalTeknologi. Many writers have difficulties understanding what phrases should be writ- ten jointly and what phrases should be written separately. The computer assisted language editors that exist for Swedish today have difficulties dealing with erroneously split and joint compounds, which can result in misleading recommendations.

The method that has been developed in this work extracts joint bigrams from a non-normative corpus that is 84,6 MB big to compare with unigrams from a normative corpus that is 99,2 MB big. With some limitations 2492 possible compounds that are found in both the corpora are extracted and put in a lexicon.

The lexicon’s precision amounts to 92 %. The recall of the spell checker amounts to 60,8 % for both erroneously compounds and compounds that can be written jointly or separately, and to 41,6 % for erroneously split compounds. The lexicon presents high accuracy and with simple means the precision can be further increased. The spell checker’s achievement is not as good but with a more extensive lexicon the achievement of the program will increase as well. 

Place, publisher, year, edition, pages
2017. , p. 47
Keywords [sv]
särskrivning, särskrivningar, sammansättning, sammansättningar, automatisk utvinning, språkkontroll, språkgranskning, språkgranskningasprogram
National Category
Language Technology (Computational Linguistics)
Identifiers
URN: urn:nbn:se:uu:diva-326456OAI: oai:DiVA.org:uu-326456DiVA, id: diva2:1121451
External cooperation
Svensk TalTeknologi AB
Subject / course
Language Technology
Educational program
Bachelor Programme in Language Technology
Supervisors
Examiners
Available from: 2017-12-12 Created: 2017-07-11 Last updated: 2018-01-13Bibliographically approved

Open Access in DiVA

fulltext(375 kB)38 downloads
File information
File name FULLTEXT01.pdfFile size 375 kBChecksum SHA-512
a4d207293c89078817fa472d244a9475452545d60194b6fe6cd3a438c3ab09460c1840c9df870f142da34bb63f7c8e45d172e20b3248a25a3c8bc9db0d6fcff3
Type fulltextMimetype application/pdf

By organisation
Department of Linguistics and Philology
Language Technology (Computational Linguistics)

Search outside of DiVA

GoogleGoogle Scholar
Total: 38 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 121 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf