Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Choosing the most reasonable split of a compound word using Wikipedia
KTH, School of Computer Science and Communication (CSC).
2017 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Val av den rimligaste delningen av ett sammansatt ord med hjälp av Wikipedia (Swedish)
Abstract [en]

The purpose of this master thesis is to make use of the category taxonomy of Wikipedia to determine the most reasonable split from the suggestions generated by an independent compound word splitter.

The articles a word was found in can be seen as a group of contexts the word can occur in and also different representations of the word, i.e. an article is a representation of the word. Instead of only analysing the data of each single article, the intention is to find more data for each representation/context to perform an analysis on. The idea is to expand each article representing one context by including related articles in the same category.

Two perceptions of a ”reasonable split” was studied. The first case was a split consisting of only two parts and the second case of unlimited parts.

This approach is well-suited for choosing the correct split out of a several suggestions but unsuitable for identifying compound words. It would more often than not decide to not split a compound word. It is very dependant on the compound words appearing in Wikipedia.

Abstract [sv]

Syftet med detta examensarbete är att utse den rimligaste uppdelningen av ett sammansatt ord genom användning av Wikipedias kategoritaxonomi. Förslag på olika uppdelningar genereras av en oberoende färdig algoritm.

Artiklarna som ett ord finns can ses som en grupp av kontexter som ett ord kan förekomma i och olika framställningar av ett ord. Avsikten är att hitta mer data för varje framställning/kontext att utföra en analys på istället för att bara analysera artikeln ordet hittades i. Idéen som ska testas är att expandera varje artikel som representerar en kontext genom att inkludera relaterade artiklar i samma kategori.

Två olika synsätt på ”rimliga uppdelningar” studerades. Första fallet var att endast dela upp sammansatta ord i två delar och andra fallet var att dela upp i obestämt antal delar.

Metoden visade sig utmärka sig på att välja rätt uppdelning när den väl gjorde ett försök. En stor nackdel var att den ofta valde att inte dela upp sammansättningar trots att den skulle ha gjort det. Metoden är mycket beroende av att sammansättningarna måste finnas i Wikipedia.

Place, publisher, year, edition, pages
2017.
Keywords [en]
Compound splitting compounding
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-202310OAI: oai:DiVA.org:kth-202310DiVA, id: diva2:1075738
External cooperation
Findwise
Educational program
Master of Science in Engineering - Computer Science and Technology
Supervisors
Examiners
Available from: 2017-02-24 Created: 2017-02-20 Last updated: 2018-01-13Bibliographically approved

Open Access in DiVA

fulltext(745 kB)89 downloads
File information
File name FULLTEXT01.pdfFile size 745 kBChecksum SHA-512
942a4ac7de881de7aae5fe12037c8618cfcb6048bb8531a58efdbb49615769a88e947387004fcc949311b11d37aa87cd70bbc8581ca3b6183816b08597eddd1f
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Le, Yvonne
By organisation
School of Computer Science and Communication (CSC)
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 89 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 270 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf