Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Automatisk Dokument Klassifikation: Heuristisk Klustring
Växjö University, Faculty of Mathematics/Science/Technology, School of Mathematics and Systems Engineering. Institutionen för Matematik, Statistik och ADB, Högskolan i Växjö .ORCID iD: 0000-0002-8132-2698
1992 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Automatic Document Classification : Heuristic Clustering (English)
Abstract [sv]

I detta arbete har jag studerat automatisk klassifikation av texter i syfte att sortera dem i grupper om liknande innehåll. Texterna jämfördes med varandra och om de uppvisade tillräckligt hög innehållsmässig överensstämmelse läggs de i samma kluster. Den metod som jag har studerat, heuristisk klustergenerering, syftar till att sortera texter utan förkunskap om deras innehåll. Vid klassifikationen används orden i texterna, vilka avspeglar innehållet i texterna. Då är det intressant att studera vilka egenskaper orden har som kan utnyttjas vid klassifikationen av texterna. Syftet med arbetet var här att studera ordens statistiska egenskaper, frekvenser och förekomster. Vid klustergenereringen studerade jag både representation av texter genom deras ord och dels genom deras trigram, överlappande trebokstavskombinationer. De resultat jag uppnådde med min studie av orden visade att de har statistiska egenskaper, både i enskilda texter och i hela textsamlingen, som kan utnyttjas för klassifikation. Resultat ifrån klusterstudien visade att ingen skillnad fanns mellan nyttjandet av ord eller trigram. Vid likartad fördelning av texterna så hade större krav på trigram överensstämmelser ställts. Detta därför att samma trigram fanns i flertalet olika ord. Fördelen med trigram framför ord är att de krävde mindre utrymme tack vare deras begränsade längd. Den klusterstruktur som skapades avspeglade ungefär texternas relationer. Relationerna mellan texterna, inom och utanför klustren, är baserade på syntaktiska likheter varför det är omöjligt att exakt kunna beskriva de faktiska relationerna.

Place, publisher, year, edition, pages
Växjö, Sweden: Department of Mathematics, Statistics and Computer Science, Växjö University , 1992. , p. 29
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:lnu:diva-15748OAI: oai:DiVA.org:lnu-15748DiVA: diva2:455262
Subject / course
Computer Science
Supervisors
Note

Bachelor thesis in partial fulfillment of the Bachelor of Science degree in Systems Analysis

Available from: 2011-11-09 Created: 2011-11-09 Last updated: 2018-01-12Bibliographically approved

Open Access in DiVA

fulltext(164 kB)60 downloads
File information
File name FULLTEXT01.pdfFile size 164 kBChecksum SHA-512
bd707f48f30b4785aa6c2428a1b9454c165ebc17c13ddcf7f579b879e6fda5d756dc91acd306699e63d88769d52740fd38d4303e15282e22300bc13eb942958f
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Eberhagen, Niclas
By organisation
School of Mathematics and Systems Engineering
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 60 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 84 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf