Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Automatisk yrkeskodning med rättstavning och textkategorisering
KTH, School of Computer Science and Communication (CSC).
2015 (Swedish)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Automatic survey coding with spell checking and text categorization (English)
Abstract [sv]

Statistiska Centralbyrån (SCB) samlar in data i form av enkätundersökningar. Dessa data måste sedan kodas med olika klassifikationer för att kunna användas i statistikproduktion. En sådan klassifikation är Socioekonomisk indelning (SEI).

Denna rapport behandlar hur man automatiskt kan SEI-koda sådana enkätundersökningar så att varje enkät tilldelas en SEI-kod. SCB:s nuvarande algoritm kodar ca 50% av enkäterna och bygger på att det yrke som är angivet i enkäten finns med i ett lexikon. Om yrket inte finns med kan enkäten inte kodas. Målet med detta arbete är att hitta bättre algoritmer som klarar av att koda fler enkäter. Som alternativ presenteras två algoritmer, en som bygger på rättstavning och en som bygger på textkategorisering med maskininlärning.

Rättstavningsalgoritmen försöker rättstava de inkommna yrkena och sedan jämföra mot det lexikon som SCB använder. Denna algoritm lyckas koda något fler enkäter än vad originalalgoritmen klarar av. Hur stor förbättringen blir beror på hur många felstavningar det finns bland enkätdatat.

Maskininlärningsalgoritmen representerar enkäterna med en bag-of-words-modell som sedan tränar en Stödvektormaskin. Då problemet har multipla klasser används en En-mot-alla metod för att hantera detta.

Vi drar slutsatsen att en kombination av de tre nämnda algoritmerna presterar bäst. Den största svårigheten är att kunna koda många enkäter men samtidigt bibehålla en hög precision. När algoritmerna kombineras kompletterar de också varandra. Både rättstavningsalgoritmen och maskininlärningsalgoritmen förbättrar därför kodningsprestandan jämfört med den ursprungliga algoritmen.

Place, publisher, year, edition, pages
2015. , 41 p.
Keyword [sv]
rättstavning, klassificering, maskininlärning, suport vector machines, stödvektormaskiner, wagner-fischer, levenshtein
National Category
Computer Science
Identifiers
URN: urn:nbn:se:kth:diva-168981OAI: oai:DiVA.org:kth-168981DiVA: diva2:819069
External cooperation
Statistiska Centralbyrån
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Computer Science and Technology
Available from: 2015-06-29 Created: 2015-06-09 Last updated: 2015-06-29Bibliographically approved

Open Access in DiVA

fulltext(770 kB)120 downloads
File information
File name FULLTEXT01.pdfFile size 770 kBChecksum SHA-512
6a493ddd64d115ae2bb1bb9bf7992f83d405b35a6023c8d2ffff6a0777fdac748406fc7cbb16207a8301bd125a797dd92b82cb1f2e8b4bde5d41f2a6c0f10a6f
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 120 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 136 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf