Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Automatisk dataextrahering och kategorisering av kvitton
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Biomedical Engineering and Health Systems, Health Informatics and Logistics.
KTH, School of Engineering Sciences in Chemistry, Biotechnology and Health (CBH), Biomedical Engineering and Health Systems, Health Informatics and Logistics.
2019 (Swedish)Independent thesis Basic level (university diploma), 10 credits / 15 HE creditsStudent thesisAlternative title
Automatic data extraction and categorisation of receipts (English)
Abstract [sv]

Anställda på företag gör ibland utlägg på köp åt företaget som de behöver dokumentera manuellt. För att underlätta dokumentation av utlägg hos anställda på företaget Consid AB har detta arbete haft i syfte att utveckla en tjänst som från en bild på ett kvitto kan extrahera relevant data såsom pris, datum, företagsnamn samt kategorisera kvittot. Resultatet som arbetet har medfört är en tjänst som kan extrahera text från kvitton med en säkerhet på i snitt 73 % på att texten är rätt. Efter tester kan det även fastställas att tjänsten kan hitta pris, datum och företagsnamn från ca. 64 % av testade kvitton med olika kvalité och innehåll. Tjänsten som byggdes har även implementerat två olika kategoriseringsmetoder där hälften av de testade kvittona kan kategoriseras av de båda metoderna. Efter analyser av metoder och resultat har slutsatser kunnat dragits i att tjänsten innehåller ett flertal brister samt att mer tid bör läggas för att optimera och testa tjänsten ytterligare.

Abstract [en]

Employees at companies sometimes make purchases on behalf of the company which they manually need to document. To ease the documentation of purchases made by employees at Consid AB, this study has had the goal to develop a service that from an image of a receipt can extract relevant data such as price, date, company name along with a category of the purchase. The resulting service can extract text from receipts with a confidence of 73 % in that the text is correct. Tests of the service shows that it can find price, date and company name on around 64 % of test receipts with different quality and contents. The resulting service has also implemented two different methods for categorisation where half of the test receipts could be categorised by both methods. After analysing methods and results, conclusions have been made in that the service contains of numerous flaws and that more time needs to be put in to optimise and test the service.

Place, publisher, year, edition, pages
2019. , p. 62
Series
TRITA-CBH-GRU ; 2019:023
Keywords [en]
OCR, categorisation, receipt, data extraction, machine learning, word vectors
Keywords [sv]
OCR, kategorisering, kvitto, dataextrahering, maskininlärning, ord-vektorer
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kth:diva-252827OAI: oai:DiVA.org:kth-252827DiVA, id: diva2:1322501
External cooperation
Consid AB
Subject / course
Computer Technology and Software Engineering
Educational program
Bachelor of Science in Engineering - Computer Engineering
Supervisors
Examiners
Available from: 2019-06-11 Created: 2019-06-10 Last updated: 2019-06-11Bibliographically approved

Open Access in DiVA

Automatisk dataextrahering och kategorisering av kvitton(1373 kB)37 downloads
File information
File name FULLTEXT01.pdfFile size 1373 kBChecksum SHA-512
216f93e7e91acb5f7e165135fca2b0e66e26905723ef59994619a2268b85cd8ec280c70c87eccb958b4ce33edd0df99114154f0fd517aa5f29f0c74871c017ec
Type fulltextMimetype application/pdf

By organisation
Health Informatics and Logistics
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 37 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 117 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf