Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Utvärdering av inläsning av XML-kontra flatfiler
Linköping University, Department of Computer and Information Science. Linköping University, The Institute of Technology.
2012 (Swedish)Independent thesis Basic level (degree of Bachelor), 10,5 credits / 16 HE creditsStudent thesis
Abstract [sv]

Examensarbetet har utförts på Skatteverkets kontor i Visby. Eftersom Skatteverket arbetar med ett befintligt projekt som medför en kommande förändring på filformatet från flatfil till XML-fil så fanns en oro över att det nya formatet skulle medföra prestandaproblem. Därför ville Skatteverket göra en utvärdering på inläsningen från filformaten till en databas med fokus på prestanda men även andra kvalitetskriterier.

Målet med examensarbetet var att jämföra inläsningen av de olika filformaten där systemet skulle klara av hundratals till hundratusentals kontrolluppgifter för att sedan sammanställa resultatet av jämförelsen i en rapport.

För att arbetet skulle kunna utföras så behövdes en lokal utvecklings- och testmiljö installeras. Testdata behövde även tas fram för att kunna utföra utvärderingen.

Slutsatsen blev inte helt oväntat att flatfilsformatet är snabbare att läsa av än XML-formatet. Detta grundar sig i att XML-formatet innehåller betydligt fler tecken än flatfilsformatet. Flatfilsparsern var i genomsnitt 29% snabbare än XML-parsern i de fallen då ett hundratal kontrolluppgifter till flera hundratusentals parsades. Resultatet var dock mer oväntat då skillnaden i filstorlek mellan formaten förhöll sig konstant runt 80% för samma antal kontrolluppgifter. I min mening tycker jag att skillnaden i berarbetningstid och filstorlek borde ha varit mer jämna procentuellt. En graf med bearbetningstiderna finns att se i rapporten.

Resultatet blev fyra stycken Eclipse-projekt på totalt 2988 rader kod. XML-parsern som valdes för utvärderingen var SAX-parsern, vilket var den mest lämpade parsern då den strömmar inläsningen av XML-dokument och håller därför en låg minnesanvändning. Flatfilsparsern var lite knepigare, då det inte fanns en färdig parser att tillgå som var anpassat efter formatet, därför var jag tvungen att skriva en egen parser för Skatteverkets format. Detta går att läsa mer om i rapporten.

Place, publisher, year, edition, pages
2012. , 33 p.
Keyword [sv]
XML, flatfil, Java, SQL, databas, Skatteverket, Kontrolluppgifter
National Category
Computer Science
Identifiers
URN: urn:nbn:se:liu:diva-87037ISRN: LIU-IDA/LITH-EX-G--12/012--SEOAI: oai:DiVA.org:liu-87037DiVA: diva2:584301
Subject / course
Computer and information science at the Institute of Technology
Uppsok
Technology
Examiners
Available from: 2013-01-15 Created: 2013-01-08 Last updated: 2013-01-15Bibliographically approved

Open Access in DiVA

matpe860-utvardering-xml-flatfil(587 kB)381 downloads
File information
File name FULLTEXT01.pdfFile size 587 kBChecksum SHA-512
86ec18e07c5651e88072aa8df7a84ec51410cf6a4aab8c6bb1f8a3730b769a3b0003659c0b4374b331c6efc85d59c93d1906c81d9081f2be0ba5420aa95f8d03
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Pettersson, Mathias
By organisation
Department of Computer and Information ScienceThe Institute of Technology
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 381 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 132 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf