Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Automatisering med hjälp av artificiell intelligens
Stockholm University, Faculty of Social Sciences, Department of Computer and Systems Sciences.
Stockholm University, Faculty of Social Sciences, Department of Computer and Systems Sciences.
2024 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [sv]

Denna uppsats utforskar AI-teknikens roll i automatisk metadatagenerering för ostrukturerad data. Genom metodiken design science utvecklades en artefakt för att automatiskt generera metadata med hjälp av de naturliga språkmodellerna (NLP) RoBERTa och DeBERTaV3. Intervjuer med arkivarier som arbetar på TAM-Arkiv och AI-forskare bidrog till identifiering av krav. Den tematiska analysen avslöjade teman Hög datakvalitet och Hantera stora mängder ostrukturerade filer, vilket ledde till krav på säker datahantering, skalbarhet och integration med befintliga system.

Artefakten genererade framgångsrikt ett antal metadata som specificerats av uppdragsgivaren. Det finns dock begränsningar: metadata för process, klassificering (offentlig/intern) och känsliga data genererades inte, och pricksäkerheten samt tidsåtgången varierade för vissa metadata.

Uppsatsen visar att artefakten som utvecklats med NLP-modellerna RoBERTa och DeBERTaV3 kan effektivt generera vissa metadata, särskilt för bredare definitioner. Däremot fungerar artefakten mindre bra för snäva definitioner och uppgifter som är bättre lämpade för programmatiska lösningar, som inte använder AI. Denna uppsats identifierar viktiga krav för automatisering av metadata, vilket belyser vikten av hög datakvalitet och sömlös integration med befintliga system. Framtida arbeten kan utforska finjustering av NLP för förbättrad noggrannhet, textgenerering för ytterligare metadata, förbättrad integration med befintliga och olika dokumenthanteringssystem och bredare täckning av OAIS metadatakategorier.

Abstract [en]

This thesis explores AI technology's role in automatic metadata generation for unstructured data. Employing design science methodology, an artifact was developed to automatically generate metadata using natural language models (NLPs) RoBERTa and DeBERTaV3. Interviews with archivists working at TAM-Arkiv and AI researchers informed requirement identification. The thematic analysis revealed the themes High data quality and Managing large amounts of unstructured files, leading to requirements for secure data management, scalability, and integration with existing systems.

The artefact successfully generated a number of metadata specified by the client. However, there are limitations: process, classification (public/internal) and sensitive data metadata were not generated, and the accuracy and timeliness of some metadata varied.

This thesis shows that the artefact developed with the NLP models RoBERTa and DeBERTaV3 can effectively generate some metadata, especially for broader definitions. In contrast, the artefact works less well for narrow definitions and tasks that are better suited to programmatic solutions, which do not use AI. This research identifies key requirements for metadata automation, highlighting the importance of high data quality and seamless integration with existing systems. Future work could explore fine-tuning NLP for improved accuracy, text generation for additional metadata, improved integration with existing and different document management systems, and broader coverage of OAIS metadata categories.

Place, publisher, year, edition, pages
2024.
Keywords [en]
AI, BERT, RoBERTa, DeBERTaV3, Metadata, Unstructured data, Digital preservation, OAIS, Design science, Automatization, Generation
Keywords [sv]
AI, BERT, RoBERTa, DeBERTaV3, Metadata, Ostrukturerad data, Digitalt bevarande, OAIS, Design science, Automatisering, Generering
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:su:diva-242656OAI: oai:DiVA.org:su-242656DiVA, id: diva2:1955547
Available from: 2025-04-30 Created: 2025-04-30

Open Access in DiVA

fulltext(1069 kB)17 downloads
File information
File name FULLTEXT01.pdfFile size 1069 kBChecksum SHA-512
771b6aff6f9ca1576c11ce60d38280f703d4dfaa56260ea54abde64a211fba8deb26d9f2340246bafce070d732b4b15ee37c5802aba135a210632028e19c6e2d
Type fulltextMimetype application/pdf

Search in DiVA

By author/editor
Westerberg, ErikRitzler, Edvin
By organisation
Department of Computer and Systems Sciences
Computer Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 17 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 12 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf