Automatisering med hjälp av artificiell intelligens
2024 (Swedish)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesis
Abstract [sv]
Denna uppsats utforskar AI-teknikens roll i automatisk metadatagenerering för ostrukturerad data. Genom metodiken design science utvecklades en artefakt för att automatiskt generera metadata med hjälp av de naturliga språkmodellerna (NLP) RoBERTa och DeBERTaV3. Intervjuer med arkivarier som arbetar på TAM-Arkiv och AI-forskare bidrog till identifiering av krav. Den tematiska analysen avslöjade teman Hög datakvalitet och Hantera stora mängder ostrukturerade filer, vilket ledde till krav på säker datahantering, skalbarhet och integration med befintliga system.
Artefakten genererade framgångsrikt ett antal metadata som specificerats av uppdragsgivaren. Det finns dock begränsningar: metadata för process, klassificering (offentlig/intern) och känsliga data genererades inte, och pricksäkerheten samt tidsåtgången varierade för vissa metadata.
Uppsatsen visar att artefakten som utvecklats med NLP-modellerna RoBERTa och DeBERTaV3 kan effektivt generera vissa metadata, särskilt för bredare definitioner. Däremot fungerar artefakten mindre bra för snäva definitioner och uppgifter som är bättre lämpade för programmatiska lösningar, som inte använder AI. Denna uppsats identifierar viktiga krav för automatisering av metadata, vilket belyser vikten av hög datakvalitet och sömlös integration med befintliga system. Framtida arbeten kan utforska finjustering av NLP för förbättrad noggrannhet, textgenerering för ytterligare metadata, förbättrad integration med befintliga och olika dokumenthanteringssystem och bredare täckning av OAIS metadatakategorier.
Abstract [en]
This thesis explores AI technology's role in automatic metadata generation for unstructured data. Employing design science methodology, an artifact was developed to automatically generate metadata using natural language models (NLPs) RoBERTa and DeBERTaV3. Interviews with archivists working at TAM-Arkiv and AI researchers informed requirement identification. The thematic analysis revealed the themes High data quality and Managing large amounts of unstructured files, leading to requirements for secure data management, scalability, and integration with existing systems.
The artefact successfully generated a number of metadata specified by the client. However, there are limitations: process, classification (public/internal) and sensitive data metadata were not generated, and the accuracy and timeliness of some metadata varied.
This thesis shows that the artefact developed with the NLP models RoBERTa and DeBERTaV3 can effectively generate some metadata, especially for broader definitions. In contrast, the artefact works less well for narrow definitions and tasks that are better suited to programmatic solutions, which do not use AI. This research identifies key requirements for metadata automation, highlighting the importance of high data quality and seamless integration with existing systems. Future work could explore fine-tuning NLP for improved accuracy, text generation for additional metadata, improved integration with existing and different document management systems, and broader coverage of OAIS metadata categories.
Place, publisher, year, edition, pages
2024.
Keywords [en]
AI, BERT, RoBERTa, DeBERTaV3, Metadata, Unstructured data, Digital preservation, OAIS, Design science, Automatization, Generation
Keywords [sv]
AI, BERT, RoBERTa, DeBERTaV3, Metadata, Ostrukturerad data, Digitalt bevarande, OAIS, Design science, Automatisering, Generering
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:su:diva-242656OAI: oai:DiVA.org:su-242656DiVA, id: diva2:1955547
2025-04-302025-04-30