Digitala Vetenskapliga Arkivet

Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Benchmarking Sentence-Transformers for Duplicate Bug Detection on Novel Dataset: Enhancing Duplicate Bug Detection Using Machine Learning in Video Transport and Media Cloud Systems
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2024 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)Alternativ titel
Utforskning av Sentence-Transformers för Detektering av Dubblettbuggar på Nytt Dataset : Förbättrad Duplicatbuggsdetektion med Maskininlärning i Videotransport- och Mediemolnsystem (Svenska)
Abstract [en]

As today’s software systems grow in complexity, ensuring their reliability through effective testing becomes increasingly important. Efficient and reliable software is the backbone that holds these complex systems together, ensuring robust and uninterrupted user experiences. Maintaining and debugging these systems is a challenging task, particularly when dealing with extensive log data generated during regression tests. This thesis focuses on enhancing duplicate bug detection (DBD) within the video transport and media cloud technology domain, and aims to improve operational efficiency and reduce manual effort in detecting and classifying duplicate bugs. To address this issue, we compile a dataset collected from log data generated during regression tests and employ two methods to compare different sentence-transformers in their ability to capture similarities in bug reports. By developing and testing this dataset, we address the practical needs of improving operational efficiency and reducing manual effort in detecting and classifying duplicate bugs. The research provides insights into the effectiveness of various sentencetransformers for duplicate bug detection, offering a comparative analysis that guides the selection of the most suitable model. In the end, our findings indicate that the k-nearest neighbors (KNN) approach, combined with the multi-qa-mpnet-base-cos-v1 model, is the most effective method for achieving high accuracy in this context.

Abstract [sv]

I takt med att dagens mjukvarusystem blir alltmer komplexa blir det allt viktigare att säkerställa deras tillförlitlighet genom effektiv testning. Effektiv och tillförlitlig mjukvara är ryggraden som håller dessa komplexa system samman och säkerställer robusta och oavbrutna användarupplevelser. Att underhålla och felsöka dessa system är en utmanande uppgift, särskilt när man hanterar omfattande loggdata som genereras under regressionstester. Denna studie fokuserar på att förbättra upptäckten av duplicerade buggar (DBD) inom området för videotranport och mediamolnteknologi, med målet att förbättra operativ effektivitet och minska det manuella arbetet med att upptäcka och klassificera duplicerade buggar. För att tackla detta problem har vi sammanställt ett dataset som samlats in från loggdata genererad under regressionstester och använt två metoder för att jämföra olika sentencetransformers i deras förmåga att fånga likheter i buggrapporter. Genom att utveckla och testa detta dataset hanterar vi de praktiska behoven av att förbättra den operativa effektiviteten och minska det manuella arbetet med att upptäcka och klassificera duplicerade buggar. Forskningen ger insikter i effektiviteten hos olika sentence-transformers för upptäckt av duplicerade buggar och erbjuder en jämförande analys som vägleder valet av den mest lämpliga modellen. I slutändan visar våra resultat att k-nearest neighbors (KNN)-metoden, i kombination med multi-qa-mpnetbase- cos-v1-modellen, är den mest effektiva metoden för att uppnå hög noggrannhet i detta sammanhang.

Ort, förlag, år, upplaga, sidor
2024. , s. 42
Serie
TRITA-EECS-EX ; 2024:857
Nyckelord [en]
Duplicate Bug Detection, Sentence Transformers, Machine Learning, KNearest Neighbors, Log Data Analysis, Natural Language Processing
Nyckelord [sv]
Duplicatbuggsdetektion, Sentence Transformers, Maskininlärning, K-närmaste grannar, Loggdataanalys, Språkbehandling
Nationell ämneskategori
Data- och informationsvetenskap
Identifikatorer
URN: urn:nbn:se:kth:diva-360664OAI: oai:DiVA.org:kth-360664DiVA, id: diva2:1941454
Externt samarbete
Net Insight
Handledare
Examinatorer
Tillgänglig från: 2025-03-06 Skapad: 2025-02-28 Senast uppdaterad: 2025-03-06Bibliografiskt granskad

Open Access i DiVA

fulltext(679 kB)56 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 679 kBChecksumma SHA-512
f2373f029a5952a1068d93a929bba0072fcddad0a069a85741d3da3d9c9fb5b536dab746b3ab8976d9bb214b4fbfbbe4f24df75b0d710b19900baee4d8d7109b
Typ fulltextMimetyp application/pdf

Av organisationen
Skolan för elektroteknik och datavetenskap (EECS)
Data- och informationsvetenskap

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 57 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 329 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf