Digitala Vetenskapliga Arkivet

Endre søk
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Benchmarking Sentence-Transformers for Duplicate Bug Detection on Novel Dataset: Enhancing Duplicate Bug Detection Using Machine Learning in Video Transport and Media Cloud Systems
KTH, Skolan för elektroteknik och datavetenskap (EECS).
2024 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hpOppgaveAlternativ tittel
Utforskning av Sentence-Transformers för Detektering av Dubblettbuggar på Nytt Dataset : Förbättrad Duplicatbuggsdetektion med Maskininlärning i Videotransport- och Mediemolnsystem (svensk)
Abstract [en]

As today’s software systems grow in complexity, ensuring their reliability through effective testing becomes increasingly important. Efficient and reliable software is the backbone that holds these complex systems together, ensuring robust and uninterrupted user experiences. Maintaining and debugging these systems is a challenging task, particularly when dealing with extensive log data generated during regression tests. This thesis focuses on enhancing duplicate bug detection (DBD) within the video transport and media cloud technology domain, and aims to improve operational efficiency and reduce manual effort in detecting and classifying duplicate bugs. To address this issue, we compile a dataset collected from log data generated during regression tests and employ two methods to compare different sentence-transformers in their ability to capture similarities in bug reports. By developing and testing this dataset, we address the practical needs of improving operational efficiency and reducing manual effort in detecting and classifying duplicate bugs. The research provides insights into the effectiveness of various sentencetransformers for duplicate bug detection, offering a comparative analysis that guides the selection of the most suitable model. In the end, our findings indicate that the k-nearest neighbors (KNN) approach, combined with the multi-qa-mpnet-base-cos-v1 model, is the most effective method for achieving high accuracy in this context.

Abstract [sv]

I takt med att dagens mjukvarusystem blir alltmer komplexa blir det allt viktigare att säkerställa deras tillförlitlighet genom effektiv testning. Effektiv och tillförlitlig mjukvara är ryggraden som håller dessa komplexa system samman och säkerställer robusta och oavbrutna användarupplevelser. Att underhålla och felsöka dessa system är en utmanande uppgift, särskilt när man hanterar omfattande loggdata som genereras under regressionstester. Denna studie fokuserar på att förbättra upptäckten av duplicerade buggar (DBD) inom området för videotranport och mediamolnteknologi, med målet att förbättra operativ effektivitet och minska det manuella arbetet med att upptäcka och klassificera duplicerade buggar. För att tackla detta problem har vi sammanställt ett dataset som samlats in från loggdata genererad under regressionstester och använt två metoder för att jämföra olika sentencetransformers i deras förmåga att fånga likheter i buggrapporter. Genom att utveckla och testa detta dataset hanterar vi de praktiska behoven av att förbättra den operativa effektiviteten och minska det manuella arbetet med att upptäcka och klassificera duplicerade buggar. Forskningen ger insikter i effektiviteten hos olika sentence-transformers för upptäckt av duplicerade buggar och erbjuder en jämförande analys som vägleder valet av den mest lämpliga modellen. I slutändan visar våra resultat att k-nearest neighbors (KNN)-metoden, i kombination med multi-qa-mpnetbase- cos-v1-modellen, är den mest effektiva metoden för att uppnå hög noggrannhet i detta sammanhang.

sted, utgiver, år, opplag, sider
2024. , s. 42
Serie
TRITA-EECS-EX ; 2024:857
Emneord [en]
Duplicate Bug Detection, Sentence Transformers, Machine Learning, KNearest Neighbors, Log Data Analysis, Natural Language Processing
Emneord [sv]
Duplicatbuggsdetektion, Sentence Transformers, Maskininlärning, K-närmaste grannar, Loggdataanalys, Språkbehandling
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-360664OAI: oai:DiVA.org:kth-360664DiVA, id: diva2:1941454
Eksternt samarbeid
Net Insight
Veileder
Examiner
Tilgjengelig fra: 2025-03-06 Laget: 2025-02-28 Sist oppdatert: 2025-03-06bibliografisk kontrollert

Open Access i DiVA

fulltext(679 kB)54 nedlastinger
Filinformasjon
Fil FULLTEXT01.pdfFilstørrelse 679 kBChecksum SHA-512
f2373f029a5952a1068d93a929bba0072fcddad0a069a85741d3da3d9c9fb5b536dab746b3ab8976d9bb214b4fbfbbe4f24df75b0d710b19900baee4d8d7109b
Type fulltextMimetype application/pdf

Av organisasjonen

Søk utenfor DiVA

GoogleGoogle Scholar
Totalt: 55 nedlastinger
Antall nedlastinger er summen av alle nedlastinger av alle fulltekster. Det kan for eksempel være tidligere versjoner som er ikke lenger tilgjengelige

urn-nbn

Altmetric

urn-nbn
Totalt: 326 treff
RefereraExporteraLink to record
Permanent link

Direct link
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annet format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annet språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf