Benchmarking Sentence-Transformers for Duplicate Bug Detection on Novel Dataset: Enhancing Duplicate Bug Detection Using Machine Learning in Video Transport and Media Cloud Systems
2024 (engelsk)Independent thesis Advanced level (degree of Master (Two Years)), 20 poäng / 30 hp
OppgaveAlternativ tittel
Utforskning av Sentence-Transformers för Detektering av Dubblettbuggar på Nytt Dataset : Förbättrad Duplicatbuggsdetektion med Maskininlärning i Videotransport- och Mediemolnsystem (svensk)
Abstract [en]
As today’s software systems grow in complexity, ensuring their reliability through effective testing becomes increasingly important. Efficient and reliable software is the backbone that holds these complex systems together, ensuring robust and uninterrupted user experiences. Maintaining and debugging these systems is a challenging task, particularly when dealing with extensive log data generated during regression tests. This thesis focuses on enhancing duplicate bug detection (DBD) within the video transport and media cloud technology domain, and aims to improve operational efficiency and reduce manual effort in detecting and classifying duplicate bugs. To address this issue, we compile a dataset collected from log data generated during regression tests and employ two methods to compare different sentence-transformers in their ability to capture similarities in bug reports. By developing and testing this dataset, we address the practical needs of improving operational efficiency and reducing manual effort in detecting and classifying duplicate bugs. The research provides insights into the effectiveness of various sentencetransformers for duplicate bug detection, offering a comparative analysis that guides the selection of the most suitable model. In the end, our findings indicate that the k-nearest neighbors (KNN) approach, combined with the multi-qa-mpnet-base-cos-v1 model, is the most effective method for achieving high accuracy in this context.
Abstract [sv]
I takt med att dagens mjukvarusystem blir alltmer komplexa blir det allt viktigare att säkerställa deras tillförlitlighet genom effektiv testning. Effektiv och tillförlitlig mjukvara är ryggraden som håller dessa komplexa system samman och säkerställer robusta och oavbrutna användarupplevelser. Att underhålla och felsöka dessa system är en utmanande uppgift, särskilt när man hanterar omfattande loggdata som genereras under regressionstester. Denna studie fokuserar på att förbättra upptäckten av duplicerade buggar (DBD) inom området för videotranport och mediamolnteknologi, med målet att förbättra operativ effektivitet och minska det manuella arbetet med att upptäcka och klassificera duplicerade buggar. För att tackla detta problem har vi sammanställt ett dataset som samlats in från loggdata genererad under regressionstester och använt två metoder för att jämföra olika sentencetransformers i deras förmåga att fånga likheter i buggrapporter. Genom att utveckla och testa detta dataset hanterar vi de praktiska behoven av att förbättra den operativa effektiviteten och minska det manuella arbetet med att upptäcka och klassificera duplicerade buggar. Forskningen ger insikter i effektiviteten hos olika sentence-transformers för upptäckt av duplicerade buggar och erbjuder en jämförande analys som vägleder valet av den mest lämpliga modellen. I slutändan visar våra resultat att k-nearest neighbors (KNN)-metoden, i kombination med multi-qa-mpnetbase- cos-v1-modellen, är den mest effektiva metoden för att uppnå hög noggrannhet i detta sammanhang.
sted, utgiver, år, opplag, sider
2024. , s. 42
Serie
TRITA-EECS-EX ; 2024:857
Emneord [en]
Duplicate Bug Detection, Sentence Transformers, Machine Learning, KNearest Neighbors, Log Data Analysis, Natural Language Processing
Emneord [sv]
Duplicatbuggsdetektion, Sentence Transformers, Maskininlärning, K-närmaste grannar, Loggdataanalys, Språkbehandling
HSV kategori
Identifikatorer
URN: urn:nbn:se:kth:diva-360664OAI: oai:DiVA.org:kth-360664DiVA, id: diva2:1941454
Eksternt samarbeid
Net Insight
Veileder
Examiner
2025-03-062025-02-282025-03-06bibliografisk kontrollert