Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Detecting Performance Anomalies in a Mobile Application with Unsupervised Machine Learning
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Unsupervised anomaly detection algorithms are applied with the purpose of identifying performance regressions in a mobile application. To evaluate the performance, a labeled artificial data set is generated that is based on a real data set and that aims to reflect its properties. In addition to evaluating multiple classes of anomaly detection algorithms, the data set was manipulated in different ways to reduce variance and yield continuous time series, and the encoding from categorical features to numerical values was carried out with various approaches. The best results were achieved for the algorithm isolation forest without any data set manipulations and with randomized encodings for all categorical features as well as the timestamp. Using a randomized encoding for anomaly detection is a previously unexplored research area, and is shown to improve performance due to it making anomalies more separable and reducing the effects of masking.In conclusion, the results are deemed to demonstrate that anomalies are possible to detect in the studied data set and that this report serves as a satisfactory proof of concept. The results are however not regarded to be sufficient for the outlined methodology to be ready to be implemented in a production setting, especially due to low detection rates of anomalies of small magnitudes. Suggestions for future works are given regarding the encoding method, feature selection, other algorithms that would be of interest to evaluate, and applying a clustering and filtering strategy to the detected anomalies to reduce the amount of false positives.

Abstract [sv]

Oövervakade algoritmer för anomalidetektering appliceras med syftet att identifiera prestandaproblem i en mobilapplikation. För att utvärdera algoritmernas resultat skapas ett etiketterat artificiellt dataset som är baserat på det riktiga datasetet och som är designat för att efterlikna dess egenskaper. Utöver att utvärdera flera typer av algoritmer för anomalidetektering så manipuleras datasetet på flera sätt för att minska variansen och erhålla kontinuerliga tidsserier. Kodningen från kategoriska attribut till numeriska värden genomförs med olika metoder. De bästa resultaten uppnåddes med algoritmen isolation forest utan några manipulationer av datasetet och med slumpmässig kodning för alla kategoriska attribut såväl som tidsstämpeln. Att använda en slumpmässig kodning för anomalidetektering är ett tidigare outforskat forskningsområde, och visas förbättra resultaten eftersom det leder till att anomalier blir mer distinkta och att maskeringseffekter minskar.Sammanfattningsvis visar resultaten att anomalier kan upptäckas i det studerade datasetet och rapporten validerar detta väl. Resultaten bedöms dock inte vara tillräckliga för att den beskrivna metoden ska vara redo att implementeras i en produktionsmiljö, främst beroende på att få anomalier med liten magnitud upptäcktes. Förslag ges för framtida arbeten kring kodningsmetoder, val av attribut, andra algoritmer som skulle vara intressanta att utvärdera, och att applicera en klustringsoch filtreringsstrategi på de detekterade anomalierna för att minska mängden falska positiva.

Place, publisher, year, edition, pages
2019. , p. 60
Series
TRITA-EECS-EX ; 2019:227
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-254972OAI: oai:DiVA.org:kth-254972DiVA, id: diva2:1337068
Subject / course
Computer Science
Educational program
Master of Science in Engineering - Industrial Engineering and Management
Examiners
Available from: 2019-07-11 Created: 2019-07-11 Last updated: 2019-07-11Bibliographically approved

Open Access in DiVA

fulltext(1009 kB)50 downloads
File information
File name FULLTEXT01.pdfFile size 1009 kBChecksum SHA-512
93eb7954161436e7f094b65cc65a5aab3d4219e55d461a5531ec56ac2d29016e1ebb6352f319cad7b36f14276233461dd0a8eac704f9c847fc3b5978cb2e8009
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 50 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 260 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf