Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Hybrid Extended Isolation Forest: Anomaly Detection for Bird Alarm
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

The Isolation Forest algorithm is a random forest based anomaly detection algorithm utilizing isolation to determine anomality of data. The Hybrid Isolation Forest and Extended Isolation Forest algorithms were independently developed to overcome two separate issues with the Isolation Forest algorithm. By combining these algorithms the Hybrid Extended Isolation Forest algorithm was proposed and evaluated with the goal of overcoming both issues at once.

Bird Alarm is a system developed by Nordicstation for bird watchers. It allows bird watchers to create reports based on observations of birds in nature. By applying the proposed algorithm to Bird Alarm data administrators can be alerted of erroneous reports.

Performance of an algorithm is measured by Receiver Operating Characteristic or Precision-Recall curves. The proposed algorithm is compared to other Isolation Forest based algorithms by measuring the area under these curves for many datasets. Since Bird Alarm is unlabelled, anomalies are defined based on created pseudolabels. In order to maximize the performance, a hyperparameter unique to the Hybrid Isolation Forest and the proposed algorithm is optimized by random search. The effect of hyperparameter choice is investigated. An online detector for Bird Alarm is developed to automatically notify administrators of erroneous reports.

The results indicate that the proposed algorithm successfully unifies the Hybrid Isolation Forest and the Extended Isolation Forest. However, it was not conclusively found if the performance increased as it is closely tied to the choice of dataset. The proposed algorithm performed better than other evaluated algorithms for Bird Alarm, leading to its utilization in the online detector. By further evaluating the proposed algorithm on other datasets or by incorporating known anomalies into the anomaly scoring function the algorithm may be improved. Minimal datasets and ensemble sizes might yield insights into the proposed algorithm’s performance potential but is left for future studies.

Abstract [sv]

Isoleringsskog är en slumpskogsbaserad anomalidetekteringsalgoritm som använder sig av isolering för att avgöra hur avvikande en datapunkt är. Algoritmerna hybridisoleringsskog och extenderad isoleringsskog utvecklades självständigt för att lösa två separata problem med isoleringsskogsalgoritmen. Genom att kombinera dessa algoritmer föreslås och evalueras algoritmen hybridextenderad isoleringsskog med syfte att lösa båda dessa problem samtidigt.

Bird Alarm är ett system för fågelskådare som utvecklats av företaget Nordicstation. Systemet låter fågelskådare skapa rapporter baserade på observationer av fåglar ute i naturen. Genom att applicera den föreslagna algoritmen på data i Bird Alarm kan administratörer notifieras då felaktiga rapporter kommer in.

En algoritms prestanda mäts genom ROCeller PR-kurvor. Den föreslagna algoritmen jämförs med andra isoleringsskogsbaserade algoritmer genom att mäta arean under dessa kurvor för ett flertal datamängder. Då Bird Alarm saknar etiketter (som utmärker vad som är en anomali och vad som är normalt) definieras anomalier baserat på skapade pseudoetiketter. För att maximera prestandan optimeras en hyperparameter som endast förekommer hos hybridisoleringsskog och den föreslagna algoritmen genom slumpmässig parametersökning. Effekten av val av några utvalda övriga hyperparametrar studeras. En onlinedetektor för Bird Alarm utvecklas för att automatiskt notifiera administratörer då felaktiga rapporter detekteras.

Resultaten indikerar att den föreslagna algoritmen framgångsrikt förenar hybridisoleringsskog och extenderad isoleringsskog. Dock fås inga slutgiltiga svar i huruvida prestandan hos den föreslagna algoritmen var högre (än hos övriga evaluerade algoritmer) då prestandan är tätt sammankopplad med den evaluerade datamängden. Den föreslagna algoritmen uppvisade högre prestanda på Bird Alarm, varför den används för onlinedetektorn. Genom att fortsatt evaluera den föreslagna algoritmen på andra datamängder eller genom att inkorporera kända anomalier i poängfunktionen (som avgör hur avvikande en punkt är) tros algoritmen kunna förbättras. Minimala datamängder och ensembler kan ge ökad insikt i den föreslagna algoritmens potentiella prestanda men detta lämnas åt framtida studier.

Place, publisher, year, edition, pages
2019. , p. 75
Series
TRITA-EECS-EX ; 2019:195
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-254968OAI: oai:DiVA.org:kth-254968DiVA, id: diva2:1337062
Educational program
Master of Science - Machine Learning
Supervisors
Examiners
Available from: 2019-07-11 Created: 2019-07-11 Last updated: 2019-07-11Bibliographically approved

Open Access in DiVA

fulltext(10945 kB)40 downloads
File information
File name FULLTEXT01.pdfFile size 10945 kBChecksum SHA-512
718ad77cba08b9ea99889abfa084c6f377b56afd8372d01315506bab0c94473bd2ee4cfb109b328a2fcc0fe4e1abebe2ba5215a1ad4389a1825d28b9cf6caf85
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 40 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 175 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf