Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
A Survey & Implementation of Financial Alarm Classification.
KTH, School of Computer Science and Communication (CSC).
KTH, School of Computer Science and Communication (CSC).
2013 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesis
Abstract [en]

The goal of this thesis is to find, implement and evaluate a

suitable machine learning algorithm to classify and predict

true and false alerts using labelled data. Alerts are triggered

in the Scila Surveillance software when certain parameters

are exceeded in a trade, such as a to big volume

over a to small time-span.

Financial market operators are nowadays required by

law to perform market surveillance and due to the huge

amounts of data accumulated, machine learning techniques

in general and supervised learning in particular comes as a

natural choice.

This thesis starts with a survey of existing algorithms

and their performance as well as related work. The technique

of Support Vector Machines (SVM) is the most used

and overall best performing algorithm, why it is chosen to

be further tested. Next is a thorough derivation of the SVM

classifier starting with convex optimisation theory and how

SVM are mathematically constructed.

When implementing SVM both grid-search and crossvalidation

are utilized. The classifier is threaded as much as

possible to allow parallelisation which drastically reduced

computational time. The characteristics of a good classifier

is not trivial and several accuracy-measures are implemented

and tested showing that balanced accuracy and a

combined analyses of positive and negative recall are the

most useful.

The provided dataset is huge and a few specific alerts

are chosen for the proof-of-concept implementation. These

are in turn separated into subsets based on alert-specific

subcategories. Several tests are then conducted using a

lightly modified Java version of the open-source package

libsvm.

Results show that it is easy to achieve either a high

positive and low negative recall or vice versa but to find

parameters where both are high is very difficult. For this

thesis the choice of a moderately high recall is likely the

most useful one.

SVM is definitely an interesting approach and perhaps

other techniques such as neural networks or incorporating

time-series evaluation might yield even better results but

further investigations is needed.

Abstract [sv]

En undersökning & implementation för

klassificering av finansiella larm

Målet med detta examensarbete är att finna, implementera

och utvärdera en lämplig maskininlärnings-algoritm för att

klassificera och förutsäga sanna och falska larm med märkt

data. Larm utlöses i Scila Surveillance programvaran när

vissa parametrar överskrids i en handel, till exempel en för

stor volym under en för liten tidsrymd.

Finansmarknadens aktörer är numera skyldiga enligt

lag att utföra marknadsövervakning och på grund av de

enorma mängder insamlade data kommer maskininlärning

i allmänhet och övervakad inlärning i synnerhet som ett

naturligt val.

Denna avhandling börjar med en kartläggning av befintliga

algoritmer och deras prestanda samt tidigare studier.

Support Vector Machines (SVM) är den mest använda

och allmänt bäst presterande algoritmen, varför denna väljs

att testas ytterligare. Sedan följer en grundlig härledning

av SVM-klassificeraren, vilken börjar med konvex optimeringsteori

och hur SVM är matematiskt konstruerade.

Vid genomförandet av SVM utnyttjas både rutnätssökning

och korsvalidering. Klassificeraren är trådad så mycket

som möjligt för att tillåta parallellisering som drastiskt

sänker beräkningstiden. Vilka egenskaper som är bra hos en

klassificerare är inte trivialt. Efter att flera noggrannhetsmått

har implementerats och testats visar det sig att balanserad

noggrannhet och en kombinerad analys av positiv

och negativ sensitivitet är de mest användbara måtten.

Det tillhandahållna datasetet är enormt och några specifika

larm väljs för en proof-of-concept implementation.

Dessa är i sin tur uppdeladad i undergrupper baserade på

larm-specifika underkategorier. Flera tester genomförs sedan

med hjälp av en lätt modifierad Java version av opensource

paketet libsvm.

Resultaten visar att det är lätt att uppnå antingen en

hög positiv och låg negativ sensitivitet eller vice versa men

att hitta parametrar där båda är höga är mycket svårt. När

det gäller målet med denna avhandling är sannolikt valet

av en måttligt hög sensitivitet den mest användbara.

SVM är definitivt en intressant metod och det är möjligt

att andra algoritmer så som neurala nätverk eller tidsserieranalys

kan ge ännu bättre resultat men ytterligare studier

behövs.

Place, publisher, year, edition, pages
2013. , 37 p.
National Category
Engineering and Technology
Identifiers
URN: urn:nbn:se:kth:diva-142661OAI: oai:DiVA.org:kth-142661DiVA: diva2:704114
Supervisors
Examiners
Available from: 2014-03-11 Created: 2014-03-11 Last updated: 2014-03-11Bibliographically approved

Open Access in DiVA

Jens Wirén & Farhad Kimanos kandidatexarbete inom teknisk fysik, grundnivå(5782 kB)101 downloads
File information
File name FULLTEXT01.pdfFile size 5782 kBChecksum SHA-512
a2d7e5f671d16cc107ace3041c99338a8c691279a20d2b742ff53a31ab9c34fcee68d4c1521050b3d8c5bbd6bf4474b5dd58c52e4ab5872d59c347929ca060b3
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Engineering and Technology

Search outside of DiVA

GoogleGoogle Scholar
Total: 101 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 230 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf