Change search
ReferencesLink to record
Permanent link

Direct link
An intelligent search for feature interactions using Restricted Boltzmann Machines
Uppsala University, Disciplinary Domain of Science and Technology, Mathematics and Computer Science, Department of Information Technology.
Uppsala University, Disciplinary Domain of Science and Technology, Mathematics and Computer Science, Department of Information Technology.
2013 (English)Independent thesis Advanced level (professional degree), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

Klarna uses a logistic regression to estimate the probability that an e-store customer will default on its given credit. The logistic regression is a linear statistical model which cannot detect non-linearities in the data. The aim of this project has been to develop a program which can be used to find suitable non-linear interaction-variables. This can be achieved using a Restricted Boltzmann Machine, an unsupervised neural network, whose hidden nodes can be used to model the distribution of the data. By using the hidden nodes as new variables in the logistic regression it is possible to see which nodes that have the greatest impact on the probability of default estimates. The contents of the hidden nodes, corresponding to different parts of the data distribution, can be used to find suitable interaction-variables which will allow the modelling of non-linearities.

It was possible to find the data distribution using the Restricted Boltzmann Machine and adding its hidden nodes to the logistic regression improved the model's ability to predict the probability of default. The hidden nodes could be used to create interaction-variables which improve Klarna's internal models used for credit risk estimates.

Abstract [sv]

Klarna använder en logistisk regression för att estimera sannolikheten att en e-handelskund inte kommer att betala sina fakturor efter att ha givits kredit. Den logistiska regressionen är en linjär modell och kan därför inte upptäcka icke-linjäriteter i datan. Målet med detta projekt har varit att utveckla ett program som kan användas för att hitta lämpliga icke-linjära interaktionsvariabler. Genom att införa dessa i den logistiska regressionen blir det möjligt att upptäcka icke-linjäriteter i datan och därmed förbättra sannolikhetsestimaten.

Det utvecklade programmet använder Restricted Boltzmann Machines, en typ av oövervakat neuralt nätverk, vars dolda noder kan användas för att hitta datans distribution. Genom att använda de dolda noderna i den logistiska regressionen är det möjligt att se vilka delar av distributionen som är viktigast i sannolikhetsestimaten. Innehållet i de dolda noderna, som motsvarar olika delar av datadistributionen, kan användas för att hitta lämpliga interaktionsvariabler.

Det var möjligt att hitta datans distribution genom att använda en Restricted Boltzmann Machine och dess dolda noder förbättrade sannolikhetsestimaten från den logistiska regressionen. De dolda noderna kunde användas för att skapa interaktionsvariabler som förbättrar Klarnas interna kreditriskmodeller. 

Place, publisher, year, edition, pages
2013. , 54 p.
UPTEC F, ISSN 1401-5757 ; 13021
Keyword [en]
Machine learning, Restricted Boltzmann Machine, RBM, credit scoring, Logistic regression
National Category
Computer Science
URN: urn:nbn:se:uu:diva-202208OAI: diva2:631440
Subject / course
Computer Systems Sciences
Educational program
Master Programme in Engineering Physics
2013-06-04, Å11167, Lägerhyddsvägen 1, 752 37 Uppsala, 09:15 (Swedish)
Available from: 2013-07-04 Created: 2013-06-20 Last updated: 2013-07-04Bibliographically approved

Open Access in DiVA

fulltext(824 kB)765 downloads
File information
File name FULLTEXT01.pdfFile size 824 kBChecksum SHA-512
Type fulltextMimetype application/pdf

By organisation
Department of Information Technology
Computer Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 765 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

Total: 494 hits
ReferencesLink to record
Permanent link

Direct link