Change search
ReferencesLink to record
Permanent link

Direct link
Application of Machine Learning on a Genome-Wide Association Studies Dataset
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Numerical Analysis, NA.
2015 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Applicering av maskininlärning på ett genome-wide association study dataset (Swedish)
Abstract [en]

The number of individuals affected by type 2 diabetes is rapidly increasing. The goal of this thesis is to investigate if type 2 diabetes can be predicted more accurately from genome-wide association data using machine learning methods opposed to traditional statistical methods. A variable selection process using random forest has been performed and the variables in the genome, called Single Nucleotide Polymorphisms (SNPs), showing the highest importance for the prediction of type 2 diabetes have been identified. It has then been considered if including these SNPs in the models over only using clinical variables or previously univariately identified SNPs will improve the performance. Furthermore, the possible improvement by using random forest over logistic regression has been considered. The analysis has resulted in identifying genes through the SNPs that are related to biological functions related to type 2 diabetes. This includes genes which have not been directly associated with the disease. These are interesting for future study. However, the results show little to no improvement in prediction performance over models using only clinical variables suggesting that the signal for type 2 diabetes in the genome-wide association dataset is weak. Similarly, there is no improvement from using random forest over logistic regression for the final models suggesting that the linear signal in the genome data is much stronger than any non-linear signal.

Abstract [sv]

Antalet individer som lider av typ 2 diabetes ökar hastigt. Målet med denna uppsats är att undersöka huruvida förekomsten av typ 2 diabetes kan förutspås mer noggrant ur genome-wide association data med hjälp av maskininlärning jämfört med traditionella statistiska metoder. En variabel urvalsprocess med random forest har utförts, där variablerna i genomet, enbaspolymorfierna (SNPs), med störst betydelse för förutsägelsen av typ 2 diabetes identifierades. Det har undersökts om inkludering av dessa SNPs i modellerna jämfört med att enbart använda kliniska variabler eller tidigare identifierade SNPs förbättrar förutsägelsen. Vidare har den potentiella förbättringen av förutsägelsen genom användning av random forest jämfört med logistisk regression undersökts. Analysen av SNPs har resulterat i identifiering av gener som är relaterade till biologiska funktioner kopplade till typ 2 diabetes. Detta inkluderar gener som inte direkt har förknippats med sjukdomen tidigare, varför de är intressanta för fortsatta studier. Resultaten visar dock liten till ingen förbättring i förmåga att förutspåtyp 2 diabetes med hjälp av den använda metoden, jämfört med att enbart använda kliniska variabler vilket kan innebära att signalen för typ 2 diabetes i genome-wide association dataset är svag. På samma sätt kan ingen förbättring observeras vid användning av random forest jämfört med logistisk regression i de färdiga modellerna vilket kan innebära att signalen i datat är mycket starkare än någon ickelinjär signal.

Place, publisher, year, edition, pages
TRITA-MAT-E, 2015:52
National Category
Computational Mathematics
URN: urn:nbn:se:kth:diva-171990OAI: diva2:845171
Subject / course
Scientific Computing
Available from: 2015-08-11 Created: 2015-08-11 Last updated: 2015-08-11Bibliographically approved

Open Access in DiVA

fulltext(3023 kB)201 downloads
File information
File name FULLTEXT01.pdfFile size 3023 kBChecksum SHA-512
Type fulltextMimetype application/pdf

By organisation
Numerical Analysis, NA
Computational Mathematics

Search outside of DiVA

GoogleGoogle Scholar
Total: 201 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

Total: 359 hits
ReferencesLink to record
Permanent link

Direct link