Predicting Customer Churn Rate in the iGaming Industry using Supervised Machine Learning
2018 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Prognostisering av kundbortfall inom iGaming-industrin med användning av övervakad maskininlärning (Swedish)
Abstract [en]
Mr Green is one of the leading online game providers in the European market. Their mission is to o˙er entertainment and a superior user experience to their customers. To be able to better understand each individual customer and the entire customer life cycle the concept of churn rate is essential, which is also an important input value when calculating the return on marketing e˙orts. This thesis analyzes the feasibility to use 24 hours of initial data on player characteristics and behaviour to predict the probability of each customer churning or not. This is done by examining various supervised machine learning models to determine which model best captures the customer behaviour. The evaluated models are logistic regression, random forest and linear discriminant analysis, as well as two ensemble methods using stacking and voting classifiers. The main finding is that the best accuracy is obtained using a voting ensemble method with the three base models logistic regression, random forest and linear discriminant analysis weighted as w = (0.005, 0.80, 0.015). With this model the attained accuracy is 75.94 %.
Abstract [sv]
Mr Green är en av de ledande onlinespelsleverantörerna på den europeiska mark-naden. Deras mission är att erbjuda underhållning och en överlägsen användarup-plevelse till sina kunder. För att bättre kunna förstå sina kunder och deras livs-cykel är kundbortfall ett ytterst viktigt koncept. Det är också ett viktigt mått för att kunna utvärdera resultaten av marknadsföring. Denna rapport analyserar möjligheten att, med 24 timmars data över kundbeteende, kunna avgöra vilka kun-der som kommer att lämna siten. Detta görs genom att undersöka olika modeller inom övervakad maskininlärning för att avgöra vilken som bäst fångar kundernas be-teende. Modellerna som undersöks är logistisk regression, random forest och en linjär diskriminantanalys, samt två olika sammansättningsmodeller som använder sig av stacking och voting. Resultatet av denna studie är att en sammansättningsmodell som väger modellerna logistisk regression, random forest och en linjär diskriminan-tanalys ger den högsta förklaringsgraden på 75.94 %.
Place, publisher, year, edition, pages
2018.
Series
TRITA-SCI-GRU
National Category
Computational Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-228609OAI: oai:DiVA.org:kth-228609DiVA, id: diva2:1212531
External cooperation
Mr Green
Subject / course
Financial Mathematics
Educational program
Master of Science - Industrial Engineering and Management
Supervisors
Examiners
2018-06-022018-06-022022-06-26Bibliographically approved