Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Towards disease progression sub-typing via responsibility sampling for robust expectation-maximisation learning
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Optimization and Systems Theory.
2019 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Mot sjukdomsförloppsmodellering via stokastisk parameter optimering för blandningsmodeller (Swedish)
Abstract [en]

Most diseases have different heterogeneous effects on patients. Broadly, one may conclude what manifested symptoms correspond to which diagnosis, but usually there is more than one disease progression pattern. Because there is more than one pattern, and because each pattern may require a bespoke (and personalised) therapeutic intervention, time-series clustering is one option by which disease subpopulations can be identified. Such patient sub-typing is difficult due to information heterogeneity, information sparsity (few longitudinal observations) and complex temporal governing disease dynamics. To deal with these problems, and seeking to gain a robust description of them, we introduce a generative clustering model by way of a mixture of hidden Markov models. Our model deals with non-ergodic temporal dynamics, has variable state cardinality for the mixtures components and initialises the mixture in a more structured way than current methods. With the task of disease progression modelling in mind, we also take a broader perspective on parameter learning in finite mixture models (FFM). In many mixture models, obtaining optimal or near-optimal parameters is difficult with current learning methods, where the most common approach is to employ monotone learning algorithms e.g. the conventional expectation-maximisation algorithm. While effective, the success of any monotone algorithm is crucially dependant on good parameter initialisation. A common approach is to repeat the learning procedure multiple times starting from different points in the parameter space or to employ model specific initialisation schemes e.g. K-means initialisation for Gaussian mixture models. For other types of mixture models the path to good initialisation parameters is often unclear and may require a solution specific not only model, but also the data. To this end, we propose a general heuristic learning algorithm that utilises Boltzmann exploration to assign each observation to a specific base distribution within the mixture model, which we call Boltzmann exploration expectationmaximisation (BEEM). With BEEM, hard assignments allow straight forward parameter learning for each base distribution by conditioning only on its assigned observations. Consequently it can be applied to mixtures of any base distribution where single component parameter learning is tractable. The stochastic learning procedure is able to escape local optima and explores the parameter space, thus mitigates sensitivity to parameter initialisation. We show competitive performance on a number of synthetic benchmark cases as well as on real-world datasets. Finally we employ BEEM for the disease progression sub-typing task and contrast it to a task specific initialisation procedure on synthetic data as well as on a real progression modelling task, where we identify clinical phenotypes in Parkinson’s disease

Abstract [sv]

I många fall har sjukdomar heterogena effekter på de drabbade. Generellt är det möjligt att utesluta vilken diagnos som ger upphov till ett specifikt symptom, men ofta kan en sjukdom manifestera sig i mer än ett sjukdomsförlopp. Av denna anledning kan det för vissa sjukdomar finnas behov av specialiserad och individanpassad behandling. För att identifiera undertyper av sjukdomsförlopp är klustring via tidsserieanalys en kraftfull metod. Emellertid är sådan analys ofta försvårad av potentiellt ostrukturerad och ogranulär longitudinell uppföljning av patienters ofta komplexa sjukdomsförlopp. För att avhjälpa dessa svårigheter presenterar vi i den här uppsatsen en generativ klustringsmetod baserad på superposition av dolda Markovmodeller som erbjuder en tolkningsbar representation av de identifierade undergrupperna. Vår modell hanterar icke-ergodisk temporal dynamik och tillåter ett variabelt antal dolda tillstånd. Vi presenterar även en uppgiftsspecifik initialiseringsmetod för att hitta sjukdomsförlopp av heterogen försämringshastighet. Med sjukdomsförloppsmodellering i åtanke beaktar vi även andra blandningsmodeller ur ett vidare perspektiv. Gällande blandningsmodeller är det ofta problematiskt att lära sig optimala eller nästan optimala parametrar från den underliggande datan med nuvarande optimeringsmetoder, där det vanligaste tillvägagångssättet är att använda monotona inlärningsalgoritmer, t.ex. den konventionella expectation-maximisation (EM) -algoritmen. EM är en monoton iterativ algoritm som efter varje iteration förbättrar parametrarna, vilket gör den känslig för icke-konvexa optimeringsproblem, vilket är vanligt för blandingsmodeller. Kvaliteten av de resulterande parametrarna är således i högsta grad beroende av hur de initialiseras. En vanligt förekommande metod är därför att starta om parameteroptimering från flera olika punkter parameterrummet eller att använda sig av en modellspecifik initialiseringsprocedur. För exempelvis Gaussiska blandningsmodeller är initialisering med hjälp K-means-algoritmen effektiv. För andra typer av blandningsmodeller är det dock inte lika uppenbart vad som karakteriserar en robust initialiseringsprocess. För detta ändamål presenterar vi en generell heuristisk inlärningsalgoritm som använder sig av Boltzmann-utforskning, där varje baskomponent i blandningsmetoden tillskrivs en delmäng av observationerna på ett stokastiskt vis. På så vis kan optimeringsproblemet delas upp i mindre komponenter där varje basmodell kan optimeras separat betingade endast på de tillskrivna observationerna; vi kallar denna metod för Boltzmann exploration expectation-maximisation (BEEM). Följaktligen är metoden tillämpbar för alla blandingsmodeller där parameterinlärning av enskild baskomponent är möjlig. Den stokastiska elementet i inlärningsmetoden tillåter oss att inte fastna i lokala optima och är därför robust mot ofördelaktig parameterinitialisering. Vi visar att metoden presterar väl på ett antal syntetiska samt praktiska klustringsuppgifter. Slutligen tillämpar vi BEEM för den tidigare nämnda sjukdomsdomsförloppsgrupperings-problemet där vi även jämför mot en uppgiftsspecifik initialiseringsmetod. Metoden prövas på syntetiska sjukdomsförlopp samt longitudinell data från en studie av Parkinsons sjukdom

Place, publisher, year, edition, pages
2019.
Series
TRITA-SCI-GRU ; 2019:410
National Category
Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-266895OAI: oai:DiVA.org:kth-266895DiVA, id: diva2:1388640
Subject / course
Optimization and Systems Theory
Educational program
Master of Science - Applied and Computational Mathematics
Supervisors
Examiners
Available from: 2020-01-27 Created: 2020-01-27 Last updated: 2020-01-27Bibliographically approved

Open Access in DiVA

fulltext(1300 kB)28 downloads
File information
File name FULLTEXT01.pdfFile size 1300 kBChecksum SHA-512
fb093948031446c0b7e325249db5f92cdd19c94bba693bd9fd3cf3408225337b0f7bed04e201c044a3badaa476b6904dfb60b8ef58760ac16039dda6e4a557b9
Type fulltextMimetype application/pdf

By organisation
Optimization and Systems Theory
Mathematics

Search outside of DiVA

GoogleGoogle Scholar
Total: 28 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 44 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf