Change search
ReferencesLink to record
Permanent link

Direct link
Optimal Order Execution using Stochastic Control and Reinforcement Learning
KTH, School of Engineering Sciences (SCI), Mathematics (Dept.), Mathematical Statistics.
2016 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Optimal orderexekvering med stokastisk styrteori och reinforcement learning (Swedish)
Abstract [en]

In this thesis an attempt is made to find the optimal order execution policy that maximizes the reward from trading financial instruments. The optimal policies are found us-ing a Markov Decision Process that is build using a state space model and the Bellman equation. Since there is not an explicit formula for state space dynamics, simulations on historical data are made instead to find the state transition probabilities and the rewards associated with each state and control. The optimal policy is then generated from the Bellman equation and tested against naive policies on out-of-sample data. This thesis also attempts to model the notion of market impact and test whether the Markov Deci-sion Process is still viable under the imposed assumptions. Lastly, there is also an attempt to estimate the value func-tion using various techniques from Reinforcement Learning.

It turns out that naive strategies are superior when market impact is not present and when market impact is modeled as a direct penalty on reward. The Markov Decision Pro-cess is superior with market impact when it is modeled as having an impact on simulations, although some results suggest that the market impact model is not consistent for all types of instruments. Further, approximating the value function yields results that are inferior to the Markov Deci-sion Process, but interestingly the method exhibits an im-provement in performance if the estimated value function is trained before it is tested.

Abstract [sv]

I denna uppsats görs ett försök att hitta den optimala order exekverings strategi som maximerar vinsten från att handla finansiella instrument. Den optimala strategin hittas genom att använda en Markov beslutsprocess som är byggd på en tillståndsmodell och Bellman ekvationen. Eftersom det in-te finns en explicit formel för tillstånds dynamiken, görs istället simuleringar på historiska data för att uppskatta transitionssannolikheterna och vinsten associerad med var-je tillstånd och styrsignal. Den optimala strategin genereras sedan från Bellman ekvationen och testas mot naiva stra-tegier på test data. Det görs även ett försök att modellera marknads påverkan för att testa om Markov beslutsproces-ser fortfarande är gångbara under antagandena som görs. Slutligen görs även ett försök på att estimera värdesfunk-tionen med olika tekniker från ”Reinforcement Learning”.

Det visar sig att naiva strategier är överlägsna när mark-nads påverkan inte inkorporeras och när marknads påver-kan modelleras som ett stra˙ på vinsten. Markov besluts-processer är överlägsna när marknads påverkan modelleras som direkta påverkningar på simuleringarna, men några av resultaten påvisar att modellen inte är konsistent för alla typer av instrument. Slutligen, så ger approximation av vär-desfunktionen sämre resultat än Markov beslutsprocesser, men intressant nog påvisar metoden en förbättring i pre-standa om den estimerade värdesfunktionen tränas innan den testas.

Place, publisher, year, edition, pages
2016.
Series
TRITA-MAT-E, 2016:56
National Category
Computational Mathematics
Identifiers
URN: urn:nbn:se:kth:diva-192211OAI: oai:DiVA.org:kth-192211DiVA: diva2:963057
External cooperation
Lynx Asset Management
Subject / course
Mathematical Statistics
Educational program
Master of Science - Applied and Computational Mathematics
Supervisors
Examiners
Available from: 2016-09-07 Created: 2016-09-07 Last updated: 2016-09-07Bibliographically approved

Open Access in DiVA

fulltext(9728 kB)14 downloads
File information
File name FULLTEXT01.pdfFile size 9728 kBChecksum SHA-512
87231b539f14a3d2d8ef04b7e935a26ab0298030149a73a6161327bce2de161cc4752677b55dccfefa137bb8d7a056b397edb3b305dd6396ec91f66a1ca335df
Type fulltextMimetype application/pdf

By organisation
Mathematical Statistics
Computational Mathematics

Search outside of DiVA

GoogleGoogle Scholar
Total: 14 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

Total: 11 hits
ReferencesLink to record
Permanent link

Direct link