The ability to recover passwords is an important step in red-teaming and penetration testing and can help users to prevent data loss in case the data is password protected and the password is lost. In this thesis, an exploration of password recovery is made by incorporating user profiling. By using gender and region as data points in order to profile users, it can be explored whether it will enhance password recovery and if there exist any gender related or region related biases. Machine learning models will be trained to predict gender from a given username and the top-level domain in an e-mail address is used as a region classifier. A generative model based on Improved Wasserstein Generative Adversarial Networks is trained to capture a distribution of passwords and thus be able to generate its own samples to be tested on. The results will show that the data points gender and region will enhance the password recovery on their own and when combined together, they will produce the most optimal results. However, different ways of combining the data points will yield different results and this is explored further in the report. This opens up for future extensions regarding this topic. One can add more data points in the discriminating part of thesis to perform attempts to increase the password recovery accuracy even more. The aim is to provide information regarding password choices so that users understand in more detail the weaknesses of user-chosen passwords.
Konsten att återhämta lösenord är ett viktigt steg i red-teaming och penetrationstestning och kan hjälpa användare att förhindra dataförluster ifall data är lösenordsskyddat och lösenordet har gått förlorat. In detta arbete, utforskas lösenordsåterhämtning genom användarprofilering. Genom att använda kön och region som metadata för att profilera användare, kan man undersöka huruvida lösenordsåterhämtning förbättras och om det existerar köns- eller regionsrelaterad bias. Maskininlärningsmodeller tränas för att förutspå kön givet användarnamn och topnivådomänen från en mejladress används som regionsklassificerare. En genererande modell baserat på Improved Wasserstein Generative Adversarial Networks är nyttjad för att fånga upp en lösenordsdistribution och därmed kunna generera egna lösenordskandidater vars tester ska genomföras på. Resultaten visar att metadata som kön och region förbättrar lösenordsåterhämtning, både på individuell basis, samt vid användning i kombination där det sistnämnda ger de mest optimala resultaten, Dock ger olika metoder att kombinera metadatapunkterna olika resultat och detta undersöks vidare i denna rapport. Detta öppnar upp för framtida forskning och utökning inom detta område. Fler metadatapunkter kan användas i diskriminationsdelen av detta arbete för att försöka förbättra lösenordsåterhämtningen ytterligare. Målet är att delge information kring lösenordsval sådant att användare förstår i mer detalj kring svagheterna i användarvalda lösenord.