Extending the context window of a Generative Pre-trained Transformer Large Language Model with positional embeddings.: A comparative study in methods for extending context windows.
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Förlängning av kontextfönstret i Generative förtränade språkmodeller som använder positionsvektorer. : En jämförande studie i metoder för att förlänga kontextfönster. (Swedish)
Abstract [en]
This thesis investigates positional information within transformer based large language models which are using positional embeddings to model positional information. Within the GPT architecture, each set of pretrained weights are meant to represent something modular, the positional embeddings is one such modular piece which is meant to model the relative meaning of words based on their position in a sequence. The number of positional embeddings which the model has been trained with is what determines the model’s context length. The context length is the number of words which the model is able to infer information from at any one time. Training a GPT on a large sequence of text at a time is very expensive, thus, training a model with a very large context window can be difficult. Within this project, I modify an existing version of a pre-trained large language model, GPT-Sw3, in order to increase its context length. I take a deep dive into the learnt pattern and attributes of the positional embeddings. I also propose a method for extending the context length of a pretrained GPT with only relative light fine tuning without any major loss in ability to infer information from prior words when predicting the next token. I also look at how later architectural developments in modeling attention relate to how positional embedding represents positional information to shed light on some interesting patterns which emerge from the models’ learned patterns.
Abstract [sv]
Denna uppsats undersöker positionsinformation inom transformer-baserade språkmodeller som använder positionsvektorer för att modellera positions- information. Inom GPT arkitekturen är varje uppsättning vikter tänkta att representera någon atomär modulär informationsbit. Positionsvektorerna är en sådan bit som är tänkt att modellera den relative betydelsen mellan av ord baserat på deras plats i sekvensen. Antalet positionsvektorer som modellen ursprungligen tränats med är det som bestämmer modellens längd på sitt kontextfönster. Kontextfönstrets maxlängd är det som styr antalet ord som modellen kan använda i sin beräkning av nästa nord i sekvensen. Att träna en GPT på en lång textsekvens är mycket dyrt och hårdvarukrävande. Det gör det svårt att träna en model med långt kontextfönster. Inom detta projektet så modifierar jag en existerande version av en förtränad språkmodell, GPT-Sw3, för att öka modellens kontextlängd. Jag djupdyker i de inlärda mönstren och egenskaper som positionsvektorerna för med sig. Jag föreslår även en ny metod för att förlänga kontextlängden av förtjänade GPT modeller med relativt lite extra träning och visar att det åskar minimal förlorad förmåga för modellen att generar ny text. Jag undersöker även hur senare arkitekturella framsteg inom modellering av positionsinformation relaterar till positionsvektorer. Detta medför även ett par intressanta mönster som framstår av modellens inlärda mönster.
Place, publisher, year, edition, pages
2024. , p. 47
Series
TRITA-EECS-EX ; 2024:983
Keywords [en]
Machine Learning, Large Language Models, Context Length, Positional Embeddings, GPT, LLM
Keywords [sv]
Maskininlärning, Språkmodeller, Kontextfönster, Positionsvektorer, GPT, LLM
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-361409OAI: oai:DiVA.org:kth-361409DiVA, id: diva2:1945485
External cooperation
AI Sweden
Supervisors
Examiners
2025-03-242025-03-182025-03-24Bibliographically approved