Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Extending the context window of a Generative Pre-trained Transformer Large Language Model with positional embeddings.: A comparative study in methods for extending context windows.
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Förlängning av kontextfönstret i Generative förtränade språkmodeller som använder positionsvektorer. : En jämförande studie i metoder för att förlänga kontextfönster. (Swedish)
Abstract [en]

This thesis investigates positional information within transformer based large language models which are using positional embeddings to model positional information. Within the GPT architecture, each set of pretrained weights are meant to represent something modular, the positional embeddings is one such modular piece which is meant to model the relative meaning of words based on their position in a sequence. The number of positional embeddings which the model has been trained with is what determines the model’s context length. The context length is the number of words which the model is able to infer information from at any one time. Training a GPT on a large sequence of text at a time is very expensive, thus, training a model with a very large context window can be difficult. Within this project, I modify an existing version of a pre-trained large language model, GPT-Sw3, in order to increase its context length. I take a deep dive into the learnt pattern and attributes of the positional embeddings. I also propose a method for extending the context length of a pretrained GPT with only relative light fine tuning without any major loss in ability to infer information from prior words when predicting the next token. I also look at how later architectural developments in modeling attention relate to how positional embedding represents positional information to shed light on some interesting patterns which emerge from the models’ learned patterns.

Abstract [sv]

Denna uppsats undersöker positionsinformation inom transformer-baserade språkmodeller som använder positionsvektorer för att modellera positions- information. Inom GPT arkitekturen är varje uppsättning vikter tänkta att representera någon atomär modulär informationsbit. Positionsvektorerna är en sådan bit som är tänkt att modellera den relative betydelsen mellan av ord baserat på deras plats i sekvensen. Antalet positionsvektorer som modellen ursprungligen tränats med är det som bestämmer modellens längd på sitt kontextfönster. Kontextfönstrets maxlängd är det som styr antalet ord som modellen kan använda i sin beräkning av nästa nord i sekvensen. Att träna en GPT på en lång textsekvens är mycket dyrt och hårdvarukrävande. Det gör det svårt att träna en model med långt kontextfönster. Inom detta projektet så modifierar jag en existerande version av en förtränad språkmodell, GPT-Sw3, för att öka modellens kontextlängd. Jag djupdyker i de inlärda mönstren och egenskaper som positionsvektorerna för med sig. Jag föreslår även en ny metod för att förlänga kontextlängden av förtjänade GPT modeller med relativt lite extra träning och visar att det åskar minimal förlorad förmåga för modellen att generar ny text. Jag undersöker även hur senare arkitekturella framsteg inom modellering av positionsinformation relaterar till positionsvektorer. Detta medför även ett par intressanta mönster som framstår av modellens inlärda mönster.

Place, publisher, year, edition, pages
2024. , p. 47
Series
TRITA-EECS-EX ; 2024:983
Keywords [en]
Machine Learning, Large Language Models, Context Length, Positional Embeddings, GPT, LLM
Keywords [sv]
Maskininlärning, Språkmodeller, Kontextfönster, Positionsvektorer, GPT, LLM
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-361409OAI: oai:DiVA.org:kth-361409DiVA, id: diva2:1945485
External cooperation
AI Sweden
Supervisors
Examiners
Available from: 2025-03-24 Created: 2025-03-18 Last updated: 2025-03-24Bibliographically approved

Open Access in DiVA

fulltext(1553 kB)37 downloads
File information
File name FULLTEXT02.pdfFile size 1553 kBChecksum SHA-512
065179c0292e34fe49783f8354bd87e07102285d11ff907db68a46aa7b74a9cde64e9172434e901443825a207c71f42da4ef52e8a5531ffab5556c7b6b3ea3be
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 37 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 250 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf