Evaluating the Efficacy of Large Language Models in Summarizing Swedish Income Statements
2024 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hp
Studentuppsats (Examensarbete)Alternativ titel
Utvärdering av effektiviteten hos stora språkmodeller för att summera svenska resultaträkningar (Svenska)
Abstract [en]
This thesis explores the effectiveness of large language models (LLMs) in generating coherent and accurate natural language summaries from Swedish income statements. By employing various prompting strategies, this research investigates integration of a deterministic and explainable preprocessing system: one designed to optimize data relevance for LLM inputs – termed “guided zero-shot prompt”. The study systematically compares three prompting techniques: zero-shot, self-augmentation, and guided zeroshot, assessing their influence on summary accuracy and coherence. These techniques are tested in combination with three different LLMs: GPT-4, Llama 3 8B, and Llama 3 70B. Statistically significant improvements were observed with the guided zeroshot prompting approach, across all tested LLMs. In terms of aligning the generated summaries with human-created references, the guided prompt outperformed the other prompts, achieving a higher F-score for every model. The guided prompting notably reduced the inclusion of irrelevant numerical data and hallucinations, enhancing the factual precision of the summaries. In terms of LLM selection, the Llama 3 8B model performed notably worse than the other models. The results suggest that GPT-4 should be preferred if quality is prioritized over cost. These results underscore the potential for using LLMs to transform complex numerical data into more accessible narrative forms, enhancing various aspects of financial reporting and the possibility of interacting with numerical data using LLMs.
Abstract [sv]
Rapporten utforskar stora språkmodellers (LLM:er) förmåga att, utan specific förträning, generera sammanhängande och precisa sammanfattningar av svenska resultaträkningar representerade som strukturerade dokument bestående av numeriskt data. Genom att använda olika promptningsstrategier undersöks integrationen av ett deterministiskt och förklarbart förbehandlingssystem, som är designat för att optimera relevansen av indata för LLM:en – benämnt “guided zero-shot prompt”. Studien jämför systematiskt tre promptningstekniker: zero-shot, self-augmentation och guided zero-shot, och bedömer deras inverkan på sammanfattningarnas korrekthet och sammanhang. Teknikerna har utvärderats i kombination med tre olika LLM:er: GPT-4, Llama 3 8B och Llama 3 70B. Statistiskt signifikanta förbättringar observerades vid användningen av ”guided zero-shot”-prompten, för samtliga testade modeller. När det gäller att anpassa de genererade sammanfattningarna till sammanfattningar skapade av människor, överträffade “guided zero-shot”-prompten de andra prompterna och uppnådde det högsta F-värdet för samtliga modeller. Dessutom reducerade den märkbart hallucinationer och felaktigheter i texterna och förbättrade därmed den faktiska precisionen i sammanfattningarna. När det gäller LLM-valet presterade Llama 3 8B-modellen märkbart sämre än de andra modellerna, vilket indikerar att större modeller krävs för den här typen av datatill- text uppgifter. GPT-4 bör tillämpas om kvalitet prioriteras över kostnad. Dessa resultat understryker potentialen med att använda LLM:er för att omvandla komplex numerisk data till mer tillgängliga beskrivande former, vilket kan reformera aspekter av finansiell rapportering.
Ort, förlag, år, upplaga, sidor
2024. , s. 69
Serie
TRITA-EECS-EX ; 2024:687
Nyckelord [en]
Data-to-text, Natural language processing, Large language models, Finance
Nyckelord [sv]
Data-till-text, Språkteknologi, Stora språkmodeller, Finans
Nationell ämneskategori
Data- och informationsvetenskap
Identifikatorer
URN: urn:nbn:se:kth:diva-359959OAI: oai:DiVA.org:kth-359959DiVA, id: diva2:1937229
Externt samarbete
SoftOne AB
Handledare
Examinatorer
2025-02-172025-02-122025-02-17Bibliografiskt granskad