Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Fine-Grained Evaluation on Factuality and Specificity for Large Language Models
KTH, School of Electrical Engineering and Computer Science (EECS).
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Finmaskig utvärdering av faktualitet och specificitet för stora språkmodeller (Swedish)
Abstract [en]

As the capabilities of Large Language Models(LLMs) continue to improve, intelligent assistants like ChatGPT have become a major entry for people to obtain information. However, LLMs often output false information, which is known as the hallucination problem of large language models. In this project, we focus on the factuality hallucination of large language models. Several method have been proposed to improve the factuality. We observed that these methods often trade specificity for factuality. In order to measure and formalize this phenomenom, we propose a fine-grained evaluation framework for assessing the factuality and specificity for large language models. This framework improves upon the widely used FACTSCORE for evaluating the factuality of large language models. Additionally, we add the dimension of specificity and defined two metrics for it. We test different LLMs and compare methods for improving factuality through post-processing, inference interference and model fine-tuning. We observed a negative correlation between specificity and factuality. This suggests that focusing solely on factuality may reduce the helpfulness of LLMs and the factuality metric can be manipulated. This research aims to provide a more comprehensive and reliable evaluation method to provide guidance for LLMs generating responses that are both factual and specific.

Abstract [sv]

När kapaciteterna hos stora språkmodeller (Large Language Models, LLMs) fortsätter att förbättras,har intelligenta assistenter som ChatGPT blivit en viktig ingång för människor att få information. Dock ger LLMs ofta felaktig information, vilket är känt som hallucinationsproblemet för stora språkmodeller. I detta projekt fokuserar vi på faktualitets-hallucinationer hos stora språkmodeller. Flera metoder har föreslagits för att förbättra faktualiteten. Vi har observerat att dessa metoder ofta byter specifikhet mot faktualitet. För att mäta och formalisera detta fenomen föreslår vi ett finkornigt utvärderingsramverk för att bedöma faktualitet och specifikhet hos stora språkmodeller. Detta ramverk förbättrar den allmänt använda FACTSCORE för att utvärdera faktualiteten hos stora språkmodeller. Dessutom lägger vi till dimensionen specifikhet och definierar två mått för det. Vi testar olika LLMs och jämför metoder för att förbättra faktualiteten genom efterbearbetning, inferensinterferens och modellfinjustering. Vi observerade ett negativt samband mellan specifikhet och faktualitet. Detta tyder på att ett ensidigt fokus på faktualitet kan minska användbarheten hos LLMs och att faktualitetsmåttet kan manipuleras. Denna forskning syftar till att tillhandahålla en mer omfattande och tillförlitlig utvärderingsmetod för att ge vägledning för LLMs att generera svar som både är faktuella och specifika.

Place, publisher, year, edition, pages
2024. , p. 58
Series
TRITA-EECS-EX ; 2024:767
Keywords [en]
Large Language Model, Evaluation, Factuality, Specificity
Keywords [sv]
Stor språkmodell, utvärdering, faktualitet, specificitet
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360195OAI: oai:DiVA.org:kth-360195DiVA, id: diva2:1938959
Supervisors
Examiners
Available from: 2025-02-24 Created: 2025-02-20 Last updated: 2025-02-24Bibliographically approved

Open Access in DiVA

fulltext(1735 kB)71 downloads
File information
File name FULLTEXT02.pdfFile size 1735 kBChecksum SHA-512
7d8f6e040d12a7df7e6449abfd72fbbf74685fbd029c5ad4dc91ca3e676692eb57d27c69c7ceab68d42f208361db1716880d331bd2f9ecc9e6bd955a61ebb154
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 71 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 446 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf