Fine-Grained Evaluation on Factuality and Specificity for Large Language Models
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Finmaskig utvärdering av faktualitet och specificitet för stora språkmodeller (Swedish)
Abstract [en]
As the capabilities of Large Language Models(LLMs) continue to improve, intelligent assistants like ChatGPT have become a major entry for people to obtain information. However, LLMs often output false information, which is known as the hallucination problem of large language models. In this project, we focus on the factuality hallucination of large language models. Several method have been proposed to improve the factuality. We observed that these methods often trade specificity for factuality. In order to measure and formalize this phenomenom, we propose a fine-grained evaluation framework for assessing the factuality and specificity for large language models. This framework improves upon the widely used FACTSCORE for evaluating the factuality of large language models. Additionally, we add the dimension of specificity and defined two metrics for it. We test different LLMs and compare methods for improving factuality through post-processing, inference interference and model fine-tuning. We observed a negative correlation between specificity and factuality. This suggests that focusing solely on factuality may reduce the helpfulness of LLMs and the factuality metric can be manipulated. This research aims to provide a more comprehensive and reliable evaluation method to provide guidance for LLMs generating responses that are both factual and specific.
Abstract [sv]
När kapaciteterna hos stora språkmodeller (Large Language Models, LLMs) fortsätter att förbättras,har intelligenta assistenter som ChatGPT blivit en viktig ingång för människor att få information. Dock ger LLMs ofta felaktig information, vilket är känt som hallucinationsproblemet för stora språkmodeller. I detta projekt fokuserar vi på faktualitets-hallucinationer hos stora språkmodeller. Flera metoder har föreslagits för att förbättra faktualiteten. Vi har observerat att dessa metoder ofta byter specifikhet mot faktualitet. För att mäta och formalisera detta fenomen föreslår vi ett finkornigt utvärderingsramverk för att bedöma faktualitet och specifikhet hos stora språkmodeller. Detta ramverk förbättrar den allmänt använda FACTSCORE för att utvärdera faktualiteten hos stora språkmodeller. Dessutom lägger vi till dimensionen specifikhet och definierar två mått för det. Vi testar olika LLMs och jämför metoder för att förbättra faktualiteten genom efterbearbetning, inferensinterferens och modellfinjustering. Vi observerade ett negativt samband mellan specifikhet och faktualitet. Detta tyder på att ett ensidigt fokus på faktualitet kan minska användbarheten hos LLMs och att faktualitetsmåttet kan manipuleras. Denna forskning syftar till att tillhandahålla en mer omfattande och tillförlitlig utvärderingsmetod för att ge vägledning för LLMs att generera svar som både är faktuella och specifika.
Place, publisher, year, edition, pages
2024. , p. 58
Series
TRITA-EECS-EX ; 2024:767
Keywords [en]
Large Language Model, Evaluation, Factuality, Specificity
Keywords [sv]
Stor språkmodell, utvärdering, faktualitet, specificitet
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-360195OAI: oai:DiVA.org:kth-360195DiVA, id: diva2:1938959
Supervisors
Examiners
2025-02-242025-02-202025-02-24Bibliographically approved