Automating the Assessment of Retrieval-augmented Generation Responses
2025 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE credits
Student thesisAlternative title
Automatisera bedömning av svar från RAG-modeller (Swedish)
Abstract [en]
Today, manual categorization of test cases is used to evaluate how well CGI’s retrieval-augmented generation (RAG) model works for customers, particularly those withoutprior subject knowledge. Manual categorization is a time-consuming and costlyprocess. This thesis explores the automation of this process by utilizing the frameworksRagas and DeepEval. Framework metrics are identified, evaluated, and used to createa comprehensive automated evaluation through the RAG triad model that considerscontext relevance, groundedness, and answer relevance.The evaluation results for Ragas and DeepEval revealed the pros and cons of eachframework in different areas. This insight led to the creation of combined resultsfrom both frameworks, incorporating Response Relevance and Faithfulness metricsfrom Ragas and the Context Recall metric from DeepEval. The combined approachdemonstrates improved accuracy and reliability by harnessing the strengths of bothframeworks, providing a more robust solution for automated test case evaluation.
Abstract [sv]
Idag används manuell kategorisering för att utvärdera hur bra CGI’sretrieval-augmented generation (RAG) modell fungerar för kunder, särskilt de utanförkunskaper inom området. En process som är både tidskrävande och kostsam.Denna uppsats undersöker därför möjligheten att automatisera denna process genomatt använda ramverken Ragas och DeepEval. Genom att identifiera, utvärdera ochanvända deras mått för att skapa en omfattande automatiserad utvärdering baseradpå the RAG triad, en modell som tar hänsyn till context relevance, groundedness ochanswer relevance.Utvärderingen resulterade i resultattabeller för Ragas och DeepEval, där fördelar ochnackdelar för respektive ramverk inom olika områden framkom. Denna insikt leddetill skapandet av en kombinerad resultattabell som inkluderar Response Relevanceoch Faithfulness-poäng från Ragas samt Context Recall-poäng från DeepEval. Denkombinerade resultattabell visar på förbättrad noggrannhet och tillförlitlighet genomatt utnyttja styrkorna hos båda ramverken, vilket ger en mer robust lösning förautomatiserad utvärdering av testfall.
Place, publisher, year, edition, pages
2025. , p. 95
Keywords [en]
Retrieval-Augmented Generation, Context Recall, Response Relevance, Faithfulness, Ragas, DeepEval
National Category
Computer Sciences
Identifiers
URN: urn:nbn:se:kau:diva-103038OAI: oai:DiVA.org:kau-103038DiVA, id: diva2:1935379
External cooperation
CGI
Subject / course
Computer Science
Educational program
Engineering: Industrial Engineering and Management (300 ECTS credits)
Supervisors
Examiners
2025-02-072025-02-062025-02-07Bibliographically approved