Task specific evaluation of Large Language Models: A study for human-robot interaction
2025 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Uppgiftsspecifik bedömning av stora språkmodeller : En studie för människa-robot interaktion (Swedish)
Abstract [en]
In recent years, there has been a rapid development in the AI. Especially in the field of deep learning, where LLMs are rapidly improving. The utilization of LLMs are increasing and LLMs are integrating themselves into human lives through various developments. Examples include the increasing research in which LLMs are integrated into robots; as well as the integration of LLM into phone voice assistants. The development of LLMs is led by multiple companies, introducing their own trained models. With the increasing number of LLMs, an important question arises: Which one is better in which tasks? And with the integration topic, another question arises: Which one is more fit to integrate into embodied agents such as robots? This thesis investigated which LLM would be suitable to integrate into a robot that interacts with humans. The comparison was evaluated through a task-specific scenario, namely a cooking scenario. The LLMs were assessed in their cooking-, evaluation- and task understanding knowledge. The evaluation is reported through mean averaging in various tasks. Through the cooking scenario, this thesis also investigated LLMs’ general knowledge and NLU capabilities. This thesis evaluated LLMs from OpenAI, Meta and Google: GPT-3.5 Turbo, GPT-4o mini, LLaMA 3.0 8B Instruct, LLaMA 3.1 8B Instruct, Gemini 1.0 Pro and Gemini 1.5 Flash. Two datasets were used to evaluate these models. The first one, the Cooking Dataset, was developed in this research. This dataset consist of five question types, totalling at 261 question. The resulting Cooking Dataset consisted of five cooking phases, including questions regarding: preparation, cooking, serving, eating and cleaning. Furthermore, it was built upon five question types, out of which the majority of them are related to typical questions one can face whilst cooking. The second dataset, called The semantic dataset, includes human descriptions to different household objects. This dataset was used to evaluate the LLMs’ capabilities to ask follow-up questions before making predictions of room and location of the referred objects. The results show that the models excel in different areas. However, three models were consistently achieving the highest scores: GPT-4o mini, Gemini 1.5 Flash and Gemini 1.0 Pro. When the models were allowed to ask follow-up questions before making a prediction, GPT-4o mini performed the best. The Gemini models on the other hand, excelled when it came to the immediate predictions instead.
Abstract [sv]
På senaste tiden har det skett en markant utveckling inom Artificiell intelligens (AI). Speciellt inom deep learning, där det har skett en stor utveckling av stora språkmodeller (LLMs). Användningen av LLMs ökar och de integreras allt mer in i människors liv. Exempel på detta är ökningen av forskning för att integrera LLMs i robotik, samt integrationen av LLMs i telefoners röstassistenter. Utvecklingen av LLMs leds av flera företag, som introducerar sina egna tränade modeller. Med mängden LLMs som publiceras uppkommer frågan: Vilken LLM är bättre för vilka uppgifter? Och när det gäller integrationen, uppstår en annan fråga: Vilken LLM passar bäst för en förkroppsligad agent, såsom en robot? Målet med denna uppsats är att undersöka vilken LLM är lämpligast att integrera i en robot som interagerar med människor. Uppsatsen undersöker detta genom ett uppgifts-specifikt scenario, där LLMs färdigheter undersöks inom matlagning samt generella aspekter inom hemmet. Resultaten av utvärderingen presenteras som medelvärden för olika uppgifter. Matlagnings- scenariot möjliggör en utvärdering av LLMs generella kunskap samt deras förståelse av naturligt språk (NLU). Denna uppsats utvärderade LLMs från OpenAI, Meta och Google: GPT-3.5 Turbo, GPT-4o mini, LLaMA 3.0 8B Instruct, LLaMA 3.1 8B Instruct, Gemini 1.0 Pro och Gemini 1.5 Flash. Två dataset användes i undersökningen. Ett dataset skapades specifikt för målet i denna uppsats och har namngivits Cooking Dataset. Datasetet består av fem fråge-typer och innehåller totalt 261 frågor. Fem faser av matlagningsprocessen ingår i Cooking Dataset. Det inkluderar frågor gällande: förberedelse, matlagning, servering, förtäring och rengöring. Datasetet består av fem frågetyper, varav majoriteten av dem behandlar typiska frågor som kan uppstå vid matlagning. Det andra datasetet, benämnt The semantic dataset, innehåller beskrivningar av olika objekt i ett hushåll, såsom telefon, vattenflaska och gaffel. Målet med datasetet var att undersöka modellernas förmåga att ställa följdfrågor innan de presenterar deras teori om vilket rum och vilken plats ett object troligast befinner sig i. Resultaten visar att varje modell är bra i olika förhållanden, och ingen modell visar sig vara bra på alla behandlade frågetyper. Tre modeller erhåller konsistent topp-platserna bland resultaten: GPT-4o mini, Gemini 1.5 Flash samt Gemini 1.0 Pro. GPT-4o mini erhåller de bästa resultaten när modellen har möjlighet att ställa följdfrågor; detta påvisar dess förmåga att förstå meningen med språket (NLU) och resoneringsförmåga. Gemini modellerna utmärkte sig i direkta svar utan möjlighet till följdfrågor.
Place, publisher, year, edition, pages
2025. , p. 82
Series
TRITA-EECS-EX ; 2025:26
Keywords [en]
Robotics, Human-Robot interaction, Large language models, GPT, Meta LLaMa, Google Gemini
Keywords [sv]
Robotik, Människa-robot interaktion, Stora språkmodeller, GPT, Meta LLa- Ma, Google Gemini
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-361701OAI: oai:DiVA.org:kth-361701DiVA, id: diva2:1947373
Supervisors
Examiners
2025-03-312025-03-252025-03-31Bibliographically approved