Information Extraction from Business Documents Using Multi-modal Transformers: A Study of Layout- and Image-Augmented Language Models for French Documents
2023 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE credits
Student thesisAlternative title
Utvinning av information från företagsdokument genom multimodala transformatorer : En studie av layout- och bildförstärkta språkmodeller för franska dokument (Swedish)
Abstract [en]
Information Extraction from documents is a very challenging task. The dominating solutions have evolved from rule-based methods where layout was key, to NLP approaches that only consider the text. Multiple efforts have surged recently to circumvent this information loss by modelling the interactions between the different input modalities (textual, geometric, visual) in end-to-end frameworks. However, it is challenging to compare the different proposed methods in a standardised and accurate way on non-English, real world data. In this work, we conduct an extensive study of multi-modal document analysis neural architectures, under a wide range of experimental settings. We find that augmenting existing language models with layout cues is beneficial to the downstream task of information extraction, compared to a text only baseline (micro-f1 score 0.7654 → 0.8269). We show that model selection must be informed by the document language and the available resources in terms of pre-trained language models. While all three ‘Text + Layout’ architectures (LayoutLM, LiLT, LAMBERT) yield comparable results when end-to-end pre-training is possible, we find that LiLT is the better choice when the available resources do not permit multi-modal pre-training, provided that a pre-trained language model already exists to be plugged as its text flow. We also produce clear model training guidelines aimed at industry practitioners, and argue that Transfer Learning is key to cutting training costs. Within the same language, pre-training should only be performed once if the data set has enough template variety, and fine-tuned models constitute better starting points on new data sets. Finally, we report that a third image modality induces no significant improvement compared to a ‘Text + Layout’ baseline (micro-f1 score 0.8269 → 0.8349), but the publicly available and multilingual LayoutXLM model remains a strong contender as it still achieves SoTA performance while sparing enormous costs when dealing with one of the languages it was pre-trained on.
Abstract [sv]
Att extrahera information från dokument är en mycket utmanande uppgift. De dominerande lösningarna har utvecklats från regelbaserade metoder där layouten var avgörande, till NLP-metoder som enbart beaktar texten och inte layouten. På senare tid har flera försök gjorts för att kringgå denna informationsförlust genom att modellera interaktionerna mellan de olika inmatningsmodaliteterna (text, geometri och visuell information). Det är utmanande att jämföra de olika föreslagna metoderna på ett standardiserat och exakt sätt”. I det här arbetet genomför vi en omfattande studie av neurala arkitekturer för multimodal dokumentanalys under ett stort antal experimentella inställningar. Vi finner att det är fördelaktigt att förstärka befintliga språkmodeller med layoutindikationer för informationsutvinning i efterföljande led, jämfört med en baslinje med enbart text (mikro-f1 0.7654 → 0.8269). Vi visar att modellvalet måste baseras på dokumentspråket och de tillgängliga resurserna i form av förtränade språkmodeller. Medan alla tre arkitekturer för ”text + layout” (LayoutLM, LiLT, LAMBERT) ger jämförbara resultat när förträning från början till slut är möjlig, finner vi att LiLT är det bättre valet när de tillgängliga resurserna inte tillåter multimodal förträning, förutsatt att det redan finns en förtränad språkmodell som kan anslutas till dess textflöde. Vi utarbetar också tydliga riktlinjer för modellträning riktade till branschfolk och hävdar att överföringsinlärning är nyckeln till att minska kostnader för modellträning. Slutligen rapporterar vi att en tredje bildmodalitet inte ger någon signifikant förbättring jämfört med en ”Text + Layout”-baslinje (mikro-f1 0.8269 → 0.8349), men den allmänt tillgängliga och flerspråkiga LayoutXLM-modellen förblir en stark utmanare eftersom den fortfarande uppnår SoTA-prestanda samtidigt som den sparar enorma kostnader när den hanterar ett av språken som den förtränades på.
Place, publisher, year, edition, pages
2023. , p. 90
Series
TRITA-EECS-EX ; 2023:808
Keywords [en]
Language Model, Layout, Transformer, Document Intelligence, Information Extraction
Keywords [sv]
Språkmodell, layout, transformer, dokumentinformation, utvinning av nyckelinformation
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-342916OAI: oai:DiVA.org:kth-342916DiVA, id: diva2:1833610
Supervisors
Examiners
2024-02-022024-02-012024-02-02Bibliographically approved