Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
The Multilingual Forest: Investigating High-quality Parallel Corpus Development
Stockholms universitet, Humanistiska fakulteten, Institutionen för lingvistik.
2012 (Engelska)Doktorsavhandling, monografi (Övrigt vetenskapligt)
Abstract [en]

This thesis explores the development of parallel treebanks, collections of language data consisting of texts and their translations, with syntactic annotation and alignment, linking words, phrases, and sentences to show translation equivalence. We describe the semi-manual annotation of the SMULTRON parallel treebank, consisting of 1,000 sentences in English, German and Swedish. This description is the starting point for answering the first of two questions in this thesis.

  • What issues need to be considered to achieve a high-quality, consistent,parallel treebank?

The units of annotation and the choice of annotation schemes are crucial for quality, and some automated processing is necessary to increase the size. Automatic quality checks and evaluation are essential, but manual quality control is still needed to achieve high quality.

Additionally, we explore improving the automatically created annotation for one language, using information available from the annotation of the other languages. This leads us to the second of the two questions in this thesis.

  • Can we improve automatic annotation by projecting information available in the other languages?

Experiments with automatic alignment, which is projected from two language pairs, L1–L2 and L1–L3, onto the third pair, L2–L3, show an improvement in precision, in particular if the projected alignment is intersected with the system alignment. We also construct a test collection for experiments on annotation projection to resolve prepositional phrase attachment ambiguities. While majority vote projection improves the annotation, compared to the basic automatic annotation, using linguistic clues to correct the annotation before majority vote projection is even better, although more laborious. However, some structural errors cannot be corrected by projection at all, as different languages have different wording, and thus different structures.

Abstract [sv]

I denna doktorsavhandling utforskas skapandet av parallella trädbanker. Dessa är språkliga data som består av texter och deras översättningar, som har märkts upp med syntaktisk information samt länkar mellan ord, fraser och meningar som motsvarar varandra i översättningarna. Vi beskriver den delvis manuella uppmärkningen av den parallella trädbanken SMULTRON, med 1.000 engelska, tyska och svenska meningar. Denna beskrivning är utgångspunkt för att besvara den första av två frågor i avhandlingen.

  • Vilka frågor måste beaktas för att skapa en högkvalitativ parallell trädbank?

De enheter som märks upp samt valet av uppmärkningssystemet är viktiga för kvaliteten, och en viss andel automatisk bearbetning är nödvändig för att utöka storleken. Automatiska kvalitetskontroller och automatisk utvärdering är av vikt, men viss manuell granskning är nödvändig för att uppnå hög kvalitet.

Vidare utforskar vi att använda information som finns i uppmärkningen, för att förbättra den automatiskt skapade uppmärkningen för ett annat språk. Detta leder oss till den andra av de två frågorna i avhandlingen.

  • Kan vi förbättra automatisk uppmärkning genom att överföra information som finns i de andra språken?

Experimenten visar att automatisk länkning som överförs från två språkpar, L1–L2 och L1–L3, till det tredje språkparet, L2–L3, får förbättrad precision, framför allt för skärningspunkten mellan den överförda länkningen och den automatiska länkningen. Vi skapar även en testsamling för experiment med överföring av uppmärkning för att lösa upp strukturella flertydigheter hos prepositionsfraser. Överföring enligt majoritetsprincipen förbättrar uppmärkningen, jämfört med den grundläggande automatiska uppmärkningen, men att använda språkliga ledtrådar för att korrigera uppmärkningen innan majoritetsöverföring är ännu bättre, om än mer arbetskrävande. Vissa felaktiga strukturer kan dock inte korrigeras med hjälp av överföring, eftersom de olika språken använder olika formuleringar, och därmed har olika strukturer.

Ort, förlag, år, upplaga, sidor
Stockholm: Department of Linguistics, Stockholm University , 2012. , 206 s.
Nyckelord [en]
treebank, syntax, alignment, corpus, annotation projection, multilingual, tagging, parsing
Nationell ämneskategori
Språkteknologi (språkvetenskaplig databehandling)
Forskningsämne
datorlingvistik
Identifikatorer
URN: urn:nbn:se:su:diva-79076ISBN: 978-91-7447-536-4 (tryckt)OAI: oai:DiVA.org:su-79076DiVA: diva2:547019
Disputation
2012-10-19, Hörsal 9, hus D, Universitetsvägen 10 D, Stockholm, 13:00 (Engelska)
Opponent
Handledare
Tillgänglig från: 2012-09-14 Skapad: 2012-08-26 Senast uppdaterad: 2012-09-14Bibliografiskt granskad

Open Access i DiVA

fulltext(2470 kB)927 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 2470 kBChecksumma SHA-512
3f21dd7e533c8b3e2d406bf6535bbfbd030a0aee0e4ac55a87f8ded3864fec6e8f10e940ed059e8558b5b215d80a0bc08c75dfcd05cb3a9f2b6a4e6fc953aab2
Typ fulltextMimetyp application/pdf

Sök vidare i DiVA

Av författaren/redaktören
Adesam, Yvonne
Av organisationen
Institutionen för lingvistik
Språkteknologi (språkvetenskaplig databehandling)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 927 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

isbn
urn-nbn

Altmetricpoäng

isbn
urn-nbn
Totalt: 916 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf