Digitala Vetenskapliga Arkivet

Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Evaluating a Novel, Scalable Natural Language Processing Heuristic for Determining Semantic Relatedness
KTH, School of Electrical Engineering and Computer Science (EECS).
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Utvärdering av en ny skalbar naturlig språkbehandlingsheuristik för att bestämma semantisk likhet (Swedish)
Abstract [en]

 Distributional semantics is a recent research field aiming to quantify how close one text is to another in terms of contextual meaning. In this study we propose and evaluate a novel distributional semantics model on how much agreement its predictions can yield with a set of 12,227 human opinions. We call this method Refined Semantic Relatedness (RSR), which applies an incrementally improvable word association index and some distributional principles for producing theoretically educated predictions. Using 1951 preprocessed Wikipedia articles as a basis for the predictions, the model predicted the human opinions with a Pearson correlation of 0.3. In previous literature it has been claimed that Explicit Semantic Analysis (ESA-Wiki) achieve a corresponding Pearson correlation of 0.72 by utilizing 241,393 preprocessed Wikipedia articles. That is roughly 5.76 times more variance accounted for, although, also a result of considerably more extensive preprocessing in terms of articles. While the predictive value of RSR turned out relatively low as a result of the study’s limitations, this could be addressed in further research. We believe that this paper in any way can contribute with some novel ideas to the field.

Abstract [sv]

Distributionssemantik är ett nytt forskningsfält som syftar till att kvantifiera hur nära en text är till en annan gällande kontextuell innebörd. I den här studien föreslår och utvärderar vi en ny distribuerad semantikmodell på hur överensstämmande dess förutsägelser är med en uppsättning av 12227 mänskliga åsikter. Vi kallar denna metod Refined Semantic Relatedness (RSR), som tillämpar ett inkrementellt förbättringsbart underlagsindex samt några distributionsprinciper för att generera förutsägelser teoretiskt sett bättre än slumpen. Genom att använda 1951st förbearbetade Wikipedia artiklar som grund för dessa förutsägelser, förutspådde modellen de mänskliga åsikterna med en Pearson-korrelation på 0,3. I tidigare litteratur har det hävdats att Explicit Semantic Analysis (ESA Wiki) uppnår en motsvarande Pearson-korrelationpå 0,72 genom att använda 241393 förarbetade Wikipedia artiklar. Detta motsvarar att ungefär 5,76 gånger mer varians tillgodoses, men det är också ett resultat av ett betydligt mer omfattande förarbete av artiklar. Medan värdet av RSR för att förutsäga mänskiliga uppfattningar kring semantisk likhet visade sig vara relativt lågt, så kan de orsakande begränsningarna i studien åtgärdas i framtida forskning. Vi tror att den här rapporten på ett eller annat sätt kan bidra med några nya idéer till forskningsfältet.

Place, publisher, year, edition, pages
2019. , p. 28
Series
TRITA-EECS-EX ; 2019:367
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-260067OAI: oai:DiVA.org:kth-260067DiVA, id: diva2:1354504
Supervisors
Examiners
Available from: 2019-10-09 Created: 2019-09-25 Last updated: 2022-06-26Bibliographically approved

Open Access in DiVA

fulltext(525 kB)171 downloads
File information
File name FULLTEXT01.pdfFile size 525 kBChecksum SHA-512
34f6e18eb4e1b5a30dda8537db2b98f59dff4fadefaf0179b83c217bfcf95f5c156ba6acc6b230f7ad881d647b76f84694fcf45f1b1476ce17a64f6769107f6a
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 171 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 352 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf