Change search
ReferencesLink to record
Permanent link

Direct link
Sequential Aggregation of Textual Features forDomain Independent Author Identication
KTH, School of Computer Science and Communication (CSC).
2014 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesisAlternative title
Sekventiella textuella sardrag for amnesoberoendeforfattarbestamning (Swedish)
Abstract [en]

In the area of Author Identication many approaches have been made to identify the author of a written text. By identifying the individual variation that can be found in texts, features can be calculated. These feature values are commonly calculated by normalizing the values to an average valueover the whole text. When using this kind of Simple features much of the variation that can be found in texts will not get captured. This project intends to use the sequential nature of the text to denie Sequential featuresat sentence level. The theory is that the Sequential features will be able to capture more of the variation that can be found in the texts, compared to the Simple features. To evaluate these features a classication of authors was made on several dierent datasets. The result showed that the Sequential features performs better than the Simple features in some cases, however the dierence was not large enough to confirm the theory of them being better than the Simple features.

Abstract [sv]

Inom området som behandlar författarbestämning har många olika tillvägagångs- sätt använts for att identiera författaren av en skriven text. Genom att identfiera den individuella variation som särskiljer texter från varandra,kan olika särdrag beräknas. Dessa särdrags värden beräknas vanligen genom att normaliseras till ett medelvärde över hela texten. När denna typ av Enkla särdrag används så döljs mycket av den variation som särskiljertexter från varandra. Målet med detta projekt är att istället användatextens sekventiella natur som grund for att deniera Sekventiella särdrag på meningsnivå. Teorin är att de sekventiella särdragen kommer att kunna identifiera mer av den variation som kan identifieras i texter, jämfört med de enkla särdragen. For att utvärdera dessa särdrag gjordes en klassicering av författare på era olika dataset. Resultatet visade att de sekventiella särdragen presterade bättre än de enkla särdragen i vissa fall, men skillnaden var inte tillräckligt stor for att bekräfta teorin om att de skulle vara bättre än de enkla sädragen.

Place, publisher, year, edition, pages
National Category
Computer and Information Science
URN: urn:nbn:se:kth:diva-156304OAI: diva2:766105
Available from: 2014-11-27 Created: 2014-11-26 Last updated: 2014-11-27Bibliographically approved

Open Access in DiVA

fulltext(871 kB)72 downloads
File information
File name FULLTEXT01.pdfFile size 871 kBChecksum SHA-512
Type fulltextMimetype application/pdf

By organisation
School of Computer Science and Communication (CSC)
Computer and Information Science

Search outside of DiVA

GoogleGoogle Scholar
Total: 72 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

Total: 62 hits
ReferencesLink to record
Permanent link

Direct link