Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
N-Grams as a Measure of Naturalness and Complexity
Linnéuniversitetet, Fakulteten för teknik (FTK), Institutionen för datavetenskap och medieteknik (DM).
2019 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)
Abstract [en]

We live in a time where software is used everywhere. It is used even for creating other software by helping developers with writing or generating new code. To do this properly, metrics to measure software quality are being used to evaluate the final code. However, they are sometimes too costly to compute, or simply don't have the expected effect. Therefore, new and better ways of software evaluation are needed. In this research, we are investigating the usage of the statistical approaches used commonly in the natural language processing (NLP) area. In order to introduce and evaluate new metrics, a Java N-gram language model is created from a large Java language code corpus. Naturalness, a method-level metric, is introduced and calculated for chosen projects. The correlation with well-known software complexity metrics are calculated and discussed. The results, however, show that the metric, in the form that we have defined it, is not suitable for software complexity evaluation since it is highly correlated with a well-known metric (token count), which is much easier to compute. Different definition of the metric is suggested, which could be a target of future study and research.

Ort, förlag, år, upplaga, sidor
2019. , s. 34
Nyckelord [en]
language model, language processing, ngram, naturalness, java, code complexity, software quality, static analysis, code metrics
Nationell ämneskategori
Programvaruteknik Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:lnu:diva-90006OAI: oai:DiVA.org:lnu-90006DiVA, id: diva2:1369387
Utbildningsprogram
Programvaruteknik, masterprogram, 120 hp
Handledare
Examinatorer
Tillgänglig från: 2019-11-12 Skapad: 2019-11-11 Senast uppdaterad: 2019-11-12Bibliografiskt granskad

Open Access i DiVA

fulltext(1878 kB)25 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 1878 kBChecksumma SHA-512
1455f541ba3b1a5b4b89068b1751c1474b994762d18ef62b175ef8e3d596aa80025b58fdc85b8fa676222f993566f2fa30f1963410bb282addb72f72c1f4f6ec
Typ fulltextMimetyp application/pdf

Sök vidare i DiVA

Av författaren/redaktören
Randák, Richard
Av organisationen
Institutionen för datavetenskap och medieteknik (DM)
ProgramvaruteknikDatavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 25 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 33 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf