Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Detecting Plagiarism Patterns in student code
KTH, School of Electrical Engineering and Computer Science (EECS).
KTH, School of Electrical Engineering and Computer Science (EECS).
2019 (English)Independent thesis Basic level (degree of Bachelor), 10 credits / 15 HE creditsStudent thesisAlternative title
Detektera plagiatmönster i programmeringsuppgifter för studenter (Swedish)
Abstract [en]

Plagiarism has become a big concern in programming both in education and in the industry of software development. While a lot of effort have been put into detecting plagiarism, most of the it have been focused on detecting plagiarism in plain text. The methods for cheating has evolved as plagiarism detection has improved. This thesis looks at plagiarism in entry level programming courses to discover how wide spread the cheating is, and if plagiarism detection algorithms in conjunction with metadata from GitHub can be used to better detect cheating. More specifically the commit metadata from GitHub is used to see if any interesting patterns with students who plagiarize can be found. The dataset used in this thesis are GitHub repositories for the entry level programming courses DD1337 and DD1338 for the year of 2015. The data set consists of 17 programming assignments with around 200 student submissions per assignment. The plagiarism detection tools used were MOSS and for each week the 10 most suspicious submitted assignments were added to a suspicious-list which were later used to help find patterns in students that plagiarize. The results show that the suspicious students on average had 5.27 commits per assignment, while the non-suspicious students had 6.49 commits on average per assignment. This is to say that suspicious students on average had a lower number of commits than the non-suspicious students. Future work includes testing with bigger data sets, and testing other metadata for finding other interesting patterns in cases of plagiarism.

Abstract [sv]

Plagiat har blivit ett stort problem både på utbildningsnivå och inom industrin för mjukvaruutveckling. Trots att mycket tid och anstränging har lagts ned för att förbättra plagiatdetektering så har det mestadels fokuserat på vanlig text. Medan detekteringsmetoderna för att upptäcka plagiat har förbättrats så har även metoderna för att plagiera utvecklats. Denna uppsats fokuserar på plagiat inom programmeringskurser för förstaårsstudenter på datortekniklinjen på KTH för att se hur utrbrett plagiat är, och om plagiatdetekteringsalgorit- mer i samband med metadata från GitHub kan användas för att förbättra detekteringen av plagiat. Mer specifikt används antal commits metadatan från GitHub för att se om intressanta mönster för studenter som plagierar kan upptäckas. Datasetet som användes i denna rapport är GitHub repositories från programmeringskurserna DD1337 och DD1338 från 2015. Datasetet består av 17 programmeringsuppgifter med ungefär 200 inlämningar för varje uppgift. Plagiatdetekteringsverktyget som användes är MOSS och för varje vecka togs de 10 mest misstänkta inlämningarna och lades till i en lista med misstänkta inlämningar som sedan användes för att hitta mönster för studenter som plagierar. Resultat visar att de misstänkta studenterna i genomsnitt hade 5,27 commits per inlämning, medan de icke-misstänkta studenterna hade ett genomsnitt på 6,49 commits per inlämning. Detta innebär att de misstänkta studenterna i genomsnitt hade färre commits än vad de icke-misstänkte studenterna hade. Framtida studier inkluderar att testa med större datasets, och att testa med annan metadata för att se om andra intressanta mönster kan finnas för studenter som plagierar.

Place, publisher, year, edition, pages
2019.
Series
TRITA-EECS-EX ; 2019:324
National Category
Computer and Information Sciences
Identifiers
URN: urn:nbn:se:kth:diva-255049OAI: oai:DiVA.org:kth-255049DiVA, id: diva2:1337813
Subject / course
Computer and Systems Sciences
Supervisors
Examiners
Available from: 2019-07-29 Created: 2019-07-17 Last updated: 2019-07-29Bibliographically approved

Open Access in DiVA

fulltext(497 kB)33 downloads
File information
File name FULLTEXT01.pdfFile size 497 kBChecksum SHA-512
e79232d43a7f1317e4f4de2a188500068eaa7484bba767d6d1f4ac32419f652f0812977e78cbe0904facbe20565e58ee360293359335dc11c0311fb4031ef574
Type fulltextMimetype application/pdf

By organisation
School of Electrical Engineering and Computer Science (EECS)
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 33 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 96 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf