Please use this identifier to cite or link to this item: http://ir.buu.ac.th/dspace/handle/1513/728
Title: Original  Source Code Identification 
การระบุต้นตอของการคัดลอกรหัสต้นฉบับ
Authors: Chawalit Saoban
ชวลิต เสาร์แบน
SUNISA RIMCHAROEN
สุนิสา ริมเจริญ
Burapha University. Faculty of Informatics
Keywords: การบ้านวิชาการเขียนโปรแกรม
การลอกเลียนแบบ
รหัสต้นฉบับ
การจำแนกข้อมูล
programming assignment
plagiarism
source codes
classification
Issue Date:  18
Publisher: Burapha University
Abstract: Source-code plagiarism in programming assignments is a serious issue. It can lead to bad consequences of students in personal and professional life. Students who copy someone else’s source-code did not learn anything. It would be useful if teachers know who is the owner of the original copy and someone is a copier. They may employ strategies to prevent the plagiarism and give advice to students who did wrong. This thesis, therefore, proposes two methodologies to identify the original copy of the source codes among the plagiarized programs. First methodology, we use six classification techniques to classify the suspect programs i.e. Decision Tree, REP Tree, Random Forest, Neural Network, K-nearest Neighbor, and Naïve Bayes. The experimental results show that the decision tree algorithm performs best. It yields the accuracy of 82.61% in testing. Second methodology, the owner of an original source code is identified by inferring from past behavior. This methodology also incorporates submission time and GPA to decide the original one. The results are reported in two cases. Case 1, the source codes that have higher similarity score than the threshold are grouped together. We then identify the original one in each group using the proposed rule. It yields accuracy of 69.39%. Case 2, we assume that we already known the groups of suspected students. In this case, the accuracy in identifying original is 91.27%. However, the second methodology may not be convenient to adopt in real situation due to the difficulty of acquiring historical data of student confession. Students’ behavior may also change after they confess.  
การลอกเลียนรหัสต้นฉบับการบ้านวิชาการเขียนโปรแกรมถือเป็นปัญหาสำคัญ เนื่องด้วยวิชาการเขียนโปรแกรมถือได้ว่าเป็นพื้นฐานสำคัญของการเรียนด้านเทคโนโลยีสารสนเทศ อาจทำให้ส่งผลกระทบต่อการเรียน ตลอดจนอาชีพการงานในอนาคต ซึ่งพฤติกรรมนี้ควรปรับปรุงแก้ไขเพื่อไม่ให้เกิดปัญหาต่อสังคม ดังนั้น ถ้าผู้สอนสามารถระบุบุคคลที่เป็นต้นตอของการคัดลอกและบุคคลคัดลอกรหัสต้นฉบับได้ จะทำให้ทราบถึงกลไกของการลอกเลียนแบบและนำไปสู่แนวทางการแก้ไขปัญหาตลอดจนการบ่งชี้ถึงพฤติกรรมที่ไม่ถูกต้อง งานวิจัยฉบับนี้จึงนำเสนอวิธีการระบุต้นตอของการคัดลอกรหัสต้นฉบับ โดยนำเสนอวิธีการ  2 แนวทาง ประกอบด้วย แนวทางที่ 1 การใช้วิธีการจำแนกเพื่อระบุต้นตอของการคัดลอกรหัสต้นฉบับจำนวน 6 เทคนิคได้แก่ Decision Tree, REP Tree, Random Forest, Neural Network, K-Nearest Neighbor, และ Naïve Bayes สำหรับข้อมูลที่นำมาใช้เป็นข้อมูลที่สร้างขึ้นเองโดยใช้รูปแบบการลอกเลียนแบบในวิชาการเขียนโปรแกรม โดยผลลัพธ์ของการทดลองพบว่า เทคนิคของ Decision Tree และ REP Tree ให้ค่าความถูกต้องมากที่สุดด้วยอัตราร้อยละ  82.62 แนวทางที่ 2  การระบุต้นตอการคัดลอกรหัสต้นฉบับจากการอนุมานข้อมูลในอดีต ซึ่งได้ใช้ข้อมูลจากการบ้านวิชาการเขียนโปรแกรมที่ทราบว่าใครเป็นต้นฉบับจากการสารภาพของนิสิต จำนวน 965 โปรแกรม และนำข้อมูลเวลาของการส่ง และเกรดเฉลี่ยสะสมนำมาพิจารณาประกอบด้วย โดยผลการทดลองแบ่งออกเป็น 2 กรณี ได้แก่  1)  กรณีที่ใช้ค่าขีดแบ่งจากค่าความคล้ายคลึงกันจากโปรแกรม JPlag ในการจัดกลุ่ม ผลการระบุต้นฉบับมีความถูกต้องร้อยละ 69.39 2)  กรณีที่สมมติว่าทราบกลุ่มนักเรียนที่รหัสต้นฉบับ สามารถระบุต้นฉบับได้ถูกต้องได้ถูกต้องร้อยละ 91.27 อย่างไรก็ตาม แนวทางที่ 2 ที่ผู้วิจัยได้นำเสนอกล่าวคือ การใช้ข้อมูลในอดีตมาอนุมานเพื่อระบุต้นฉบับ อาจใช้ไม่ได้ในสถานการณ์จริง เนื่องจากยากที่จะได้ข้อมูลการลอกกันมา และพฤติกรรมการลอกของนักเรียนก็อาจะเปลี่ยนไปหลังจากสารภาพแล้ว
Description: Master Degree of Science (M.Sc.)
วิทยาศาสตรมหาบัณฑิต (วท.ม.)
URI: http://ir.buu.ac.th/dspace/handle/1513/728
Appears in Collections:Faculty of Informatics

Files in This Item:
File Description SizeFormat 
60910062.pdf5 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.