- MSc thesis
- Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
- 21 Σεπτεμβρίου 2024
- Ελληνικά
- 89
- Ρεφανίδης, Ιωάννης
- Ρεφανίδης, Ιωάννης | Καναβός, Ανδρέας | Μαυρομμάτης, Γεώργιος
- Mηχανική Mάθηση | Νευρωνικά Δίκτυα | Συλλογικά μοντέλα | Βαθμολόγηση Δοκιμίου
- Εξειδικεύσεις Τεχνολογίας Λογισμικού / ΠΛΣ60
- 1
- 35
- Σύνδεση της βαθμολογίας ενός δοκιμίου με τη συμπεριφορά πληκτρολόγησης του συγγραφέα, με τεχνικές μηχανικής μάθησης.
-
-
Η παρούσα διπλωματική εργασία εφαρμόζει τεχνικές μηχανικής μάθησης με σκοπό να συνδέσει την βαθμολογία ενός δοκιμίου με τη συμπεριφορά πληκτρολόγησης του συγγραφέα. Στόχος είναι η κατανόηση του θέματος και η χρήση αλγορίθμων για την αξιολόγηση των δοκιμίων με βάση τον τρόπο πληκτρολόγησης. Η έρευνα που πραγματοποιήθηκε στόχευε στη συμμετοχή σε διαγωνισμό μηχανικής μάθησης στην πλατφόρμα Kaggle. Αναπτύχθηκαν τεχνικές που βασίστηκαν σε δεδομένα πληκτρολόγησης με αξιολογημένα δοκίμια. Στη διερεύνηση των δεδομένων που διενεργήθηκε φάνηκαν οι συσχετίσεις των χαρακτηριστικών. Τα δεδομένα αξιοποιήθηκαν με στόχο την πρακτική εφαρμογή αυτών των τεχνολογιών σε περιβάλλοντα όπως η εκπαίδευση και η εργασία.
Παρουσιάστηκε το θεωρητικό υπόβαθρο της μηχανικής μάθησης και της ανάπτυξης αλγορίθμων και ειδικότερα τα συλλογικά μοντέλα που συνδυάζουν την απόδοση πολλών απλών μοντέλων για να επιτύχουν τη βελτίωση στην ακρίβεια και τη σωστή γενίκευση. Αναλύθηκαν οι τεχνικές ενδυνάμωσης, σακούλιασμα και της στοίβαξης.
Κατά την έρευνα και τη συμμετοχή στο διαγωνισμό δοκιμάστηκαν διάφορες τεχνικές και αναπτύχθηκαν βασικά μοντέλα όπως η γραμμική παλινδρόμηση ως μοντέλο βάσης και πιο εξελιγμένα όπως νευρωνικά δίκτυα και το XGBoost. Τα μοντέλα αξιολογήθηκαν χρησιμοποιώντας το μέσο τετραγωνικό σφάλμα (MSE) και άλλες μετρικές. Οι προσπάθειες περιλάμβαναν επίσης διάφορες τεχνικές επιλογής χαρακτηριστικών και αντιμετώπισης της υπερπροσαρμογής, με τελική στόχευση στη βελτίωση της απόδοσης και της γενίκευσης των μοντέλων σε άγνωστα δεδομένα.
-
This thesis applies machine learning techniques to connect the score of an essay with the keystroke behavior of its author. The aim is to understand the topic and use algorithms to evaluate essays based on typing patterns. The research conducted was aimed at participating in a machine learning competition. Techniques were developed based on keystroke data with graded essays. In the exploration of the data carried out revealed the correlations among features. The data were utilized with the goal of practically applying these technologies in environments such as education and the workplace.
The theoretical background of machine learning and algorithm development was presented, with a particular focus on ensemble models that combine the performance of multiple simple models to improve accuracy and generalization. Techniques such as boosting, bagging, and stacking were analyzed.
During the research and participation in the competition, various techniques were tested, and baseline models like linear regression were developed for comparison, along with more advanced models like neural networks and XGBoost. The models were evaluated using the mean squared error (MSE) and other metrics. Efforts also included various feature selection techniques and handling overfitting, with the goal of improving model performance and generalization to unknown data.
-
- Hellenic Open University
- Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές