Εντοπισμός Ψευδών Ειδήσεων με Χρήση Μεθόδων Μηχανικής Μάθησης

Fake News Detection Using Machine Learning Methods (Αγγλική)

  1. MSc thesis
  2. Κόμπος, Αντρέας
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 19 Σεπτεμβρίου 2020 [2020-09-19]
  5. Ελληνικά
  6. 106
  7. Κωτσιαντής, Σωτήρης
  8. Κωτσιαντής, Σωτήρης | Καναβός, Ανδρέας
  9. Μηχανική Μάθηση | Εξόρυξη Δεδομένων από Κείμενα | Ανίχνευση Ψευδών Ειδήσεων
  10. 1
  11. 27
  12. Περιέχει: πίνακες, σχήματα
    • Στην παρούσα εργασία, μελετήθηκε η εφαρμογή αλγόριθμων Μηχανικής Μάθησης για τον εντοπισμό ψευδών ειδήσεων. Για τον σκοπό αυτό, χρησιμοποιήθηκαν συνολικά τέσσερεις συλλογές δεδομένων ήδη κατηγοριοποιημένων άρθρων, διαφορετικών μεγεθών, και στην συνέχεια εκτελέστηκαν 10 διαφορετικοί αλγόριθμοι κατηγοριοποίησης, αλλά και 16 διαφορετικές μέθοδοι μετατροπής των κειμένων σε διανύσματα. Συγκεκριμένα, εφαρμόστηκαν οι μέθοδοι διανυσματοποίησης Bag of Words, Tf-Idf και Doc2Vec, με και χωρίς την εφαρμογή Stemming, με διάφορες επιλογές τιμών N-Gram, και έπειτα εφαρμόστηκαν αλγόριθμοι της κατηγορίας Naïve Bayes, Γραμμικοί Αλγόριθμοι, Μηχανές Διανυσμάτων Υποστήριξης και Random Forest Classifier. Για την εκτέλεση όλων των δοκιμών υλοποιήθηκαν προγράμματα στην γλώσσα Python, και χρησιμοποιήθηκαν βιβλιοθήκες όπως οι Numpy, Scikit-Learn και Pandas, αλλά και πολύ σύγχρονες βιβλιοθήκες όπως το Hyperopt – Sklearn και ο αλγόριθμος Doc2Vec. Για τον κάθε συνδυασμό αλγόριθμου – διανυσματοποίησης, καταγράφηκαν οι μετρικές των αποτελεσμάτων πρόβλεψης, όπως το F1-Score, Accuracy, Recall, Precision, και ο χρόνος επεξεργασίας, και εν τέλει επιλέχθηκαν οι συνδυασμοί αλγόριθμων - διανυσματοποιήσεων που έφεραν τα βέλτιστα αποτελέσματα προς βελτιστοποίηση παραμέτρων, έτσι ώστε να επιτευχθεί η μέγιστη δυνατή ακρίβεια. Τα αποτελέσματα αποδείχθηκαν αρκετά αξιόλογα και χρήσιμα, αφού επιτεύχθηκε μια άμεση σύγκριση όλων των συνδυασμών διανυσματοποίησης και αλγόριθμων, όσον αφορά την ακρίβεια αλλά και τον χρόνο εκτέλεσης. Παράλληλα, επιτεύχθηκε υψηλή ακρίβεια στον εντοπισμό ψευδών ειδήσεων, με F1-Score μέχρι και 96.8%. Ως συμπέρασμα, η χρήση γραμμικών αλγόριθμων και Μηχανών Διανυσμάτων Υποστήριξης φέρουν την υψηλότερη ακρίβεια, με την χρήση διανυσμάτων Tf-Idf και τιμές N-Gram (1,2), χωρίς την χρήση Stemming.
    • In the present thesis, we have studied the application of Machine Learning algorithms for Fake News detection. For this purpose, we have used a total of four datasets of categorized news articles of different sizes, and applied 10 different machine learning algorithms, as well as 16 different methods of text vectorization. Specifically, we have applied Bag of Words, Tf-Idf and Doc2Vec vectorization methods, with and without the use of Stemming, with different N-Gram values. The resulting vectors were then processed by Naïve Bayes algorithms, Linear Algorithms, Support Vector Machines and Random Forest Classifiers. For all the experiments, we implemented Python programs and used libraries such as Scikit-Learn, Numpy and Pandas, as well as more recent libraries such as Hyperopt-Sklearn and Doc2Vec. For each algorithm – vectorization combination, we have recorded a number of metrics, such as F1-Score, Accuracy, Recall and Precision, as well as the total computational time. In the end, the most promising algorithm – vectorization methods were fine-tuned, in order to achieve the highest possible accuracy. The results proved to be useful and valuable, since we have achieved a direct comparison of many approaches regarding the combinations of many vectorization methods and algorithms. Alongside, we have achieved a high accuracy on detecting fake news, with F1-Score up to 96.8%. As a conclusion, the usage of Linear Algorithms and Support Vector Machines brings the highest accuracies, in combination with Tf-Idf vectors and N-Gram value of (1,2), without the application of Stemming.
  13. Αναφορά Δημιουργού - Παρόμοια Διανομή 4.0 Διεθνές