- MSc thesis
- Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
- 20 September 2025
- Ελληνικά
- 199
- Ανδρέας Καναβός
- Ανδρέας Καναβός | Λαζαρίνης Φώτης | Καμπάση Αικατερίνη
- Machine Learning, Deepfake Detection, Convolutional Neural Networks, Vision Transformers
- Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
- 2
- 42
- Πίνακες, Διαγράμματα,Εικόνες
-
-
Η παραποίηση πολυμέσων, ξεκινά από τις φωτογραφικές τεχνικές του 19ου αιώνα, και φτάνει στην σύγχρονη εποχή με την άνοδο της τεχνολογίας DeepFake που καθοδηγείται από τις προόδους στη βαθιά μάθηση και τα Generative Adversarial Networks (GANs). Οι επιπτώσεις των DeepFakes σε κοινωνικό, πολιτικό και ηθικό επίπεδο, μπορούν να είναι ιδιαίτερα σημαντικές καθιστώντας αναγκαίες τις βελτιωμένες μεθόδους ανίχνευσης για τη διατήρηση της ακεραιότητας των πληροφοριών.
Η εργασία στοχεύει στη σύγκριση διαφορετικών μοντέλων για την ανίχνευση βίντεο DeepFake, αναλύοντας κάποιες από τις τεχνικές και τους αλγόριθμους που χρησιμοποιούνται. Ο στόχος είναι να συμβάλει στην κατανόηση του φαινομένου και του εντοπισμού των DeepFake ώστε να αναπτυχθούν πιο αποτελεσματικές λύσεις ανίχνευσης.
Συζητούνται διάφορες μέθοδοι ανίχνευσης, όπως τα Convolutional Neural Networks (CNNs), τα Vision Transformers (ViT) και αξιολογούνται τρία κύρια μοντέλα: ResNext50, EfficientNet_b0 και ViT_b_16. Κάθε μοντέλο επιλέγεται με βάση συγκεκριμένα κριτήρια, όπως η ακρίβεια και η υπολογιστική αποδοτικότητα. Τα αποτελέσματα δείχνουν υψηλή απόδοση σε όλα τα μοντέλα όταν δοκιμάζονται σε σύνολο δεδομένων στο οποίο έχουν εκπαιδευτεί , με το ResNext50 να επιτυγχάνει την καλύτερη AUC και ακρίβεια ενώ το EfficientNet είναι πολύ κοντά σε επιδόσεις απαιτώντας σημαντικά λιγότερη υπολογιστική ισχύ. Το ViT_B_16 από την άλλη έχει εξαιρετικά μεγάλες απαιτήσεις σε υπολογιστικού πόρους χωρίς να καταφέρνει να ξεχωρίζει σε επιδόσεις.
Τα μοντέλα δοκιμάστηκαν επίσης σε σύνολα δεδομένων που δεν είχαν δει κατά την εκπαίδευση, αποκαλύπτοντας περιορισμούς στη γενίκευση. Για παράδειγμα, το ResNext50 απέδωσε άσχημα στο σύνολο δεδομένων Face2Face, υποδεικνύοντας υπερπροσαρμογή σε συγκεκριμένους τύπους παραποιήσεων. Τα μοντέλα EfficientNet και ViT επίσης αντιμετώπισαν δυσκολίες στη γενίκευση, υπογραμμίζοντας την ανάγκη για ποικίλα δεδομένα εκπαίδευσης για την ενίσχυση της ανθεκτικότητας.
Η εργασία καταλήγει ότι, ενώ τα δοκιμασμένα μοντέλα δείχνουν υποσχόμενα στην ανίχνευση DeepFakes, η αποτελεσματικότητά τους μειώνεται όταν αντιμετωπίζουν άγνωστους τύπους δεδομένων.
Οι μελλοντικές μελέτες θα πρέπει να επικεντρωθούν στην ενίσχυση των δυνατοτήτων ανίχνευσης των μοντέλων μέσω της χρήσης ποικίλων συνόλων και την ανάπτυξη νέων μεθόδων για να εξασφαλιστεί αξιόπιστη απόδοση σε πραγματικές εφαρμογές.
-
Media manipulation dates back to 19th-century photographic techniques and has evolved into the modern era with the rise of DeepFake technology, driven by advances in deep learning and Generative Adversarial Networks (GANs). The societal, political, and ethical implications of DeepFakes can be particularly significant, making the development of improved detection methods essential for preserving information integrity.
This study aims to compare different models for DeepFake video detection, analyzing key techniques and algorithms employed in the field. The goal is to contribute to a deeper understanding of the phenomenon and its detection, in order to develop more effective countermeasures.
Various detection methods are discussed, including Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). The study evaluates three main models: ResNeXt50, EfficientNet_b0, and ViT_b_16. Each model was selected based on specific criteria such as accuracy and computational efficiency. The results show high performance for all models when tested on datasets they were trained on, with ResNeXt50 achieving the best AUC and accuracy, while EfficientNet delivered similar results with significantly lower computational demands. In contrast, ViT_b_16 required substantial computational resources without a notable advantage in performance.
The models were also tested on unseen datasets, revealing limitations in generalization. For example, ResNeXt50 performed poorly on the Face2Face dataset, suggesting overfitting to specific manipulation types. Both EfficientNet and ViT also faced challenges in generalizing, highlighting the need for more diverse training data to improve model robustness.
The study concludes that, while the evaluated models show promise in DeepFake detection, their effectiveness diminishes when facing unfamiliar data types. Future research should focus on enhancing detection capabilities by using diverse datasets and developing new methods to ensure reliable performance in real-world applications.
-
- Hellenic Open University
- Αναφορά Δημιουργού 4.0 Διεθνές
Εντοπισμός Εικόνων Τύπου Βαθιάς Ψευδαίσθησης (DeepFake) με Χρήση Μοντέλων Μηχανικής Μάθησης σε Ροές Βίντεο
DeepFake Image Detection in Video Streams Using Machine Learning Models (english)
Main Files
- Full text
Description: Εντοπισμός Εικόνων Τύπου Βαθιάς Ψευδαίσθησης (DeepFake) .pdf (pdf) Book Reader
Size: 13.8 MB