Ανάπτυξη συστήματος εντοπισμού επισκέψεων από bots σε ιστοσελίδες

Bot detection system for websites (Αγγλική)

  1. MSc thesis
  2. Κονταρίνης, Ζήσιμος
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 25 Σεπτεμβρίου 2021 [2021-09-25]
  5. Ελληνικά
  6. 308
  7. Μαρκέτος, Γεράσιμος
  8. Μαρκέτος, Γεράσιμος | Ρήγκου, Μαρία
  9. Bots | Ανίχνευση Bots | Διαφημιστική Απάτη | Δέντρα Απόφασης | Νευρωνικό Δίκτυο
  10. 4
  11. 4
  12. Περιέχει : εικόνες, διαγράμματα, πίνακες
    • Ο όρος bot προέρχεται από το «ro-bot» που αποτελεί πιο περιγραφική σύμπτυξη του όρου «Internet bot» ή «Web bot». Τα Bot είναι ένας γενικός όρος που χρησιμοποιείται για να προγράμματα ή σύνολο προγραμμάτων που προορίζονται για την εκτέλεση προκαθορισμένων στόχων με μηχανικό τρόπο. Στόχος της συγκεκριμένης διπλωματικής διατριβής είναι η ανάλυση διαδικτυακών ροών σε ιστότοπους ώστε να εντοπιστούν επισκέψεις που δε μπορούν να αποδοθούν σε ανθρώπινη δραστηριότητα (άρα πρόκειται για bots). Τα Bots έχουν εξελιχθεί σε σοβαρή απειλή τόσο για τους ιστότοπους όσο και για τα κοινωνικά δίκτυα λόγω της κακόβουλης συμπεριφορά τους. Καθώς τα bots έχουν γίνει πιο προηγμένα με την πάροδο του χρόνου, η δημιουργία αλγορίθμων για τον εντοπισμό τους παραμένει μια ανοιχτή πρόκληση. Η χρησιμότητα λοιπόν ενός τέτοιου συστήματος είναι πολλαπλή: μπορεί να αξιοποιηθεί για την αντιμετώπιση απάτης στο χώρο της διαφήμισης (ad fraud), να προστατέψει την ιστοσελίδα από κακόβουλες επισκέψεις, καταχωρήσεις στοιχείων κτλ. Η διπλωματική περιέχει το θεωρητικό και το τεχνικό μέρος. Στο πρώτο μέρος γίνεται η βιβλιογραφική επισκόπηση της συμπεριφοράς bots και ειδικά στο χώρο του ad fraud αλλά και του machine learning ως το πιο αναπτυσσόμενο εργαλείο για την αντιμετώπιση του προβλήματος. Ειδικότερα αναλύονται συγκεκριμένες τεχνικές ανίχνευσης, όπως τα δέντρα απόφασης, οι κανόνες συσχέτισης, τα νευρωνικά δίκτυα και οι γενετικοί αλγόριθμοι. Το τεχνικό μέρος περιέχει το σχεδιασμό ενός συστήματος πρόβλεψης επισκέψεων bots και την αξιολόγηση του. Η ανάπτυξη του συστήματος βασίστηκε στην συλλογή δεδομένων επισκέψεων μέσω του google analytics, τα οποία μετά από επεξεργασία εισήχθησαν σε κατάλληλα διαμορφωμένο νευρωνικό δίκτυο, με στόχο την ανίχνευση μηχανικών (μη ανθρώπινων) sessions. H αποτελεσματικότητα του νευρωνικού δικτύου σε πραγματικές συνθήκες, ελέγχθηκε με τη δημιουργία εικονικών bot-session, τα οποία εντοπίστηκαν σε ποσοστό άνω του 95%.
    • The term bot comes from "ro-bot" which is a shortening of the term "Internet bot" or "Web bot ". Bot is a general term used to describe a computer program or a set of programs that are intended to perform predefined tasks mechanically. The aim of this dissertation is to analyze web feeds on websites in order to identify visits that cannot be attributed to human activity (so these are bots). Bots have become a serious threat to both websites and social networks due to their malicious behavior. As bots have become more advanced over time, creating algorithms to detect them remains an open challenge. So the usefulness of such a system is multiple: it can be used to deal with fraud in the field of advertising (ad fraud), to protect the website from malicious visits, data entries, etc. The dissertation contains theoretical and technical part. The first part provides a bibliographic overview of the behavior of bots and especially in the field of ad fraud and machine learning as the most developing tool to address the problem. In particular, specific detection techniques are analyzed, such as decision trees, correlation rules, neural networks, and genetic algorithms. The technical part contains the design of a bot’s visit prediction system and its evaluation. The development of the system was based on the collection of visit data through google analytics, which after processing were introduced into a properly configured neural network, with the aim of detecting mechanical (non-human) sessions. The efficiency of the neural network in real conditions was tested by creating virtual bot-sessions, which were detected in more than 95%.
  13. Attribution-NonCommercial-NoDerivatives 4.0 Διεθνές