Εξόρυξη Γνώσης από το Twitter με σκοπό την Ανάλυση Συναισθήματος σχετικά με τον Covid-19

Knowledge Mining from Twitter for sentiment detection and analysis concerning Covid-19 (Αγγλική)

  1. MSc thesis
  2. Μαλλίδη, Καλλιόπη
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 19 Σεπτεμβρίου 2021 [2021-09-19]
  5. Ελληνικά
  6. 90
  7. Ανδρέας, Καναβός
  8. Εξόρυξη Δεδομένων | Ανάλυση Συναισθήματος | Επεξεργασία Φυσικής Γλώσσας | Λεξικά Συναισθήματος | Μηχανική Μάθηση | Κοινωνικά Δίκτυα
  9. 4
  10. 39
  11. Περιέχει: πίνακες, εικόνες, screenshots, διαγράμματα πίτας
    • Η Διπλωματική Εργασία αφορά στην Εξόρυξη Γνώσης από τα Μέσα Κοινωνικής Δικτύωσης μέσω εξειδικευμένων τεχνικών, έναν τομέα της επιστήμης που συνεχώς εξελίσσεται, και συγκεκριμένα στη μελέτη κι εφαρμογή κατάλληλων αλγορίθμων και τεχνικών Ανάλυσης Συναισθήματος σε αναρτήσεις χρηστών του Twitter που αφορούν στην κρίση της πανδημίας του Covid-19. Από τον μεγάλο όγκο αναρτήσεων στο Twitter με το ξέσπασμα του Covid-19, θα μπορούσαν να εξαχθούν σημαντικά συμπεράσματα για τις ανησυχίες, τους φόβους, τις ανασφάλειες και γενικότερα για τις απόψεις της κοινωνίας σε σχέση με τη διαχείριση της κρίσης αυτής τόσο σε παγκόσμιο επίπεδο, όσο και ειδικότερα στην Ελλάδα. Για τους σκοπούς της Διπλωματικής, αρχικά υλοποιήθηκε κώδικας για την πρόσβαση στις πρωτογενείς αναρτήσεις στο Twitter (Data Crawler), με τον οποίο συλλέχθηκαν αναρτήσεις κειμένου που περιείχαν τις κατάλληλες λέξεις-κλειδιά (keywords) σχετικά με τον Covid-19. Στη συνέχεια πραγματοποιήθηκαν οι ενδεδειγμένες εργασίες καθαρισμού, προ-επεξεργασίας και μορφοποίησης των δεδομένων που συλλέχθηκαν, ένα καίριο σημείο της υλοποίησης μιας και τα δεδομένα αποτελούν την πρώτη ύλη της έρευνας και δεδομένου πως τα κείμενα που αναρτώνται στο Twitter είναι κείμενα «δημιουργικής γραφής», που περιλαμβάνουν: συντομογραφίες, ανορθόγραφα κι ασύντακτα κείμενα, σύμβολα και emoticons. Η δυνατότητα αναγνώρισης των συναισθημάτων που προκάλεσε στην κοινωνία η κρίση του Covid-19 επετεύχθη μέσω της αξιοποίησης των κατάλληλων αλγορίθμων και τεχνικών, όπως τα Λεξικά Συναισθημάτων και η Μηχανική Μάθηση. H υλοποίηση έγινε στο προγραμματιστικό περιβάλλον της γλώσσας Python. Η Python είναι μια εύχρηστη γλώσσα που παρέχει το πλεονέκτημα της αποδοτικής διαχείρισης κειμένου για τον καθαρισμό και την προ-επεξεργασία τους καθώς και για την εφαρμογή των τεχνικών Επεξεργασίας Φυσικής Γλώσσας. Επίσης παρέχει άριστη συνεργασία με εργαλειοθήκες και open-source βιβλιοθήκες που υλοποιούν κι όλα τα υπόλοιπα στάδια της έρευνας από την ανάλυση μέχρι και την παρουσίαση-τεκμηρίωση των αποτελεσμάτων της, τόσο για την προσέγγιση της Ανάλυσης Συναισθήματος με τη χρήση Λεξικών όσο και για την υλοποίηση του μοντέλου Μηχανικής Μάθησης.
    • The Thesis deals with the Knowledge Mining through Social Media, and in this case, with text data related to Covid-19 crisis, collected from Twitter as well as the study and implementation of appropriate algorithms and techniques of Sentiment Analysis. The Knowledge Mining from social media, through specialized analysis techniques, is a field of science that is constantly evolving. From the large volume of posts on Twitter with the outbreak of Covid-19, significant conclusions could be taken about the concerns, fears, insecurities and more generally about the views of society regarding this crisis management worldwide, and in Greece as well. Firsty, in this Diploma Thesis, for accessing and collecting the raw text data posted on Twitter, a Twitter Data Crawler was implemented. The data selected according to the appropriate keywords related to Covid-19. Appropriate text pre-processing was held for cleaning and formatting the collected data. This is a key point of implementation because raw text, posted on all social media and in particular on Twitter are "creative writing" texts, which include: abbreviations, misspelled words and unstructured texts, symbols and emoticons. The ability to recognize the sentiments caused in society by the Covid-19 crisis was achieved through the use of appropriate specialized algorithms and techniques, such as Sentiment Lexicons and Machine Learning. The code written in the Python programming environment. Python is an easy to use language and provides the advantage of efficient text data management for the implementation of methods and techniques of Natural Language Processing, for cleaning and pre-processing the collected Twitter data, also provides excellent cooperation with toolboxes and open-source libraries that implement all other stages of research from analysis to the presentation and documentation of its results, both for the approach of Lexicon-based Sentiment Analysis and for the Machine Learning model.
  12. Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.