Η Διπλωματική Εργασία αφορά στην εξαγωγή βασικών χαρακτηριστικών δημόσιων προσώπων ή εταιριών από δεδομένα Μέσων Κοινωνικής Δικτύωσης μέσω εξειδικευμένων τεχνικών, έναν τομέα της επιστήμης της Πληροφορικής που συνεχώς εξελίσσεται και πιο συγκεκριμένα στη μελέτη και εφαρμογή κατάλληλων αλγορίθμων και τεχνικών για την εξαγωγή των βασικών χαρακτηριστικών που προσδίδουν οι χρήστες του Twitter σε δημόσια πρόσωπα ή εταιρίες.
Για το σκοπό αυτό, επελέγησαν από το Twitter οι λογαριασμοί τριών προσώπων από την πολιτική σκηνή της χώρας μας και αναπτύχθηκε κώδικας για την συλλογή των δεδομένων από τα σχόλια και τις απαντήσεις των χρηστών του Twitter στους αναφερόμενους λογαριασμούς.
Η περίοδος συλλογής των tweets ήταν από 3 έως 7 Φεβρουαρίου 2022 όπου υπήρχε κατάλληλη θεματολογία και πληθώρα αναρτήσεων από τα πολιτικά πρόσωπα και αντίστοιχα σχόλια και απαντήσεις από τους χρήστες του μέσου. Το πλήθος τους ανήλθε σε μερικές χιλιάδες tweets για τον κάθε πολιτικό.
Στη συνέχεια, τα συλλεχθέντα tweets επεξεργάστηκαν κατάλληλα για Ανάλυση Συναισθήματος ξεχωριστά για τα επιλεγμένα πρόσωπα, εξήχθησαν τα επίθετα που τους χαρακτήριζαν και τέλος παρουσιάζονται τα αποτελέσματα και ακολούθως τα συμπεράσματα.
Για την ανάπτυξη του κώδικα χρησιμοποιήθηκε η γλώσσα προγραμματισμού Python, μια εύχρηστη γλώσσα που προσφέρει αποδοτική διαχείριση κειμένου μέσω των διεπαφών της με open- source βιβλιοθήκες για Επεξεργασία Φυσικής Γλώσσας.
The Thesis concerns the extraction of basic characteristics of public persons or companies from Social Media data through specialized techniques, a field of Information Science that is constantly evolving and more specifically in the study and application of appropriate algorithms and techniques for extracting the basic characteristics provided by Twitter users to public figures or companies.
For this purpose, the accounts of three people from the political scene of our country were selected from Twitter and a code was developed to collect data from the comments and responses of Twitter users to the mentioned accounts.
The collection period of the tweets was from 3 to 7 February 2022 where there was a suitable topic and a variety of posts by politicians and corresponding comments and responses from users. Their number amounted to a few thousand tweets for each politician.
The collected tweets were then processed appropriately for Sentiment Analysis separately for the selected persons, the adjectives that characterized them were extracted and finally the results are presented and then the conclusions.
The code was developed using Python, a user-friendly language that offers efficient text management through its interfaces with open-source libraries for Natural Language Processing.