Η εξόρυξη δεδομένων και η αξιοποίησή τους με σκοπό την ικανότητα πρόβλεψης των βασικών χαρακτηριστικών τους, αποτελεί σημείο κλειδί και πολύτιμο εργαλείο στην σημερινή εποχή της πληροφορίας. Ο μεγάλος όγκος δεδομένων που διαχειριζόμαστε καθημερινά καθιστά επιτακτική την ανάγκη για ανάπτυξη μεθόδων και τεχνικών που υλοποιούν την ανάλυση των δεδομένων ώστε να γίνονται κατανοητά στο τελικό χρήστη.
Σκοπός αυτής της διπλωματικής εργασίας είναι η παρουσίαση των βασικών αρχών και τεχνικών της εξόρυξης δεδομένων που οδηγεί στην ανακάλυψη της γνώσης. Επιπλέον πραγματοποιείται και μια σύντομη παρουσίαση των μεθόδων εκτέλεσης συναισθηματικής ανάλυσης και πιο συγκεκριμένα στις μεθόδους προσέγγισης με χρήση λεξικού.
Για την ανακάλυψη των προβλέψεων δίνεται έμφαση στην εύρεση του προσανατολισμού συναισθήματος του κειμένου (πολικότητα – polarity) καθώς και στο βαθμό αντικειμενικότητας/ υποκειμενικότητάς (subjectivity) του. Ανακαλύπτοντας τα δύο αυτά στοιχεία, στο πλαίσιο της ανάλυσης δεδομένων, μπορούμε να εξάγουμε χρήσιμες πληροφορίες οι οποίες αξιοποιούνται σε διάφορους τομείς (οικονομία, επιστήμη, εμπόριο, ιατρική, δημοσιογραφία, reviews κ.τ.λ.) ανάλογα με το θεματικό περιεχόμενο του κειμένου.
Στο τελευταίο τμήμα της διπλωματικής εργασίας έχει υλοποιηθεί η ανάπτυξη εφαρμογής πρόβλεψης πολικότητας και αντικειμενικότητας/ υποκειμενικότητας του κειμένου. Η αρχιτεκτονική του εν λόγο συστήματος πραγματοποιήθηκε μέσω προγράμματος Python και περιλαμβάνει την συλλογή δεδομένων (web crawling) από κείμενα ιστοσελίδων, την εκτέλεση της διαδικασίας καθαρισμού των δεδομένων με κυριότερη αξιοποίηση της βιβλιοθήκης pandas. Η υλοποίηση του συστήματος ολοκληρώνεται με την οπτικοποίηση των δεδομένων και την εύρεση της τιμής πολικότητας και αντικειμενικότητας/ υποκειμενικότητας με χρήση της βιβλιοθήκης TextBlob. Η παραπάνω διαδικασία εκτελείται σε τέσσερα άρθρα από τον ειδησεογραφικό ιστότοπο (BBC) διαφορετικού γνωστικού περιεχομένου για την ακριβέστερη εξαγωγή συμπερασμάτων.
Data mining and their utilization in order to predict their fundamental characteristics, consist a key point and a valuable tool in contemporary world of information. The vast volume of data that we manage every single day requires the development of processes and techniques that analyze the data so that they are comprehensible to the end user.
The purpose of this master’s thesis is the presentation of the principles and techniques of data mining that lead to knowledge discovery. In addition, a short presentation regarding the methods for execution of sentiment analysis and more specifically the approximate methods with lexicon use, is included.
For the discovery of predictions, emphasis is given in finding sentiment orientation of the text (polarity) as well as in its objectivity/subjectivity rate. By finding out these two elements, in the frame of data analysis, we can extract useful information which can be utilized in different sectors (economy, science, commerce, medicine, journalism, reviews etc.) depending on the content of the text.
In the final section of the master’s thesis, the development of an application that predicts the polarity and the objectivity/subjectivity of the text, is implemented. The architecture of the specific system was developed in Python and includes data collection (web crawling) from websites’ texts, the execution of the data-defining process notably by making use of “pandas” library, the visualization of data and ends with the finding of the polarity and objectivity/subjectivity value by utilizing “TextBlob” library. The aforementioned process is performed on four articles from the news-reporting website (BBC) of different cognitive content in order to extract more accurate conclusions.