Ζούμε σε ένα κόσμο, όπου καθετί γύρω μας μετράει, καθένας και καθετί είναι δικτυωμένος και διαμοιράζεται δεδομένα με τους γύρω του. Όπως το ένα ποτάμι ρέει, έτσι και τα δεδομένα βρίσκονται σε διαρκής κίνηση, κινώντας τον τροχό των επιχειρήσεων. Τα δεδομένα σήμερα, παράγονται σε τέτοιους ρυθμούς που μέχρι πρότινος, δεν ήταν εφικτή η επεξεργασία τους από ένα μόνο υπολογιστικό σύστημα. Καθώς το κόστος των συστημάτων αποθήκευσης δεδομένων, συστημάτων μεγάλης υπολογιστικής ισχύς και των συστημάτων για ανάλυση δεδομένων ολοένα και μειώνεται, τα δεδομένα που παράγονται από τις διάφορες συσκευές, παράλληλα αυξάνονται με ρυθμό τέτοιο ώστε να καθιστάται αδύνατη η ανάλυση τους. Πέραν της συλλογής και διαχείρισης δεδομένων, οι εταιρείες αρχίζουν να εστιάζουν και σε άλλες τεχνολογίες αιχμής, όπως το Ίντερνετ των Πραγμάτων (IoT) και την Τεχνητή Νοημοσύνη (AI), προκειμένου να καταφέρουν να παράγουν πληροφορίες με ένα πιο επαναστατικό τρόπο. H δημόσια ασφάλεια και η επιβολή του νόμου είναι μόνο μερικά από τα παραδείγματα που παρουσιάζουν κοινωνικά ακόμα οφέλη από την ανάλυση δεδομένων φυσικού γραπτού λόγου, ενδυναμώνοντας την διερεύνηση εγκλημάτων. Η ανάλυση συναισθήματος, η κατηγοριοποίηση περιεχομένου, ο εντοπισμός γλώσσας και η έρευνα πρόθεσης είναι μόνο μερικά από τα παραδείγματα εφαρμογών στον τομέα αυτό. Η επεξεργασία τέτοιων δεδομένων, όπως η φυσική γλώσσα, εκτός από την πολυπλοκότητα του φυσικού λόγου που αποτελεί αναπόσπαστη πρόκληση για να γίνει κατανοητή από ένα ψηφιακό υπολογιστικό σύστημα, φέρει εκτός των άλλων και επιπρόσθετες προκλήσεις στις διαδικασίες που απαιτούνται για την ανάλυσή τους. Για τον λόγο αυτό, η διπλωματική αυτή εργασία στοχεύει εκτός των άλλων, στην πρόταση μιας μεθοδολογίας προσέγγισης έργων σχετικά με την ανάλυση μη-δομημένων δεδομένων, όπως επίσης προσφέρει ένα εργαλείο ευρείας χρήσης το οποίο χρησιμοποιώντας ένα υβριδικό μοντέλο από προηγμένες μεθόδους ανάλυσης δεδομένων για κατηγοριοποίηση κειμένων (συγκεκριμένα Κατηγοριοποίηση περιεχομένου) παράγει αποτελέσματα μεγαλύτερης ακρίβειας.
We are living in a world where everything computes, everyone and everything is connected and sharing data. Flowing like a river, data is in motion moving the wheel of the business. Data has been produced in such tremendous rate, that wasn’t possible for organizations to process it in one single computing system. With the decreasing cost of data storage, high-performance compute and analytical engines and an increase stream of data from thousands of devices, it is no longer possible for specialists to analyze and contextualize all this environmental data in a short time-frame. Going beyond just capturing and managing data, enterprises are tapping into IoT and Artificial Intelligence (AI) to create insights and intelligence in a revolutionary way that was not possible before. For instance, by analyzing unstructured data (such as text), call centers can extract entities, concepts, themes which can enable them to get faster insights that only few years back was not feasible. Public safety and law enforcement are only few of the examples that benefit from text analytics used to strengthen crime investigation. Sentiment Analysis, Content Classification, Language Detection and Intent Detection are just some of the Text Classification applications. The overall process model of such applications considering the complexity of the unstructured data, can be definitely challenging. In response to the chaotic emerging science of unstructured data analysis, the main goal of this dissertation is to first contribute to the gap of no existing methodology approach for text mining projects, as well as to provide a cross-platform CLI tool which is able to combine various advanced analytics techniques for Text Classification (specifically Content Classification) and create a hybrid model approach, which is able to classify greater number of documents as well as provide better accuracy and precision outcomes.
Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.
Περιγραφή: 123940_Skarpathiotaki_Christina.pdf (pdf)
Book Reader Πληροφορίες: Κυρίως σώμα διπλωματικής Μέγεθος: 2.1 MB
Περιγραφή: ProjectTextClassifier.zip (zip) Πληροφορίες: Υλοποίηση κώδικα διπλωματικής ( Ο κώδικας της διπλωματικής περιλαμβάνεται επιπλέον και στα παραρτήματα του αρχείου "Κυρίως σώμα διπλωματικής") Μέγεθος: 228 kB
ΕΡΓΑΛΕΙΑ ΑΝΑΛΥΣΗΣ ΜΕΓΑΔΕΔΟΜΕΝΩΝ ΚΑΙ ΠΡΟΚΛΗΣΕΙΣ - Identifier: 71720
Internal display of the 71720 entity interconnections (Node labels correspond to identifiers)