Μεγάλα δεδομένα, Apache Spark, NoSQL, MLlib, Scala, Docker
2
26
Περιέχει : εικόνες, πίνακες
Ο όγκος των δεδομένων που παράγεται καθημερινά είναι τεράστιος. Τα τελευταία χρόνια έχει γίνει αντιληπτό ότι οι παραδοσιακές τεχνικές επεξεργασίας και τα παραδοσιακά λογισμικά δεν μπορούν να ανταπεξέλθουν σε αυτή τη συνεχή αυξανόμενη ροή από δεδομένα.
Η παρούσα πτυχιακή εργασία παρουσιάζει όλες τις σύγχρονες τεχνολογίες που έχουν αναπτυχθεί με σκοπό την αποτελεσματικότερη διαχείριση των μεγάλων δεδομένων. Στο πρώτο μέρος αναλύονται οι έννοιες των μεγάλων δεδομένων και κάποιες βασικές τεχνικές επεξεργασίας και ανάλυσής τους. Στη συνέχεια, παρουσιάζονται συνοπτικά οι τεχνολογίες του Hadoop, το Apache Spark και οι no sql βάσεις δεδομένων.
Στο δεύτερο μέρος δημιουργείται ένα cluster χρησιμοποιώντας το docker compose, που περιέχει το Spark Standalone και την no sql βάση Scylla DB. Σε αυτή την υποδομή γίνεται η αποθήκευση και η ανάλυση δεδομένων σχετικών με τα fake news που έχουν ανακτηθεί από την κοινότητα Kaggle. Πιο συγκεκριμένα, δημιουργήθηκε ένα μοντέλο που προβλέπει αν μια είδηση είναι αληθής ή ψευδής χρησιμοποιώντας τον αλγόριθμο κατηγοριοποίησης Naïve Bayes. Τέλος, το μοντέλο αξιολογείται με βάση τις μετρικές accuracy, precision, recall και f1.
Η πτυχιακή εργασία έχει ως στόχο τη δημιουργία ενός μηχανισμού στον οποίο θα μπορούν να συγκεντρώνονται και να αποθηκεύονται δεδομένα από διαφορετικές πηγές και στη συνέχεια να επεξεργάζονται σε περιβάλλον Apache Spark.
The amount of data that is generated daily is huge. In recent years, it has become clear that traditional processing techniques and traditional software cannot cope with this steadily increasing flow of data.
The current thesis presents all the new technology that have been developed in order to handle more efficiently the big data. In the first part, the concepts of big data and data processing techniques are analyzed. Afterwards, technologies such as Hadoop, Apache Spark and no sql databases are presented.
In the second part, a cluster is created by using the docker compose tool, which includes the Spark Standalone and no sql database Scylla DB. In this infrastructure data, which have been retrieved for Kaggle community, related to fake news are stored and analyzed. More specifically, a model has been developed that predicts whether a news item is true or fake by using the Naïve Bayes classification algorithm. Finally, the model is evaluated by the metrics of accuracy, precision, recall and f1.
This thesis aims to develop a mechanism in which data from different sources can be stored and then processed by using Apache Spark.
Hellenic Open University
Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.
Κύρια Αρχεία Διατριβής
Επεξεργασία και Ανάλυση Μεγάλου Όγκου Δεδομένων με Τεχνικές Μηχανικής Μάθησης σε Περιβάλλον Apache Spark Περιγραφή: 101911_ΚΑΡΑΜΠΙΝΟΣ_ΑΓΓΕΛΟΣ.pdf (pdf)
Book Reader Πληροφορίες: Κύριο σώμα πτυχιακής Μέγεθος: 2.6 MB
Επεξεργασία και Ανάλυση Μεγάλου Όγκου Δεδομένων με Τεχνικές Μηχανικής Μάθησης σε Περιβάλλον Apache Spark - Identifier: 160409
Internal display of the 160409 entity interconnections (Node labels correspond to identifiers)