Με τον όρο Big Data εννοούμε εκείνες τις ποσότητες δεδομένων οι οποίες δεν μπορούν να
αποθηκευτούν, επεξεργαστούν και αναλυθούν, από τις παραδοσιακές εφαρμογές
επεξεργασίας δεδομένων. Ο χειρισμός των δεδομένων αυτών, αποτελεί πρωταρχικό στόχο
των περισσότερων εταιριών τεχνολογίας της εποχής μας. Η λειτουργία και επιτυχία των
εταιριών αυτών, βασίζεται απόλυτα πλέον, στην ύπαρξη και την επεξεργασία του τεράστιου
όγκου δεδομένων που προκύπτουν μέσω των υπηρεσιών τους ή και των προϊόντων τους.
Το Apache Hadoop και το Apache Spark αποτελούν δύο από τα πιο σημαντικά εργαλεία
για τον χειρισμό των μεγάλου όγκου δεδομένων. Η χρήση του MapReduce απαιτεί πολλά
βήματα για την υλοποίηση ακόμα και των απλών εργασιών και στο πρόβλημα αυτό η λύση
προέρχεται από την χρήση του Apache Spark. Η χρήση του Apache Spark όχι μόνο
βελτιώνει την συνολική απόδοση αλλά προσφέρει επίσης και υψηλού επιπέδου λειτουργίες
όσον αφορά την επεξεργασία δεδομένων. Σκοπός της εν λόγω διπλωματικής εργασίας είναι
να εξεταστεί και να συγκριθεί με το Apache Hadoop η χρήση του Apache Spark στην
επεξεργασία ενός μεγάλου όγκου δεδομένων.
By Big Data we mean those quantities of data that cannot be stored, processed and analyzed
by traditional data processing applications. Handling this kind of data is a primary goal of
most technology companies of our time. The operation and success of these companies, is
now completely based on the existence and processing of the huge amount of data generated
through their services or their products. Apache Hadoop and Apache Spark are two of the
most important tools for handling the large volume of data. The use of MapReduce, requires
many steps to implement even the simple tasks and in this problem the solution comes by
using Apache Spark. The use of Apache Spark not only improves the overall performance
but also offers high level features in terms of data processing. The purpose of this thesis is
to examine and compare the use of Apache Spark with Apache Hadoop in processing a large
amount of training data.
Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.
Κύρια Αρχεία Διατριβής
Ανάλυση μεγάλου όγκου δεδομένων με το Apache Spark και το Apache Hadoop Περιγραφή: 138414_ΜΟΥΝΓΚΟΥΛΗΣ_ΣΤΕΦΑΝΟΣ.pdf (pdf)
Book Reader Πληροφορίες: Κυρίως σώμα διπλωματικής Μέγεθος: 7.0 MB
Ανάλυση μεγάλου όγκου δεδομένων με το Apache Spark και το Apache Hadoop - Identifier: 160317
Internal display of the 160317 entity interconnections (Node labels correspond to identifiers)