Ανάλυση μεγάλου όγκου δεδομένων με το Apache Spark και το Apache Hadoop

Μούνγκουλης, Στέφανος

Ανάλυση μεγάλου όγκου δεδομένων με το Apache Spark και το Apache Hadoop

Τίτλος σε άλλη γλώσσα Analyzing large volumes of data using Apache Spark and Apache Hadoop (Αγγλική)

Είδος οντότηταςMSc thesis
Συγγραφέας Μούνγκουλης, Στέφανος
Τμήμα Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
Ημερομηνία έργου 25 Σεπτεμβρίου 2021 [2021-09-25]
Γλώσσα του έργου Ελληνικά
Αριθμός Σελίδων 102
Επιβλέπων Καραπιπέρης, Δημήτριος
Εξεταστική επιτροπή Ρίγγας, Δημήτριος | Βασιλακόπουλος, Μιχαήλ
Λέξεις κλειδιά Μεγάλα δεδομένα, Apache Spark, Apache Hadoop
Αριθμός Παραρτημάτων1
Αριθμός διεθνών βιβλιογραφικών αναφορών 15
Περιγραφή Περιέχει: εικόνες, σχήματα, πίνακες.
Περίληψη (Abstract)
- Με τον όρο Big Data εννοούμε εκείνες τις ποσότητες δεδομένων οι οποίες δεν μπορούν να αποθηκευτούν, επεξεργαστούν και αναλυθούν, από τις παραδοσιακές εφαρμογές επεξεργασίας δεδομένων. Ο χειρισμός των δεδομένων αυτών, αποτελεί πρωταρχικό στόχο των περισσότερων εταιριών τεχνολογίας της εποχής μας. Η λειτουργία και επιτυχία των εταιριών αυτών, βασίζεται απόλυτα πλέον, στην ύπαρξη και την επεξεργασία του τεράστιου όγκου δεδομένων που προκύπτουν μέσω των υπηρεσιών τους ή και των προϊόντων τους. Το Apache Hadoop και το Apache Spark αποτελούν δύο από τα πιο σημαντικά εργαλεία για τον χειρισμό των μεγάλου όγκου δεδομένων. Η χρήση του MapReduce απαιτεί πολλά βήματα για την υλοποίηση ακόμα και των απλών εργασιών και στο πρόβλημα αυτό η λύση προέρχεται από την χρήση του Apache Spark. Η χρήση του Apache Spark όχι μόνο βελτιώνει την συνολική απόδοση αλλά προσφέρει επίσης και υψηλού επιπέδου λειτουργίες όσον αφορά την επεξεργασία δεδομένων. Σκοπός της εν λόγω διπλωματικής εργασίας είναι να εξεταστεί και να συγκριθεί με το Apache Hadoop η χρήση του Apache Spark στην επεξεργασία ενός μεγάλου όγκου δεδομένων.
- By Big Data we mean those quantities of data that cannot be stored, processed and analyzed by traditional data processing applications. Handling this kind of data is a primary goal of most technology companies of our time. The operation and success of these companies, is now completely based on the existence and processing of the huge amount of data generated through their services or their products. Apache Hadoop and Apache Spark are two of the most important tools for handling the large volume of data. The use of MapReduce, requires many steps to implement even the simple tasks and in this problem the solution comes by using Apache Spark. The use of Apache Spark not only improves the overall performance but also offers high level features in terms of data processing. The purpose of this thesis is to examine and compare the use of Apache Spark with Apache Hadoop in processing a large amount of training data.
ΆδειαItems in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.

Ανάλυση μεγάλου όγκου δεδομένων με το Apache Spark και το Apache Hadoop - Identifier: 160317

Internal display of the 160317 entity interconnections (Node labels correspond to identifiers)

Loading..

Legend

Navigation

Info

Controls

Narrowness

Inferred

Ανάλυση μεγάλου όγκου δεδομένων με το Apache Spark και το Apache Hadoop

Τίτλος σε άλλη γλώσσα Analyzing large volumes of data using Apache Spark and Apache Hadoop (Αγγλική)

Κύρια Αρχεία Διατριβής