Ανάλυση μεγάλου όγκου δεδομένων με το Apache Spark και το Apache Hadoop

Analyzing large volumes of data using Apache Spark and Apache Hadoop (Αγγλική)

  1. MSc thesis
  2. Μούνγκουλης, Στέφανος
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. 25 Σεπτεμβρίου 2021 [2021-09-25]
  5. Ελληνικά
  6. 102
  7. Καραπιπέρης, Δημήτριος
  8. Ρίγγας, Δημήτριος | Βασιλακόπουλος, Μιχαήλ
  9. Μεγάλα δεδομένα, Apache Spark, Apache Hadoop
  10. 1
  11. 15
  12. Περιέχει: εικόνες, σχήματα, πίνακες.
    • Με τον όρο Big Data εννοούμε εκείνες τις ποσότητες δεδομένων οι οποίες δεν μπορούν να αποθηκευτούν, επεξεργαστούν και αναλυθούν, από τις παραδοσιακές εφαρμογές επεξεργασίας δεδομένων. Ο χειρισμός των δεδομένων αυτών, αποτελεί πρωταρχικό στόχο των περισσότερων εταιριών τεχνολογίας της εποχής μας. Η λειτουργία και επιτυχία των εταιριών αυτών, βασίζεται απόλυτα πλέον, στην ύπαρξη και την επεξεργασία του τεράστιου όγκου δεδομένων που προκύπτουν μέσω των υπηρεσιών τους ή και των προϊόντων τους. Το Apache Hadoop και το Apache Spark αποτελούν δύο από τα πιο σημαντικά εργαλεία για τον χειρισμό των μεγάλου όγκου δεδομένων. Η χρήση του MapReduce απαιτεί πολλά βήματα για την υλοποίηση ακόμα και των απλών εργασιών και στο πρόβλημα αυτό η λύση προέρχεται από την χρήση του Apache Spark. Η χρήση του Apache Spark όχι μόνο βελτιώνει την συνολική απόδοση αλλά προσφέρει επίσης και υψηλού επιπέδου λειτουργίες όσον αφορά την επεξεργασία δεδομένων. Σκοπός της εν λόγω διπλωματικής εργασίας είναι να εξεταστεί και να συγκριθεί με το Apache Hadoop η χρήση του Apache Spark στην επεξεργασία ενός μεγάλου όγκου δεδομένων.
    • By Big Data we mean those quantities of data that cannot be stored, processed and analyzed by traditional data processing applications. Handling this kind of data is a primary goal of most technology companies of our time. The operation and success of these companies, is now completely based on the existence and processing of the huge amount of data generated through their services or their products. Apache Hadoop and Apache Spark are two of the most important tools for handling the large volume of data. The use of MapReduce, requires many steps to implement even the simple tasks and in this problem the solution comes by using Apache Spark. The use of Apache Spark not only improves the overall performance but also offers high level features in terms of data processing. The purpose of this thesis is to examine and compare the use of Apache Spark with Apache Hadoop in processing a large amount of training data.
  13. Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.