Big Data, Apache Spark, Graphx, Apache Hadoop, Xen, Patent Citations
2
8
61
εικόνες, πίνακες
Μια από τις προκλήσεις της εποχής μας είναι η ανακάλυψη προτύπων τάσεων και ανωμαλιών σε μεγάλα σύνολα δεδομένων και η σύνοψη τους μέσω απλών και εύχρηστων μοντέλων. Η αύξηση της υπολογιστής ισχύς αλλά και η μείωση του κόστους αποθήκευσης είχε ως αποτέλεσμα την δημιουργία νέων μοντέλων ανάπτυξης λογισμικού. Ένα από αυτά τα μοντέλα είναι και το υπολογιστικό Νέφος (cloud computing) παρέχοντας την ευελιξία αναβάθμισης ή υποβάθμισης των υπολογιστικών πόρων σύμφωνα με τις απαιτήσεις των τελικών χρηστών.
Η παρούσα εργασία αφορά την μελέτη ανάλυσης δεδομένων μεγάλου όγκου σε μορφή γράφων. Σκοπός της είναι να παρουσιάσει τις μεθόδους και εργαλεία της ανάλυσης μεγάλων δεδομένων. Για το σκοπό αυτό γίνεται αναφορά στο υπολογιστικό νέφος και τις δυνατότητες που μας παρέχει , εξετάζει το Apache Spark και την ανάλυση γράφων με Graphx. Για τον σκοπό αυτό πραγματοποιείται εγκατάσταση και παραμετροποίηση του Apache Spark και Apache Hadoop σε υποδομή υπολογιστικού Νέφους. Ακόμη αναπτύσσεται μια εφαρμογή στο προγραμματιστικό πλαίσιο του Apache Spark με τις βιβλιοθήκες του Graphx και αναλύονται δεδομένα από το γράφο του dataset "The NBER U.S. Patent Citations Data File" που περιέχει τα citations σε πατέντες από το U.S. Patent Office. Η εφαρμογή αναπτύσσεται με την γλώσσα προγραμματισμού Scala με τον κώδικα να διατεθείτε σχολιασμένος .
Η υλοποίηση και η εκτέλεση της εφαρμογής θα είναι εφικτή μόνο σε περιβάλλον Apache Spark. Η πτυχιακή εργασία έχει ως στόχο την υλοποίηση ενός κορμού οπού εν συνέχεια θα μπορούν να αναπτυχθούν περαιτέρω μέθοδοι και λειτουργίες ώστε να μπορεί να εκτελείται για διάφορα σύνολα δεδομένων.
One of the challenges of our time is the discovery pattern trends and anomalies in large data sets and their summary through simple and easy-to-use models. Increasing computer power and reducing storage costs has effected at software development. One of these models is cloud computing, providing the flexibility to upgrade or degrade computing resources according to the end-user requirements.
This paper deals with the analysis of large graph data. Its purpose is to present the methods and tools of large data analysis. For this purpose, we refer to the cloud computing and the capabilities it provides, examines Apache Spark and graph analysis with Graphx. To do this, we installed and configured the Apache Spark and Apache Hadoop in a cloud computing infrastructure. In addition, an application is deployed in the Apache Spark programming framework with Graphx libraries and analyzed the data from the "NBER U.S. Patent Citations Data File" dataset containing U.S. citations in patents from Patent Office. The application is developed with the Scala programming language with the code to be annotated.
Implementation and execution of the application will only be possible in an Apache Spark environment. The Thesis is an implementation of a framework where further methods and functions can be developed so that it can be executed for different data sets.
Hellenic Open University
Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.
Κύρια Αρχεία Διατριβής
Aνάλυση δεδομένων μεγάλου όγκου σε μορφή γράφων σε υποδομή Apache Spark Περιγραφή: HOU-CS-UGP-2016-10GerogeSidirasF.pdf (pdf)
Book Reader Πληροφορίες: Aνάλυση δεδομένων μεγάλου όγκου σε μορφή γράφων σε υποδομή Apache Spark Μέγεθος: 5.8 MB
Aνάλυση δεδομένων μεγάλου όγκου σε μορφή γράφων σε υποδομή Apache Spark - Identifier: 72323
Internal display of the 72323 entity interconnections (Node labels correspond to identifiers)