- MSc thesis
- Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
- 22 Σεπτεμβρίου 2024
- Ελληνικά
- 241
- Δημήτριος Καραπιπέρης
- Δημήτριος Καραπιπέρης | Γεώργιος Φερετζάκης | Βασίλειος Βερύκιος
- Δημόσια Ανοικτά Δεδομένα | Εξόρυξη Δεδομένων | Ενοποίηση Δεδομένων | Καθαρισμός Δεδομένων | Μετασχηματισμός Δεδομένων | Ανάλυση Δεδομένων | Διερευνητική Ανάλυση Δεδομένων | Οπτικοποίηση Δεδομένων | Linear Regression | Random Forest | Agglomerative | Gradient Boosting | Hypothesis Testing | Classification | Clustering
- Εξειδικεύσεις Τεχνολογίας Λογισμικού / ΠΛΣ60
- 1
- 1
- 54
- Εικόνες/Σχήματα, Πίνακες
- Διαχείριση Δεδομένων / Ευαγγελία Πιτουρά
-
-
Το πρόβλημα που τίθεται εντός των πλαισίων αύξησης του όγκου των δημόσιων δεδομένων, είναι αυτό της όσο το δυνατόν ουσιαστικότερης αξιοποίησής του, με σκοπό την εξαγωγή γνώσης μέσω στατιστικών μεθόδων και μεθόδων μηχανικής μάθησης.
Για το σκοπό αυτό εκπονήθηκε σύστημα άντλησης και ανάλυσης δημόσιων δεδομένων.
Το σύστημα υλοποιείται σε τρεις τομείς, αυτούς της άντλησης, της ενοποίησης και καθαρισμού δεδομένων και τέλος της ανάλυσής τους.
Πραγματοποιήθηκε συλλογή δεδομένων από επίσημες πηγές παροχής, όπως η Ευρωπαϊκή Κεντρική Τράπεζα (ECB), η Ευρωπαϊκή Στατιστική Υπηρεσία (ESTAT), ο Παγκόσμιος Οργανισμός Υγείας (WHO), το Google, το YouTube και η χρηματοοικονομική υπηρεσία Alpha Vantage. Συγκεκριμένα αντλήθηκαν δεδομένα για τους σημαντικότερους κοινωνικό- οικονομικούς δείκτες, όπως δείκτες επιτοκίων €STER, δείκτες καταναλωτικής εμπιστοσύνης BS, δείκτες συστημικών κινδύνων CISS, δείκτες Ανεργίας, Χρέους, Πληθωρισμού, Μεταβολής του ΑΕΠ, μετρήσεις κρουσμάτων και θανάτων από την Πανδημία Covid-19, Συναλλαγματικές Ισοτιμίες USD/EUR και CNY/EUR, τιμές για τις πιο βασικές ύλες όπως Πετρέλαιο, Φυσικό Αέριο, Καλαμπόκι και Σιτάρι, τάσεις ενδιαφέροντος αναζητήσεων στο Google και τάσεις παραγωγής οπτικό-ακουστικού υλικού στο YouTube για σημαντικά γεγονότα όπως ο πόλεμος Ρωσίας-Ουκρανίας και ο πόλεμος Ισραήλ-Γάζας, Κλιματική Αλλαγή, Οικονομική Κρίση και πανδημία Covid-19. Η περιοχή ενδιαφέροντος επιλογής των δεδομένων είναι η Ευρωζώνη.
Η χρονική περίοδος που αναλύεται κατά την εφαρμογή του συστήματος είναι από το 2020 έως και 30/06/2024.
Περιγράφονται αναλυτικά όλα τα στάδια και οι διαδικασίες της άντλησης, ενοποίησης και ανάλυσης και το τελευταίο στάδιο συντελείται από τις διαδικασίες της Διερευνητικής Ανάλυσης Δεδομένων (EDA) μέσω διεργασιών Οπτικοποίησης Δεδομένων με διαγράμματα χρονοσειρών, ιστογραμμάτων πυκνότητας, boxplots, καταλήγοντας στην διεργασία της Ανάλυσης Συσχέτισης μέσω Πινάκων Συσχέτισης και παρουσίασης με χάρτες θερμότητας Heat Maps για την εξαγωγή ισχυρών γραμμικών συσχετίσεων και απεικόνισής τους με διαγράμματα διασποράς και επιμέρους χάρτες θερμότητας ομαδοποιώντας τα.
Τέλος, υλοποιούνται και εξετάζονται αναλύσεις μέσω εφαρμογής στατιστικών μεθόδων και αλγορίθμων μηχανικής μάθησης, όπως Linear Regression, Random Forest, Gradient Boosting, Logistic Regression, είτε για Hypothesis Testing είτε και για Classification Analysis και τέλος αλγόριθμοι μηχανικής μάθησης όπως k-Means και Agglomerative για την διαδικασία Clustering.
Το ενδιαφέρον είναι το πως συνδυάζονται μέσω κατάλληλων ελέγχων, όλες οι μεταβλητές που προαναφέρθηκαν, ώστε με τις τιμές τους να εκπαιδευτούν μοντέλα στατιστικής και μηχανικής μάθησης με σκοπό είτε την εξαγωγή γνώσης είτε τη χρήση τους για προβλέψεις και χάραξη στρατηγικών.
-
The problem posed within the context of increasing the volume of public data is that of maximizing its effective utilization, with the aim of extracting knowledge through statistical methods and machine learning techniques.
To this purpose, a system for extracting and analyzing public data was developed.
The system is implemented in three areas: data extraction, data integration and cleaning, and finally, data analysis.
Data was collected from official sources such as the European Central Bank (ECB), Eurostat (ESTAT), the World Health Organization (WHO), Google, YouTube, and the financial service Alpha Vantage. Specifically, data was extracted for key socio-economic indicators such as €STER interest rate indices, BS consumer confidence indices, CISS systemic risk indices, unemployment, debt, inflation, GDP change, Covid-19 cases and deaths, USD/EUR and CNY/EUR exchange rates, prices of major commodities like oil, natural gas, corn, and wheat, search interest trends on Google, and production trends of audiovisual material on YouTube regarding significant events like the Russia-Ukraine war, the Israel-Gaza conflict, climate change, economic crises, and the Covid-19 pandemic. The area of interest for data selection is the Eurozone.
The time period analyzed in the implementation of the system spans from 2020 to June 30, 2024.
All stages and processes of extraction, integration, and analysis are described in detail. The final stage is carried out through the procedures of Exploratory Data Analysis (EDA) using Data Visualization techniques, including time series charts, density histograms, and boxplots. This culminates in the process of Correlation Analysis using Correlation Matrices and presentation with Heat Maps to identify strong linear correlations and visualize them with scatter plots and additional heat maps, grouping them accordingly.
Finally, analyses are conducted and evaliuated using statistical methods and machine learning algorithms such as Linear Regression, Random Forest, Gradient Boosting, and Logistic Regression for Hypothesis Testing and Classification Analysis. Additionally, machine learning algorithms such as k-Means and Agglomerative Clustering are implemented for the Clustering process.
The focus is on how all the aforementioned variables are combined through appropriate checks, so that their values can be used to train statistical and machine learning models with the aim of either extracting knowledge or using them for predictions and strategic planning.
-
- Hellenic Open University
- Αναφορά Δημιουργού-Μη Εμπορική Χρήση 4.0 Διεθνές
Κατασκευή συστήματος ανάλυσης, πρόβλεψης και κατηγοριοποίησης αντλούμενων δημόσιων δεδομένων με χρήση αλγορίθμων μηχανικής μάθησης.
Design of a system for analysis, prediction and classification of extracted public data using machine learning algorithms. (Αγγλική)
Κύρια Αρχεία Διατριβής
- Κύριο μέρος της Διπλωματικής
Περιγραφή: FINAL_147713_DIAMANTIS_PANAGIOTIS_THESIS.pdf (pdf) Book Reader
Μέγεθος: 17.5 MB