Προσδιορισμός Βέλτιστων Επιχειρηματικών Συστάδων (Business Clusters) με τη Χρήση Αλγορίθμων Συσταδοποίησης και Γεωγραφικών Συστημάτων Πληροφοριών

Identifying Optimal Business Clusters using Clustering Algorithms and Geographic Information Systems (Αγγλική)

  1. MSc thesis
  2. ΤΣΕΡΓΟΥΛΑΣ, ΗΛΙΑΣ
  3. Μεταπτυχιακή Εξειδίκευση στα Πληροφοριακά Συστήματα (ΠΛΣ)
  4. Οκτώβριος 2016 [2016-10]
  5. Ελληνικά
  6. 110
  7. Σταυρόπουλος, Ηλίας
  8. Βερύκιος, Βασίλειος
  9. συσταδοποίηση | clustering | επιχειρηματικές συστάδες | business clusters | ιεραρχική | hierarchical | k-means | DBSCAN | ΓΠΣ | GIS | γεωγραφική συγκέντρωση | geographic concentration
  10. 2
  11. 6
  12. 34
  13. Περιέχει:Πίνακες, Διαγράμματα, Εικόνες, Χάρτες, Κώδικα Python
    • Η παρούσα εργασία αφορά τη διερεύνηση του προβλήματος προσδιορισμού των βέλτιστων επιχειρηματικών συστάδων με τον περιορισμό της γεωγραφικής εγγύτητας μεταξύ των επιχειρήσεων εντός της ίδιας συστάδας. Η συσταδοποίηση υπό γεωγραφικό περιορισμό αποτελεί ένα ζήτημα με περιορισμένη πρόοδο έως σήμερα καθώς η έλλειψη ποιοτικών γεωγραφικών δεδομένων και η ποικιλομορφία των αλγορίθμων συσταδοποίησης απέτρεπε μια καθολική και ολοκληρωμένη προσέγγιση του προβλήματος. Πλέον, με τη ραγδαία ανάπτυξη των Γεωγραφικών Πληροφοριακών Συστημάτων και την απήχηση των ανοιχτών δεδομένων και υπηρεσιών, δίνεται η δυνατότητα συγκέντρωσης όλων των απαραίτητων δεδομένων, κατά τις επικρατούσες θεωρίες περιφερειακής ανάπτυξης, προκειμένου να προσεγγισθεί αλγοριθμικά το πρόβλημα. Η βιβλιογραφία αναδεικνύει τρεις βασικούς αλγορίθμους συσταδοποίησης: τη συσσωρευτική ιεραρχική συσταδοποίηση, τον k-means και τον DBSCAN. Οι τρεις εν λόγω αλγόριθμοι αποτελούν το αντικείμενο διερεύνησης δυνατότητας προσαρμογής τους ούτως ώστε να λαμβάνουν υπόψη τους το δεδομένο γεωγραφικό περιορισμό και να αποδίδουν έγκυρες και ποιοτικές επιχειρηματικές συστάδες. Η αναζήτηση γεωγραφικών δεδομένων βασίστηκε στην αξιοποίηση ανοιχτών δεδομένων που προέρχονται από δημόσιες υπηρεσίες ή οργανισμούς, ανοιχτών διαδικτυακών υπηρεσιών (OpenStreetMap, geodata.gov.gr) και εργαλείων χωρικής ανάλυσης, όπως Γεωγραφικά Πληροφορικά Συστήματα (ΓΣΠ) και χωρικές βάσεις δεδομένων. Έχοντας επιλέξει τις κατάλληλες τεχνικές και εργαλεία, η επιλογή δεδομένων για την εύρεση βέλτιστων επιχειρηματικών συστάδων βασίστηκε σε θεωρίες περιφερειακής ανάπτυξης και ιδιαίτερα το μοντέλο της πολικής ανάπτυξης. Εκ των τριών αλγορίθμων, ξεχωρίζει ο προσαρμοσμένος αλγόριθμος k-means (geok-means) τόσο για την ταχύτητά του όσο και για την ικανότητά του να παράγει καλά διαχωρισμένες και συνεκτικές συστάδες, στον Ευκλείδειο και στο γεωγραφικό χώρο, ενώ ο αριθμός των συστάδων, ως παράμετρος k, ορίζεται εξ αρχής βάσει μοντέλου πολικής ανάπτυξης. Ακολουθεί ο προσαρμοσμένος αλγόριθμος DBSCAN (geoDBSCAN) με μικρή υστέρηση στην ποιότητα των παραγόμενων συστάδων αλλά σημαντικά ταχύτερος από τον geok-means. Και για τους δύο αλγορίθμους διαπιστώνεται αδυναμία διαχείρισης περιοχών μεγάλης πυκνότητας, όπως οι μητροπολιτικές περιοχές Αθήνας και Θεσαλονίκης, όπου οι συστάδες έχουν μεγαλύτερη γεωγραφική επικάλυψη μεταξύ τους. Τέλος, ο προσαρμοσμένος αλγόριθμος συσσωρευτικής ιεραρχικής συσταδοποίησης απλού συνδέσμου (geosinglelinkage) είναι ο λιγότερο αποδοτικός εκ των τριών αλγορίθμων με σημαντικότερο μειονέκτημα ότι είναι εξαιρετικά αργός δεδομένης της ήδη μεγάλης χρονικής πολυπλοκότητάς του και της αυξημένης χωρικής ποπλυπλοκότητάς του με την διατήρηση μήτρας γεωγραφικών αποστάσεων. Εν κατακλείδι, επαληθεύεται η βασική υπόθεση εργασίας περί αντιμετώπισης του προβλήματος ενσωμάτωσης της γεωγραφικής διάστασης στην ανάλυση επιχειρηματικών συστάδων ως ένα πρόβλημα συσταδοποίησης υπό περιορισμό το οποίο μπορεί να επιλυθεί με την εφαρμογή μοντέλων περιφερειακής ανάπτυξης, τη χρήση εργαλείων χωρικής ανάλυσης και την προσαρμογή των αλγορίθμων συσταδοποίησης.
    • The paper regards the issue of identifying optimal business clusters while taking into account the restriction of geographic proximity among businesses belonging to the same cluster. Clustering under restriction constituted an issue with limited progress due to the inadequate quality and quantity of geographic data as well as the variety of clustering algorithm, thus preventing a holistic approach of the problem. Nowadays, considering the rapid development of Geographic Information Systems and the appeal of open data and services, collecting all the necessary data is feasible in order to tackle the problem in an algorithmic way. Bibliography features three main clustering algorithms: agglomerative hierarchical clustering, k-means and DBSCAN. These three algorithms are being analyzed as to whether they can be adjusted to the specific geographic restriction and, thus, produce valid and of high quality clusters. The quest for geographic data was based on using open data from public services or institutions, open web services (OpenStreetMap, geodata.gov.gr) and spatial analysis tools such as Geographic Information Systems (GIS) and spatial databases. Having chosen the suitable techniques and tools, data selection in order to identify optimal business clusters was based on theories of regional development and especially the model of polar development. Among the three algorithms, the adjusted k-means algorithm (geok-means) prevails due to its high speed on one hand and its ability to produce well separated and compact clusters in the Euclidean and the geographic space while the number of clusters, as parameter k, is defined based on the polar development model. The following algorithm is the adjusted DBSCAN algorithm (geoDBSCAN) with a slight shortfall in the quality of the produced clusters but significantly faster than geok-means. For both algorithms there is a weakness in tackling with areas of high density, such as metrpolitan areas of Athens and Thessaloniki, where clusters demonstrate higher geographic overlap. Finally, the adjusted agglomerative hierarchical single linkage algorithm (geosinglelinkage) is the least efficient among the three algorithms with its largest drawback being that its very slow due to its already high time complexity and its increased spatial complexity by storing a geographic distances matrix. In conclusion, through this paper the main hypothesis is verified by considering the problem of encompassing the geographic dimension in business clusters analysis as a problem of clustering under restriction which can be solved with the application of regional development models, use of spatial analysis tools and modification of the clustering algorithms.
  14. Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.