Οι τεχνικές μοντελοποίησης που βασίζονται στην τεχνητή νοημοσύνη χρησιμοποιούνται ευρέως στην μοντελοποίηση του πιστωτικού κινδύνου. Στην παρούσα δουλειά, εστιάζουμε σε 2 τεχνικές μοντελοποίησης , στις Μηχανές Διανυσμάτων Υποστήριξης (ΜΔΥ, Support Vector Machines) και στα Τεχνητά Νευρωνικά Δίκτυα. Χρησιμοποιούμε τις παραπάνω τεχνικές σε τρία είδη συνόλων δεδομένων. Το πρώτο σύνολο δεδομένων είναι ένα απλό τεχνητό σύνολο δεδομένων. Περιλαμβάνει 2 ανεξάρτητες μεταβλητές οι οποίες παράγουν μια εξαρτημένη μεταβλητή που περιέχει 2 κλάσεις (ταξινόμηση 2 κλάσεων). Αν και τα δεδομένα δεν είναι γραμμικά διαχωρίσιμα, οι συστάδες (clusters) των δεδομένων είναι διακριτές και μια απλή, μη γραμμική συνάρτηση, μπορεί να τα διαχωρίσει. Το δεύτερο σύνολο δεδομένων είναι ένα πιο περίπλοκο σύνολο δεδομένων. Περιλαμβάνει 24 ανεξάρτητες μεταβλητές. Η εξαρτημένη μεταβλητή περιέχει επίσης 2 κλάσεις (ταξινόμηση 2 κλάσεων). Τα δεδομένα δεν είναι τεχνητά αλλά πραγματικά. Το τρίτο σύνολο δεδομένων είναι ένα τεχνητό σύνολο δεδομένων. Περιλαμβάνει 7 ανεξάρτητες μεταβλητές και μια εξαρτημένη μεταβλητή που περιέχει 7 κλάσεις (ταξινόμηση πολλών κλάσεων). Η απόδοση της κάθε τεχνικής υπολογίζεται με την χρήση του πίνακα σύγχυσης (confusion matrix) και της καμπύλης λειτουργικών χαρακτηριστικών (Receiver Operating Characteristic Curve -ROC curve). Τέλος τα αποτελέσματα συγκρίνονται με την απόδοση ενός απλοϊκού ταξινομητή Bayes, ενός ταξινομητή που ανήκει στις μεθόδους ταξινόμησης που χρησιμοποιούν πιθανότητες.
Modeling techniques based on artificial intelligence (AI) are widely used in credit risk modeling. In this work, we focus on two modeling techniques, the Support Vector Machine (SVM) and Artificial Neural Networks (ANN). We apply the above techniques on three types of datasets. The first dataset is a simple artificial dataset. It contains two predicting variables that produce a response that contains two classes (binary classification). Even though the dataset is non-linearly separable, the clusters are distinct and a simple nonlinear function can separate them. The second dataset is more complex. It contains 24 predicting variables. The response variable also contains two classes (binary classification). The data are not artificial. They are real-life data. The third dataset is an artificial dataset. It contains 7 predicting variables and a response variable that contains 7 classes (multinomial classification). The performance of each technique is estimated by the use of the confusion matrix and the Receiver Operating Characteristic Curve (ROC curve). Finally the results are compared with the performance of the Naive Bayes classifier, a classifier that belongs to the probabilistic classification family.
Items in Apothesis are protected by copyright, with all rights reserved, unless otherwise indicated.
Κύρια Αρχεία Διατριβής
Μοντελοποίηση πιστωτικού κινδύνου με την χρήση τεχνικών τεχνητής νοημοσύνης - Identifier: 89686
Internal display of the 89686 entity interconnections (Node labels correspond to identifiers)