Classification of Credit Applicants Using Data Mining. Thema

Preview:

Citation preview

Classification of Credit Applicants

Using Data Mining.

Thema

Gruppe E1-116 a

• Yue Sun

• Frank Moritz

• Jasmin Catovic

• André Bünger

• Supervisor: Thomas D. Nielson

Aufgabenstellung

• Klassifizierung von Kreditnehmern mittels Datamining

• genutzte Techniken:– Entscheidungsbäume– Neuronale Netze– Naive Bayes Klassifizierer

Aufbau der Präsentation

• verwendete Datenbank

• Benutze Algorithmen

• Experimente und Ergebnisse

• Schlussfolgerung

Die Datenbank

• Name:– Determining the solidness of borrowers via

Credit-Scoring

• Herkunft:– Statistisches Archiv der Universität

München

Datenbank 2

• 1000 Datensätze

• 21 Attribute– 20 Merkmalsattribute

• 3 stetige• 17 diskrete

– 1 Zielattribut (kreditwürdig, nicht kreditwürdig)

Trainings- und Testsets

• 5 verschiedene Sets

• Größe der Testsets : 300 Datensätze

• Größe der Trainingsets :– 700 Datensätze– 500 Datensätze– 300 Datensätze– 100 Datensätze

Diskretisierung

• Naive Bayes benötige diskrete Attribute

• 2 verschiedene Methoden benutzt– vorgegebener Vorschlag („Expertenmeinung“)– recursive minimal entropy partitioning (RMEP)

RMEP

• teilt stetige Attribute, so dass Intervalle mit gleichem Zielattributwert gebildet werden

• Realisiert mit Weka DiscretizeFilter (MDL)

Naive Bayes Klassifizierer

• basiert auf Bayes Theorie der bedingten Wahrscheinlichkeit

• Annahme das die Attribute unabhängig voneinander sind

Struktur

Creditability

F WorkerDuration

Balance

Credit History

...

Entscheidungsbäume

• verwendete Software : Clementine 6.0– Clementine verwendete den C5 Algorithmus– C5 ist eine Verbesserung von C4.5– basiert auf ID3

Neuronale Netze

• Verwendete Software : Clementine 6.0– Vorwärtsverkettete Netze– eine versteckte Schicht mit 5 Neuronen

Experimente

• Ziel: den besten Klassifizierer finden

• Variation von Parametern– Naive Bayes : m-estimate of probability– Entscheidungsbäume : Pruningrate, Kosten– neuronale Netze: Momentum, Lernrate

Entscheidungsbäume

„Expertenmeinung“

Vergleich der Diskretisierungsmethodenbei 700 Datensätzen

Vergleich der Klassifikation in kreditwürdig/nicht kreditwürdig bei 700 DS und “Expertenmeinung”

pruning 1 50 60 80 99class

label 0 1 0 1 0 1 0 1 0 1

0 48 48 47 49 45 51 35 61 3 93

1 36 168 32 172 29 175 24 180 0 204

Probleme bei der Klassifikation

• Viele nichtkreditwürdige werden als kreditwürdig klassifiziert

• Mit erhöhtem Pruning werden mehr als kreditwürdig klassifiziert

• Problemlösungsversuch:– Kosten für Missklasssifikation erhöht– Ergebnis : keine Verbesserung

Neuronale Netze

69

70

71

72

73

74

75

76

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1.0

learning rates

accu

racy EO

ORG

RMEP

trainiert mit 700 Datensätzen und Momentum = 0.5

Vergleich der Klassifikation

Learning rate 0.1 0.3 0.5 0.7 0.9

class

label 0 1 0 1 0 1 0 1 0 1

0 42 51 37 56 40 53 42 50 45 47

1 26 181 25 182 26 181 32 176 36 172

trainiert mit 700 Datensätzen,

“Expertenmeinung”, momentum=0.5

Probleme

• Viele Nichtkreditwürdige werden als kreditwürdig klassifiziert

• Stark unterschiedliche Ergebnisse bei Modellen mit den gleichen Parametern und Datensätzen (bis zu 17%)

Naive Bayes Klassifizierer

66,00%

67,00%

68,00%

69,00%

70,00%

71,00%

72,00%

73,00%

74,00%

75,00%

76,00%

0 10 20 30 40 50 60 70 80 90 100

m

ac

cu

rac

y 100 instances

300 instances

500 instances

700 instances

„Expertenmeinung“

66,00%

67,00%

68,00%

69,00%

70,00%

71,00%

72,00%

73,00%

74,00%

75,00%

76,00%

m

accu

racy RMEP

EO

Vergleich von „Expertenmeinung“ und RMEP

bei 700 Datensätzen

m 0 10 20 50 100Class

label0 1 0 1 0 1 0 1 0 1

0 48 43 48 42 41 49 32 59 19 72

1 33 176 34 176 28 182 22 187 14 195

Vergleich der Klassifikation bei 700 Datensätzen und “Expertenmeinung”

Vergleich der besten Ergebnisse• Entscheidungsbäume:

• Original : 72,07% mit pruningrate von 80• RMEP: 71,20% mit pruningrate von 80• EM: 73,40% mit pruningrate von 60

– Neuronale Netze• original: 74,07% mit alpha 0.5 und eta 0.5• RMEP: 75,34% mit alpha 0.5 und eta 0.2• EM: 74,53% mit alpha 0.5 und eta

0.1

– Naive Bayes Klassifizierer• RMEP: 74,73% mit m=5• EM: 74,87% mit m=10

Vergleich 2

0 1 insgesamt

Entscheidungsbäume : 47% 86% 73,40%

Neuronale Netze: 46% 87% 75,34%

Naive Bayes Klassifizierer: 53% 84% 74,87%

Zusammenfassung

• bestes Resultat mit neuronalen Netzen

• aber keine großen Unterschiede

• Naive Bayes Klassifizierer klassifiziert nichtkreditwürdige Kreditnehmer am besten

• gleiche Probleme bei der Klassifikation von nichtkreditwürdigen Kreditnehmern

Fazit

• bester Klassifizierer ist der Naive Bayes Klassifizierer, da er nichtkreditwürdige Kunden besser klassifiziert als die anderen zwei Methoden.

• dadurch Reduzierung der Kreditausfälle für die Bank

Recommended