Click here to load reader
Upload
docong
View
213
Download
0
Embed Size (px)
Citation preview
Analytics – Evaluationsmaße für KlassifikationProfessional IT Master
Prof. Dr. Ingo Claßen
Hochschule für Technik und Wirtschaft Berlin
Zweiklassen-Klassifikatoren
Mehrklassen-Klassifikatoren
ROC / AUC
Zweiklassen-Klassifikatoren
Klassifikation mit zwei Klassen
I Postiver Fall – gehört zur Klasse – 1I Negativer Fall – gehört nicht zur Klasse – 0I Beispiel 10 Adressaten einer WerbungI Tatsächliche Klasse – act (actuals):
I die ersten 3 reagierten auf die WerbungI die restlichen 7 nicht
I Vorhergesagte Klasse – pred (predicted)I Nr. 1, 2, 4 und 5 werden auf die Werbung reagierenI die anderen nicht
Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 2/16
Zweiklassen-Klassifikatoren
Konfusionsmatrix – zwei Klassen
act positiv & pred positiv → true positiv (tp) predictedact negativ & pred negativ → true negativ (tn) predictedact negativ & pred positiv → false positiv (fp) predictedact positiv & pred negativ → false negative (fn) predicted
Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 3/16
Zweiklassen-Klassifikatoren
Konfusionsmatrix für das Beispiel
Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 4/16
Zweiklassen-Klassifikatoren
Genauigkeit (accuracy)accuracy =
tp + tntp + fp + tn + fn
accuracy = (5+ 2)/(5+ 2+ 2+ 1) = 70%
Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 5/16
Zweiklassen-Klassifikatoren
Genauigkeit – nicht immer das beste MaßI Annahme Positive Fälle treten selten aufI Nutzloser Klassifikator – sagt immer negativen Fall vorherI Hat aber accuracy = (0+ 9)/(0+ 0+ 9+ 1) = 90%
Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 6/16
Zweiklassen-Klassifikatoren
Trefferrate (recall) recall =tp
tp + fn
I Anteil positiv Vorhergesagter an allen tatsächlich Positiven
recall = 2/(2+ 1) = 66%
Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 7/16
Zweiklassen-Klassifikatoren
Präzision (precision) precision =tp
tp + fp
I Anteil positiv Vorhergesagter an allen vorhergesagten Positiven
precision = 2/(2+ 2) = 50%
Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 8/16
Zweiklassen-Klassifikatoren
Trefferrate versus Präzision
I Hoher recall lässt sich immer erreichenI Einfach alle als positiv vorhersagenI recall = 100% → precision schlecht
I Hohe precision lässt sich immer erreichenI Einfach nur einen als positiv vorhersagen, bei dem man ganz sicher istI precision = 100% → recall schlecht
I Mittelwertbildung zwischen precision und recallI Arithmetisches Mittel ungünstigI Z.B.
precision = 100%, recall = 1% → avg(precision, recall) = 50.5%I Zu guter Wert für schlechten KlassifikatorI Lösung: harmonisches Mittel – F1-Wert
Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 9/16
Zweiklassen-Klassifikatoren
Harmonisches versus arithmetisches Mittel (1)
Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 10/16
Zweiklassen-Klassifikatoren
Harmonisches versus arithmetisches Mittel (2)
Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 11/16
Mehrklassen-Klassifikatoren
Konfusionsmatrix – mehr als zwei Klassen
Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 12/16
Mehrklassen-Klassifikatoren
Kennzahlen – mehr als zwei KlassenKennzahlen pro Klasse
Zusammenfassung zu GesamtkennzahlenI macro – Mittelwert über KlassenwerteI micro – Mittelwert über Einzelwerte
Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 13/16
ROC / AUC
Receiver Operating Characteristic (ROC)Area Under Curve (AUC)
I Trefferrate (true positive rate,tpr) – tp/tp+fn
I Fehlalarmrate (false positiverate, fpr) – fp/fp+tn
I tpr ist der bekannte recall, fprist neu
Wahrscheinlichkeiten positive KlasseAUC = 0.76
Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 14/16
ROC / AUC
Idealer KlassifikatorAUC = 1.0
Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 15/16
ROC / AUC
Zufalls-KlassifikatorAUC = 0.6 – hat im Mittel einen AUC von 0.5
Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 16/16