16

Click here to load reader

Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

  • Upload
    docong

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

Analytics – Evaluationsmaße für KlassifikationProfessional IT Master

Prof. Dr. Ingo Claßen

Hochschule für Technik und Wirtschaft Berlin

Zweiklassen-Klassifikatoren

Mehrklassen-Klassifikatoren

ROC / AUC

Page 2: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

Zweiklassen-Klassifikatoren

Klassifikation mit zwei Klassen

I Postiver Fall – gehört zur Klasse – 1I Negativer Fall – gehört nicht zur Klasse – 0I Beispiel 10 Adressaten einer WerbungI Tatsächliche Klasse – act (actuals):

I die ersten 3 reagierten auf die WerbungI die restlichen 7 nicht

I Vorhergesagte Klasse – pred (predicted)I Nr. 1, 2, 4 und 5 werden auf die Werbung reagierenI die anderen nicht

Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 2/16

Page 3: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

Zweiklassen-Klassifikatoren

Konfusionsmatrix – zwei Klassen

act positiv & pred positiv → true positiv (tp) predictedact negativ & pred negativ → true negativ (tn) predictedact negativ & pred positiv → false positiv (fp) predictedact positiv & pred negativ → false negative (fn) predicted

Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 3/16

Page 4: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

Zweiklassen-Klassifikatoren

Konfusionsmatrix für das Beispiel

Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 4/16

Page 5: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

Zweiklassen-Klassifikatoren

Genauigkeit (accuracy)accuracy =

tp + tntp + fp + tn + fn

accuracy = (5+ 2)/(5+ 2+ 2+ 1) = 70%

Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 5/16

Page 6: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

Zweiklassen-Klassifikatoren

Genauigkeit – nicht immer das beste MaßI Annahme Positive Fälle treten selten aufI Nutzloser Klassifikator – sagt immer negativen Fall vorherI Hat aber accuracy = (0+ 9)/(0+ 0+ 9+ 1) = 90%

Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 6/16

Page 7: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

Zweiklassen-Klassifikatoren

Trefferrate (recall) recall =tp

tp + fn

I Anteil positiv Vorhergesagter an allen tatsächlich Positiven

recall = 2/(2+ 1) = 66%

Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 7/16

Page 8: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

Zweiklassen-Klassifikatoren

Präzision (precision) precision =tp

tp + fp

I Anteil positiv Vorhergesagter an allen vorhergesagten Positiven

precision = 2/(2+ 2) = 50%

Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 8/16

Page 9: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

Zweiklassen-Klassifikatoren

Trefferrate versus Präzision

I Hoher recall lässt sich immer erreichenI Einfach alle als positiv vorhersagenI recall = 100% → precision schlecht

I Hohe precision lässt sich immer erreichenI Einfach nur einen als positiv vorhersagen, bei dem man ganz sicher istI precision = 100% → recall schlecht

I Mittelwertbildung zwischen precision und recallI Arithmetisches Mittel ungünstigI Z.B.

precision = 100%, recall = 1% → avg(precision, recall) = 50.5%I Zu guter Wert für schlechten KlassifikatorI Lösung: harmonisches Mittel – F1-Wert

Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 9/16

Page 10: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

Zweiklassen-Klassifikatoren

Harmonisches versus arithmetisches Mittel (1)

Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 10/16

Page 11: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

Zweiklassen-Klassifikatoren

Harmonisches versus arithmetisches Mittel (2)

Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 11/16

Page 12: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

Mehrklassen-Klassifikatoren

Konfusionsmatrix – mehr als zwei Klassen

Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 12/16

Page 13: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

Mehrklassen-Klassifikatoren

Kennzahlen – mehr als zwei KlassenKennzahlen pro Klasse

Zusammenfassung zu GesamtkennzahlenI macro – Mittelwert über KlassenwerteI micro – Mittelwert über Einzelwerte

Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 13/16

Page 14: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

ROC / AUC

Receiver Operating Characteristic (ROC)Area Under Curve (AUC)

I Trefferrate (true positive rate,tpr) – tp/tp+fn

I Fehlalarmrate (false positiverate, fpr) – fp/fp+tn

I tpr ist der bekannte recall, fprist neu

Wahrscheinlichkeiten positive KlasseAUC = 0.76

Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 14/16

Page 15: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

ROC / AUC

Idealer KlassifikatorAUC = 1.0

Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 15/16

Page 16: Analytics Evaluationsmaße für Klassifikation ...home.htw-berlin.de/.../analytics/analytics-eval-classification.pdf · Analytics Evaluationsmaße für Klassifikation - Professional

ROC / AUC

Zufalls-KlassifikatorAUC = 0.6 – hat im Mittel einen AUC von 0.5

Analytics – Evaluationsmaße für Klassifikation – Ingo Claßen 16/16