7.11. Naïve Bayes,...

Wintersemester 2005/06 Alexander HinneburgMartin-Luther-Universität Halle-Wittenberg

Seite 113

Vorlesungsplan

• 17.10. Einleitung• 24.10. Ein- und Ausgabe• 31.10. Reformationstag, Einfache Regeln• 7.11. Naïve Bayes,

Entscheidungsbäume• 14.11. Entscheidungsregeln,

Assoziationsregeln• 21.11. Lineare Modelle, Instanzbasiertes

Lernen• 28 11 Clustering I

Seite 114

Statistische Modellierung• “Gegenteil” von 1R: nutzt alle Attribute• Zwei Annahmen: Attribute sind

– gleich wichtig– statistisch unabhängig (gegeben die Klasse)

• wenn man den Wert eines Attributes weiß, kann man nichts über den Wert eines anderen Attributes sagen(die Klasse wird als bekannt vorausgesetzt)

• Unabhängigkeitsannahme ist nie korrekt!• Aber, die Methode funktioniert gut in der Praxis

Seite 115

Wahrscheinlichkeiten für Wetterdaten

NoYesNoYesNoYes

Normal

Humidity

Cool2/53/9Rainy

Temperature

0/54/9Overcast

3/52/9Sunny

23Rainy

04Overcast

32Sunny

Outlook

YesTrueNormalCoolOvercast

NoTrueNormalCoolRainy

YesFalseNormalCoolRainy

YesFalseHighMildRainy

YesFalseHighHot Overcast

NoTrueHigh Hot Sunny

NoFalseHighHotSunny

PlayWindyHumidityTempOutlook

NoTrueHighMildRainy

YesFalseNormalHotOvercast

YesTrueHighMildOvercast

YesTrueNormalMildSunny

YesFalseNormalMildRainy

YesFalseNormalCoolSunny

NoFalseHighMildSunny

PlayWindyHumidityTempOutlook

Seite 116

Bayesche Regel• Wahrscheinlichkeit eines Ereignis H gegeben

eine Beobachtung E :

• A priori Whr. von H :– Wahrscheinlichkeit des Ereignis vor Beobachtung

• A posteriori Whr. von H :– Wahrscheinlichkeit nach Beobachtung

]Pr[]Pr[]|Pr[]|Pr[

EHHEEH =

]|Pr[ EH

Thomas BayesBorn: 1702 in London, EnglandDied: 1761 in Tunbridge Wells, Kent, England

Seite 117

Naïve Bayes für Klassifikation

• Klassifikationslernen: Whr. einer Klassegegeben eine Instanz? – Beobachtung E = Instanz– Ereignis H = Klassenwert für Instanz

• Naïve Annahme: Beobachtung wird in Teilezergliedert (Attribute) die unabhängig sind

Pr[H | E] = Pr[E1 |H]Pr[E2 |H]KPr[En |H]Pr[H]

Seite 118

Problem “Häufigkeit ist Null”• Was tun wenn ein Attributwert nicht mit jeder Klasse auftritt?

(z.B. “Humidity = high” für Klasse “yes”)– Whr. ist null!

– A posteriori Whr. würde auch null sein!(Unabhängig wie wahrscheinlich die anderen Werte sind!)

• Ausweg (Laplace Schätzer) : addiere 1 zu jeder Anzahl allerAttributwert-Kombinationen (Zähler) und die Anzahl dermöglichen Werte zum Nenner.

• Ergebnis: Whr. sind nie Null!

0]|Pr[ =Eyes

0]|Pr[ == yesHighHumidity

Seite 119

Fehlende Werte• Training: Instanz wird für die

Häufigkeit der Attributwert-KlassenKombination nicht mitgezählt

• Klassifikation: Attribut wird aus derBerechnung weggelassen

• Beispiel:?TrueHighCool?

PlayWindyHumidityTemp.Outlook

Likelihood of “yes” = 3/9 × 3/9 × 3/9 × 9/14 = 0.0238

Likelihood of “no” = 1/5 × 4/5 × 3/5 × 5/14 = 0.0343

P(“yes”) = 0.0238 / (0.0238 + 0.0343) = 41%

P(“no”) = 0.0343 / (0.0238 + 0.0343) = 59%

Seite 120

Nummerische Attribute• Mögliche Annahme: Attribut ist

normalverteilt (gegeben die Klasse)• Whr. Dichtefkt. für Normalverteilung ist

definitiert durch zwei Parameter:– Sample mean µ

– Standard deviation σ

– Dichtefkt. f(x) ist

iixn 1

−−

iixn 1

1 µσ

21)( σ

−−=

Seite 121

Statistik für die Wetterdaten

• Bespiel Dichtewert:

0340.02.62

1)|66( 2

2.62)7366(

=== ∗−

−eyesetemperaturf

σ =9.7

µ =86

95, …

90, 91,

70, 85,

NoYesNoYesNoYes

σ =10.2

µ =79

80, …

70, 75,

65, 70,

Humidity

σ =7.9

µ =75

85, …

72, 80,

65, 71,

σ =6.2

µ =73

72, …

69, 70,

64, 68,

2/53/9Rainy

Temperature

0/54/9Overcast

3/52/9Sunny

23Rainy

04Overcast

32Sunny

Outlook

Seite 122

Klassifizierung eines neuen Tages

• Neuer Tag:

• Fehlende Werte werden beim Training in der Berechnung von Mittelwert und Standardabweichung nicht berücksichtigt

?true9066Sunny

PlayWindyHumidityTemp.Outlook

Likelihood of “yes” = 2/9 × 0.0340 × 0.0221 × 3/9 × 9/14 = 0.000036

Likelihood of “no” = 3/5 × 0.0291 × 0.0380 × 3/5 × 5/14 = 0.000136

P(“yes”) = 0.000036 / (0.000036 + 0. 000136) = 20.9%

P(“no”) = 0.000136 / (0.000036 + 0. 000136) = 79.1%

Seite 123

Wahrscheinlichkeitsdichten

• Beziehung zwischen Wahrscheinlichkeit & Dichte:

• Aber: dies ändert nicht die Berechnung derposteriori Whr. beim Naïve BayesKlassifikator weil ε herausgekürzt wird

• Exakte Beziehung:

Pr[ cfcxc ∗≈+<<− εεε

∫=≤≤b

dttfbxa )(]Pr[

Seite 124

Naïve Bayes: Diskussion• Naïve Bayes fkt. oft überraschend gut (auch

wenn die Unabhängigkeitsannahme verletzt ist)• Warum? Für Klassifikation werden keine

akkuraten Whr. gebraucht solange wie die max. Whr. zur korrekten Klasse zugeordnet wird

• Aber: Hinzufügen vieler redundanter Attribute macht Probleme (z.B. identische Attribute)

• Bemerkung: viele nummerischen Attribute sindnicht normalverteilt(→ Histogramme o. Kernel Density Estimators)

Seite 125

Konstruktion von Entscheidungsbäumen

• Strategie: top downRekursives Teilen und Herrschen– Wähle ein Attribut als Wurzelknoten root

Erzeuge Kindknoten für jeden mögl. Attributwert– Teile Instanzen in Untermengen,

eine für jeden Kindknoten– Setze den Prozeß rekursiv fort für jeden Kindknoten

• Stop, falls alle Instanzen dieselbe Klasse haben

Seite 126

Welches Attribut wählen?

Seite 127

Kriterium zur Attributauswahl

• Welches ist das beste Attribut?– kleine Bäume sind bevorzugt– Heuristik: wähle Attribut welches die “reinsten” Knoten

erzeugt• Populäres Reinheitskriterium: Informationzuwachs

– Informationszuwachs steigt mit der durchschnittlichenReinheit der Untermengen

• Strategie: wähle Attribut, das den größtenInformationszuwachs ergibt

Seite 128

Berechnung der Information• Maß für Information in Bits

– Gegeben eine Whr.verteilung, die durchschnittlich benötigte Information um ein Ereignis vorherzusagen ist die Entropie der Verteilung

– Entropie ist die benötigte Information in Bits (können auch Anteile von Bits sein)

• Formel der Entropie: entropy( p1, p2,K, pn ) = − p1logp1 − p2logp2K − pnlogpn

Seite 129

Claude Shannon, who has died aged 84, perhaps more than anyone laid the groundwork for today’s digital revolution. His exposition of information theory, stating that all information could be represented mathematically as a succession of noughts and ones, facilitated the digital manipulation of data without which today’s information society would be unthinkable.

Shannon’s master’s thesis, obtained in 1940 at MIT, demonstrated that problem solving could be achieved by manipulating the symbols 0 and 1 in a process that could be carried out automatically with electrical circuitry. That dissertation has been hailed as one of the most significant master’s theses of the 20th century. Eight years later, Shannon published another landmark paper, A Mathematical Theory of Communication, generally taken as his most important scientific contribution.

Claude ShannonBorn: 30 April 1916Died: 23 February 2001

“Father of information theory”

Shannon applied the same radical approach to cryptography research, in which he later became a consultant to the US government.

Many of Shannon’s pioneering insights were developed before they could be applied in practical form. He was truly a remarkable man, yet unknown to most of the world.

Seite 130

Beispiel: Attribut Outlook• Outlook = Sunny :

• Outlook = Overcast :

• Outlook = Rainy :

• Erwartete Information für das Attribut:

bits971.0)5/3log(5/3)5/2log(5/25,3/5)entropy(2/)info([2,3] =−−==

bits0)0log(0)1log(10)entropy(1,)info([4,0] =−−==

bits971.0)5/2log(5/2)5/3log(5/35,2/5)entropy(3/)info([3,2] =−−==

Dies ist normaler-weise undefiniert.

971.0)14/5(0)14/4(971.0)14/5([3,2])[4,0],,info([3,2] ×+×+×=bits693.0=

Seite 131

Berechnung des Informationszuwaches(information gain)

• Informationszuwachs: Information vor der Teilung

– Information nach der Teilung

• Informationszuwachs für Wetterdaten:gain(Outlook ) = 0.247 bitsgain(Temperature ) = 0.029 bitsgain(Humidity ) = 0.152 bitsgain(Windy ) = 0.048 bits

gain(Outlook ) = info([9,5]) – info([2,3],[4,0],[3,2])= 0.940 – 0.693= 0.247 bits

Seite 132

Fortsetzung der Teilung

gain(Temperature ) = 0.571 bitsgain(Humidity ) = 0.971 bitsgain(Windy ) = 0.020 bits

Seite 133

Fertiger Entscheidungsbaum

• Bemerkung: nicht alle Blätter müssen rein sein; manchmal haben identische Instanzenverschiedene Klassen⇒ Teilen hört auf wenn Daten nicht mehr geteilt

werden können

Seite 134

Wunschliste für ein Reinheitsmaß

• Geforderte Eigenschaften für ein Reinheitsmaß:– Wenn Knoten rein ist, soll das Maß null sein– Wenn Unreinheit maximal ist (alle Klassen gleich whr.),

Maß soll maximal sein– Maß soll Mehrschritt-Entscheidungen unterstützen

(Entscheidungen können in mehreren Schritten gemacht werden):

• Entropie ist ist die einzige Funktion, die alle dreiEigenschaften hat!

4]) ,measure([3(7/9)7]) ,measure([24]) 3, ,measure([2 ×+=

Seite 135

Eigenschaften der Entropie

• Mehrschritt Eigenschaft:

• Vereinfachte Berechnung:

• Bemerkung: anstelle Informationszuwachs zumaximieren, kann man die Information minimieren

)entropy()()entropy()entropy(rqr,

rqqrqrp,qp,q,r

++×+++=

)9/4log(9/4)9/3log(9/3)9/2log(9/2])4,3,2([info ×−×−×−=9/]9log94log43log32log2[ +−−−=

1=++ rqp

Seite 136

Hochverzweigende Attribute

• Problem: Attribute mit großer Anzahl von Werten (extremer Fall: ID code)

• Teilmengen sind wahrscheinlicher rein wenn in viele kleine Teilmengen aufgeteilt wird⇒ Informationszuwachs tendiert dazu Attribute mit

vielen Werten zu bevorzugen⇒ Dies kann zu overfitting führen (Auswahl eines

Attributes, das nicht optimal für die Vorhersage ist)

Seite 137

Wetterdaten mit ID code

NMLKJIHGFEDC

BAID code

NoTrueHighMildRainyYesFalseNormalHotOvercas

YesTrueHighMildOvercast

YesTrueNormalMildSunnyYesFalseNormalMildRainyYesFalseNormalCoolSunnyNoFalseHighMildSunnyYesTrueNormalCoolOvercas

NoTrueNormalCoolRainyYesFalseNormalCoolRainyYesFalseHighMildRainyYesFalseHighHot Overcas

NoTrueHigh Hot SunnyNoFalseHighHotSunnyPlay

HumidityTemp.Outlook

Seite 138

Baumstumpf für ID code Attribut

• Entropie der Teilung:

⇒ Informationszuwachs ist maximal für ID Code (0.940 bits)

info("ID code") = info([0,1])+ info([0,1])+K+ info([0,1])= 0 bits

Seite 139

Zuwachsverhältnis (Gain ratio)• Gain ratio:

– Modifikation des Informations-zuwachses, die die Tendenz reduziert

• Gain ratio beachtet auch Anzahl derVerzweigungen und deren Größe, wenn einAttribut gewählt wird.– Informationszuwachs wird korrigiert durch Beachtung

der inhärenten Information einer Teilung• Inhärente Information:

– Entropie der Aufteilung der Instanzen in Teilmengen(Wieviel Bits werden gebraucht, um zu entscheiden zuwelcher Teilmenge eine Instanz gehört)

Seite 140

Berechnung des Zuwachsverhältnisses

• Beispiel: inhärente Information für ID code

• Wichtigkeit eines Attributes nimmt zu, wenninhärente Information zunimmt

• Definition des Zuwachsverhältnisses:

• Beispiel:

info([1,1,K,1) =14× (−1/14× log1/14) = 3.807 bits

)Attribute"info("intrinsic_)Attribute"gain(")Attribute"("gain_ratio =

246.0bits3.807bits0.940)ID_code"("gain_ratio ==

Seite 141

Zuwachsverhältnisse für Wetterdaten

0.021Gain ratio: 0.029/1.3620.156Gain ratio: 0.247/1.5771.362Split info: info([4,6,4])1.577 Split info: info([5,4,5])0.029Gain: 0.940-0.911 0.247 Gain: 0.940-0.6930.911Info:0.693Info:

TemperatureOutlook

0.049Gain ratio: 0.048/0.9850.152Gain ratio: 0.152/10.985Split info: info([8,6])1.000 Split info: info([7,7])0.048Gain: 0.940-0.892 0.152Gain: 0.940-0.7880.892Info:0.788Info:

WindyHumidity

Seite 142

Mehr über Zuwachsverhältnis• “Outlook” wird immer noch gewählt• Aber: “ID code” hat größeres Zuwachsverhältnis

– Standardlösung: ad hoc Test um Attribute diesenTypes auszuschließen

• Problem mit Zuwachsverhältnis: es kannüberkompensieren– Ein Attribut könnte nur wegen niedriger inhärenter

Information gewählt werden– Standard Lösung: es werden nur Attribute gewählt,

deren Informationszuwachs > als der Durchschnitt ist

Seite 143

Diskussion• Top-down Induktion von Entscheidungsbäumen:

ID3, Algorithmus entwickelt von Ross Quinlan– Zuwachsverhältnis ist nur eine Verbesserung des

Basis-Algorithmus– ⇒ C4.5: kann nummerische Attribute, fehlende

Daten und Rauschen handhaben• Ähnlicher Ansatz: CART• Es gibt noch mehr Auswahlkriterien!

(Aber nur wenig Unterschiede in der Qualitätder Ergebnisse)

Seite 144

• Daten T enthalten Beispiele aus n Klassen, Gini Index, gini(T) ist definiert als

pj ist relative Häufigkeit von Klasse j in T.• gini(T) ist klein, wenn Klassen in T stark

ungleich verteilt sind.

∑−==

jjpTgini

*CART Auswahlkriterium: Gini Index

Seite 145

• Nach Teilung von T in zwei Untermengen T1 und T2 mit Größen N1 und N2, der Gini Index ist definiert als:

• Das Attribut mit dem kleinsten ginisplit(T) wirdausgewählt.

splitgini N T N TTNgini

Ngini( ) ( ) ( )= +1

*Gini Index

Seite 146

Zusammenfassung

• Top-Down Entscheidungsbaum Konstruktion• Auswahl der Attribute zum Teilen• Informationszuwachs (Information Gain)bevorzugt Attribute mit vielen Werten

• Zuwachsverhältnis (Gain Ratio) berücksichtigtAnzahl und Größe der Teilmengen bei derAttributauswahl

7.11. Naïve Bayes,...

Documents

Inhalt - agfda.userweb.mwn.deagfda.userweb.mwn.de/mixedmodels_2013/downloads/... · Gemischte Modelle Sonja Greven, LMU, 10/2013 69. Bayes-Schätzung für lineare gemischte Modelle

Abteilung Volkswirtschaftslehre Kommentiertes ... · Basic terms and concepts (event and probability, ...), conditional probability, Bayes formula, dependence and independence of

The Shape of Bayes Tests of Power One

6. Bayes-Klassifikation - uni-forst.gwdg.dewkurth/cb/html/gdm_v06.pdf · Der "naive Bayes-Klassifikator" (Böhm 2003) formale Def.: (Schukat-Talamazzini 2002) ... naiven Bayes-Klassifikator

Einführung in die Computerlinguistik Text Classification and …fraser/intro_2019_WS/pdf/13baye… · Text Classification and Naive Bayes Alexander Fraser and Robert Zangenfeind

Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Proseminar Algorithmen auf Graphen Zufälliges Erzeugen von Graphen und Bayes-Netzen Björn Schapitz, CV04, 20.06.2006

Bayes-Verfahren und frequentischer Ansatz in der ... · 1 Bayes-Verfahren und frequentischer Ansatz in der medizinischen Bio-metrie Johannes Hus¨ ing, Institut fur¨ Medizinische

Die Regel von Bayes und der subjektive ...thaeter/stochastik08/... · Die Regel von Bayes und der subjektive Wahrscheinlichkeitsbegri Anna Garrecht Boris Trupka Ausarbeitung zum Vortrag

Kapitel 3: KlassifikationKapitel 3: Klassifikation · Bayes als bedingte Wahrscheinlichkeiten formuliert A-Priori-Wahrscheinlichkeiten modellieren Faktenwissen über dieWahrscheinlichkeiten

Identifikasi Potensi Keberhasilan Studi Menggunakan Naïve

Bayes-Netze - Uni Bremen · Bayes-Netze sind wichtiger Vertreter von probabilistischen graphischen Modellen, die für solche Probleme sehr erfolgreich verwendet werden. Unsicheres

Parametersch atzung und Messunsicherheit mit der Bayes ...iprom.tu-bs.de/_media/lehre/vorlesungen/mda_munsicherheit/mdavorl_2017... · Parametersch atzung und Messunsicherheit mit

WebDM klassifikation regeln - users.informatik.uni-halle.deusers.informatik.uni-halle.de/~hinnebur/Lehre/WebKDD_SS07_web/WebDM... · A. Hinneburg, Web Data Mining MLU Halle-Wittenberg,

Berekening en toepassing van forensische bewijswaarde ... · Klaas Slooten Forensisch DNA-onderzoek Bewijswaarde Moet de bewijswaarde in een context? Discussie: Bayes of p-waardes

Mathematische Grundlagen III - coli.uni-saarland.demasta/mathe3/Bayes.pdf · Mathematische Grundlagen III Maschinelles Lernen I: Klassi kation mit Naive Bayes Vera Demberg Universit

UE Statistik 1 - homepage.univie.ac.at · Inhalt des Kurses 1 Wahrscheinlichkeit Ereignisse Mengen und Stichprobenraume¨ Unabh¨angigkeit, Bedingte Wahrscheinlichkeit, Satz von Bayes

7. Vorlesung - users.informatik.uni-halle.deusers.informatik.uni-halle.de/~hinnebur/Lehre/IR_WS06_web/IR_WS06_7.pdfWS 2006/07 Alexander Hinneburg, Martin-Luther-Universität Halle/Wittenberg

Implementierung und Evaluation verschiedener Bayes-Filter ... · Der Bayes-Filter bietet eine Möglichkeit die Wahrscheinlichkeitsverteilung eines Sys- temzustands auszurechnen, [Thrun

D/A-Wandler - image hifi · PDF fileOtter 2010 mit dem Jazzpianisten Brad Mehldau eingespielt hat (Label Naïve, V 5241, CD). Mit den beiden Bezier-Filtern hatte die Frauenstimme Aus