17
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes‘sches Lernen Niels Landwehr

Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

  • Upload
    letram

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Universität Potsdam Institut für Informatik

Lehrstuhl Maschinelles Lernen

Bayes‘sches Lernen

Niels Landwehr

Page 2: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

Überblick

Grundkonzepte des Bayes‘schen Lernens

Wahrscheinlichstes Modell gegeben Daten

Münzwürfe

Lineare Regression

Logistische Regression

Bayes‘sche Vorhersage

Münzwürfe

Lineare Regression

2

Page 3: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

Überblick

Grundkonzepte des Bayes‘schen Lernens

Wahrscheinlichstes Modell gegeben Daten

Münzwürfe

Lineare Regression

Logistische Regression

Bayes‘sche Vorhersage

Münzwürfe

Lineare Regression

3

Page 4: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

4

Statistik & Maschinelles Lernen

Maschinelles Lernen: eng verwandt mit (induktiver)

Statistik

Zwei Gebiete in der Statistik:

Deskriptive Statistik: Beschreibung, Untersuchung von

Eigenschaften von Daten.

Induktive Statistik: Welche Schlussfolgerungen über die

Realität lassen sich aus Daten ziehen?

Mittelwerte Unterschiede zwischen

Populationen Varianzen

Modellbildung

Erklärungen für

Beobachtungen

Zusammenhänge,

Muster in Daten

Page 5: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

5

Thomas Bayes

1702-1761

„An essay towards solving a

problem in the doctrine of

chances“, 1764 veröffentlicht.

Arbeiten von Bayes grundlegend

für induktive Statistik.

„Bayessche Wahrscheinlichkeiten“ wichtige Sichtweise

auf Unsicherheit & Wahrscheinlichkeit

Page 6: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

6

Frequentistische / Bayessche Wahrscheinlichkeit

Frequentistische Wahrscheinlichkeiten

Beschreiben die Möglichkeit des Eintretens intrinsisch

stochastischer Ereignisse (z.B. Münzwurf).

Definition über relative Häufigkeiten möglicher Ergebnisse

eines wiederholbaren Versuches

„Wenn man eine faire Münze 1000 Mal wirft,

wird etwa 500 Mal Kopf fallen“

„In 1 Gramm Potassium-40 zerfallen pro Sekunde

ca. 260.000 Atomkerne“

Page 7: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

7

Frequentistische / Bayessche Wahrscheinlichkeit

Bayessche, „subjektive“ Wahrscheinlichkeiten

Grund der Unsicherheit ein Mangel an Informationen

Wie wahrscheinlich ist es, dass der Verdächtige X das

Opfer umgebracht hat?

Neue Informationen (z.B. Fingerabdrücke) können diese

subjektiven Wahrscheinlichkeiten verändern.

Bayessche Sichtweise im maschinellen Lernen wichtiger

Frequentistische Sichtweise auch manchmal verwendet,

mathematisch äquivalent

Page 8: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

Bayessche Wahrscheinlichkeiten im Maschinellen Lernen

Modellbildung: Erklärungen für Beobachtungen finden

Was ist das „wahrscheinlichste“ Modell? Abwägen

zwischen

Vorwissen (a-priori Verteilung über Modelle)

Evidenz (Daten, Beobachtungen)

Bayessche Sichtweise:

Evidenz (Daten) verändert „subjektive“

Wahrscheinlichkeiten für Modelle (Erklärungen)

A-posteriori Modellwahrscheinlichkeit, MAP Hypothese

8

Page 9: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

9

Modellvorstellung beim Lernen

Viele Verfahren des maschinellen Lernens basieren auf

probabilistischen Überlegungen

Wir wollen Modelle der Form aus Trainingsdaten

lernen.

Modellvorstellung beim Lernen:

Jemand hat echtes Modell f* nach A-Priori Verteilung

(„Prior“) p(f) gezogen

f* ist nicht bekannt, aber p(f) reflektiert Vorwissen (was sind

wahrscheinliche Modelle?)

Trainingseingaben xi werden gezogen (unabhängig von f*).

Klassenlabels yi werden nach gezogen (zum

Beispiel: , Rauschterm).

Fragestellung Lernen: Gegeben L und p(f), was ist

wahrscheinlichstes „echtes“ Modell?

→ Versuche, f* (ungefähr) zu rekonstruieren

*( | , )i ip y fx

( )y f x

1 1, ),..., ( , ){( }N NyL y xx

*( )ii iy f x 2~ ( | 0, )i

Page 10: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

Bayessche Regel:

Beweis einfach:

Wichtige Grundeinsicht für das maschinelle Lernen: Erlaubt

den Rückschluss auf Modellwahrscheinlichkeiten gegeben

Wahrscheinlichkeiten von Beobachtungen

Bayessche Regel

( | ) ( )( | )

( )

p Y X p Xp X Y

p Y

( , ) ( | ) ( )( | )

( ) ( )

p X Y p Y X p Xp X Y

p Y p Y

Definition bedingte

Verteilung Produktregel

Page 11: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

Modellwahrscheinlichkeit gegeben Daten und Vorwissen

Bayessche Regel

( | ) ( )( | )

( )

( | ) ( )

p Daten Modell p Modellp Modell Daten

p Daten

p Daten Modell p Modell

( ) konstant,

unabhängig von

p Daten

Modell

Likelihood: wie gut erklärt

Modell die Daten?

Prior: wie wahrscheinlich

ist Modell a priori?

Page 12: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

Zentrale Problemstellung: wahrscheinlichstes Modell gegeben Daten.

Gegeben sind

angenommene a priori Verteilung p(f)

beobachtete Daten

Frage: was ist das wahrscheinlichste Modell, gegeben die

angenomme a priori Verteilung und die Daten?

Sogenanntes MAP („maximum a posteriori“) Modell.

Wahrscheinlichstes Modell gegeben Daten

1 1, ),..., ( , ){( }N NyL y xx

* arg max ( | )

( | ) ( ) arg max

( )

arg max ( | ) ( )

f

f

f

f p f L

p L f p f

p L

p L f p f

Bayes'sche Regel

( ) unabhängig von fp L

Page 13: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

Um MAP Modell ausrechnen zu können, brauchen wir zwei Terme:

Likelihood : Wahrscheinlichkeit der Daten

gegeben Modell. Folgt aus Modelldefinition.

Prior : A-priori Verteilung über Modelle. Annahme, soll meist

Vorwissen ausdrücken.

Beispiel Entscheidungsbaumlernen: „Kleine Bäume sind oft

besser als große Bäume“.

Wir sehen gleich verschiedene Beispiele.

Wahrscheinlichstes Modell gegeben Daten

( | )p L f

( )p f

Page 14: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

Überblick

Grundkonzepte des Bayes‘schen Lernens

Wahrscheinlichstes Modell gegeben Daten

Münzwürfe

Lineare Regression

Logistische Regression

Bayes‘sche Vorhersage

Münzwürfe

Lineare Regression

14

Page 15: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

15

Modell für Münzwürfe schätzen

Anwendung Bayes‘sche Regel an einfachem Beispiel: Modell

für Münzwürfe („binomialverteilte Daten“) schätzen.

Münzwurf-Modell

N Mal Münze werfen.

Ergebnis des i-ten Münzwurfs: „Kopf“ oder “Zahl“,

Zufallsvariable .

folgen Bernoulli-Verteilung:

Daten heissen auch „binomialverteilt“, weil die Anzahl der

Kopfwürfe in N Münzwürfen binomialverteilt ist.

{0,1}iy

iy

1~ Bern( | ) (1 )i iy

i i

yy y

( 1)ip y

( 0) 1ip y

Bernoulli-Verteilung

Wahrscheinlichkeit für „Kopf“

Wahrscheinlichkeit für „Zahl“

Page 16: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

16

Modell für Münzwürfe schätzen

Das Münzwurf-Modell sagt vorher, mit welcher

Wahrscheinlichkeit bei einem Münzwurf „Kopf“ fällt.

Modell ist festgelegt durch einen einzigen Parameter:

Wahrscheinlichkeit für Kopfwurf.

Abweichend von unserer Standardproblemstellung gibt es

keine Instanzmerkmale .

Wir möchten ein Münzwurfmodell aus Beobachtungen

schätzen.

Die „echte“ Wahrscheinlichkeit für einen Kopfwurf kennen

wir nie.

Aber mit der Bayes‘schen Regel können wir probabilistische

Aussagen über diese echte Wahrscheinlichkeit machen,

gegeben Daten.

[0,1]

ix

1,... },{ NL y y

Page 17: Bayes‘sches Lernen - Universität Potsdam · se Überblick Grundkonzepte des Bayes‘schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische

Inte

lligente

Date

nanaly

se

17

Bayes‘sche Regel Münzwürfe

Ansatz mit Bayes‘scher Regel:

( | (( | )

( )

p L pp L

p L

A-posteriori Verteilung

über Modelle, charakterisiert

wahrscheinliche Parameterwerte

und verbleibende Ungewissheit

A-priori Verteilung über Modelle,

repräsentiert Vorwissen: für wie

wahrscheinlich halten wir

faire/unfaire Münzen?

Wahrscheinlichkeit der Daten, nur

Normalisierer

Likelihood: wie wahrscheinlich sind Daten

gegeben Modell ? 1,... },{ NL y y