Wie k¨onnen Computer lernen - rw.cdl.uni-saarland.de · Wie k¨onnen Computer lernen ? Ringvorlesung “Perspektiven der Informatik”, 18.2.2008 Prof. Jun. Matthias Hein Department

Wie konnen Computer lernen ?

Ringvorlesung “Perspektiven der Informatik”, 18.2.2008

Prof. Jun. Matthias Hein

Department of Computer Science, Saarland University, Saarbrucken, Germany

Inferenz I

Wie lernen wir ? Wie wird neues Wissen gewonnen ?

In den Naturwissenschaften unterscheidet man zwei Typen von Inferenz:

• Induktive Inferenz: Lernen von Zusammenhangen durch

Beobachtungen.

• Deduktive Inferenz: Ableitung spezifischer Aussagen von allgemeinen

Prinzipien (Axiomen).

1

Inferenz II

Deduktive Inferenz:

• Mathematik: System aus Axiomen ⇒ Ableitung von Theoremen

• Physik: Postulate uber Natur ⇒ Naturgesetze

Methoden in der Kunstlichen Intelligenz

• Logik

• Automatisches Beweisen von Theoremen

Probleme:

• fuer nicht-mathematische Probleme existiert keine axiomatische

Darstellung

2

Inferenz III

Indduktive Inferenz:

Induktive Inferenz ist das zentrale Mittel in den Naturwissenschaften.

Vorgehensweise:

1. Sammeln von Beobachtungen.

2. Modellbildung.

3. Vorhersage

Falsifikation

Induktive Aussagen werden verworfen aber nie verifiziert.

Maschinelles Lernen versucht den Prozess der Induktion zu automatisieren.

3

Was ist maschinelles Lernen ?

Lernproblem: Erkennung von handschriftlichen Zahlen

4


Terminologie im Maschinellen Lernen:

Eingabe Pixeldarstellung des Bildes (Jedes Bild liegt in R28×28)

Merkmal Eigenschaft der Eingabe (hier: Grauwert eines bestimmten Pixels)

Ausgabe eine Zahl {1, 2, . . . , 10} =⇒ Mehrklassenproblem

Klassifikator eine Funktion von Eingabe nach Ausgabe, hier

f : R784 → {1, 2, . . . , 10}. 5


Terminologie im Maschinellen Lernen:

Training Konstruktion des Klassifikators (Optimierungsproblem)

Test Zahlen der Fehler auf neuen Bildern

Generalisierung Klassifikator macht wenig/keine Fehler auf neuen Bildern

Modell Modell uber den Zusammenhang zwischen Bild und Klasse

6

Anwendungen von maschinellem Lernen

Die wichtigsten Anwendungsgebiete sind:

• Bioinformatik,

• Computer Vision/Image Processing/Computer Graphics,

• Information Retrieval/Collaborative Filtering,

• spam filter/intrusion detection ,

• Robotik,

• jedes Problem wo Daten analysiert werden mussen.

Mehr und mehr Daten werden gesammelt. Ein Mensch allein kann sie nicht

analysieren.

=⇒ Nachfrage nach maschinellem Lernen steigt !

7

Maschinelles Lernen

Man unterscheidet zwischen drei Arten des Lernens:

• uberwachtes Lernen,

• halbuberwachtes Lernen,

• unuberwachtes Lernen.

Im folgenden:

X ist der Eingaberaum , Xi sind die Trainingseingaben,

Y ist der Ausgaberaum, Yi sind die Trainingsausgaben.

8

Uberwachtes Lernen

Uberwachtes Lernen:

Gegeben n Beobachtungen T = (Xi, Yi)ni=1

konstruiere Funktion fn : X → Y.

• Ausgaberaum Y diskret =⇒ Klassifikation.

• Ausgaberaum Y = R or Y = Rd =⇒ (multivariate) Regression.

• Ausgaberaum Y allgemeiner =⇒ Lernen mit strukturierter

Ausgabe.

9

Unuberwachtes Lernen

Unuberwachtes Lernen: Gegeben n Eingabepunkte (Xi)ni=1

:

• Clustering: Einteilung von (Xi)ni=1

in Gruppen ahnlicher Punkte,

sogenannter Cluster.

• Dichtesschatzung: Schatzung der Verteilung auf X . Verwandtes

Problem: Detektion von Ausreißern.

• Dimensionsreduktion: Konstruktion einer Abbildung φ : X → Rm,

wobei die Dimension m des Bildraums viel kleiner als die des

Eingaberaums X ist. The Abbildung sollte gewisse Eigenschaften von X

erhalten z.B. Distanzen.

10

Statistisches Lernen I

• Annahme: Es existiert ein datengenerierendes Wahrscheinlichkeitsmass

P on X × Y.

• Was bedeutet das ?

1. Trainingsdaten sind eine zufallige Stichprobe von P,

2. Die Ausgaben y ∈ Y sind nicht-deterministisch, d.h. es existiert

nicht notwendigerweise y = g(x). Stattdessen fur ein x gibt es eine

Verteilung uber Y.

3. Letzteres heißt, daß eine “perfekte” Losung nicht existiert.

11

Statistisches Lernen II

Binare Klassifikation, d.h. Y = {−1, 1}, and X = Rd. Die gemeinsame

Dichte p(x, y) des Wahrscheinlichkeitsmaßes P auf X ×Y kann aufgespalten

werden in

• Die Verteilung einer Klasse p(x|y) modelliert die Verteilung der

Eingaben einer Klasse.

• Die bedingte Verteilung p(y|x) ist die Wahrscheinlichkeit fur eine

Klasse y gegeben die Eingabe x.

Die wahrscheinlichste Klasse y wird zur Vorhersage verwendet.

• Die Randverteilung p(x) modelliert die Verteilung der Eingabe x uber

alle Klassen.

• Die Klassenwahrscheinlichkeiten p(y). Die Gesamtwahrscheinlichkeit

von Klasse y.

12

Statistical Learning III

Lernproblem: Vorhersage des Geschlechts, Y = {male, female}, basierend

auf der Korpergroße (Eingaberaum: X = R).

1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1 2.20

0.5

1

1.5

2

2.5

3

3.5

4

x

Den

sity

val

ue

p(x|man)p(x|woman)p(x)p(woman|x)

13

But !

14

Herausforderungen im maschinellen Lernen

Herausforderungen im maschinellen Lernen:

• Was fur Merkmale sind diskriminativ ?

• Wie kann man Vorwissen uber das Problem integrieren ?

• Komplexitat,

• “curse of dimensionality”,

• “over-and underfitting” ⇒ Generalisierung ?

15

Overfitting and underfitting I

Regression: Eingabe X = R, Ausgabe Y = R, Trainingsdaten (Xi, Yi)ni=1

.

−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5−2.5

−2

−1.5

−1

−0.5

0

0.5

x

y

True functionSampled PointsInterpolationLinear ModelPolynomial Model

Figure 1: blaue Kurve: wahre Funktion, blaue Kreise: 20 verrauschte Daten-

punkte, rote Kurve: Interpolation der Trainingspunkte, black solid line:

lineares Modell, dotted black line: Polynomiales Modell.16

Overfitting and underfitting II

• Mit Hilfe von Interpolation kann man die Daten immer perfekt

anpassen! (falls keine Widerspruche, d.h. Yi 6= Yj fur Xi = Xj),

=⇒ Overfitting der Daten.

=⇒ keine Generalisierung

• ein sehr einfaches Modell z.B. ein lineares fuhrt zu underfitting, d.h.

die gelernte Funktion kann den Zusammenhang von Eingabe und

Ausgabe nicht darstellen.

=⇒ keine Generalisierung

17

Komplexitat einer Funktion

0 0.2 0.4 0.6 0.8 1−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0 0.2 0.4 0.6 0.8 1−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

Figure 2: Links: Relativ einfache Function, sehr glatt, Rechts: Komplexe

Funktion, weniger glatt.

18

Ockham’s Rasiermesser

Allgemeines Prinzip: bevorzuge weniger komplexe Funktion falls die

Daten gleich gut von beiden Funktionen erklart werden .

“Occam’s razor”:

Pluralitas non est ponenda sine necessitas.’ (Plurality should not be posited

without necessity.),

oder ahnlich:

“Von zwei Theorien, die die gleichen Vorhersagen treffen,

ist die einfachere, zu bevorzugen.”

19

Curse of dimensionality I

Oft hat man sehr viele Merkmale =⇒ Eingaberaum ist hoch-dimensional.

Naiver Histogramschatzer auf X = [0, 1]d.

• unterteile das Interval [0, 1] jeder Dimension in k gleichgroße Intervalle,

• das ergibt kd verschiedene Zellen,

• Klassifiziere jede Zelle durch Mehrheitsentscheidung.

Um den ganzen Eingaberaum klassifizieren zu konnen, benotigt man

wenigstens n = kd Traingsdaten.

die Anzahl der benotigten Trainingsdaten steigt exponentiell mit der

Dimension !

Curse of dimensionality !

20

Curse of dimensionality III

In 10 Dimensionen benotigt man mit k = 10 schon mindestens n = 1010

samples.

⇒ Lernen ist unmoglich (mit dem naiven Histogramm-Schatzer).

Wie can man den “curse of dimensionality” vermeiden ?

• die Eingabe-Merkmale sind nicht unabhangig voneinander,

• Der Eingabe-Ausgabe-Zusammenhang ist “einfach” d.h. Ausgabe

verandert sich nur wenig wenn sich die Eingabe verandert (glatte

Funktion).

⇒ In diesen Fallen ist Lernen immer noch moglich.

21

Curse of dimensionality IV

Distanzen sind alle fast gleich !

Lemma 1. Sei x, y ∈ Rd und ε1, ε2 ∼ N(0, σ2) und X = x + ε1 and

Y = y + ε2,

E ‖X − Y ‖2 = ‖x − y‖2 + 2 d σ2.

• Datenpunkte sind alle fast gleich voneinander entfernt,

⇒ Differenzierung zwischen “nah” und “fern” existiert nicht mehr !

• ahnlich: In hohen Dimensionen ist das Volumen eines Balls unterhalb

der Oberflache konzentriert.

22

Zusammenfassung

Computer konnen lernen

aber

vollstandig automatisches Lernen derzeit noch nicht moglich.

23

Forschungsthemen

Aktuelle Forschungsthemen:

• strukturierte Eingabe (Graphen, Baume, ...),

• strukturierte Ausgabe,

• Transfer von Wissen von einer Aufgabe auf die nachste,

• Lernen von kausalen Zusammenhangen.

Aktuelle/Neue Anwendungen:

• Machine Learning in Computer Games,

• Machine Learning in Software Engineering.

24

Matting

User-guided image segmentation - Example of Semisupervised

Learning:

Left: Input Image with user labels, Right: Image segmentation25

Geometric modelling

Left: Thin-Plate splines + Proj., Middle: Harmonic energy, Right: Eells energy (the

Eells energy is distortion minimizing)

26

Documents

Wie k¨onnen Computer lernen - rw.cdl.uni-saarland.de · Wie k¨onnen Computer lernen ? Ringvorlesung “Perspektiven der Informatik”, 18.2.2008 Prof. Jun. Matthias Hein Department