Click here to load reader

Kerndichteschätzung Nearest-Neighbour-Verfahren Maschinelles Lernen

  • View
    105

  • Download
    1

Embed Size (px)

Text of Kerndichteschätzung Nearest-Neighbour-Verfahren Maschinelles Lernen

  • Folie 1
  • Kerndichteschtzung Nearest-Neighbour-Verfahren Maschinelles Lernen
  • Folie 2
  • Seite 212/27/2013| Kerndichteschtzung Idee: Bei gegebenen Daten D={x 1,,x N }Verwende die Datenpunkte in der Umgebung eines Punktes x zur Schtzung von p(x) (bzw. zur Schtzung von p(x|), falls verschiedene Klassen gelernt werden sollen). Setze und Dann ist eine Approximation von p(x). Fragen: Wie muss V gewhlt werden? Wie gro muss k sein? Ist eine Dichte?
  • Folie 3
  • Seite 312/27/2013| Kerndichteschtzung Wahre Dichte
  • Folie 4
  • Seite 412/27/2013| Asymptotik fr wachsende Zahl von Datenpunkten N: Parzen Windows, Nearest Neighbours Notwendige Kriterien fr : Zwei Mglichkeiten fr die praktische Wahl von k N,V N bei gegebener Zahl von Datenpunkten N: 1. Whle V N, z.B. V N = N -0.5. Dann erwartet man im Mittel k N = N 0.5 Punkte pro Volumeneinheit, und k N /N = N -0.5. (Parzen Window Methode) 2. Whle k N, z.B. k N = N 0.5. Vergrere das Volumen so lange, bis es k N Punkte enthlt. Man erwartet im Mittel V N = N -0.5 Punkte pro Volumeneinheit, und k N /N = N -0.5. (Nearest Neighbour Methode)
  • Folie 5
  • Seite 512/27/2013| Aus: Duda, Hart, Stork. Pattern Recognition Parzen Windows Nearest Neighbours 1. Whle V N, z.B. V N = N -0.5. Dann erwartet man im Mittel k N = N 0.5 Punkte pro Volumeneinheit, und k N /N = N -0.5. (Parzen Window Methode) 2. Whle k N, z.B. k N = N 0.5. Vergrere das Volumen so lange, bis es k N Punkte enthlt. Man erwartet im Mittel V N = N -0.5 Punkte pro Volumeneinheit, und k N /N = N -0.5. (k-Nearest Neighbour Methode, kNN) Parzen Windows, Nearest Neighbours
  • Folie 6
  • Seite 612/27/2013| Die Gestalt des Volumens ist noch nicht festgelegt. Whlt man jenes als einen Hyperkubus mit Zentrum x und Kantenlnge h N, so hat man: und mit schreibt sich daraus folgt (bei p-dimensionalen Daten) Kerndichteschtzung
  • Folie 7
  • Seite 712/27/2013| Verallgemeinerung: Ist die Funktion selbst eine Dichte, so auch (Beweis: bung) Definiere fr beliebige Kerndichte und Fensterbreite h : Kerndichteschtzung
  • Folie 8
  • Seite 812/27/2013| Aus: Duda, Hart, Stork. Pattern Recognition Dichteschtzungen fr N=5 Datenpunkte und verschiedene Intervallbreiten. Dichte = Standardnormalverteilung Kerndichteschtzung
  • Folie 9
  • Seite 912/27/2013| Gau Kernel Epanechnikov Kernel Tri-cube Kernel Kerndichteschtzung Gebruchliche Kerndichten sind:
  • Folie 10
  • Seite 1012/27/2013| Aus: Duda, Hart, Stork. Pattern Recognition Klassifikation: Schtze p(x| 1 ) und p(x| 2 ) und flle (evtl. nach zustzlichen a priori-Annahmen ber p( k ) ) danach eine ML bzw. eine MAP-Entscheidung. Kerndichteschtzung
  • Folie 11
  • Seite 1112/27/2013| Die Fensterbreite h bestimmt, wie stark sich die geschtzte Dichte den Daten anpasst. Wie immer ist auf einen Kompromiss zwischen Bias und Varianz zu achten. Eine zu kleine Fensterbreite produziert eine beranpassung an die Daten (overfitting). eine zu groe Fensterbreite bergewichtet die initial angenommene Dichte (underfitting). Beides fhrt zu schlechten Verallgemeinerungseigen- schaften der Modelle. Kerndichteschtzung
  • Folie 12
  • Seite 1212/27/2013| The idea is to replace the k-nearest neighbours average by a more robust estimate. Generalize the regression function by weighting the contribution of each y j to the regression function at the point x: Here, K(x,z) is the so-called regression kernel which determines the influence of the point zX on the regression function at x. In order to obtain a sensible regression function, a point z close to x should have a higher impact than a point further away, so the kernel function K(x,z) needs to be bell-shaped around x (as a function of z). Narada-Watson weighted average Exkurs: kNN/Parzen Windows und Regression Usually, the kernel is chosen to be translation invariant, so it can be written as Note that the result of the choice is k-nearest neighbours averaging. Exkurs: kNN Regression
  • Folie 13
  • Seite 1312/27/2013| Like the parameter k for nearest neighbours, the parameter determines the tradeoff between bias and variance in the prediction error and need to be chosen carefully (the sample data is given by the black points) : small medium large Exkurs: kNN Regression
  • Folie 14
  • Seite 1412/27/2013| The result of a weighted regression is a smooth function. However, the bias of such a weighted regression function at the boundaries of the domain X is rather (if f is non-constant at the boundaries). An idea to remove this bias is to combine linear regression with a kernel weighting scheme: For each point xX, solve the weighted linear regression with K one of the mentioned kernel functions. For every x, this yields a local regression function f x (t)= x + x t. The function f x is then evaluated only at the point t=x in order to obtain the (global) regression function Exkurs: kNN Regression
  • Folie 15
  • Seite 1512/27/2013| Taken from: Tibshirani et al. Elements of Statistical Learning Exkurs: kNN Regression

Search related