Stochastic Neighbor Compression

Matt J. KusnerStephen Tyree

Kilian Q. WeinbergerKunal Agrawal

NN Classifier

class 1

class 3

class 2

[Cover & Hart, 1967]

class 1

class 3

class 2= test input

[Cover & Hart, 1967]NN Classifier

class 3

class 2

class 1

1-nearest neighbor rule[Cover & Hart, 1967]

NN Classifier

class 3

class 2

class 1

1-nearest neighbor rule

during test-time...

complexity:

training inputsfeatures

O�dn

[Cover & Hart, 1967]NN Classifier

class 3

class 2

class 1

during test-time...

for each test input!

e.g.complexity:

O�dn

[Cover & Hart, 1967]

n = 6⇥ 104

d = 784

⇡ 47 million

O(dn�

NN Classifier

How can we reduce this complexity?

complexity:

O�dn

NN Classifier

1. reduce nHow can we reduce this complexity?

complexity:

O�dn

NN Classifier

1. reduce n Training Consistent Sampling

Prototype Generation

Prototype Positioning

[Hart, 1968][Anguilli, 2005]

[Mollineda et al., 2002][Bandyopadhyay & Maulik, 2002]

[Bermejo & Cabestany, 1999][Toussaint 2002]

complexity:

O�dn

NN Classifier

1. reduce n

2. reduce d

complexity:

O�dn

NN Classifier

1. reduce n

2. reduce d

Dimensionality Reduction

[Hinton & Roweis, 2002][Tenenbaum et al., 2000]

[Weinberger et al., 2004][van der Maaten & Hinton, 2008]

[Weinberger & Saul, 2009]

complexity:

O�dn

NN Classifier

3. use data structures

1. reduce n

2. reduce d

complexity:

O�dn

NN Classifier

Tree Structures

Hashing

[Omohundro, 1989][Beygelzimer et al., 2006]

[Andoni & Indyk, 2006][Gionis et al., 1999]3. use data structures

1. reduce n

2. reduce d

complexity:

O�dn

NN Classifier

1. reduce n

2. reduce d

complexity:

O�dn

NN Classifier

Dataset Compression

1. reduce n

2. reduce d

complexity:

O�dn

NN Classifier

Main Idealearn new synthetic inputs!

‘compressed’ datatraining data

‘compressed’ data

"· · · zm

#training data

xn�1

"x2 xix1 · · · · · ·

y1 y2 yi yn�1 yn· · · · · · y1 ym· · ·

"· · · zm

#training data

xn�1

"x2 xix1 · · · · · ·

y1 y2 yi yn�1 yn· · · · · · y1 ym· · ·

m << n

use ‘compressed’ set to make future predictions

"· · · zm

y1 ym· · ·

Approach

class 1

class 3

class 2

steps to a new training set:

Approach

class 1

class 3

class 21. subsample

Approach

class 1

class 3

class 21. subsample

2. learn prototypes

Approach

class 1

class 3

class 21. subsample2. learn prototypes

move inputs to minimize 1-nn training error

Learning Prototypesmove inputs to minimize 1-nn training error

label of nearest neighbor to in set {z1, . . . , zm}

true label

minz1,...,zm

[nn{z1,...,zm}(xi) 6= yi]

Learning Prototypes

label of nearest neighbor to in set {z1, . . . , zm}

true label

minz1,...,zm

[nn{z1,...,zm}(xi) 6= yi]

Learning Prototypes

minz1,...,zm

[nn{z1,...,zm}(xi) 6= yi]

not continousnot differentiable

Learning Prototypes

minz1,...,zm

[nn{z1,...,zm}(xi) 6= yi]

[Hinton & Roweis, 2002]Stochastic Neighborhood

Learning Prototypes

minz1,...,zm

[nn{z1,...,zm}(xi) 6= yi]

Learning Prototypes

minz1,...,zm

[nn{z1,...,zm}(xi) 6= yi]

Learning Prototypes

probability --- is predicted correctly

minz1,...,zm

[nn{z1,...,zm}(xi) 6= yi]

Learning Prototypes

j:yj=yi

exp(��2kxi � zjk22),

minz1,...,zm

[nn{z1,...,zm}(xi) 6= yi]

Learning Prototypes

j:yj=yi

z1,...,zm

� log(pi)

minimize negative log likelihood

minz1,...,zm

[nn{z1,...,zm}(xi) 6= yi]

Learning Prototypes

j:yj=yi

z1,...,zm

� log(pi)

minimize negative log likelihood

use conjugate gradient descent!

Results[a motivating visualization]

Results

- 38 people- ~64 images/person- lighting changes

Yale-Faces

Results

Yale-Faces

ResultsYale-Faces

- lighting changes

- 38 people- ~64 images/person

Results

Yale-Faces

Resultssubsampled real faces

Results

Resultslearned faces

Results[datasets]

Results

Resultstraining inputs

Resultsnumber of classes

Resultsoriginal & reduced features

[Weinberger & Saul, 2009]

Results[error]

Results

ratio of training inputs in compressed set

Results

test error

Results

on full training set

Results

initialization

Results

training set consistent sampling

Results

our method

Results

Results[test-time speed-up]

Resultscomplementary approaches

ball-treeslocality-sensitive hashing (LSH)

[test-time speed-up]

ball-trees

locality-sensitive hashing (LSH)

ball-trees

compression rate

1-NN full dataset

1-NN after SNC

ball-trees

compression rate

ball-trees full dataset

ball-trees after SNC

ball-trees

compression rate

LSH full dataset

LSH after SNC

Summary

subsample after optimizationoriginal data

▫ learns a compressed training set for NN classifierStochastic Neighbor Compression

Summary▫ learns a compressed training set for NN classifier

▫ Stochastic Neighborhood[Hinton & Roweis, 2002]

▫ Compression by 96% without error increase in 5/7 cases

▫ test-time speed-ups on top of NN data structures

Thank you!Questions?

Results[robustness to label noise]

noise added to training labels

using larger k

training set consistent sampling

our method

Stochastic Neighbor Compression - GitHub...

Documents

Algoritma K-Nearest Neighbour untuk Memprediksi Harga Jual ... · Algoritma K-Nearest Neighbor (KNN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data

ARTIKEL APLIKASI KLASIFIKASI TANAMAN REMPAH …simki.unpkediri.ac.id/mahasiswa/file_artikel/2017/a74a06047eb4b9e42d... · Nearest Neighbor cukup akurat dalam mengklasifikasi jenis

Nearest Neighbor

teknik.trunojoyo.ac.idteknik.trunojoyo.ac.id/ft_utm/images/Bain_Khusnul_Khotimah/Lampiran... · K-Nearest Neighbor Menggunakan Kombinasi Basis Aturan dan Basis Pengetahuan ... Sistem

1 Chapter 4. 2 Non-nearest neighbor MC’s Example 012 λ2λ μ 2μ

Schnelle k-Nearest-Neighbor Algorithmen auf der Basis von Simulated Annealing Seminar: Ausgewählte Kapitel des Softcomputing Dezember 2007

PENERAPAN ALGORITMA K-NEAREST NEIGHBOR UNTUK …

The University of Wisconsin-Madison Universal Morphological Analysis using Structured Nearest Neighbor Prediction Young-Bum Kim, João V. Graça, and Benjamin

K Nearest Neighbor (K NN)

OPTIMASI ALGORITMA K-NEAREST NEIGHBOR DALAM …lib.unnes.ac.id/35827/1/4611415002_Optimized.pdfskripsi dengan judul “Optimasi Algoritma K-Nearest Neighbor dalam Mendeteksi Komentar

Implementasi Metode K-Nearest Neighbor Pada Aplikasi Data ...research.kalbis.ac.id/Research/Files/.../CDRHHLKPOJ7STTQHS1YJF02JX.pdf · I. PENDAHULUAN Dalam dunia bisnis yang selalu

기계학습 - nlp.jbnu.ac.krnlp.jbnu.ac.kr/AI2019/slides/ch04-1.pdf · 분류 분류기학습알고리즘 결정트리(decision tree) 알고리즘 K-근접이웃(K-nearest neighbor,

KLASIFIKASI AKREDITASI MENGGUNAKAN METODE K ...repository.usd.ac.id/37869/2/165314101_full.pdfi KLASIFIKASI AKREDITASI MENGGUNAKAN METODE K-NEAREST NEIGHBOR (KNN) PADA DATA SEKOLAH

IMPLEMENTASI METODE K - Nearest Neighbor DALAM …lib.unnes.ac.id/36881/1/5302412114_Optimized.pdf · vi SARI ATAU RINGKASAN Saputro, Bayu. 2019. Implementasi Metode K-Nearest Neighbor

Reconhecimento E Classificação De Fácies Geológicas ...repositorio.unicamp.br/bitstream/REPOSIP/265514/1/Sanchetta_Alexandre... · K-NN method (K-nearest Neighbor) applied on

IMPLEMENTASI NEAREST NEIGHBOR PADA DATA KATEGORIK …repository.its.ac.id/43372/1/5113100062-Undergraduate_Theses.pdf · IMPLEMENTASI NEAREST NEIGHBOR PADA DATA KATEGORIK DENGAN PEMBOBOTAN

eprints.umk.ac.ideprints.umk.ac.id/4476/2/Daftar_Isi.pdf · model data mining dalam pengklasifikasian ketertarikan belajar mahasiswa ... kombinasi metode k-nearest neighbor dan nave

Nonequilibrium physics in multicellular systemsithems-stamp-wg.riken.jp/.../slides/Noneq2018-Kawaguchi.pdf5 1. Skin homeostasis is maintained by nearest neighbor fate coupling [Science

A fast nearest neighbor classifier based on self-organizing incremental neural network (SOINN)

Basic Data Mining Techniques. Query Tools Statistical Techniques Visualization Techniques Case-Based Learning (K-Nearest Neighbor) Contents