Courville, Yoshua Bengio, Simon Lacoste-Julien Maxinder ...€¦ · Devansh Arpit*, Stanislaw...

A Closer Look at Memorization in Deep Networks

Devansh Arpit*, Stanislaw Jastrzębski*, Nicolas Ballas*, David Krueger*, Maxinder Kanwal, Tegan Maharaj, Emmanuel Bengio, Asja Fischer, Aaron

Courville, Yoshua Bengio, Simon Lacoste-Julien

What is memorization?

2David Krueger

Rote learning (memorization) Meaningful learning (pattern-based)

● Memorization doesn’t capitalize on patterns in data (content agnostic)● Operational definition: behaviour of DNNs trained on random data

Context: “Understanding Deep Learning Requires Rethinking Generalization” - Zhang et al. 2017 [1]

● Shows: DNNs can fit random labels… so are DNNs using “brute-force memorization”?

3David Krueger

Context: “Understanding Deep Learning Requires Rethinking Generalization” - Zhang et al. 2017 [1]

● Shows: DNNs can fit random labels… so are DNNs using “brute-force memorization”?

● My main take-away:We need data-dependent explanations of DNN generalization ability (...and recent work [2] provides

this!)

4David Krueger

[2] “Computing Nonvacuous Generalization Bounds for Deep (Stochastic) Neural Networks with Many More Parameters than Training Data” Dziugaite and Roy (2017)

Compare and ContrastOur work Zhang et al. [1]

● Focuses on differences in learning noise/data

● Conclude DNNs don’t just memorize real data

● Training time is more sensitive to capacity and #examples on noise

● Regularization can target memorization

● Focuses on similarities

● Suggests DNNs might use memorization to fit data

● Training time increases by a constant factor on noise

● Regularization doesn’t explain generalization

5David Krueger

Overview of experiments:

6David Krueger

1. Qualitative differences in fitting noise vs. real data2. Deep networks learn simple patterns first3. Regularization can reduce memorization

Notation:1. randX - random inputs (i.i.d. Gaussian)2. randY - random labels

Experiments (1a): Differences in fitting noise vs. real data

Easyexamples

Hardexamples

Interpretation:In real data, easy examples match underlying patterns of the data distribution; hard examples are exceptions to the patterns.

In random data, examples are all ~equally hard: learning is content agnostic

David Krueger

Experiments (1b): Differences in fitting noise vs. real data

8David Krueger

Interpretation:Meaningful features can be learned by predicting noise (see also: [3] “Unsupervised Learning by Predicting Noise.” Bojanowski, P. and Joulin, A. ICML 2017)

Experiments (1c): Differences in fitting noise vs. real data

Per-class loss-sensitivity (g); a cell i,j represents the average loss-sensitivity of examples of class i w.r.t. training examples of class j. Left is real data, right is random data. Loss-sensitivity is more highly class-correlated for random data.

9David Krueger

Similar to [4] “Understanding black-box predictions via influence functions.” Koh and Liang (ICML 2017)

Experiments (1c): Differences in fitting noise vs. real data

Per-class loss-sensitivity (g); a cell i,j represents the average loss-sensitivity of examples of class i w.r.t. training examples of class j. Left is real data, right is random data. Loss-sensitivity is more highly class-correlated for random data.

10David Krueger

Interpretation:On real data, more patterns (e.g. low-level features) are shared across classes.

(This is a selling-point of deep distributed representations!)

Experiments (1d): Differences in fitting noise vs. real data

11David Krueger

Interpretation:Fitting more real data examples is easier because they follow meaningful patterns

(Note that this contradicts Zhang et al., who claim a constant factor slow-down on noise data!)

Experiments (2a): DNNs learn simple patterns first

Critical sample ratio: how many data-points have an adversarial example nearby?

12David Krueger

Interpretation:Learned hypotheses are less complex for real data

See [5] “Robust large margin deep neural networks.” Sokolic et al.

Experiments (2b): DNNs learn simple patterns first

SOLID: trainset dashed: valid (real data only)

13David Krueger

Interpretation:DNNs fit real data-points (which follow patterns) before fitting noise

Experiments (3): Regularization can Reduce Memorization

14David Krueger

Interpretation:We can severely limit memorization without hurting learning!

Adversarial training (+dropout) is particularly effective, supporting use of critical sample ratio to measure complexity

Conclusions

15David Krueger

1. Qualitative differences in fitting noise vs. real data2. Deep networks learn simple patterns first3. Regularization can reduce memorization

QUESTIONS?

[1] “Understanding deep learning requires rethinking generalization.” Zhang, Chiyuan, Bengio, Samy, Hardt, Moritz, Recht, Benjamin, and Vinyals, Oriol. ICLR 2017 (best paper award)

[2] “Computing Nonvacuous Generalization Bounds for Deep (Stochastic) Neural Networks with Many More Parameters than Training Data” Dziugaite, Gintaire and Roy, Daniel M. arXiv 2017

[3] “Unsupervised Learning by Predicting Noise.” Bojanowski, P. and Joulin, A. ICML 2017

[4] “Understanding black-box predictions via influence functions.” Koh, Pang Wei and Liang, Percy. ICML 2017 (best paper award)

[5] “Robust large margin deep neural networks.” Sokolic, Jure, Giryes, Raja, Sapiro, Guillermo, and Rodrigues, Miguel RD. 2016.

[6] “Adversarial examples in the physical world.” Kurakin, Alexey, Goodfellow, Ian, and Bengio, Samy. ICLR 2017

David KruegerCome to the poster (105) for even more experiments!!

Experiments (1e): Differences btw fitting noise vs. real data

17David Krueger

Interpretation:More effective capacity is needed to fit random data

Courville, Yoshua Bengio, Simon Lacoste-Julien Maxinder ...€¦ · Devansh Arpit*, Stanislaw...

Documents

METODY WYTWARZANIA RADIOIZOTOPÓW DLA TOMOGRAFII POZYTONOWEJ Jerzy Jastrzębski

Ka oar Mrinal Devraj Ojha Kawa Gupta Aarsh IJxa Pranay Khard Devansh Mishra Ananya Jindal Mayuri Soni

Claudia Tavel Gabão Henrietta Kelemen Nigéria Gabriela ...i.cdn.turner.com/tntla/images/portal/fixed/tempo... · Valentina Ferrer Aruba Digene Zimmerman Austrália Tegan Martin

gopalpurcantt.kvs.ac.in 3_0.pdfdivyanshi be-hera rudra prasad sahu sai swari behera pratyush kanti patro prince mallik nikhila sucharita das rushab ranjan padhi devansh gouda nithinjeet

Miles Set 3.pdfSTEVENSON AVE V TAGE PA K DR BR OW N RD TEGAN RD E H R H A D T A V E BABSON DR L A K E D R L A K E P I N T D R LK WAY B R O O K F I E L D D T ANG ERI V R P L M E R H

ROZKAZ NACZELNIKA HARCERZY L6/15 z dnia 24 września … · Hufiec Warszawa, Ćwik Artur Sobota - zastępowy Mł. Piotr Nykiel - Jastrzębski Wyw. Oliver D'Apostino Mł. Adnan Menhal

(Fotograf a de p gina completa)como Anexos 1 y 11 (PLIEO 15359753-DGTALMAEP\14 y IF *Tegan y de la para de y de Cuyo asciende a la de PESOS CUARENTA Y SIEVE MIL TRESC[ENTOS TRELNTA

Highly Resolved Systems Biology to Dissect the Etioplast-to … · Highly Resolved Systems Biology to Dissect the Etioplast-to-Chloroplast Transition in Tobacco Leaves1[OPEN] Tegan

ZASTOSOWANIE METODY FMEA DO POPRAWY KONSTRUKCJI MIESZALNIKA · Piotr Jastrzębski – Metal Process Sp. z o.o., 35-105 Rze-szów, ul. Magazynowa 1. IMPLEMENTATION OF FMEA METHOD FOR

(1)S... · DEVANSH YOGESH KEDIA MEGHA GULATI HE-ET JAYESH MANIAR SHUBHAM KAKKAR JAINIL AMIT SHAH MOHIT GUPTA Dines handra Khansili Executive Director

· sagar dhar owivedi utkarksh shukla ayush kushanb chand kaushik jaiswal aryan srivastava rishabh choudhari janhvi shahi devansh mittal "ushi jaiswal mishra mohammad kr aoitya veer

List of candidates (with points) who have applied for ...n-0517 devansh gupta 09-06-2016 ankur gupta disha gupta 45 n-0521 ivyaan gupta 25-08-2016 kunal gupta kirti gupta 45 n-0522

GŁÓWNE PRAWDY NASZEJ WIARYJadwiga Obara, Maria Kasztelan Cezary Jastrzębski Gil Klaudia Gutowska Ewa Ciszewska Klaudia Józwiak Claudia Kadziołka Kinga Kasztelan Katarzyna Kosiek

La phase modérée de la Révolution française (1789-1792) Une présentation par Tegan Stranks

Devansh das cv a4

Devansh saxena

Katherine Tegan Gillette-Browne BPharm BSci (Hons) 06126979 Gillette...Katherine Tegan Gillette-Browne BPharm BSci (Hons) 06126979 Submitted in [partial] fulfilment of the requirements

Burmistrz Stanisław Jastrzębski

CfE Higher Physics: Uncertainties · Web viewAuthor: Danny Hom Created Date: 06/11/2018 07:47:00 Title: CfE Higher Physics: Uncertainties Last modified by: Tegan Dornan Company:

· 2021. 1. 6. · Vivek kr. Yadav T arun Singh Pawan kumar yadav Saurabh soni Adesh Upadhayay Shivam gupta Ayush kaithwas Siddhant chauhan Shrish upadhyay Devansh Bajpai Saurabh