“main” — 2018/10/22 — 22:43 — page i — #1 · • Bölüm 3, Olasılık ve Bilgi Kuramı: John Philip Anderson, Kai Arulkumaran, Vincent Dumoulin, Rui Fa, Stephan Gouws,

✐✐

“main” — 2018/10/22 — 22:43 — page i — #1 ✐✐

✐✐

✐✐

✐✐

“main” — 2018/10/22 — 22:43 — page ii — #2 ✐✐

✐✐

✐✐

Yayın Numarası: 18061. Baskı: Ekim 2018

ISBN 978-605-82132-9-6

Sertifika Numarası: 41825Buzdağı Yayınevi

Altay Mahallesi 2668. CaddeFırat Life Style Rezidans 1F/61

Eryaman/ANKARAt: +90 312 219 77 98f: +90 312 219 55 43

[email protected]

BaskıAnkamat Matbaacılık

13256

Copyright c� 2016 Massachusetts Institute of Technologyc� Türkçe yayın hakları Buzdağı Yayınevi’ne aittir.

Bu kitabın hiçbir bölümü, yazarın ve yayınevinin izni alınmadanbasılı ve dijital olarak çoğaltılamaz, yayınlanamaz.

✐✐

“main” — 2018/10/22 — 22:43 — page iii — #3 ✐✐

✐✐

✐✐

Derin Öğrenme

Ian GoodfellowYoshua BengioAaron Courville

✐✐

“main” — 2018/10/22 — 22:43 — page iv — #4 ✐✐

✐✐

✐✐

Genel Yayın YönetmeniFatih ÖZDEMİR

YazarlarIan GoodfellowYoshua Bengio

Aaron Courville

ÇevirmenlerProf. Dr. Fatoş YARMAN VURAL

Dr. Öğr. Üyesi Ramazan Gökberk CİNBİŞDoç. Dr. Sinan KALKAN

Çevirmen YardımcılarıHüseyin AYDIN

Yarkın Deniz ÇETİNBerkan DEMİRELHazal MOĞULTAY

Mert Bülent SARIYILDIZGencer SÜMBÜL

EditörlerBilgin AKSOYFerhat KURT

Doç. Dr. Vedat ÇELİK

Editör YardımcılarıFurkan KALINSAZDoruk SÖNMEZ

Son OkumaAhmet Okan ŞEKER

DizgiVeysel TOPRAK

Kapak FotoğrafıDaniel Ambrosi

(Joseph Smarr ve Chris Lamb tarafından düzenlenmiştir.)

✐✐

“main” — 2018/10/22 — 22:43 — page v — #5 ✐✐

✐✐

✐✐

İçindekiler

Web sitesi xiii

Teşekkür xv

Çevirmenlerin Ön Sözü xix

Derin Öğrenme Sözlüğü xxi

Notasyon xxxix

1 Giriş 11.1 Bu Kitabı Kimler Okumalı? . . . . . . . . . . . . . . . . . . . . . . 91.2 Derin Öğrenmede Tarihsel Eğilimler . . . . . . . . . . . . . . . . . 11

I Uygulamalı Matematik ve Makine Öğrenmesinin Temelleri 27

2 Doğrusal Cebir 292.1 Skalerler, Vektörler, Matrisler ve Tensörler . . . . . . . . . . . . . 292.2 Matris ve Vektörleri Çarpmak . . . . . . . . . . . . . . . . . . . . 322.3 Birim ve Ters Matrisler . . . . . . . . . . . . . . . . . . . . . . . . 342.4 Doğrusal Bağımlılık ve Uzayı Germe . . . . . . . . . . . . . . . . . 352.5 Normlar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.6 Matrisler ve Vektörlerin Özel Çeşitleri . . . . . . . . . . . . . . . . 392.7 Özayrışma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.8 Tekil Değer Ayrışımı . . . . . . . . . . . . . . . . . . . . . . . . . . 43

✐✐

“main” — 2018/10/22 — 22:43 — page vi — #6 ✐✐

✐✐

✐✐

İÇİNDEKİLER

2.9 Moore-Penrose Tersimsisi . . . . . . . . . . . . . . . . . . . . . . . 442.10 İz Operatörü . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452.11 Determinant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462.12 Örnek: Ana Bileşenler Analizi (PCA) . . . . . . . . . . . . . . . . 46

3 Olasılık ve Bilgi Kuramı 513.1 Neden Olasılık? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.2 Rastgele Değişkenler . . . . . . . . . . . . . . . . . . . . . . . . . . 543.3 Olasılık Dağılımları . . . . . . . . . . . . . . . . . . . . . . . . . . 543.4 Marjinal Olasılık . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563.5 Koşullu Olasılık . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573.6 Koşullu Olasılıkların Zincir Kuralı . . . . . . . . . . . . . . . . . . 573.7 Bağımsızlık ve Koşullu Bağımsızlık . . . . . . . . . . . . . . . . . . 583.8 Beklenti, Değişirlik ve Eşdeğişirlik . . . . . . . . . . . . . . . . . . 583.9 Sık Karşılaşılan Olasılık Dağılımları . . . . . . . . . . . . . . . . . 603.10 Sık Kullanılan Fonksiyonların Kullanışlı Özellikleri . . . . . . . . . 653.11 Bayes Kuralı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683.12 Sürekli Değişkenlerin Teknik Detayları . . . . . . . . . . . . . . . . 683.13 Bilgi Kuramı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 703.14 Yapılandırılmış Olasılık Modelleri . . . . . . . . . . . . . . . . . . 74

4 Sayısal Hesaplama 774.1 Taşma ve Küçümenlik . . . . . . . . . . . . . . . . . . . . . . . . . 774.2 Yetersiz Koşullama . . . . . . . . . . . . . . . . . . . . . . . . . . . 794.3 Gradyan-Temelli Eniyileme . . . . . . . . . . . . . . . . . . . . . . 794.4 Kısıtlı Eniyileme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 894.5 Örnek: Doğrusal En Küçük Kareler . . . . . . . . . . . . . . . . . 92

5 Makine Öğrenmesinin Temelleri 955.1 Öğrenme Algoritmaları . . . . . . . . . . . . . . . . . . . . . . . . 965.2 Kapasite, Aşırı Uydurma ve Yetersiz Uydurma . . . . . . . . . . . 1085.3 Hiperparametreler ve Doğrulama Kümeleri . . . . . . . . . . . . . 118

vi

✐✐

“main” — 2018/10/22 — 22:43 — page vii — #7 ✐✐

✐✐

✐✐

İÇİNDEKİLER

5.4 Kestiriciler, Önyargı ve Değişirlik . . . . . . . . . . . . . . . . . . . 1205.5 En Büyük Olabilirlik Kestirimi . . . . . . . . . . . . . . . . . . . . 1295.6 Bayes İstatistiği . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1335.7 Denetimli Öğrenme Algoritmaları . . . . . . . . . . . . . . . . . . 1375.8 Denetimsiz Öğrenme Algoritmaları . . . . . . . . . . . . . . . . . . 1445.9 Stokastik Gradyan İnişi . . . . . . . . . . . . . . . . . . . . . . . . 1495.10 Bir Makine Öğrenmesi Algoritması Oluşturmak . . . . . . . . . . . 1515.11 Derin Öğrenmeyi Motive Eden Zorluklar . . . . . . . . . . . . . . 152

II Derin Ağlar: Modern Pratikler 163

6 Derin İleri Besleme Ağları 1656.1 Örnek: XOR Fonksiyonunu Öğrenmek . . . . . . . . . . . . . . . . 1686.2 Gradyan Tabanlı Öğrenme . . . . . . . . . . . . . . . . . . . . . . 1746.3 Gizli Birimler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1886.4 Mimari Tasarım . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1956.5 Geri Yayılım ve Diger Türevleme Algoritmaları . . . . . . . . . . . 2016.6 Tarihsel Notlar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222

7 Derin Öğrenmede Düzenlileştirme 2257.1 Parametre Normu Cezaları . . . . . . . . . . . . . . . . . . . . . . 2277.2 Kısıtlanmıs Eniyileme Olarak Norm Cezaları . . . . . . . . . . . . 2347.3 Düzenlileştirme ve Az Koşullandırılmış Problemler . . . . . . . . . 2367.4 Veri Kümesi Çeşitleme . . . . . . . . . . . . . . . . . . . . . . . . 2377.5 Gürültü Direnci . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2397.6 Yarı-denetimli Öğrenme . . . . . . . . . . . . . . . . . . . . . . . . 2417.7 Çoklu-görev Öğrenme . . . . . . . . . . . . . . . . . . . . . . . . . 2427.8 Erken Durdurma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2437.9 Parametrelere Eşleme ve Parametre Paylaşımı . . . . . . . . . . . 2507.10 Seyrek Gösterimler . . . . . . . . . . . . . . . . . . . . . . . . . . . 2527.11 İstifleme ve Diğer Topluluk Yöntemleri . . . . . . . . . . . . . . . 2547.12 İletim Sönümü . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256

vii

✐✐

“main” — 2018/10/22 — 22:43 — page viii — #8 ✐✐

✐✐

✐✐

İÇİNDEKİLER

7.13 Çekişmeli Öğrenme . . . . . . . . . . . . . . . . . . . . . . . . . . 2667.14 Tanjant Mesafesi, Tanjant Yayılımı ve Manifold Tanjant Sınıflandırıcısı268

8 Derin Modellerin Eğitiminde Eniyileme 2738.1 Öğrenmenin Salt Eniyilemeden Farkı . . . . . . . . . . . . . . . . . 2748.2 Sinir Ağı Eniyilemedeki Zorluklar . . . . . . . . . . . . . . . . . . 2818.3 Temel Algoritmalar . . . . . . . . . . . . . . . . . . . . . . . . . . 2938.4 Parametre İlk Değer Atama Stratejileri . . . . . . . . . . . . . . . 2998.5 Uyarlanır Öğrenme Oranı Kullanan Algoritmalar . . . . . . . . . . 3068.6 İkinci-Dereceden Yaklaşıklık Yöntemleri . . . . . . . . . . . . . . . 3108.7 Eniyileme Stratejileri ve Meta-Algoritmalar . . . . . . . . . . . . . 317

9 Evrişimsel Ağlar 3319.1 Evrişim İşlemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3329.2 Motivasyon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3359.3 Biriktirme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3409.4 Son Derece Güçlü Bir Öncül Olarak Evrişim ve Biriktirme . . . . 3469.5 Basit Evrişim Fonksiyonun Başka Biçimleri . . . . . . . . . . . . . 3479.6 Yapılandırılmıs Çıktı . . . . . . . . . . . . . . . . . . . . . . . . . . 3579.7 Veri Türleri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3599.8 Verimli Evrişim Algoritmaları . . . . . . . . . . . . . . . . . . . . . 3619.9 Rastgele veya Denetimsiz Öznitelikler . . . . . . . . . . . . . . . . 3619.10 Evrişimsel Ağların Sinirbilimsel Temelleri . . . . . . . . . . . . . . 3639.11 Evrişimsel Ağlar ve Derin Öğrenmenin Tarihi . . . . . . . . . . . . 370

10 Sıralı Veri Modelleme: Yinelemeli ve Özyinelemeli Ağlar 37310.1 Hesaplamalı Çizgeleri Açma . . . . . . . . . . . . . . . . . . . . . . 37510.2 Yinelemeli Sinir Ağları . . . . . . . . . . . . . . . . . . . . . . . . 37810.3 İki Yönlü RNN’ler . . . . . . . . . . . . . . . . . . . . . . . . . . . 39310.4 Kodlayıcı-Kodçözücü Diziden Dizi Mimarileri . . . . . . . . . . . . 39510.5 Derin Yinelemeli Sinir Ağları . . . . . . . . . . . . . . . . . . . . . 39710.6 Özyinelemeli Yapay Sinir Ağları . . . . . . . . . . . . . . . . . . . 39910.7 Uzun Dönem Bağımlılıkların Zorlukları . . . . . . . . . . . . . . . 401

viii

✐✐

“main” — 2018/10/22 — 22:43 — page ix — #9 ✐✐

✐✐

✐✐

İÇİNDEKİLER

10.8 Yankı Durum Ağları . . . . . . . . . . . . . . . . . . . . . . . . . . 40310.9 Sızıntılı Birimler ve Birden Fazla Zaman Ölçeği için Diğer Stratejiler40610.10 Uzun Ömürlü Kısa-Dönem Bellek ve Diğer Geçitli RNN’ler . . . . 40810.11 Uzun-Dönem Bağımlılık için Eniyileme . . . . . . . . . . . . . . . 41310.12 Açık Bellek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416

11 Kullanışlı Metodolojiler 42111.1 Performans Ölçütleri . . . . . . . . . . . . . . . . . . . . . . . . . . 42211.2 Varsayılan Temel Modeller . . . . . . . . . . . . . . . . . . . . . . 42511.3 Daha Fazla Veri Toplayıp Toplamamaya Karar Vermek . . . . . . 42611.4 Hiperparametreleri Seçme . . . . . . . . . . . . . . . . . . . . . . . 42811.5 Hata Ayıklama Stratejileri . . . . . . . . . . . . . . . . . . . . . . 43711.6 Örnek: Çok Rakamlı Sayı Tanıma . . . . . . . . . . . . . . . . . . 441

12 Uygulamalar 44512.1 Büyük Ölçekli Derin Öğrenme . . . . . . . . . . . . . . . . . . . . 44512.2 Bilgisayarlı Görü . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45412.3 Konuşma Tanıma . . . . . . . . . . . . . . . . . . . . . . . . . . . 46012.4 Doğal Dil İşleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46312.5 Diğer Uygulamalar . . . . . . . . . . . . . . . . . . . . . . . . . . . 480

III Derin Öğrenme Araştırmaları 489

13 Doğrusal Faktör Modelleri 49313.1 Olasılıksal PCA ve Faktör Analizi . . . . . . . . . . . . . . . . . . 49413.2 Bağımsız Bileşenler Analizi (ICA) . . . . . . . . . . . . . . . . . . 49513.3 Yavaş Öznitelik Analizi . . . . . . . . . . . . . . . . . . . . . . . . 49813.4 Seyrek Kodlama . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50113.5 PCA Yönteminin Manifold Olarak Yorumlanması . . . . . . . . . 504

14 Otokodlayıcılar 50714.1 Tamamlanmamıs Otokodlayıcılar . . . . . . . . . . . . . . . . . . . 508

ix

✐✐

“main” — 2018/10/22 — 22:43 — page x — #10 ✐✐

✐✐

✐✐

İÇİNDEKİLER

14.2 Düzenlileştirilmiş Otokodlayıcılar . . . . . . . . . . . . . . . . . . . 50914.3 Gösterimsel Güç, Katman Büyüklüğü ve Derinliği . . . . . . . . . 51314.4 Stokastik Kodlayıcılar ve Kodçözücüler . . . . . . . . . . . . . . . 51414.5 Arıtan Otokodlayıcılar . . . . . . . . . . . . . . . . . . . . . . . . . 51614.6 Otokodlayıcılar ile Manifold Öğrenme . . . . . . . . . . . . . . . . 52114.7 Daraltan Otokodlayıcılar . . . . . . . . . . . . . . . . . . . . . . . 52514.8 Öngörüsel Seyrek Ayrışım . . . . . . . . . . . . . . . . . . . . . . . 52914.9 Otokodlayıcılara İlişkin Uygulamalar . . . . . . . . . . . . . . . . . 530

15 Gösterim Öğrenme 53315.1 Katmanların Denetimsiz Hırslı Öneğitilmesi . . . . . . . . . . . . . 53515.2 Aktarım Öğrenme ve Alan Uyarlama . . . . . . . . . . . . . . . . 54315.3 Nedensel Faktörlerin Yarı-Denetimli Ayrıştırılması . . . . . . . . . 54715.4 Dağıtık Gösterim . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55215.5 Derinlikten Üstel Kazanımlar . . . . . . . . . . . . . . . . . . . . . 55915.6 Altta Yatan Nedenleri Keşfetmek için İpuçları Sağlamak . . . . . . 561

16 Derin Öğrenme için Yapılandırılmış Olasılıksal Modeller 56516.1 Yapısız Modellemenin Zorluğu . . . . . . . . . . . . . . . . . . . . 56616.2 Model Yapısını Açıklamak için Çizge Kullanma . . . . . . . . . . . 57016.3 Çizgesel Modellerden Örnekleme . . . . . . . . . . . . . . . . . . . 58616.4 Yapılandırılmış Modellemenin Avantajları . . . . . . . . . . . . . . 58816.5 Bağımlılıkları Öğrenme . . . . . . . . . . . . . . . . . . . . . . . . 58916.6 Çıkarım ve Yaklaşık Çıkarım . . . . . . . . . . . . . . . . . . . . . 59016.7 Yapılandırılmış Olasılıksal Modellerde Derin Öğrenme Yaklaşımı . 591

17 Monte Carlo Yöntemleri 59717.1 Örnekleme ve Monte Carlo Yöntemleri . . . . . . . . . . . . . . . . 59717.2 Önem Örnekleme . . . . . . . . . . . . . . . . . . . . . . . . . . . 59917.3 Markov Zincirli Monte Carlo Yöntemleri . . . . . . . . . . . . . . . 60217.4 Gibbs Örnekleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60617.5 Ayrı Modlar Arasında Karıştırma Zorluğu . . . . . . . . . . . . . . 607

x

✐✐

“main” — 2018/10/22 — 22:43 — page xi — #11 ✐✐

✐✐

✐✐

İÇİNDEKİLER

18 Bölüntü Fonksiyonunu İnceleme 61318.1 Log-Benzerlik Gradyanı . . . . . . . . . . . . . . . . . . . . . . . . 61418.2 Stokastik En Büyük Olabilirlik ve Karşıtsal Iraksama . . . . . . . 61518.3 Yarı Olabilirlik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62318.4 Skor Eşleştirme ve Oran Eşleştirme . . . . . . . . . . . . . . . . . 62618.5 Arıtan Skor Eşleştirme . . . . . . . . . . . . . . . . . . . . . . . . 62818.6 Gürültüye Karşıt Kestirim . . . . . . . . . . . . . . . . . . . . . . 62818.7 Bölüntü Fonksiyonunu Kestirme . . . . . . . . . . . . . . . . . . . 631

19 Yaklaşık Çıkarım 64119.1 Eniyileme Olarak Çıkarsama . . . . . . . . . . . . . . . . . . . . . 64219.2 Beklenti Enbüyütme . . . . . . . . . . . . . . . . . . . . . . . . . . 64419.3 En Büyük Ardıl (MAP) Çıkarım ve Seyrek Kodlama . . . . . . . . 64519.4 Değişimsel Çıkarım ve Öğrenme . . . . . . . . . . . . . . . . . . . 64819.5 Öğrenilen Yaklaşım Çıkarım . . . . . . . . . . . . . . . . . . . . . 661

20 Derin Üretken Modeller 66520.1 Boltzmann Makinesi . . . . . . . . . . . . . . . . . . . . . . . . . . 66520.2 Kısıtlandırılmış Boltzmann Makineleri . . . . . . . . . . . . . . . . 66720.3 Derin İnanç Ağları . . . . . . . . . . . . . . . . . . . . . . . . . . . 67120.4 Derin Boltzmann Makineleri . . . . . . . . . . . . . . . . . . . . . 67420.5 Gerçek-Değerli Veri için Boltzmann Makinesi . . . . . . . . . . . . 68720.6 Evrişimsel Boltzmann Makineleri . . . . . . . . . . . . . . . . . . . 69420.7 Yapılandırılmış ve Sıralı Çıktılar için Boltzmann Makineleri . . . . 69720.8 Diğer Boltzmann Makineleri . . . . . . . . . . . . . . . . . . . . . 69820.9 Rastgele İşlemler Üzerinden Geri Yayılım . . . . . . . . . . . . . . 69920.10 Yönlü Üretken Modeller . . . . . . . . . . . . . . . . . . . . . . . . 70420.11 Otokodlayıcılardan Örnek Almak . . . . . . . . . . . . . . . . . . . 72320.12 Üretken Stokastik Ağlar . . . . . . . . . . . . . . . . . . . . . . . . 72620.13 Diğer Üretim Yöntemleri . . . . . . . . . . . . . . . . . . . . . . . 72720.14 Üretken Modellerin Değerlendirilmesi . . . . . . . . . . . . . . . . 72820.15 Sonuç . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 731

xi

✐✐

“main” — 2018/10/22 — 22:43 — page xii — #12 ✐✐

✐✐

✐✐

İÇİNDEKİLER

Kaynakça 733

İndeks 793

xii

✐✐

“main” — 2018/10/22 — 22:43 — page xiii — #13 ✐✐

✐✐

✐✐

Web Sitesi

www.deeplearningbook.org

Bu kitap, yukarıda adresi verilen web sitesi ile desteklenmektedir. Bu sitede,okuyuculara ve eğitmenlere faydalı olabilecek alıştırmalar, ders notları ve düzeltilenhatalar gibi pek çok destekleyici türde materyal yer almaktadır.

✐✐

“main” — 2018/10/22 — 22:43 — page xiv — #14 ✐✐

✐✐

✐✐

✐✐

“main” — 2018/10/22 — 22:43 — page xv — #15 ✐✐

✐✐

✐✐

Teşekkür

Bu kitabın yazımı birçok kişinin katkısı sayesinde gerçekleşmiştir.Bu kitap ile ilgili önerimize, kitabın içeriği ve organizasyonuna dair geri bildirim-

lerini esirgemeyenlere teşekkürü borç biliriz: Guillaume Alain, Kyunghyun Cho,Çağlar Gülçehre, David Krueger, Hugo Larochelle, Razvan Pascanu and ThomasRohée.

Doğrudan kitabın içeriğine dair geri bildirim veren herkese de ayrıca teşekküretmek istiyoruz. Bazıları birçok bölüm ile ilgili geri bildirimde bulunmuştur: MartínAbadi, Guillaume Alain, Ion Androutsopoulos, Fred Bertsch, Olexa Bilaniuk,Ufuk Can Biçici, Matko Bošnjak, John Boersma, Greg Brockman, Alexandre deBrébisson, Pierre Luc Carrier, Sarath Chandar, Pawel Chilinski, Mark Daoust, OlegDashevskii, Laurent Dinh, Stephan Dreseitl, Jim Fan, Miao Fan, Meire Fortunato,Frédéric Francis, Nando de Freitas, Çağlar Gülçehre, Jurgen Van Gael, JavierAlonso García, Jonathan Hunt, Gopi Jeyaram, Chingiz Kabytayev, Lukasz Kaiser,Varun Kanade, Asifullah Khan, Akiel Khan, John King, Diederik P. Kingma, YannLeCun, Rudolf Mathey, Matías Mattamala, Abhinav Maurya, Kevin Murphy, OlegMürk, Roman Novak, Augustus Q. Odena, Simon Pavlik, Karl Pichotta, EddiePierce, Kari Pulli, Roussel Rahman, Tapani Raiko, Anurag Ranjan, JohannesRoith, Mihaela Rosca, Halis Sak, César Salgado, Grigory Sapunov, YoshinoriSasaki, Mike Schuster, Julian Serban, Nir Shabat, Ken Shirriff, Andre Simpelo,David Slate, Scott Stanley, David Sussillo, Ilya Sutskever, Carles Gelada Sáez,Graham Taylor, Valentin Tolmer, Massimiliano Tomassoli, An Tran, ShubhenduTrivedi, Alexey Umnov, Vincent Vanhoucke, Marco Visentini-Scarzanella, MartinVita, David Warde-Farley, Dustin Webb, Kelvin Xu, Wei Xue, Ke Yang, Li Yao,Zygmunt Zając ve Ozan Çağlayan.

Bölümler ile ilgili çok faydalı geri bildirimlerde bulunan kişilere de teşekküretmek istiyoruz:

• Notasyon: Zhang Yuanhang J.B. Lee.

✐✐

“main” — 2018/10/22 — 22:43 — page xvi — #16 ✐✐

✐✐

✐✐

TEŞEKKÜR

• Bölüm 1, Giriş: Yusuf Akgul, Sebastien Bratieres, Samira Ebrahimi, CharlieGorichanaz, Brendan Loudermilk, Eric Morris, Cosmin Pârvulescu ve AlfredoSolano.

• Bölüm 2, Doğrusal Cebir: Amjad Almahairi, Nikola Banić, Kevin Bennett,Philippe Castonguay, Oscar Chang, Eric Fosler-Lussier, Andrey Khalyavin,Sergey Oreshkov, István Petrás, Dennis Prangle, Thomas Rohée, GitanjaliGulve Sehgal, Colby Toland, Alessandro Vitale ve Bob Welland.

• Bölüm 3, Olasılık ve Bilgi Kuramı: John Philip Anderson, Kai Arulkumaran,Vincent Dumoulin, Rui Fa, Stephan Gouws, Artem Oboturov, Antti Rasmus,Alexey Surkov ve Volker Tresp.

• Bölüm 4, Sayısal Hesaplama: Tran Lam AnIan Fischer ve Hu Yuhuang.

• Bölüm 5, Makine Öğrenmesinin Temelleri: Dzmitry Bahdanau, Nikhil Garg,Justin Domingue, Makoto Otsuka, Bob Pepin, Philip Popien, Bharat Prab-hakar, Emmanuel Rayner, Peter Shepard, Kee-Bong Song, Zheng Sun veAndy Wu.

• Bölüm 6, Derin İleri Besleme Ağları: Uriel Berdugo, Fabrizio Bottarel, Eliz-abeth Burl, Ishan Durugkar, Jeff Hlywa, Jong Wook Kim, David Krueger,Aditya Kumar Praharaj ve Sten Sootla.

• Bölüm 7, Derin Öğrenmede Düzenlileştirme: Morten Kolbæk, Kshitij Lauria,Inkyu Lee, Sunil Mohan, Hai Phong Phan ve Joshua Salisbury.

• Bölüm 8, Derin Modellerin Eğitiminde Eniyileme: Marcel Ackermann, PeterArmitage, Rowel Atienza, Andrew Brock, Tegan Maharaj, James Martens,Mostafa Nategh, Kashif Rasul, Klaus Strobl ve Nicholas Turner.

• Bölüm 9, Evrişimsel Ağlar: Martín Arjovsky, Eugene Brevdo, KonstantinDivilov, Eric Jensen, Mehdi Mirza, Alex Paino, Marjorie Sayer, Ryan Stoutve Wentao Wu.

• Bölüm 10, Sıralı Veri Modelleme: Yinelemeli ve Özyinelemeli Ağlar: GökçenEraslan, Steven Hickson, Razvan Pascanu, Lorenzo von Ritter, Rui Rodrigues,Dmitriy Serdyuk, Dongyu Shi ve Kaiyu Yang.

• Bölüm 11, Kullanışlı Metodolojiler: Daniel Beckstein.

• Bölüm 12, Uygulamalar: George Dahl, Vladimir Nekrasov ve Ribana Roscher.

• Bölüm 13, Doğrusal Faktör Modelleri: Jayanth Koushik.

xvi

✐✐

“main” — 2018/10/22 — 22:43 — page xvii — #17 ✐✐

✐✐

✐✐

TEŞEKKÜR

• Bölüm 15, Gösterim Öğrenme: Kunal Ghosh, Rodney Melchers, GudmundurEinarsson.

• Bölüm 16, Derin Öğrenme için Yapılandırılmış Olasılıksal Modeller: Minh Lêve Anton Varfolom.

• Bölüm 18, Bölüntü Fonksiyonunu İnceleme: Sam Bowman.

• Bölüm 19, Yaklaşık Çıkarım: Yujia Bao.

• Bölüm 20, Derin Üretken Modeller: Nicolas Chapados, Daniel Galvez, Wen-ming Ma, Fady Medhat, Shakir Mohamed ve Grégoire Montavon.

• Kaynakça: Lukas Michelbacher ve Leslie N. Smith.

Yayınlarından görselleri, şekilleri veya verileri tekrar üretmemize izin verenlerede teşekkür etmek istiyoruz. Bu kişilerin katkılarını tüm metin boyunca şekilaçıklamalarında belirtmiş durumdayız.

Bunların yanında, kitabın internet versiyonunu oluşturabilmek için kullandığımızpdf2htmlEX’i yazan ve ortaya çıkan HTML kalitesinin arttırılması ile ilgili destektebulunan Lu Wang’e teşekkür ediyoruz.

Ian’ın eşi Daniela Flori Goodfellow’a kitabın yazımında Ian’ı sabırlı bir şekildedesteklediği ve kitap üzerinde düzeltmeler yaptığı için teşekkür ediyoruz.

Ian’ın bu kitabı yazmaya ve meslektaşlarımızdan geri bildirim ve rehberlikalmaya bolca zaman ayırabildiği entelektüel bir ortam sağladıkları için GoogleBrain ekibine teşekkür etmek istiyoruz. Ian’ın eski müdürü Greg Corrado ve mevcutmüdürü Samy Bengio’ya bu projeyi destekledikleri için özellikle teşekkür ediyoruz.Son olarak, yazmanın zor geldiği zamanlardaki teşvikleri için Geoffrey Hinton’ateşekkür ediyoruz.

xvii

✐✐

“main” — 2018/10/22 — 22:43 — page xviii — #18 ✐✐

✐✐

✐✐

✐✐

“main” — 2018/10/22 — 22:43 — page xix — #19 ✐✐

✐✐

✐✐

Çevirmenlerin Ön Sözü

1990’lı yıllarda yaşanan bilişim devrimi ile bilgisayarlar hayatımızın her kesitinideğiştirerek büyük bir sosyal ve ekonomik dönüşüme neden oldu. Bu dönüşümdençok daha etkili ve hızlı bir devrimi ise son birkaç yıldır, Yapay Zekâ teknolojilerindekaydedilen büyük bir atılımla yaşamaya başladık.

Derin Öğrenme adı verilen bu yeni teknolojiler insan beynindeki sinir ağlarındanesinlenerek geliştirildi. İnsan gibi hatta zaman zaman insandan daha iyi algılayan,gören, duyan, konuşan ve öğrenen bu teknolojiler sayesinde, doğadaki akıllı or-ganizmaları taklit edebiliyoruz. Hatta daha da ileri giderek doğada bulunmayankarmaşık öğrenme yöntemleri de geliştirebiliyoruz. “Akıllı sistemler”, bir canlı gibiçevreyi algılıyor ve anlamlandırabiliyor. Bunun da ötesinde, insanın göremediğinigörebilen, duyamadığını duyabilen, algılayamadığını algılayan ve tanıyan makinelergeliştirebiliyoruz. Örneğin; manyetik rezonans görüntüleme teknikleri ile insanınçıplak gözle göremediği organları gören ve hastalık teşhisinde doktorlara yardımcıolan karar destek sistemleri tasarlayabiliyoruz. Ya da örümceklerin ağ kurma yön-temlerini taklit ederek örümceğin yapamadığı sağlamlıkta yapılar oluşturabiliyoruz.

Derin Öğrenme yöntemleri, her gün kullandığımız cihazların daha kullanışlıve verimli hâle gelmesini sağladı. Sürücüsüz arabalar, kendi kendine hareket edeninsansız hava ve kara araçları, akıllı evler, akıllı şehirler ve akıllı fabrikalarınoluşturulmasına olanak sağladı. Tam otomasyonlu üretimi sağlaması beklenen akıllıfabrikaların geliştirileceği Endüstri 4.0 çağını tetikledi.

Derin Öğrenme yöntemlerinin henüz tüm dünyada gelişme aşamasında olmasın-dan dolayı, gelişmiş ve gelişmekte olan ülkeler yarışa aynı noktadan başlamaktadır.Bu durum, Türkiye gibi sınırlı sayıda da olsa yetişmiş insan gücüne sahip bir ülkeiçin büyük bir fırsat sunmaktadır. Bu kitap, ülkemizin derin öğrenme alanında dahaiyi yerlere gelmesini sağlamak için gerekli insan gücünü artırmayı hedeflemektedir.Bu vizyon doğrultusunda, kitabın çevirisi büyük bir titizlik, özveri ve emek iletamamlanmıştır.

Dikkat edilmesi gereken birkaç hususun belirtilmesi yararlı olacaktır:

✐✐

“main” — 2018/10/22 — 22:43 — page xx — #20 ✐✐

✐✐

✐✐

ÇEVİRMENLERİN ÖN SÖZÜ

• Çeviri esnasında, olabildiğince TÜBA Bilim Terimleri Sözlüğü ve TBD BilişimTerimleri Sözlüğü dikkate alınmıştır. Ancak, Derin Öğrenme yöntemlerininve yazılımın baş döndüren bir hızla ilerlemesinin bir sonucu olarak, bualandaki terimlerin bir kısmının Türkçe karşılığının olmadığı, birden fazlasayıda Türkçe karşılığının olduğu, önerilmiş Türkçe karşılıkların anlaşılırolmadığı veya sözlüklerde geçen karşılıklarının metnin takibini zorlaştırdığıtespit edilmiştir. Bu tür terimlerin Türkçe karşılıkları belirlenirken, metninkolay anlaşılır ve takip edilir olması hedeflenmiştir. Bunu kolaylaştırmak içinmetin içerisinde ilk geçtikleri yerlerde önemli terimlerin İngilizce karşılıkları(çoğunlukla ek açıklamalar ile) verilmiştir.

• Denklemler, İngilizce yayın ve programlama kaynaklarının takibini kolaylaştır-mak maksadıyla çevirilmemiştir ve bu maksat doğrultusunda, denklemlerdegeçen bazı terimler metin içerisinde Türkçeleştirilmemiştir.

• Algoritmaları içeren sözde kodlar da okuyucunun programlama dillerindekiİngilizce komutları bildiği varsayımı ile çevrilmemiştir.

Bu çeviri Ortadoğu Teknik Üniversitesi Bilgisayar Mühendisliği’ndeki pek çoköğretim üyesi ve araştırma görevlisinin katkısı ile gerçekleştirilmiştir. MakineÖğrenmesi alanındaki terimlerin Türkçe karşılıklarını oluşturmak için bize destekveren tüm arkadaşlarımıza teşekkür ederiz.

xx

✐✐

“main” — 2018/10/22 — 22:43 — page xxi — #21 ✐✐

✐✐

✐✐

Derin Öğrenme Sözlüğü

aabsolute value verification: mutlak değer doğrulamasıaccuracy: doğrulukactivation function: aktifleştirme fonksiyonuactive constraint: aktif kısıtadaptive linear element: uyarlanır doğrusal elemanadversarial example: çekişmeli örnekadversarial training: çekişmeli eğitmeaffine: ilginalmost everywhere: hemen hemen her yerdealmost sure convergence: hemen hemen kesin yakınsamaancestral sampling: geçmiş örneklemeannealed importance sampling: tavlı önem örneklemeapproximation: yaklaşıklıkapproximate bayesian computation: yaklaşık Bayes hesaplamasıapproximate inference: yaklaşık çıkarımarray: diziartificial intelligence: yapay zekâartificial neural network: yapay sinir ağıasymptotically unbiased: asimptotik önyargısızasynchronize: asenkronattribute: nitelikaudio: sesautoencoder: otokodlayıcıautomatic speech recognition: konuşma tanımaautoregressive networks: otobağlayıcı ağlar

✐✐

“main” — 2018/10/22 — 22:43 — page xxii — #22 ✐✐

✐✐

✐✐

DERİN ÖĞRENME SÖZLÜĞÜ

bback-propagation: geri yayılımback-propagation through time: zamanla geri yayılımbag of words: sözcük çuvalıbagging: istiflemebatch: yığınbatch normalization: yığın normalleştirmeBayes error: Bayes hatasıBayes rule: Bayes kuralıBayesian hyperparameter optimization: Bayesçi hiperparametre eniyilemeBayesian network: Bayes ağıBayesian probability: Bayes olasılığıBayesian statistics: Bayes istatistiğibelief network: inanç ağıbenchmark: denek taşıBernoulli distribution: Bernoulli dağılımıbias: önyargıbias parameter: önyargı parametresibiased importance sampling: önyargılı önem örneklemebinary relation: ikili bağıntıblock gibbs sampling: blok Gibbs örneklemeboltzmann distribution: Boltzmann dağılımıboltzmann machine: Boltzmann makinesibroadcasting: yayımlamabrute force: kaba kuvvetburn in: alıştırma

ccalculus: analizcalculus of variations: değişim analizicascade: aşamalıcategorical distribution: kategorik dağılımcentering trick: ortalama hilesicentral limit theorem: merkezi limit teoremichain rule: zincir kuralıchain rule of productivity: olasılığın zincir kuralıchess: satrançchord: kiriş

xxii

✐✐

“main” — 2018/10/22 — 22:43 — page xxiii — #23 ✐✐

✐✐

✐✐


chordal graph: kirişli çizgeclass-based language models: sınıf tabanlı dil modellericlassical dynamic system: klasik dinamik sistemclassification: sınıflandırmaclique: klikclique potential: klik potansiyelicollaborative filtering: dayanışmalı filtrelemecollider: çarpıştırıcıcolor images: renkli görüntülercomplex cell: karmaşık hücrecomputational graph: hesaplamalı çizgecomputer vision: bilgisayarlı görüconcept drift: kavram sapmasıcondition number: matrisin sağlamlık sayısıconditional computation: koşullu hesaplamaconditional independence: koşullu bağımsızlıkconditional probability: koşullu olasılıkconditional RBM: koşullu RBMconnectionism: bağlantıcılıkconnectionist temporal classification: bağlantıcı zamansal sınıflandırmaconsistency: tutarlılıkconstancy: sabitlikconstrained optimization: kısıtlı eniyilemecontent-based addressing: içerik-tabanlı adreslemecontent-based recommender systems: içerik-tabanlı öneri sistemlericontext: bağlamcontext specific independence: bağlama özgü bağımsızlıkcontextual bandits: bağlamsal yol kesmelercontinuation methods: sürdürme yöntemlericontinuous: süreklicontractive autoencoder: daraltan otokodlayıcıcontrast: karşıtlıkcontrastive divergence: karşıtsal ıraksamaconvex optimization: dışbükey eniyilemeconvolution: evrişimconvolutional network: evrişimsel ağconvolutional neural network: evrişimsel sinir ağıcoordinate descent: koordinat inişicoordinate ascent: koordinat çıkışı

xxiii

✐✐

“main” — 2018/10/22 — 22:43 — page xxiv — #24 ✐✐

✐✐

✐✐


correlation: korelasyoncost function: maliyet fonksiyonucovariance: eşdeğişirlikcovariance matrix: eşdeğişirlik matrisicoverage: kapsamacritical temperature: kritik sıcaklıkcross-correlation: çapraz korelasyoncross-entropy: çapraz entropicross-validation: çapraz sağlamacurriculum learning: müfredat öğrenmecurse of dimensionality: boyut laneti

dd-seperation: d-ayırmadamping: söndürmedata generating distribution: veri üretim dağılımıdata generating process: veri üretim işlemidata parallelism: veri paralelleştirmedataset: veri kümesidataset augmentation: veri kümesi çeşitlemedebugging: hata ayıklamadecision tree: karar ağacıdecoder: kodçözücüdeep belief network: derin inanç ağıdeep Boltzmann machine: derin Boltzmann makinesideep feedforward network: derin ileri besleme ağıdeep learning: derin öğrenmedegenerate: yozlaşmışdenoising autoencoder: arıtan otokodlayıcıdenoising score matching: arıtan skor eşleştirmedensity estimation: yoğunluk kestirimiderivative: türevdesign matrix: açıklayıcı değişkenler matrisidetector layer: dedektör katmandiagonal matrix: köşegen matrisdifferential entropy: diferansiyel entropiDirac delta function: Dirac delta fonksiyonudirected acyclic graph: yönlü çevrimsiz çizgesel

xxiv

✐✐

“main” — 2018/10/22 — 22:43 — page xxv — #25 ✐✐

✐✐

✐✐


directed graph model: yönlü çizgesel modeldirectional derivative: yönlü türevdiscriminative fine-tuning: ayrımcı hassas ayardiscriminative RBM: ayrımcı RBMdistributed representation: dağıtık gösterimdomain adaptation: alan uyarlamadot product: iç çarpımdouble backprop: çift geri yayılımdoubly block circulant matrix: çift bloklu dairesel matrisdream sleep: rüya uykusudropconnect: bağ sönümüdropout: iletim sönümüdynamic structure: dinamik yapı

ee-step: e-adımearly stopping: erken durdurmaecho state network: yankı durum ağıeffective capacity: etkin kapasiteeigendecomposition: özayrışmaeigenvalue: özdeğereigenvector: özvektörelementwise product: eleman çarpımıembedding: gömülmeempirical distribution: deneysel dağılımemprical risk: deneysel riskemprical risk minimization: deneysel risk enküçültmesiencoder: kodlayıcıenergy function: enerji fonksiyonuenergy-based model: enerji tabanlı modelenhanced gradient: gelişmiş gradyanensemble methods: topluluk yöntemleriepoch: epokequality constraint: eşitlik kısıtıequivariance: eşit değişirlikerror function: hata fonksiyonuestimation: kestirimEuclidean norm: Euclid normu

xxv

✐✐

“main” — 2018/10/22 — 22:43 — page xxvi — #26 ✐✐

✐✐

✐✐


Euclidean space: Euclid uzayıEuler-Lagrange equation: Euler-Lagrange eşitliğievidence lower bound: kanıt alt sınırıexample: örnekexpectation: beklentiexpectation maximization: beklenti enbüyütmeexpected value: beklenti değeriexplaining away: savuşturmaexploitation: faydalanmaexploration: keşifexponential: üstelexponential distribution: üstel dağılım

ff-score: f-skorfactorial: çarpınımfactor: faktörfactor analysis: faktör analizifactor graph: faktörler çizgesifactors of variation: değişirlik faktörlerifeature: öznitelikfeature selection: öznitelik seçmefeedforward neural network: ileri beslemeli sinir ağıfine-tuning: hassas ayarfinite differences: sonlu farklarforget gate: unutma kapısıforward propagation: ileri yayılımFourier transform: Fourier dönüşümüfoveation: foveasyonfree energy: serbest enerjifrequency: frekansfrequentist probability: deneysel olasılıkfrequentist statistics: deneysel istatistikFrobenius norm: Frobenius normufully visible Bayes network: tamamen görünür Bayes ağıfunction: fonksiyonfunctional derivatives: fonksiyonel türevler

xxvi

✐✐

“main” — 2018/10/22 — 22:43 — page xxvii — #27 ✐✐

✐✐

✐✐


gGabor function: Gabor fonksiyonugated recurrent unit: kapılı yinelemeli üniteGaussian distribution: Gauss dağılımıGaussian kernel: Gauss kerneliGaussian mixture: Gauss karışımıgeneralization: genelleştirmegeneralized Lagrange function: genelleştirilmiş Lagrange fonksiyonugeneralized lagrange: genelleştirilmiş Lagrangegenerative adversarial networks: üretken çekişmeli ağlargenerative moment matching networks: üretken moment eşleyen ağlargenerator network: üretici ağGibbs distribution: Gibbs dağılımıGibbs sampling: Gibbs örneklemesiglobal contrast normalization: global karşıt normalleştirmeGPU: grafik işlem birimigradient: gradyangradient clipping: gradyan kırpmagradient ascent: gradyan çıkışıgradient descent: gradyan inişigraph: çizgegraph embedding: çizge gömülmesigraphical model: çizgesel modelgraphics processing unit: grafik işleme birimigraph theory: çizge kuramıgreedy algorithm: hırslı algoritmagreedy layer-wise unsupervised pretraining: katmanların denetimsiz hırslıöneğitilmesigreedy supervised pretraining: hırslı denetimli öneğitmegrid search: ızgara arama

hHadamard product: Hadamard çarpımıharmonium: harmonyumharmony theory: harmoni kuramıHelmholtz free energy: Helmholtz serbest enerjisiHessian matrix: Hesse matrisiheteroscedastic: ayrı değişirlikli

xxvii

✐✐

“main” — 2018/10/22 — 22:43 — page xxviii — #28 ✐✐

✐✐

✐✐


hidden layer: gizli katmanhidden unit: gizli birimhill climbing: tepe tırmanışıhyperparameter optimization: hiperparametre eniyilemesihyperparameters: hiperparametrelerhypothesis space: hipotez uzayı

ii.i.d. assumptions: i.i.d. varsayımlarıidentity matrix: birim matrisimage: görüntüImageNet Large Scale Visual Recognition Challange: ImageNet GenişÖlçekli Tanıma Yarışmasıimmorality: aykırılıkimplementation: gerçekleştirmeimportance sampling: önem örneklemeimportance weighted autoencoder: önem ağırlıklı otokodlayıcıindependence: bağımsızlıkindependent and identically distributed: bağımsız özdeşçe dağılmışindependent component analysis: bağımsız bileşenler analiziindependent subspace analysis: bağımsız altuzaylar analiziinequality constraint: eşitsizlik kısıtıinference: çıkarım, çıkarsamaintercept: kesim noktasıinferotemporal cortex: şakak altı korteksiinformation retrieval: bilgi getirimiinitialization: ilk değer atamainterpolate: aradeğeri bulmakintractable: kolay çözümlenemezinvariance: değişmezlikisotropic: izotrop

jJacobian matrix: Jacob matrisijoint probability: ortak olasılık

xxviii

✐✐

“main” — 2018/10/22 — 22:43 — page xxix — #29 ✐✐

✐✐

✐✐


kk-means: k-ortalamak-nearest neighbor: k-en yakın komşuKarush-Kuhn-Tucker conditions: Karush-Kuhn-Tucker koşullarıkernel machine: kernel makinesikernel trick: kernel hilesiKKT conditions: KKT koşullarıKL divergence: KL ıraksamasıknowledge base: işlenmiş bilgi tabanıKrylov methods: Krylov yöntemleriKullback-Leibler divergence: Kullback-Leibler ıraksaması

llabel: etiketlabel smoothing: etiket düzleştirmeladder network: basamaklı ağLagrange multipliers: Lagrange çarpanlarıLagrangian: Lagrange fonksiyonulaplace distribution: Laplace dağılımılatent: saklılatent variable: saklı değişkenlayer: katmanleaky ReLU: sızıntılı ReLUleaky units: sızıntılı birimlerlearnin grate: öğrenme oranılikelihood: olabilirlikline search: doğru üzerinde aramalinear combination: doğrusal bileşimlinear dependence: doğrusal bağımlılıklinear factor model: doğrusal faktör modelilinear regression: doğrusal bağlanımlink prediction: bağlantı öngörüsüLipschitz constant: Lipschitz sabitiLipschitz continuous: Lipschitz süreklisiliquid state machine: Likit durum makinesilocal conditional probability distribution: yerel koşullu olasılık dağılımılocal contrast normalization: yerel karşıtlık normalleştirmesilogistic regression: lojistik bağlanım

xxix

✐✐

“main” — 2018/10/22 — 22:43 — page xxx — #30 ✐✐

✐✐

✐✐


logistic sigmoid: lojistik sigmoidlong short-term memory: uzun ömürlü kısa-dönem belleğilook-up table: başvuru çizelgesiloop: döngüloopy belief propagation: döngüsel inanç yayılımıloss function: kayıp fonksiyonu

mm-step: m-adımmachine learning: makine öğrenmesimachine translation: makine tercümesimain diagonal: ana köşegenmanifold hypothesis: manifold hipotezimanifold learning: manifold öğrenmemanifold tangent classifier: manifold tanjant sınıflandırıcısıMAP approximation: MAP yaklaştırmasımarginal probability: marjinal olasılıkMarkov chain: Markov zinciriMarkov chain Monte Carlo: Markov zincirli Monte CarloMarkov network: Markov ağıMarkov random field: Markov rastgele alanımatrix: matrismatrix inverse: matris tersimatrix product: matris çarpımımax norm: en büyük normmax pooling: en büyükleri biriktirmemaximize: enbüyütmemaximum aposteriori: en büyük ardılmaximum likelihood: en büyük olabilirlikmaxout: büyük-çıktımean field: orta alanmean squared error: ortalama karesel hatameasure theory: ölçme kuramımeasure zero: sıfır ölçümmedial temporal lobe: orta şakak lobumemory network: bellek ağımethod of steepest descent: en dik iniş yöntemiminibatch: miniyığın

xxx

✐✐

“main” — 2018/10/22 — 22:43 — page xxxi — #31 ✐✐

✐✐

✐✐


minimize: enküçültmemissing inputs: eksik girdilermixing: karıştırmamixture density networks: karma yoğunluk ağlarımixture distribution: karma dağılımmixture model: karma modelmixture of experts: uzman karmasımodel averaging: model ortalamamodel compression: model sıkıştırmasımodel identifiability: model tanımlanabilirliğimodel parallelism: model benzeşmesimoment matching: moment eşleştirmeMoore-Penrose pseudoinverse: Moore-Penrose tersimsisimoralized graph: düzeltilmiş çizgemulti-modal learning: çok-doruklu öğrenmemulti-prediction DBM: çok-öngörülü DBMmulti-task learning: çoklu-görev öğrenmemultilayer perception: çok katmanlı algılamamultilayer perceptron: çok katmanlı perseptronmultinomial distribution: çok terimli dağılımmultinoulli distribution: çoklu Bernoulli dağılımı

nnaive Bayes: naif Bayesnatural image: doğal görüntünatural language processing: doğal dil işlemenearest neighbor regression: en yakın komşu bağlanımınegative definite: negatif tanımlınegative phase: negatif fazNesterov momentum: Nesterov momentumuNetflix Grand Prize: Netflix Büyük Ödülüneural language model: sinirsel dil modelineural network: sinir ağıneural turing machine: sinirsel Turing Makinesineural machine translation: sinirsel makine çevirisineuroscience: sinirbilimNewton’s method: Newton yöntemino free lunch theorem: “bedaya yemek yok” teoreminoise-contrastive estimation: gürültüye karşıt kestirim

xxxi

✐✐

“main” — 2018/10/22 — 22:43 — page xxxii — #32 ✐✐

✐✐

✐✐


nonlinear: eğriselnonlinearity: eğriselliknonparametric model: parametrik olmayan modelnormal distribution: normal dağılımnormal equations: normal denklemlernormalized initialization: normalleştirilmiş ilk değer atamanumerical differentiation: sayısal farklar

oobject detection: nesne saptamaobject recognition: nesne tanımaobjective function: amaç fonksiyonuone-hot representation: bir-elemanı-bir olan gösterimone-hot vector: bir-elemanı-bir olan vektörone-shot learning: tek seferde öğrenmeoperation: işlemoptimization: eniyilemeorthodox statistics: Ortodoks istatistiğiorthogonal matching pursuit: ortogonal eşleştirme takibiorthogonal matrix: ortogonal matrisorthogonality: ortogonallikoutput layer: çıktı katmanı

ppadding: doldurmaparallel distributed processing: paralel dağıtık işlemeparameter initialization: parametrelere ilk değer atamasıparameter sharing: parametre paylaşımıparameter tying: parametre eşlemeparametric model: parametrik modelparametric ReLU: parametrik ReLUparent: üstparsing: Sözdizimsel ayrıştırmapartial derivative: kısmi türevpartition function: bölüntü fonksiyonuperceptron: perseptronpersistent contrastive divergence: kalıcı karşıtsal ıraksama

xxxii

✐✐

“main” — 2018/10/22 — 22:43 — page xxxiii — #33 ✐✐

✐✐

✐✐


perturbation analysis: pertürbasyon analizipoint estimator: nokta kestiricisipolicy: politikapooling: biriktirmepositive definite: pozitif tanımlıpositive phase: pozitif fazposterior: ardılposterior probability: ardıl olasılıkposterior distribution: ardıl dağılımprecision: kesinlikpredictive sparse decomposition: öngörüsel seyrek ayrışımpreprocessing: önişlemepresentation: sunumpretraining: öneğitmeprimary visual cortex: birincil görsel korteksprincipal component analysis: ana bileşenler analiziprior: öncülprior probability: öncül olasılıkprior probability distribution: öncül olasılık dağılımıprobabilistic PCA: olasılıksal PCAprobabilistic model: olasılıksal modelprobability density function: olasılık yoğunluk fonksiyonuprobability distribution: olasılık dağılımıprobability mass function: olasılık kütle fonksiyonuprobability mass function estimation: olasılık kütle fonksiyonu kestirimiproduct of experts: uzman çarpımıproduct rule of probability: olasılığın çarpım kuralıpseudolikelihood: yarı benzerlik

qquadrature pair: dört evreli çiftquasi-Newton methods: Newton-vari yöntemler

rradial basis function: dairesel baz fonksiyonurandom search: rastgele aramarandom variable: rastgele değişkenratio matching: oran eşleştirme

xxxiii

✐✐

“main” — 2018/10/22 — 22:43 — page xxxiv — #34 ✐✐

✐✐

✐✐


recall: duyarlılıkreceptive field: alım alanırecommender systems: önerici sistemlerrectified linear unit: düzeltilmiş doğrusal birimrecurrent network: yinelemeli ağrecurrent neural network: yinelemeli sinir ağıregression: bağlanımregularization: düzenlileştirmeregularizer: düzenlileştiricireinforcement learning: pekiştirmeli öğrenmerelational database: ilişkisel veri tabanırelations: bağıntılarreparametrization trick: yeniden parametreleştirme hilesirepresentation: gösterimrepresentation learning: gösterim öğrenmerepresentational capacity: gösterimsel kapasiterestricted Boltzmann machine: kısıtlandırılmış Boltzmann makinesiRidge regression: Ridge bağlanımı

ssaddle points: eyer noktalarısample mean: örnekleme ortalamasıscalar: skalerscore matching: skor eşleştirmesecond derivative: ikinci türevsecond derivative test: ikinci türev testiself-information: özbilgisemantic hashing: anlamsal adreslemesemi-supervised learning: yarı denetimli öğrenmeseparable convolution: ayrılabilir evrişimseparation: ayırmasequence: sıra (sıralı dizi)set: kümeShannon entropy: Shannon entropisisigmoid belief network: sigmoid inanç ağısimple cell: yalın hücresimultaneous: eşzamanlısingular value: tekil değer

xxxiv

✐✐

“main” — 2018/10/22 — 22:43 — page xxxv — #35 ✐✐

✐✐

✐✐


singular value decomposition: tekil değer ayrışımısingular vector: tekil vektörslow feature analysis: yavaş öznitelik analizismoothness: pürüzsüzlükspam detection: spam saptamasparse coding: seyrek kodlamaspike and slab sparse coding: sivri ve kalın seyrek kodlamasparse initialization: seyrek ilk değer atamasparse representation: seyrek gösterimspectral radius: spektral yarıçapspeech recognition: konuşma tanımasphering: küre şeklini vermesquare matrix: kare matrisstandard deviation: standart sapmastandard error: standart hatastandard error of the mean: ortalamanın standart hatasıstatistic: istatistikstatistical learning theory: istatistiksel öğrenme kuramısteepest descent: en dik iniş yöntemistochastic back-propagation: stokastik geri yayılımstochastic gradient ascent: stokastik gradyan çıkışıstochastic gradient descent: stokastik gradyan inişistochastic maximum likelihood: stokastik en büyük olabilirlikstochastic pooling: stokastik biriktirmestructure learning: yapısal öğrenmestructured output: yapılandırılmış çıktıstructured probabilistic model: yapılandırılmış olasılık modelisum rule of probability: olasılığın toplam kuralısum product network: toplam-çarpım ağısupervised: denetimlisupervised fine-tuning: denetimli hassas ayarsupervised learning: denetimli öğrenmesupport vector machine: destek vektör makinesisurrogate loss function: vekil kayıp fonksiyonusymmetric matrix: simetrik matrissynchronize: senkron

xxxv

✐✐

“main” — 2018/10/22 — 22:43 — page xxxvi — #36 ✐✐

✐✐

✐✐


ttangent distance: tanjant mesafesitangent plane: tanjant düzlemitangent prop: tanjant yayılımıteacher forcing: öğretmen zorutempering: kızdırmatemplate matching: şablon eşleştirmetensor: tensörtest set: test kümesiTikhonov regularization: Tikhonov düzenlileştirmesitiled convolution: döşeli evrişimtime-delay neural network: zaman-gecikmeli sinir ağıToeplitz matrix: Toeplitz matrisitopographic ICA: topografik ICAtrace operator: iz operatörütractable: kolay çözümlenebilirtraining: eğitmetraining error: eğitim hatasıtranscription: transkripsiyontransfer learning: aktarım öğrenmetranspose: transpoztriangle inequality: üçgen eşitsizliğitriangulated graph: üçgenlemeli çizgetuple: çokuzlu

uunbiased: önyargısızunderdetermined: eksik belirtilmişunderflow: küçümenlikundirected graphical model: yönsüz çizgesel modelundirected model: yönsüz modeluniform distribution: düzgün dağılımunimodal distribution: tek tepeli dağılımunit norm: birim normunit vector: birim vektöruniversal approximation theorem: evrensel yaklaşıklık teoremiuniversal approximator: evrensel yakınlaştırıcıunnormalized probability distribution: normalleştirilmemiş olasılık dağılımı

xxxvi

✐✐

“main” — 2018/10/22 — 22:43 — page xxxvii — #37 ✐✐

✐✐

✐✐


unpooling: dağıtımunsupervised learning: denetimsiz öğrenmeunsupervised pretraining: denetimsiz öneğitme

vv-structure: v-yapısıVapnik-Chervonenkis dimension: Vapnik-Chervonenkis boyutuvariable: değişkenvariance: değişirlikvariational: değişimselvariational autoencoder: değişimsel otokodlayıcıvariational derivatives: değişken türevlervariational free energy: değişken serbest enerjivariational inference: değişimsel çıkarımVC dimension: VC boyutuvector: vektörvirtual adversarial examples: sanal çekişmeli örneklervisible layer: görünür katmanvisible variable: görünür değişkenvolumetric data: hacimsel veri

wWake-Sleep: Uyandırma-Uyutmaweight decay: ağırlık azalımıweight space symmetry: ağırlık uzayı simetrisiwhitening: beyazlaştırmaword embedding: kelime gömülmesi

zzero-data learning: verisiz öğrenmezero-shot learning: eksik etiketli öğrenme0-1 loss: 0-1 kayıp

xxxvii

✐✐

“main” — 2018/10/22 — 22:43 — page xxxviii — #38 ✐✐

✐✐

✐✐

✐✐

“main” — 2018/10/22 — 22:43 — page xxxix — #39 ✐✐

✐✐

✐✐

Notasyon

Bu bölümde kitapta kullandığımız notasyonun bir özetini sunuyoruz. Eğer buradakimatematiksel kavramlara aşina değilseniz, çoğunun açıklamalarını Bölüm 2–4’tebulabilirsiniz.

Sayılar ve Diziler

a Bir skaler (tamsayı veya gerçek sayı)

a Bir vektör

A Bir matris

A Bir tensör

In n satırı ve n sütunu olan bir birim matris

I Boyutu içinde bulunduğu bağlama göre değişen birbirim matris

e(i) i pozisyonunda 1 olan standart bir baz vektörü,[0, . . . , 0, 1, 0, . . . , 0]

diag(a) Köşegenindeki girdileri a ile belirtilen, karesel,köşegenel bir matris.

a Bir skaler rastgele değişken

a Vektörel değerli bir rastgele değişken

A Matris değerli bir rastgele değişken

✐✐

“main” — 2018/10/22 — 22:43 — page xl — #40 ✐✐

✐✐

✐✐

NOTASYON

Kümeler ve Çizgeler

A Bir küme

R Gerçek sayılar kümesi

{0, 1} 0 ve 1 içeren küme

{0, 1, . . . , n} 0 ve n arasındaki tüm tamsayıları içeren küme

[a, b] a ve b’yi de içeren gerçek sayılar aralığı

(a, b] a’nın dahil olmadığı, fakat b’nin dahil olduğugerçek sayılar aralığı

A\B Küme farkı, yani A’nın B’de olmayan tüm eleman-larının oluşturduğu küme

G Bir çizge

PaG(xi) xi’nin G’deki ebeveynleri

İndekslemeai a vektörünün i elemanı, burada dizinleme 1 ile

başlamaktadır

a−i a vektörünün i haricindeki tüm elemanları

Ai,j A matrisinin i, j elemanı

Ai,: A matrisinin i satırı

A:,i A matrisinin i sütunu

Ai,j,k 3 Boyutlu A tensörünün (i, j, k) elemanı

A:,:,i 3 Boyutlu tensörün 2 Boyutlu kesiti

ai a rastgele vektörünün i elemanı

Doğrusal Cebir İşlemleri

A� A matrisinin transpozu

A+ A’nın Moore-Penrose tersimsisi

A�B A ve B’nin eleman bazında (Hadamard) çarpımı

det(A) A’nın determinantı

xl

✐✐

“main” — 2018/10/22 — 22:43 — page xli — #41 ✐✐

✐✐

✐✐

NOTASYON

Kalkülüsdy

dxy’nin x’e göre türevi

∂y

∂xy’nin x’e göre kısmi türevi

∇xy y’nin x’e göre gradyanı

∇Xy y’nin X’e göre matris türevi

∇Xy y’nin X ’e göre türevini içeren tensör∂f

∂xJacob matrisi J ∈ Rm×n’nin f : Rn → Rm

∇2xf(x) veya H(f)(x) f ’in x girdi noktasındaki Hesse matrisi�

f(x)dx Tüm x alanında tanımlı olan belirli integral�

Sf(x)dx S kümesinde, x’e göre alınan belirli integral

Olasılık ve Bilgi Teorisi

a⊥b a ve b rastgele değişkenleri bağımsızdır

a⊥b | c a ve b, c verildiğinde koşullu olarak bağımsızdır

P (a) Ayrık bir değişken üzerindeki olasılık dağılımı

p(a) Sürekli bir değişken üzerindeki veya tipi belir-tilmemiş bir değişken üzerindeki olasılık dağılımı

a ∼ P Rastgele değişken a’nın dağılımı P ’dir

Ex∼P [f(x)] or Ef(x) P (x)’ye göre f(x)’in beklentisi

Var(f(x)) P (x) altında f(x)’in değişirliği

Cov(f(x), g(x)) P (x) altında, f(x) ve g(x)’in eşdeğişirliği

H(x) x rastgele değişkeninin Shannon entropisi

DKL(P�Q) P ve Q’nun Kullback-Liebler ıraksaması

N (x;µ,Σ) x üzerindeki Gauss dağılımı, ortalaması µ veeşdeğişirliği Σ’dir

xli

✐✐

“main” — 2018/10/22 — 22:43 — page xlii — #42 ✐✐

✐✐

✐✐

NOTASYON

Fonksiyonlar

f : A → B Tanım kümesi A ve değer kümesi B olan fonksiyon

f ◦ g f ve g fonksiyonlarının bileşimi

f(x; θ) θ ile parametrelendirilmiş olan x’in bir fonksiyonu.(Gösterimi hafifletmek amacıyla bazen f(x) yazıpθ’yı gösterime katmayız)

log x x’in doğal logaritması

σ(x) Lojistic sigmoid,1

1 + exp(−x)

ζ(x) Softplus, log(1 + exp(x))

||x||p x’in Lp normu

||x|| x’in L2 normu

x+ x’in pozitif kısmı, yani max(0, x)

1condition Koşul (condition) doğru ise 1, aksi takdirde 0 verir.

Bazen argümanı skaler olan bir f fonksiyonunu alıp, bu fonksiyonu bir vektöre,bir matrise veya bir tensöre uygularız: f(x), f(X), or f(X). Bu, f fonksiyonununeleman bazında uygulandığını göstermektedir. Örneğin, eğer C = σ(X) olursa, ozaman geçerli tüm i, j and k için Ci,j,k = σ(Xi,j,k) olur.

Veri Kümeleri ve Dağılımlar

pdata Veri üretim dağılımı

p̂data Eğitim kümesi tarafından tanımlanan deneyseldağılım

X Eğitim örnekleri kümesi

x(i) Veri kümesinin i-inci örneği (girdisi)

y(i) veya y(i) Denetimli öğrenmede x(i) ile ilişkilendirilen hedef

X Xi,: satırında x(i) girdi örneğini barındıran m× nboyutlu matris

xlii

✐✐

“main” — 2018/10/22 — 22:43 — page 1 — #43 ✐✐

✐✐

✐✐

1

Giriş

Düşünebilen makineler yapabilmek, uzun zamandan beri mucitlerin hayallerindeyer almıştır. Bu hayalleri en az antik Yunan’a kadar gitmektedir. Belki, Pygmalion,Daedalus ve Hephaestus gibi mitik figürler, efsanevi mucitler olarak görülebilir.Galatea, Talos ve Pandora yapay hayat olarak nitelendirilebilir. (Ovid ve Martin,2004; Sparkes, 1996; Tandy, 1997).

Programlanabilen bilgisayarlar yüzyılı aşkın bir süre önce ilk geliştirildiklerinde,insanlar bu makinelerin zekâya sahip olup olamayacaklarını merak ettiler (Lovelace,1842). Bugün ise yapay zekâ (YZ), birçok uygulaması ve aktif olarak araştırılançokça konusu bulunan gelişmekte olan bir bilim dalına dönüşmüştür. Günümüzdeotomasyondan, konuşmaya, görüntü anlamaya, tıbbi tanıdan temel bilim araştırm-larına kadar birçok alanda akıllı yazılımlardan yardım almaktayız.

Yapay zekânın erken dönemlerinde, insanların güçlükle çözebildiği ama bilgisa-yarlar için nispeten sıradan, yani biçimsel ya da matematiksel kurallarla tanım-lanabilen problemler hızla çözüldü. Ancak gerçek sorunun, insanlar için kolayama biçimsel ya da matematiksel olarak tanımlanması zor olan, insan yüzü ya dakonuşma tanıma gibi günlük hayatta sürekli çözdüğümüz problemler olduğu ortayaçıktı.

Bu kitap göreceli olarak daha sezgisel problemleri çözmek için önerilen bir yak-laşım üzerinedir. Bu yaklaşım bilgisayarların her kavramı, daha temel kavramlarlailişkilendirerek, bir kavramlar hiyerarşisi öğrenmesini sağlar. Böylece, bilgisayarlarıngereksinim duyduğu biçimsel kuralların insan eliyle girilmesine ihtiyaç kalmaz.Kavramlar hiyerarşisi bilgisayarın karmaşık kavramları daha basit kavramlardanyola çıkarak kurmasına olanak sağlar. Bu kavramların birbiri üzerine nasıl inşaedildiğini gösteren bir çizge oluşturursak, bu çizge çok katmanlı, bir başka deyişlederin bir çizge olur. İşte bu yüzden biz, bu yaklaşıma derin öğrenme diyoruz.

✐✐

“main” — 2018/10/22 — 22:43 — page 2 — #44 ✐✐

✐✐

✐✐

BÖLÜM 1

Başlangıçta yapay zekâ algoritmalarının birçok başarısı, bilgisayarların gerçekproblemlerle ilgili olmayan kısmen daha steril ve düzenli ortamlarda elde edildi.Örneğin, IBM’nin Deep Blue adındaki satranç oynama sistemi dünya şampiyonuGarry Kasparov’u 1997 yılında mağlup etti (Hsu, 2002). Elbette satranç yalnızca64 kare ve 32 parçadan oluşan ve parçaların sıkı kurallara bağlı olarak hareketedebildiği oldukça basit bir oyundur. Başarılı bir satranç stratejisi oluşturmakönemli bir başarıdır ancak bu problemin zorluğu, satranç taşlarını ve geçerlihamleleri bilgisayara anlatmakta yatmamaktadır. Satranç kuralları, programcıtarafından bilgisayara biçimsel kurallardan oluşan kısa bir liste olarak kolaycaverilebilir.

İlginç bir şekilde, insanlar için en zor zihinsel aktivitelerden biri olan soyut vebiçimsel problemler bir bilgisayar için en kolay işler arasında yer alır. Bilgisayarlaruzun zamandır en iyi satranç oyuncularını yenebilmektedir ancak yakın bir zamandainsanların nesneleri tanıma veya konuşma yeteneklerine erişebilmiştir. Günlükhayatta bir insan dünya hakkında çok fazla bilgiye ihtiyaç duyar. Bu bilgininçoğu öznel ve sezgiseldir ve bu nedenle biçimsel olarak ifade edilmesi güçtür.Akıllı bilgisayarlar geliştirebilmek için bu tür bilgilerin bilgisayarlara yüklenmesigerekir. Yapay zekâdaki en önemli güçlüklerden biri de biçimsel olmayan bu bilgininbilgisayara nasıl aktarılacağıdır.

Geçmişte çeşitli yapay zekâ projelerinde gerçek hayat bilgileri, biçimsel dillerdekodlanmaya çalışıldı. Teorik olarak, bir bilgisayarın mantıksal çıkarım kuralları kul-lanarak bu biçimsel dillerde otomatik olarak akıl yürütmesi mümkündü. Bu yapayzekâ alanında knowledge base yaklaşımı olarak bilinmektedir. Ancak bu projeler-den hiçbiri büyük bir başarı yakalayamadı. Bu projelerin en ünlülerinden biri olanCyc Cyc (Lenat ve Guha, 1989) veri bankasında CyCL dilini kullanılarak yazılmışifadeler içeren bir çıkarım motoruydu. Veri tabanındaki ifadeler araştırmacılartarafından giriliyordu ve bu problemli bir süreçti. Dünyayı doğru bir şekilde tarifetmek için yeterli karmaşıklıkta biçimsel kurallar üretmek zorluydu. Örneğin Cyc,Fred adındaki bir adamın sabahları traş olması ile ilgili bir öyküyü anlamayamıştı.Çıkarım motoru hikâyede çelişki buluyordu. Cyc insanların elektriksel parçalarıolmadığını biliyordu fakat Fred elektrikli traş makinesini tuttuğunda, Cyc “traşolan Fred” nesnesinin elektriksel parçalar içerdiği kanısına vardı. Sonuç olarak traşolan Fred’in traş sırasında hâlâ insan olup olmadığından emin değildi.

Sabit kodlu bilgiye dayanan sistemlerin karşılaştığı zorluklar, YZ sistemlerininham veriden örüntüler çıkararak kendi bilgilerini elde etme kabiliyetine ihtiyaçduyduklarını ortaya koymaktadır. Bu kabiliyet makine öğrenmesi olarak bilinir.Makine öğrenmesi, gerçek dünyadaki bilgileri içeren problemlerle baş etmeye veöznel görünen kararlar vermeye olanak sağladı. Örneğin, basit bir makine öğrenme

2

✐✐

“main” — 2018/10/22 — 22:43 — page 3 — #45 ✐✐

✐✐

✐✐

GİRİŞ

algoritması olan lojistik bağlanım sezaryen ameliyat yapılıp yapılmaması ko-nusunda karar verebilir. Bir diğer basit makine öğrenme algoritması olan NaifBayes, gerçek e-maillerle spamları ayırt edebilir.

Basit makine öğrenme algoritmalarının performansı girdi verilerinin gösteri-minin kalitesinden büyük ölçüde etkilenir. Örneğin, sezaryen doğumlara kararvermek için lojistik bağlanım kullanıldığında, yapay zekâ hastayı muayene etmez.Bunun yerine doktorlar sisteme rahimde yara olup olmadığı gibi annenin durumuylailgili birtakım bilgiler iletir. Hastanın gösteriminde yer alan her bilgi parçası bireröznitelik olarak bilinir. Lojistik bağlanım, hastanın bu özelliklerinin her birininçeşitli sonuçlar ile nasıl bağlantılı olduğunu öğrenir. Bununla birlikte model, öznite-liklerin nasıl tanımlandığını herhangi bir şekilde belirtemez. Lojistik bağlanımadoktorun hazırladığı biçimsel rapor yerine bir MR taraması verilseydi, modelin bugörüntülerden herhangi mantıklı birer tahmine varması mümkün olmazdı. Doğumsırasında oluşabilecek komplikasyonlarla MR üzerindeki tek bir piksel arasındakibağlantı ise önemsenmeyecek kadar düşüktür.

Gösterimlere olan bu bağımlılık, bilgisayar bilimleri ve hatta günlük yaşamboyunca ortaya çıkan genel bir olgudur. Bilgisayar bilimlerinde, bir veri kolleksiyo-nunu aramak gibi işlemler, koleksiyon akıllıca yapılandırılmış ve endekslenmişse,kat kat daha hızlı gerçekleştirilebilir. İnsanlar kolayca Arap rakamları üzerindearitmetik işlem yapabilir, ancak Roma rakamları üzerinde aritmetik işlem yapmakçok daha zaman alıcıdır. Öznitelik seçiminin, makine öğrenme algoritmalarınınperformansı üzerinde çok büyük bir etkisi olması şaşırtıcı değildir. Görsel bir örnekiçin Şekil 1.1’e bakınız.

Pek çok yapay zekâ problemi, bu problem için gereken doğru öznitelik kümesinitasarlayarak ve daha sonra bu öznitelikleri basit bir makine öğrenme algoritmasınaileterek çözülebilir. Örneğin, konuşmacının ses yolunun uzunluğu, konuşan kişiyitanımak için kullanışlı bir özniteliktir. Bu öznitelik, konuşmacının erkek mi, kadınmı ya da çocuk mu olduğuna dair güçlü bir ipucu verir.

Bununla birlikte, birçok problem için hangi özniteliklerin toplanması gerektiğinibilmek güçtür. Örneğin, fotoğraflarda araba bulmak için bir program yazmakistediğimizi varsayalım. Arabaların tekerlekleri olduğunu biliyoruz, bu nedenletekerleklerin varlığını bir özellik olarak kullanmak isteyebiliriz. Ne yazık ki, birtekerleğin piksel değerleri açısından tam olarak neye benzediğini açıklamak zordur.Bir tekerlek basit bir geometrik şekle sahiptir, ancak tekerleğin görüntüsü tekerleğedüşen gölgeler, tekerleğin metal parçalarından yansıyan güneş, arabanın çamurluğuveya tekerleğin önünü kapatan nesneler vb. gibi sebeplerden oldukça karmaşıkolabilir.

Bu sorunun bir çözümü, yalnızca gösterimden çıktıya eşlemenin değil, gösterim-

3

✐✐

“main” — 2018/10/22 — 22:43 — page 4 — #46 ✐✐

✐✐

✐✐

BÖLÜM 1

Kutupsal Koordinatlar Kartezyen Koordinatlar

Şekil 1.1: Farklı türde gösterimlerin bir örneği: Bir dağılım grafiğinde gösterilen veriyibir çizgi çizerek iki kategoriye ayırmaya çalıştığımızı düşünelim. Soldaki çizitte bir veriyiKartezyen koordinat sistemi kullanarak gösteriyoruz. Böyle bir problemi çözmemiz imkân-sızdır. Sağdaki çizitte veriyi kutupsal koordinatlarla gösteriyoruz. Bu durumda problembasit dikey bir doğruyla kolayca çözülebilir hâle geliyor.(Çizge David Warde-Farley ilebirlikte üretilmiştir.)

den kendisinin de elde edilmesi için makine öğrenimini kullanmaktır. Bu yaklaşım,gösterim öğrenme olarak bilinmektedir. Öğrenilen gösterimler genellikle elletasarlanmış gösterimlerle elde edilebileceğinden daha iyi performans gösterirler.Aynı zamanda, YZ sistemlerinin en az insan müdahalesi ile yeni görevlere hızlaadapte olmasını sağlarlar. Bir gösterim öğrenme algoritması, basit bir görev içiniyi bir dizi özelliği basit bir problem için birkaç dakika içinde veya daha karmaşıkbir problem için birkaç ayda keşfedebilir. Karmaşık bir problem için özellikleri elletasarlamak, çok fazla zaman ve çaba gerektirir; böyle bir problem bir araştırmagrubunun onlarca yılını alabilir.

Otokodlayıcılar gösterim öğrenmenin özünü anlatan bir örnek oluştururlar.Otokodlayıcılar, girilen veriyi farklı bir gösterime dönüştüren bir kodlayıcı fonksi-yonuyla, bu dönüştürülmüş gösterimi tekrar orijinal hâline geri çeviren çözücüdenoluşurlar. Otokodlayıcılar verilen girdiyle ilgili olabilecek en fazla bilgiyi korumakiçin eğitilirler, ancak bunun yanında oluşturduklar yeni gösterimin belli özellikleri

4

✐✐

“main” — 2018/10/22 — 22:43 — page 5 — #47 ✐✐

✐✐

✐✐

GİRİŞ

sağlamasını da dikkate alırlar. Farklı otokodlayıcılar farklı özellikleri elde etmeyeçalışır.

Öznitelik algoritmaları tasarlarken, amacımız genellikle gözlemlenen verileriaçıklayan varyasyon etkenlerini gruplamaktır. Bu bağlamda, “etkenler” ke-limesini basitçe ayrı etkileşim kaynaklarını belirtmek için kullanıyoruz; buradakifaktörler genellikle çarpılarak birleştirilmezler. Bu tür etkenler nadiren doğrudangözlemlenebilen niceliklerden oluşur.

Bu etkenler, fiziksel dünyada gözlemlenebilen değerleri etkileyen gözlemlen-memiş nesne ya da etkilere karşı gelebilir, ya da insan zihnindeki gözlemlerinbasit açıklaması veya nedeni hakkında çıkarsama yapılmasını sağlayan yapılarolabilirler. Bu etkenler, verilerdeki değişikliği anlamamıza yardım eden kavramve soyutlamalara da karşı gelebilir. Varyasyon etkenleri bir konuşma kaydındakonuşmacıların yaşını, cinsiyetini, vurgularını ve kullandıkları kelimeleri içerirler.Örneğin, bir otomobil görüntüsünde, aracın rengini, parlaklığını ve ışığın açısınıiçermektedir.

Yapay zekâ uygulamalarının gerçek hayattaki zorluklarının büyük bir kısmıvaryasyon etkenlerinin çoğunun gözlemleyebildiğimiz her veri noktasını etkilemesidir.Kırmızı bir araba resminin piksel değerleri geceleri siyah renge yakın olabilir.Arabanın silueti bakılan açıya bağlıdır. Çoğu uygulama bu etkenleri birbirindenayırmamızı ve işimize yaramayanları elden çıkarmamızı gerektirir.

Elbette bu kadar yüksek seviyeli ve soyut öznitelikleri ham veriden elde etmekzordur. Bu varyasyon etkenlerinden çoğu, bir konuşmacının aksanı gibi yalnızcainsan seviyesinde bir anlama yeteneği ile tespit edilebilir. Gösterimleri elde etmeninneredeyse orijinal problemi çözmek kadar zor olduğu göz önünde bulundurul-duğunda, öğrenme yöntemi pek de yardımcı olmuyor gibi gözükebilir.

İşte derin öğrenme gösterim öğrenmedeki ana problemi gösterimleri dahatemel gösterimlerle ifade ederek çözer. Derin öğrenme bilgisayarların basit kavram-lardan daha karmaşık kavramlar kurmasına olanak sağlar.

Şekil 1.2’de bir derin öğrenme sisteminin kenarlardan, köşe ve kontur gibibasit kavramları, bu kavramları da birleştirerek daha karmaşık bir insan resminingösterimini oluşturması gösterilmektedir.

İleri beslemeli derin ağlar ya da çok katmanlı perseptron (multilayer per-ceptron, MLP) derin öğrenmenin özünü anlatan bir modeldir. Çok katmanlıperseptron, girdileri çıktılara eşleyen matematiksel bir fonksiyondan ibarettir. Bufonksiyon birden çok basit fonksiyonun birleşmesiyle oluşturulur. Farklı fonksiyon-ların her uygulanışı girdinin yeni bir gösterimi olarak düşünülebilir.

Veriler için en iyi gösterimi öğrenme fikri, bize derin öğrenmeyle ilgili bir bakış

5

✐✐

“main” — 2018/10/22 — 22:43 — page 6 — #48 ✐✐

✐✐

✐✐

BÖLÜM 1

Görünür katman(girdi pikselleri)

1'inci gizli katman(kenarlar)

2'nci gizli katman(köşeler vekonturlar)

3'üncü gizli katman(nesne kısımları)

ARABA ŞAHIS HAYVANÇıktı

(nesne kimliği)

Şekil 1.2: Bir derin öğrenme modelinin gösterimi: Bir görüntünün piksel değerleri gibiham sensör verisinin anlaşılması bilgisayarlar için zordur. Piksel değerlerini nesneninkimliğine eşleyen fonksiyon oldukça karmaşıktır. Bu eşlemeyi doğrudan öğrenmek ya dadeğerlendirmek imkânsız gözükmektedir. Derin öğrenme bu karmaşık eşlemeyi her birifarklı katman olarak tanımlanmış iç içe geçmiş ve daha basit eşlemeye ayırarak çözer.Girdi modele görünür katman adı verilir. Bu katmanın görülebilir katman olarak isim-lendirilmesinin sebebi içinde gözlemleyebildiğimiz değişkenler tutmasıdır. Daha sonrabir dizi gizli katman görüntüden giderek daha da soyutlaşan öznitelikler çıkarırlar. Bukatmanların "gizli" olarak isimlendirilmesinin sebebiyse bu katmanların değerlerinin veritarafından verilmemesidir. Bunun yerine model, hangi kavramların verinin içindeki ilişkileriaçıklamada daha kullanışlı olduğuna karar vermelidir. Buradaki görüntüler her bir gizlibirim tarafından gösterilen öznitelik türünün görselleştirilmesidir. Pikseller verildiğinde,birinci katman komşu piksellerin parlaklıklarını karşılaştırarak kenarları kolayca tanım-layabilir. İlk gizli katmanın tanımlaması verildiğinde ise ikinci gizli katman, köşeleri vekonturları, yani kenarların oluşturduğu kümeleri kolayca arayabilir. İkinci gizli katmanınçıktısı verildiğinde, üçüncü katman buradaki köşe ve kontur kümelerini kullanarak nes-nelerin daha büyük parçalarını tanımlayabilir. Son olarak resmin içindeki nesne parçalarınıiçeren bu tanım, görüntü içindeki nesneleri tanımak için kullanılabilir. Buradaki görüntülerZeiler ve Fergus (2014)’un izniyle çoğaltılmıştır.

açısı sunar. Derin öğrenme üzerine bir diğer bakış açısı ise derinliğin bilgisayarın

6

✐✐

“main” — 2018/10/22 — 22:43 — page 7 — #49 ✐✐

✐✐

✐✐

GİRİŞ

çok basamaklı bir bilgisayar programı öğrenmesini sağlamasıdır. Gösterimin herkatmanı, bir dizi talimatı paralel olarak yerine getiren bir bilgisayarın bellek durumuolarak düşünülebilir. Daha derin ağlar, art arda daha fazla talimat yürütebilir. Artarda gelen talimatlar modele büyük bir güç sunar. Çünkü daha sonraki talimatlarkendinden önceki talimatların sonuçlarına geri dönebilir veya onları kullanabilirler.

Derin öğrenme bakış açısına göre bir katmanın aktifleşmelerindeki bilginintamamı, girdiyi açıklayan varyasyon faktörlerini kodlamaz. Buradaki gösterimleraynı zamanda girdiden anlam çıkarmaya olanak sağlayan bir programın yürütülme-sine yardımcı olan durum bilgisini de depolar. Durum bilgisi, geleneksel bir bilgisa-yar programındaki bir sayaç veya işaretçiye benzeyebilir. Bu bilginin girdi içeriğiyleözel olarak bir ilgisi yoktur, ancak modelin işlemlerini organize etmesine yardımcıolur.

Bir modelin derinliğini ölçmenin iki temel yöntemi vardır. İlki model mimarisinindeğerlendirilmesi için gereken sıralı işlemlerin sayısına dayalıdır. Bu yöntemi birmodelin çıktılarını nasıl hesaplayacağını gösteren bir akış çizelgesindeki en uzun

Eleman kümesi

Eleman kümesi

Lojistik bağlanım

Lojistik bağlanım

Şekil 1.3: Her düğüm noktasının bir işlemi gösterdiği, bir girdiyi bir çıktıya eşleyenbir çizgelerin gösterimi. Derinlik girdiden çıktıya olan en uzun yolun mesafesi olaraktanımlanır. Ancak burada neyin bir işlem basamağı olarak kabul edildiği önemlidir. Bugörüntüde gösterilen hesaplama σ(wTx) olarak verilen bir lojistik bağlanım modelininçıktısıdır. σ burada lojistik sigmoid fonksiyonudur. Eğer toplama, çarpma ve lojistiksigmoidi programlama dilimizin temel elemanları olarak kullanırsak, bu modelin derinliğiüç birimdir. Eğer lojistik bağlanımı tek bir eleman olarak kabul edersek modelin derinliğibu durumda bir birimdir.

7

✐✐

“main” — 2018/10/22 — 22:43 — page 8 — #50 ✐✐

✐✐

✐✐

BÖLÜM 1

yolun boyunu bulmak olarak da düşünebiliriz. Nasıl ki farklı dillerde yazılan ikieş değer program farklı uzunluklara sahip oluyorsa, bu akış çizelgesinde de aynıfonksiyonu, işlem adımlarına bağlı olarak farklı derinliklerde çizebiliriz. Şekil 1.3farklı diller kullanmanın aynı mimari üzerinde nasıl farklı ölçümlere yol açabileceğinigöstermektedir.

Derin olasılıksal modeller tarafından kullanılan başka bir yaklaşım, model de-rinliğini hesaplama çizgesinin derinliği yerine kavramların birbirine olan ilişkilerigösteren bir çizgenin derinliği olarak kabul eder. Bu durumda, her kavramı he-saplamak için gerekli olan işlemleri içeren akış çizelgesi, kavramları ilişkilendirençizelgeden çok daha derin olabilir. Bunun nedeni sistemin daha temel kavram-lar hakkındaki anlayışının, daha karmaşık kavramlarla ilgili bilgileri kullanarakartırılabilmesidir. Örneğin, bir gözünün gölge altında olduğu bir yüz görüntüsünüinceleyen bir YZ sistemi başlangıçta yalnızca tek bir göz görebilir. Yüzün varlığınıbelirledikten sonra, sistem bu bilgiyi kullanarak, ikinci gözün de büyük olasılıklaorada olduğunu çıkarabilir. Bu durumda kavramlar çizgesi, gözler ve yüz için olmaküzere yalnızca iki katmandan oluşur. Ancak hesaplama çizgesini, her kavram içinn adet olarak yeniden hesaplarsak, 2n adet katman içerecektir.

Bu iki yaklaşımdan hangisinin daha uygun olduğu her zaman açık değildir.Bir bilgisayar programının uzunluğunu belirleyen tek bir yanıt olmadığı gibi birmimarinin de derinliği için doğru bir cevap yoktur. Zira, farklı kişiler çizgelerioluştururken farklı temel elemanlar seçebilirler.

Farklı kişilerin çizelgelerini oluştururken farklı temel elemanlar seçmesindendolayı nasıl ki bir bilgisayar programının uzunluğu için tek bir doğru cevap yoksa,verilen bir mimarinin derinliği için de doğru bir cevap yoktur. Bir modelin “derin”olarak kabul edilmesi için ne kadar derin olması gerektiğine dair de bir fikirbirliği bulunmamaktadır. Yine de, derin öğrenme, geleneksel makine öğrenimialgoritmalarından daha fazla fonksiyon ya da kavram içeren modellerin incelenmesiolarak kabul edilebilir.

Özetle, bu kitabın konusu olan derin öğrenme, yapay zekâ yaklaşımlarındanbiridir. Özellikle bilgisayarların veri ve deneyimlerden yararlanarak kendilerinigeliştirdikleri bir makine öğrenmesi türüdür. Biz bu tür makine öğrenmesinin, gerçekdünya problemlerini çözebilecek bir yapay zekâ inşa etmenin tek gerçekleştirilebilenyegane yolu olduğunu savunuyoruz. Derin öğrenme, dünyayı iç içe geçmiş kavramlarhiyerarşisi olarak göstererek büyük güce ve esnekliğe sahip bir makine öğrenmesiyaklaşımıdır. Bu yaklaşımda, her kavram kendisinden daha basit olan kavramlaraolan ilişkleriyle tanımlanır ve daha soyut gösterimler kendilerinden daha somutgösterimler kullanılarak hesaplanır. Şekil 1.4 farklı YZ disiplinleri arasındaki ilişkiyigöstermektedir. Şekil 1.5 ise bu disiplinlerin nasıl çalıştığına dair genel bir görüntü

8

✐✐

“main” — 2018/10/22 — 22:43 — page 9 — #51 ✐✐

✐✐

✐✐

GİRİŞ

Yapay Zekâ

Makine Öğrenmesi

Gösterim Öğrenme

Derin Öğrenme

Örnek:İşlenmiş bilgi

tabanı

Örnek:Lojistik bağlanım

Örnek:Sığ otokodlayıcı

Örnek:Çok katmanlı

perseptron

Şekil 1.4: Derin öğrenmenin gösterim öğrenmenin bir türü olduğunu gösteren Venn şeması.Şema aynı zamanda derin öğrenmenin yapay zekânın birçok yaklaşımında kullanılanmakine öğrenmesinin bir türü olduğunu göstermektedir. Venn şemasının her bölümü YZteknolojilerinden bir örneği içermektedir.

vermektedir.

1.1 Bu Kitabı Kimler Okumalı?

Bu kitap farklı türdeki okuyucular için kullanışlı olabilir. Ancak biz bu kitabıtemelde iki hedef kitle için yazdık. Bu hedef kitlelerden ilki, makine öğrenmesiçalışan ya da derin öğrenme ve yapay zekâ araştırmasında bir kariyere başlayacaküniversite öğrencileridir(lisans veya yüksek lisans). Diğer hedef kitlesiyse, makineöğrenmesi ya da istatistik arka planına sahip olmayan ancak derin öğrenmeyikendi platformlarında kullanmak isteyen yazılım mühendisleridir. Derin öğrenme

9

✐✐

“main” — 2018/10/22 — 22:43 — page 10 — #52 ✐✐

✐✐

✐✐

BÖLÜM 1

Girdi

Elletasarlanmış

program

Çıktı

Girdi

Elle tasarlanmışöznitelikler

Özniteliklerdeneşleştirme

Çıktı

Girdi

Öznitelikler


Çıktı

Girdi

Basit öznitelikler


Çıktı

Daha soyutöznitelikler

için fazladankatmanlar

Kural temellisistemler

Klasikmakine

öğrenmesiGösterim öğrenme

Derinöğrenme

Şekil 1.5: Farklı YZ disiplinlerindeki YZ sistemlerinin birbirleriyle olan ilişkilerini gösterenbir akış şeması. Gölgelendirilmiş kutular, veriden öğrenebilen parçaları göstermektedir.

hâlihazırda, bilgisayarlı görü, konuşma ve ses işleme, doğal dil işleme, robotik,biyoenformatik, kimya, bilgisayar oyunları, arama motorları, çevrimiçi reklam vefinans gibi birçok yazılım disiplininde kendini ispatlamıştır.

Kitap farklı türde okuyuculara hitap etmek üzere 3 bölüme ayrılmıştır. Kısım I,makine öğrenmesiyle ilgili kavramlar ve temel matematiksel araçları kapsamaktadır.

10

✐✐

“main” — 2018/10/22 — 22:43 — page 11 — #53 ✐✐

✐✐

✐✐

GİRİŞ

Kısım II, iyi bilinen ve anlaşılmış yani, temelinde çözülmüş derin öğrenme algorit-malarını içermektedir. Son bölüm olan Kısım III ise derin öğrenme araştırmasındaönemli yer tuttukları düşünülen daha kuramsal ve yeni fikirlerin toplandığı birbölümdür.

Okuyucular, kendi ilgi veya akademik geçmişleriyle alakalı olmadığını düşündük-leri kısımları atlamada bir sakınca görmemelidirler. Örneğin, lineer cebir, olasılık vetemel makine öğrenmesi kavramlarına hâlihazırda aşina olan okuyucular, Kısım I’iatlayabilirler. Yalnızca çalışan bir derin öğrenme sistemi kurmak isteyenlerin iseKısım II’ye kadar okumaları yeteri olacaktır.

Bütün okuyucuların bilgisayar mühendisliği ya da bilgisayar bilimleriyle ilgili birarka plana sahip olduklarını varsayıyoruz. Aynı zamanda, programlama, hesaplamaperformansıyla ilgili problemler, karmaşıklık kuramı, giriş seviysesinde matematikve çizge kuramına ait birkaç terime hâkim olduklarını göz önünde bulunduruyoruz.

1.2 Derin Öğrenmede Tarihsel Eğilimler

Derin öğrenmeyi anlamanın en iyi yollarından biri tarihsel süreci göz önüne almaktır.Burada detaylı bir derin öğrenme tarihi vermektense, derin öğrenmedeki önemlieğilimleri tanımlıyoruz:

• Derin öğrenme uzun ve zengin bir tarihe sahiptir, ancak isim olarak tarihboyunca farklı felsefi bakış açılarına göre değişmiş, popülerliği artıp azalmıştır.

• Derin öğrenme kullanılabilir eğitim verisinin artmasıyla daha kullanışlı birhâle gelmiştir.

• Derin öğrenme, model boyutları arttıkça ve derin öğrenme donanımları veyazılımları geliştikçe yaygınlaşmıştır.

• Derin öğrenme, geçen zamanla birlikte daha karmaşık problemleri dahaisabetli olarak çözebilmeye başlamıştır.

1.2.1 Sinir Ağlarının Sayısız İsmi ve Değişen Kaderleri

Birçok okur derin öğrenmenin yeni ortaya çıkan ilginç bir teknoloji olduğunudüşünüp, bu yüzden bir kitabın içinde bir derin öğrenme “tarihi” bölümü olmasınaşaşırcaklardır. Gerçekte derin öğrenme 1940’lı yıllardan beri var olan bir alandır.Derin öğrenmenin yeni olarak algılanmasının sebebi hem birkaç yıl öncesine kadarpopüler olmayan bir metot olması hem de “derin öğrenme” ismini almadan önce

11

✐✐

“main” — 2018/10/22 — 22:43 — page 12 — #54 ✐✐

✐✐

✐✐

BÖLÜM 1

farklı isimlerle anılmış olmasıdır. Bu alan, farklı araştırmacıların ve bakış açılarınınetkisinde tarih boyunca yeniden isimlendirilmiştir.

Derin öğrenmenin kapsamlı tarihi bu kitabın amacının ötesindedir, ancak temelseviyede bir açıklama derin öğrenmeyi anlamamız için önemlidir. Genel olarakdeğerlendirildiğinde, derin öğrenmenin 3 dalgadan oluşan bir gelişme dönemi vardır.Bunlar, sibernetik adıyla bilinen ve 1940’lı yıllardan 1960’lı yılları kapsayan,bağlantıcılık olarak bilinen ve 1980’li yıllardan 1990’lı yılları kapsayan, ve sonolarak da 2006’da ortaya çıkan ve derin öğrenme dediğimiz dönemlerdir. Budönemler Şekil 1.7’de gösterilmiştir.

Bugün kabul ettiğimiz birçok erken öğrenme algoritması, aslında temel biyo-lojik öğrenme modelleri olarak geliştirilmiştir. Bu modellern amacı öğrenmeninnasıl gerçekleştiği ya da beyinde gerçekleşip gerçekleşmediğini açıklamaktır. Bunedenle derin öğrenmenin isimlerinden biri de yapay sinir ağları (YSA’lar)dır.Derin öğrenme modellerinde buna karşılık gelen bakış açısı, bu modellerin biyo-lojik beyinlerden (insan ya da hayvan beyni) esinlenilerek geliştirilmiş sistemlerolduğudur. Sinir ağları bazı durumlarda beyin fonksiyonlarını anlamak için kul-lanılsa da (Hinton ve Shallice, 1991), genelde biyolojik fonksiyonları gerçekçi olarakmodellemek için tasarlanmamıştır. Derin öğrenmedeki sinirsel bakış açısı iki anafikre dayanır. Fikirlerden biri, beynin zeki davranışlara dair bir örnek gösterdiğive zekâ yaratmanın kavramsal olarak en basit yolunun beyni analiz ederek onunişlevselliğini birebir kopyalamak olduğudur. Diğer fikir ise makine öğrenmesi mo-dellerinin mühendislik uygulamalarının yanı sıra, beynin ve zekânın altında yatanprensiplerin anlaşılması için gereken temel bilim problemlerini aydınlatabileceğidüşüncesidir.

Günümüzdeki “derin öğrenme” sinirbilimin yeni nesil makine öğrenme modelle-rine olan bakış açısının ötesindedir ve öğrenmeyle ilgili daha genel bir prensibinçoklu bileşim seviyeleri peşindedir. Bu prensip, sinirlerden esinlenilmemiş makineöğrenme yöntemlerine de uygulanabilir.

Derin öğrenmenin ataları, sinirbilimsel bakış açısından yola çıkılarak geliştirilmişbasit doğrusal modellerdir. Bu modeller x1, . . . , xn olarak n adet girdi alıp bunlarıy çıktısıyla ilişkilendirirler. Bunun için w1, . . . , wn olarak verilen ağırlıkları öğrenipçıktıyı f(x,w) = x1w1+ · · ·+xnwn formülünü kullanarak hesaplarlar. Şekil 1.7’degösterilen bu ilk dalga sinir ağları sibernetik olarak bilinirler.

McCulloch-Pitts sinir hücresi (McCulloch ve Pitts, 1943) beyin fonksiyonununilkel bir modelidir. Bu doğrusal model f(x,w)’nin pozitif ya da negatif olduğunabakarak iki farklı sınıfı birbirinden ayırabilir. Elbette modelin doğru şekilde sınıf-landırma yapması için ağırlıklarının ayarlanmış olması gerekmektedir. Bu ağırlıklarbir insan tarafından ayarlanabilir. 1950 yılında, perseptron (Rosenblatt, 1958, 1962)

12

✐✐

“main” — 2018/10/22 — 22:43 — page 13 — #55 ✐✐

✐✐

✐✐

GİRİŞ

1. Giriş

Kısım I: Uygulamalı Matematik ve Makine Öğrenmesinin Temelleri

2. Doğrusal Cebir3. Olasılık ve Bilgi

Kuramı

4. SayısalHesaplama

5. Makine ÖğrenmesininTemelleri

Kısım II: Derin Ağlar: Modern Uygulamalar

6. Derin İleri BeslemeAğları

7. Düzenlileştirme 8. Eniyileme 9. ESA 10. YSA

11. UygulamaMetodolojisi

12. Uygulamalar

Kısım III: Derin Öğrenme Araştırmaları

13. Doğrusal Faktör Modelleri

14. Otokodlayıcılar15. Gösterim

Öğrenme

16. YapılandırılmışOlasılıksal Modeller

17. Monte Carlo Yöntemleri

18. Bölüntü Fonksiyonu

19. Çıkarım

20. Derin ÜreticiModeller

Şekil 1.6: Kitabın özetlenmiş bir gösterimi. İki bölüm arasındaki ok, ilk bölümün ikincisiiçin ön koşul olduğunu belirtmektedir.

13

✐✐

“main” — 2018/10/22 — 22:43 — page 14 — #56 ✐✐

✐✐

✐✐

BÖLÜM 1

sibernetik

(bağlantıcılık + sinir ağları)

Yıl

Söz

cük

ya d

a S

öz Ö

beği

nin

Fre

kansı

Şekil 1.7: Yapay zekâ araştırmalarındaki üç dalgadan ikisinin Google Books’taki “siber-netik” ve “bağlantıcılık” terimlerinin frekansları üzerinden gösterimi. (Üçüncü dalga buradageçmek için çok yenidir). İlk dalga olan sibernetik 1940 ve 1960 yılları arasında, biyolojiköğrenme teorilerinin(McCulloch ve Pitts, 1943; Hebb, 1949) gelişmesiyle ve tek nöronlarıneğitilmesini mümkün kılan perseptron gibi (Rosenblatt, 1958) modellerin ilk defa gelişti-rilmesiyle birlikte başladı. Tek ya da iki katmanlı sinir ağlarının geri yayılımla (Rumelhartvd., 1986a) eğitildiği ikinci dalga 1980 ve 1995 yılları arasındaki bağlantıcılık akımıylabirlikte başladı. Şimdi içinde bulunduğumuz üçüncü dalga olan derin öğrenme ise 2006yılında (Hinton vd., 2006; Bengio vd., 2007; Ranzato vd., 2007a) başladı ve 2016’da dahayeni olarak kitaplarda yer almaya başladı. İlk iki dalganın kitap hâlinde yer alması dadalgaları başlatan bilimsel gelişmelerden çok sonra gerçekleşmiştir.

her sınıftan verilen örnekleri kullanarak ağırlıklarını öğrenebilen ilk model oldu.Yaklaşık aynı tarihlerde ortaya çıkan adaptif doğrusal eleman (ADALINE) isebasitçe f(x)’nin değerini kullanarak bir reel sayıyı tahmin ediyordu. ADALINEtahminlerini yaparken veri kullanmayı öğrenebiliyordu (Widrow ve Hoff, 1960).

Bu basit öğrenme algoritmaları, modern makine öğrenmesinin gelişimini çoketkilemiştir. ADALINE’ın ağırlıklarını öğrenmek için kullanılan algoritma sto-kastik gradyan inişi olarak bilinen bir algoritmanın özelleştirilmiş bir hâlidir.Stokastik gradyan inişinin farklı versiyonları, bugün derin öğrenme modelleri içindehâlâ en yaygın algoritma olarak kullanılmaktadır.

Perceptron ve ADALINE tarafından kullanılan f(x,w) üzerine temellendirilmişmodellere doğrusal modeller adı verilir. Bu modeller hâlâ en yaygın olarakkullanılan makine öğrenmesi modellerini oluştururlar. Ancak birçok durumda,orijinal modellere göre farklı şekilde eğitilirler.

Doğrusal modellerin birçok kısıtlaması bulunmaktadır. Bunlardan en çok bili-neni, f([0, 1],w) = 1, f([1, 0],w) = 1, f([1, 1],w) = 0 ve f([0, 0],w) = 0 şekilde

14

✐✐

“main” — 2018/10/22 — 22:43 — page 15 — #57 ✐✐

✐✐

✐✐

GİRİŞ

tanımlanan ÖZEL VEYA fonksiyonudur. Bu kısıtlamayı gözlemleyen eleştirmenler,genel olarak biyolojik temelli öğrenmeye karşı kötü bir algı oluşturmuştur. Bu sinirağlarının popülerliğindeki ilk büyük çöküş olmuştur.

Günümüzde sinirbilim, derin öğrenme araştırmacıları için hâlâ önemli bir ilhamkaynağıdır. Ancak derin öğrenme için artık eskisi kadar baskın bir rehberlik teşkiletmemektedir.

Günümüzde sinirbilimin derin öğrenme üzerindeki rolünün azalmasının başlıcasebebi beyinde neler olduğuyla ilgili yeterince bilgiye sahip olmamamızdır. Beyin-deki algoritmaları gerçekten anlayabilmemiz için beyindeki (en azından) binlercesinir hücresinin aktivitesini takip edebiliyor olmamız gerekmektedir. Bunu ya-pamadığımız için beynin en basit ve en çok araştırılmış bölgelerinin bile nasılçalıştığını anlamaktan oldukça uzaktayız (Olshausen ve Field, 2005).

Sinirbilim, tek bir derin öğrenme algoritmasının birçok farklı problemi çöze-bileceğine inanmamız için bir neden sağlamıştır. Sinirbilimciler, dağ gelinciklerininbeyinlerinin görsel sinyallerini duyma bölgesine yönlendirdiklerinde, beyinlerininduyma bölgesiyle “görebildiklerini” bulmuşlardır (Von Melchner vd., 2000). Bubulgu, memeli beyinlerinin büyük bir bölümünün birçok problemi çözmek içintek bir algoritma kullandığı yönünde bir kanı oluşturmuştur. Bu hipotezden öncemakine öğrenmesindeki araştırma doğal dil işleme, görü, hareket planlama ve ko-nuşma tanıma gibi araştırma toplulukları arasında oldukça bölünmüş bir hâldeydi.Günümüzde bu araştırma toplulukları hâlâ ayrıdır ancak derin öğrenme çalışanaraştırma grupları bu alanlardan birçoğu hatta hepsi üzerine aynı anda araştırmayürütebilmektedirler.

Sinirbilimden esinlenerek kendimize kabaca bir yol çizebilmekteyiz. Birçokhesaplama ünitesinin yalnızca birbirleriyle iletişim kurarak zekâ oluşturması fikrinebeyinden yola çıkılarak erişilmiştir. Neocognitron (Fukushima, 1980), görüntüişlemede memeli beynindeki görsel sistemden esinlenilmiş çok güçlü bir modelmimarisi ortaya koymuştur. Bu sistem daha sonra Bölüm 9.10’da da göreceğimizgibi çağdaş evrişimsel ağlar (LeCun vd., 1998b) için bir temel oluşturmuştur.Günümüzdeki çoğu sinir ağı düzeltilmiş doğrusal birim (rectified linear unit)adı verilen bir sinir hücresi modeline dayanır. İlk cognitron(Fukushima, 1975) modelibeyin fonksiyonu hakkındaki bilgimizden esinlenen daha karmaşık bir sinir hücresikullanmaktaydı. Bu basitleştirililmiş model birçok farklı noktadan yola çıkılarakgeliştirildi. Nair ve Hinton (2010) sinirbilimsel bir etkilenmeden, Jarrett vd. (2009)ise daha mühendislik odaklı bir etkilenmeden bahseder. Sinirbilim her ne kadarönemli bir esin kaynağı olsa da, kalıplaşmış bir rehber olarak kullanılmamalıdır.Gerçek sinir hücrelerinin aslında doğrusal doğrultulmuş ünitelerden çok farklıfonksiyonlar hesapladığını biliyoruz. Ancak daha gerçekçi sinir modelleri kullanmak

15

✐✐

“main” — 2018/10/22 — 22:43 — page 16 — #58 ✐✐

✐✐

✐✐

BÖLÜM 1

makine öğrenme performansında henüz bir ilerlemeye yol açmamıştır. Ayrıca,sinirbilim birçok sinir ağı mimarisine esin kaynağı olsa da, bu modelleri daha iyieğitebilecek yöntemler geliştirmek için henüz biyolojik öğrenmeyle ilgili yeterincebilgiye sahip değiliz.

Medya genelde derin öğrenme ve beynin benzerliğine vurgu yapar. Derin öğ-renme araştırmacılarının Bayes istatistiği gibi diğer makine öğrenme alanlarındaçalışanlara göre beyne daha fazla atıf yaptığı doğrudur. Ancak bu derin öğrenmeninbeyni simüle etme çabası olarak görülmemelidir. Çağdaş derin öğrenme özelliklelineer cebir, olasılık, bilgi kuramı gibi birçok alandan esinlenmektedir. Bazı araştır-macılar sinirbilimi çalışmaları için önemli bir esin kayağı olarak gösterirken, bazıaraştırmacılar herhangi bir şekilde sinirbilimle ilgilenmezler.

Bilinmelidir ki beynin algoritmasal seviyede nasıl çalıştığına dair uğraşlarhâlâ devam etmektedir. “Hesaplamalı Sinirbilim” olarak bilinen bu çaba, derinöğrenmeden farklı bir bilim alanıdır. Araştırmacıların bu iki alan arasında gidipgelmeleri oldukça sık rastlanan bir durumdur. Derin öğrenme, zekâ gerektiren prob-lemleri çözmek için bilgisayar sistemlerinin nasıl oluşturulabileceğiyle ilgilenirken,hesaplamalı sinirbilim beynin nasıl çalıştığına dair gerçeğe daha yakın modellergeliştirmeyle uğraşır.

1980’li yıllarda bağlantıcılık ya da paralel dağıtık işleme (Rumelhart vd.,1986c; McClelland vd., 1995) adı altında sinir ağı araştırmasının ikinci dalgasıortaya çıkmıştır. Bağlantıcılık bilişsel bilimin bağlamı içinde ortaya çıkmış, zihnianlamak amacıyla birçok farklı açıklamayı birleştiren disiplinler arası bir alandır.1980’li yılların başlarında çoğu bilişsel bilimci sembolik akıl yürütme modelleriniincelemekteydi. Popüler olmalarına rağmen, sembolik modellerin beyin tarafındansinir hücereleri kullanılarak nasıl ortaya çıktığını açıklamak zordu. Bağlantıcılar,psikolog Donald Hebb’in 1940’larda ortaya attığı fikirleri (Hebb, 1949) kullanarak,sinirsel yapılara (Touretzky ve Minton, 1985) dayanan bilişsel modelleri incelemeyebaşladılar.

Birçok basit hesaplama ünitesinin bir ağ oluşturduğunda zeki davranış göster-mesi bağlantıcılığın ana fikridir. Bu anlayış hesaplama modellerinde uygulanabildiğikadar biyolojik sinir sistemlerine de uygulanabilir.

1980’li yıllarda bağlantıcılıkla birlikte ortaya çıkan birçok kavram günümüzdekiderin öğrenme yöntemlerinin merkezinde yatmaktadır.

Bu kavramlardan biri dağıtık gösterimlerdir (Hinton vd., 1986). Dağıtık gös-terim, her girdinin birçok öznitelik tarafından sunumunu ve aynı zamanda herözniteliğin oldukça fazla girdinin gösteriminde kullanılması olarak özetlenebilir.Örneğin arabaları, kamyonları ve kuşları ayırt edebilen bir görü sistemimiz oldu-

16

✐✐

“main” — 2018/10/22 — 22:43 — page 17 — #59 ✐✐

✐✐

✐✐

GİRİŞ

ğunu varsayalım. Bu nesneler aynı zamanda, kırmızı, yeşil ya da mavi olabilir.Nesneleri göstermenin bir yolu, kırmızı araba, kırmızı kamyon, kırmızı kuş gibiolası dokuz kombinasyonun her biri için ayrı ateşlenen sinir hücreleri kullanmaktır.Bu yaklaşım, dokuz farklı sinir hücresi gerektirir ve ayrıca her bir sinir hücresirenkleri ve nesneleri ayrı ayrı öğrenmek durumundadır. Bu durumu iyileştirmeninbir yolu dağıtık gösterim kullanımıdır. Her bir renk ve nesne tipi için üçer sinirhücresi gerekir ve bu durumda toplamda kullanılan hücre sayısı altıya düşer. Kır-mızılığı gösteren sinir hücresi bu durumda kırmızılığa dair bilgiyi yalnızca ona özgükategoriden ziyade araba, kamyon ve kuş görüntülerinin hepsinden öğrenebilir hâlegelir. Dağıtık gösterim kavramı bu kitabın merkezindedir ve Bölüm 15’te dahadetaylı olarak işlenecektir.

Bağlantıcılık akımının önemli başarımlarından bir diğeri de içsel gösterimleresahip olan derin sinir ağlarının geri yayılım kullanılarak eğitilmesi ve geri yayılımalgoritmasının popülerleştirilmesidir (Rumelhart vd., 1986a; LeCun, 1987). Bualgoritmanın popülerliği tarih boyunca artıp azalmıştır. Ancak bu kitabın yazıldığıdönemde derin modelleri eğitmede kullanılan başlıca yöntemdir. 1990’lı yıllardaaraştırmacılar dizilim modellemede önemli ilerlemeler kaydettiler. Hochreiter (1991)ve Bengio vd. (1994), Bölüm 10.7’de bahsi geçen dizilim modellemedeki bazıtemel matematiksel zorlukları keşfettiler. Hochreiter ve Schmidhuber (1997), busorunların bazılarını çözmek amacıyla uzun ömürlü kısa-dönem belleği (Long short-term memory | LSTM) geliştirdiler. Günümüzde LSTM, Google’ın doğal dil işlemeproblemi gibi birçok dizilim modelleme probleminde yaygın olarak kullanılmaktadır.

Sinir ağı araştırmalarının ikinci dalgası 1990’ların ortalarına kadar sürmüştür.Sinir ağları ve diğer yapay zekâ teknolojilerine dayanan birçok girişim, yatırımarama sürecinde gerçeklikten giderek uzaklaşan iddialarda bulunmaya başladılar.YZ araştırmaları, makul olmayan beklentileri karşılayamadıkları zaman yatırımcılarbüyük hayal kırıklığına uğradı. Aynı dönemde makine öğrenmesinin diğer alanlarıgelişmeye devam ediyordu. Kernel makineleri (Boser vd., 1992; Cortes ve Vapnik,1995; Schölkopf vd., 1999) ve çizgesel modeller (Jordan, 1998) birçok önemliproblemde iyi sonuçlar elde ettiler. Bu iki sebepten dolayı sinir ağlarının popüleritesi2007 yılına kadar sürecek olan bir düşüşe girdi.

Bu dönem boyunca sinir ağları bazı problemlerde etkileyici sonuçlar elde etmeyedevam etti (LeCun vd., 1998b; Bengio vd., 2001). Kanada İleri Araştırmalar En-stitüsü (CIFAR), Sinirsel Hesaplama ve Adaptif Algı(NCAP) programıyla sinir ağıaraştırmalarını canlı tutmada yardımcı oldu. Bu program, birçok makine öğrenmesiaraştırma grubunu Toronto Üniversitesi’nde Geoffrey Hinton, Montreal Üniver-sitesi’nde Yoshua Bengio ve New York Üniversitesi’nde Yann LeCun önderliğindebirleştirdi. CIFAR NCAP girişimi sinirbilim uzmanları, insan ve bilgisayar görüsü

17

✐✐

“main” — 2018/10/22 — 22:43 — page 18 — #60 ✐✐

✐✐

✐✐

BÖLÜM 1

üzerine çalışan uzmanları da içermekteydi.O zamanlar, derin ağların eğitilmesi genellikle çok zor olarak görülüyordu.

1980’li yıllardan beri var olan algoritmaların iyi çalıştıklarını günümüzde biliyo-ruz ancak bu 2006 yılında o kadar da açık değildi. Zira o dönemdeki bilgisayardonanımları bu algoritmaları yeterli hızda yürütebilecek kadar güçlü değildi. Sinirağı araştırmalarının üçüncü dalgası 2006 yılında çığır açan bir araştırmayla başladı.Geoffrey Hinton derin inanç ağları olarak bilinen bir tür sinir ağının, katman-ların denetimsiz hırslı önyetiştirme metodunu kullanarak eğitilebileceğini gösterdi(Hinton vd., 2006). Bu tür ağlardan Bölüm 15.1’de daha detaylı bahsedeceğiz.Diğer CIFAR bağlantılı araştırma grupları aynı metodu kullanarak birçok farklıderin ağın eğitilebileceğini gösterdiler (Bengio vd., 2007; Ranzato vd., 2007a). Aynızamanda test örneklerindeki genelleştirme performansının iyileşmesine sistematikolarak yardım ettiler. Sinir ağlarının bu dalgası, araştırmacıların artık eskisindendaha derin sinir ağlarını eğitebileceğini vurgulamak ve derinliğin kuramsal öneminibelirtmek amacıyla “derin öğrenme” terimini yaygınlaştırdı (Bengio ve LeCun,2007; Delalleau ve Bengio, 2011; Pascanu vd., 2014a; Montufar vd., 2014). Derinsinir ağları diğer makine öğrenmesi teknolojilerine dayalı YZ sistemlerini ve elletasarlanmış sistemleri geçmeye başladılar. Derin öğrenme araştırmasının odağı budönem içinde oldukça değişmesine rağmen, sinir ağlarının üçüncü dalgayla birliktegelen popülerliği şu ana kadar korunmaktadır. Üçüncü dalga, yeni gözetimsizöğrenme teknikleri ve küçük veri kümelerini kullanarak iyi genelleme yapabilenağlar üzerine odaklanarak başladı. Ama günümüzde bu ilgi daha çok gözetimliöğrenme algoritmaları ve büyük etiketli veri kümelerinden destek alan modellerüzerine kaymıştır.

1.2.2 Artan Veri Kümesi Boyutları

Yapay sinir ağlarıyla ilgili ilk deneylerin 1950’lerde başladığı göz önüne alınırsa, de-rin öğrenmenin neden çok yakın zamanlara kadar önemli bir teknoloji olarak kabulgörmediği merak edilebilir. Derin öğrenme, 1990’lardan beri ticari uygulamalardabaşarıyla kullanılmıştır. Ancak yakın zamana kadar bir teknolojiden ziyade sadeceuzmanların kullanabildiği bir sanat olarak görülmüştür. Bir derin öğrenme algorit-masından yüksek performans elde etmek için uzmanlık gerektiği doğrudur. Neyseki, eğitim verisi arttıkça gereken yetenek miktarı azalmaktadır. Bugün karmaşıkproblemlerde insan performansına erişen öğrenme algoritmaları 1980’lerde kolayproblemleri çözmekte zorlanan algoritmalarla neredeyse aynıdır. Tek farklılık, derinmimarilerin eğitilmesini kolaylaştırmak için modellerde yapılan değişikliklerdir.En büyük gelişmeyse, algoritmaların başarılı olmaları için gereken kaynakları sun-abilecek hâle gelmemizdir. Şekil 1.8 bize, test veri kümelerinin büyükleklerinin

18

✐✐

“main” — 2018/10/22 — 22:43 — page 19 — #61 ✐✐

✐✐

✐✐

GİRİŞ

zamanla ne kadar çok büyüdüğünü göstermektedir. Bu eğilim, toplumun artandijitalleşmesi sayesinde mümkün olmuştur. Aktivitelerimizin gittikçe daha büyükkısmı bilgisayarlar üstünde gerçekleştikçe gittikçe daha büyük kısmı kaydedilmeyebaşlanmıştır. Bilgisayarlarımız birbirlerine daha da çok bağlandıkça, bu kayıtlarımerkezi hâle getirip onları makine öğrenmesi uygulamalarında kullanılacak birerveri kümesine çevirmek kolaylaşmıştır.

“Büyük veri” çağı, makine öğrenmesini oldukça kolaylaştırmıştır. Bunun sebebi,

Ver

i küm

esi b

üyük

lüğü

(ör

nek

sayı

sı)

Şekil 1.8: Zamanla artan veri kümesi. 1900’lerin başlarında, istatistikçiler elle derlenen yüz-lerce hatta binlerce ölçümü kullanarak hazırlanmış veri kümeleri üzerinde araştırmalarınıdevam ettirdiler. (Garson, 1900; Gosset, 1908; Anderson, 1935; Fisher, 1936). 1950’ler-den 1980’lere kadar biyolojiden esinlenen makine öğrenmesinin öncüleri, genelde küçükyapay veri kümeleri ile çalıştılar. Buna örnek olarak düşük hesaplama maliyeti ile belirlifonksiyonların öğrenilebileceğini gösteren, karakterlerin düşük çözünürlüklü bit haritalarıgösterilebilir. (Widrow ve Hoff, 1960; Rumelhart vd., 1986b). 1980’lerde ve 1990’larda,makine öğrenmesi daha istatistiksel bir hâl aldı. Elle yazılmış sayıların taramalarındanoluşan MNIST veri kümesi (Şekil 1.9’da gösterildiği gibi) gibi on binlerce örnek içerendaha büyük veri kümeleri sayesinde güçlenmeye başladı (LeCun vd., 1998b). 2000’lerinbaşlarında, aynı boyuttaki daha karmaşık CIFAR-10 gibi veri kümeleri üretilmeye başlandı.2010’a yaklaşıldıkça, milyonlarca örnek içeren daha büyük veri kümeleri, derin öğrenmeninsınırlarını değiştirmeye başladılar. Bu veri kümeleri kamusal Street View House Numbersveri kümesini (Netzer vd., 2011), ImageNet veri kümesinin çeşitli versiyonlarını (Dengvd., 2009, 2010a; Russakovsky vd., 2014a) ve Sports-1M veri kümesini (Karpathy vd.,2014) de içeriyordu. Çizgenin üst kısmında, Kanada Parlemantosu’nun tartışmalarındanoluşturulmuş IBM’nin veri kümesi (Brown vd., 1990) ya da WMT İngilizceden Fransızcayaveri kümesi gibi (Schwenk, 2014) çevrilmiş veri kümelerinin diğer veri kümelerinden çokdaha büyük olduğunu görebiliriz.

19

✐✐

“main” — 2018/10/22 — 22:43 — page 20 — #62 ✐✐

✐✐

✐✐

BÖLÜM 1

Şekil 1.9: MNIST veri kümesinden örnek girdiler. “NIST” ’in açılımı Ulusal Standartlar veTeknoloji Enstitüsü(National Institue of Standards and Technology)’dür ve veriyi toplayankurumun adıdır. “M” değiştirilmiş(modified) anlamındadır çünkü veri, makine öğrenmealgoritmalarında kullanılması için önişlemeden geçirilmiştir. MNIST veri kümesi, elleyazılmış rakamların taramalarının ve hangi görüntüde hangi rakamın olduğunu belirtenetiketlerin olduğu bir veri kümesidir. Bu basit sınıflandırma problemi derin öğrenmearaştırmalarında en sık kullanılan testlerden biridir. Günümüz teknikleri tarafından kolaycaçözülmesine rağmen hâlâ popülerliğini korumaktadır. Geoffrey Hinton bu veri kümesini,biyologların sıkça meyve sineklerini araştırmalarına benzer şekilde makine öğrenmesiaraştırmacılarının da kontrollü bir şekilde deney yapabilmesine olanak sağladığından“makine öğrenmesinin drozofili” olarak tanımlamıştır.

istatistiksel kestirimin asıl zorluğu olan küçük bir miktar veriden, yeni verileregenelleme büyük oranda kolaylaşmasıdır. 2016 yılından beri, göz kararı bir kural,gözetimli bir derin öğrenme algoritmasının, kategori başına 5.000 etiketli örnektensonra kabul edilebilir bir performansa sahip olacağıdır. 10 milyon etiketli örnekle

20

✐✐

“main” — 2018/10/22 — 22:43 — page 21 — #63 ✐✐

✐✐

✐✐

GİRİŞ

insan performansına eşit hatta insan performansını aşan modeller eğitilebilir. Baştabüyük miktarda etiketsiz veriden nasıl yararlanılabileceği olmak üzere, gözetimsiz veyarı gözetimli öğrenme gibi daha küçük veri kümeleriyle çalışmak önemli araştırmaalanlarıdır.

1.2.3 Artan Model Boyutları

Sinir ağlarının oldukça başarılı olmasının önemli sebeplerinden biri de günümüzdeçok daha büyük hesaplama kaynaklarına sahip olmamızdır. Bağlantıcılığın anafikirlerinden biri de hayvanların birçok sinirinin aynı anda çalıştıklarında zekâyasahip olduğudur. Bir ya da birkaç sinir hücresinden oluşan bir topluluk kendibaşlarına yararlı değillerdir.

Biyolojik sinir hücrelerinin birbirlerine olan bağlantıları nispeten seyrektir.Şekil 1.10’da görüldüğü üzere makine öğrenme modellerinin sinir başına bağlantısayısı, memeli beyinlerinden bile kat kat fazladır.

Sinir ağları, Şekil 1.11’de de gösterildiği üzere yakın zamana kadar toplamsinir hücresi sayısı bakımından şaşırtıcı derecede küçüktü. Zamanla artan sinir ağıboyutları gizli ünitelerin kullanılması ile birlikte, yapay sinir ağları yaklaşık her 2,4yılda büyüklük olarak ikiye katlandı. Bu büyüme daha büyük hafızaya sahip dahahızlı bilgisayarlar ve daha büyük veri kümeleri sayesinde mümkündür. Daha büyükağlar, daha karmaşık problemlerde daha isabetli sonuçlar elde etmeyi başardılar.Bu eğilimin onlarca yıl daha süreceği beklenmektedir. Yeni teknolojiler daha hızlıbir şekilde büyümeyi mümkün kılmazsa, yapay sinir ağlarının 2050 yılına kadarinsanlarla aynı sayıda sinir hücresine ulaşmaları mümkün olmayacaktır. Biyolojiksinir ağları günümüzdeki yapay sinirlerden çok daha karmaşık fonksiyonları göstere-bilmektedir. Dolayısıyla, biyolojik sinir ağları gerçekte, bu çizimin gösterdiğindençok daha büyük olabilir.

Geçmişe baktığımızda, bir sülükten daha az sinir hücresine sahip sinir ağlarınınkarmaşık yapay zekâ problemlerini çözememesi o kadar da şaşırtıcı değildir. Günü-müzde hesaplama sistemleri bakımından oldukça büyük sinir ağları bile kurbağagibi kısmen ilkel olan omurgalı hayvanlardan daha az sinir hücresine sahiptir.

Model büyüklüğü, sürekli gelişen MİB, GPU ağ bağlantısı ve dağıtık hesaplamayöntemleri içeren yayılım altyapısı sebebiyle sürekli artmaktadır (Bölüm 12.1.2’dede bahsedildiği gibi). Derin öğrenmenin tarihsel sürecinde çok önemli olan bugidişin gelecekte de devam etmesi beklenmektedir.

21

✐✐

“main” — 2018/10/22 — 22:43 — page 22 — #64 ✐✐

✐✐

✐✐

BÖLÜM 1S

inir

hüc

resi

başın

a bağl

antı

İnsan

Kedi

Fare

Meyve sineği

Şekil 1.10: Zaman içinde sinir hücresi başına düşen bağlantı sayısının değişimi. Başlangıçtasinir hücreleri arasındaki bağlantı sayısı donanımla sınırlıydı. Günümüzde sinir hücreleriarasındaki bağlantı sayısı ağı tasarlarken seçtiğimiz bir özelliktir. Bazı yapay sinir ağları,bir kedideki kadar fazla sayıda sinir başına bağlantıya sahiptir. Diğer sinir ağlarının dadaha küçük memelilerdeki kadar sinir başına bağlantıya sahip olması sık karşılaşılan birdurumdur. İnsan türünün bile sinir hücresi başına düşen bağlantı sayısı çok da büyükdeğildir. Biyolojik sinir ağlarının sayısı Wikipedia (2015) isimli kaynaktan alınmıştır.

1. Uyarlanır doğrusal eleman (Widrow ve Hoff, 1960)

2. Neocognitron (Fukushima, 1980)

3. GPU ile hızlandırılmış evrişimsel ağ (Chellapilla vd., 2006)

4. Derin Boltzmann makinesi (Salakhutdinov ve Hinton, 2009a)

5. Gözetimsiz evrişimsel ağ (Jarrett vd., 2009)

6. GPU ile hızlandırılmış çok katmanlı perseptron (Ciresan vd., 2010)

7. Dağıtık otokodlayıcı (Le vd., 2012)

8. Çoklu GPU evrişimsel ağ (Krizhevsky vd., 2012)

9. COTS HPC gözetimsiz evrişimsel ağ (Coates vd., 2013)

10. GoogLeNet (Szegedy vd., 2014a)

1.2.4 İsabetliliği, Karmaşıklığı ve Gerçek DünyayaOlan Etkisini Arttırmak

1980’li yıllardan beri, derin öğrenme sürekli olarak tanıma ve öngörmedeki ka-biliyetini tutarlı bir şekilde artırdı. Dahası, derin öğrenme daha geniş alanlardabaşarıyla uygulandı.

İlk derin öğrenme modelleri, sıkıca kırpılmış ve oldukça küçük görüntülerdekitekil nesneleri tanıyabiliyordu (Rumelhart vd., 1986a). O zamandan beri sinir

22

✐✐

“main” — 2018/10/22 — 22:43 — page 23 — #65 ✐✐

✐✐

✐✐

GİRİŞ

1950 1985 2000 2015 205610−210−1

100101102103104105106107108109

10101011

Nör

on s

ayısı (

loga

ritm

ik ö

lçek

)

1 2

3

45

6

7

8

9 10

11

12

13

14

15

1617

1819 20

Sünger

Solucan

Sülük

KarıncaArı

Kurbağa

Ahtapot

İnsan

Şekil 1.11: Zamanla artan sinir ağlarının boyutları. Gizli ünitelerin kullanılmasındanitibaren yapay sinir ağları yaklaşık olarak 2,4 yılda bir büyüklük olarak ikiye katlanmıştır.Biyolojik sinir ağlarının sayısı Wikipedia (2015) isimli kaynaktan alınmıştır.

1. Perseptron (Rosenblatt, 1958, 1962)

2. Uyarlanır doğrusal eleman (Widrow ve Hoff, 1960)

3. Neocognitron (Fukushima, 1980)

4. Erken geri yayılım ağı (Rumelhart vd., 1986b)

5. Konuşma tanıma için yinelemeli sinir ağı (Robinson ve Fallside, 1991)

6. Konuşma tanıma için çok katmanlı perseptron (Bengio vd., 1991)

7. Ortalama alan sigmoid inanç ağı (Saul vd., 1996)

8. LeNet-5 (LeCun vd., 1998b)

9. Yankı durum ağı (Jaeger ve Haas, 2004)

10. Derin inanç ağı (Hinton vd., 2006)

11. GPU ile hızlandırılmış evrişimsel ağ (Chellapilla vd., 2006)

12. Derin Boltzmann makinesi (Salakhutdinov ve Hinton, 2009a)

13. GPU ile hızlandırılmış derin inanç ağı (Raina vd., 2009)

14. Gözetimsiz evrişimsel ağ (Jarrett vd., 2009)

15. GPU ile hızlandırılmış çok katmanlı perseptron (Ciresan vd., 2010)

16. OMP-1 ağı (Coates ve Ng, 2011)

17. Dağıtık otokodlayıcı (Le vd., 2012)

18. Çoklu GPU evrişimsel ağı (Krizhevsky vd., 2012)

19. COTS HPC gözetimsiz evrişimsel ağ (Coates vd., 2013)

20. GoogLeNet (Szegedy vd., 2014a)

ağlarının işleyebildiği görüntülerin büyüklüğü kademeli bir şekilde arttı. Çağdaşnesne tanıma ağları, yüksek çözünürlüklü fotoğrafları işleyebilirler. Aynı zamandafotoğrafın tanınacak nesne etrafında kırpılmış olmasını gerektirmezler (Krizhevskyvd., 2012). Benzer şekilde ilk sinir ağları yalnızca iki tür nesneyi ayırabilirken, (hattabazı durumlarda tek bir nesenin var olup olmadığını) çağdaş sinir ağları genelde enaz 1000 farklı sınıfı ayırt edip tanıyabilirler. En büyük nesne tanıma yarışması, heryıl yapılan ImageNet Büyük Ölçekli Görsel Tanıma Yarışması (ImageNet Large

23

✐✐

“main” — 2018/10/22 — 22:43 — page 24 — #66 ✐✐

✐✐

✐✐

BÖLÜM 1

Scale Visual Recognition Challenge, ILSVRC)’dır. Derin öğrenmenin yükselişindekidramatik anlardan biri, evrişimsel bir ağın bu yarışmayı büyük bir farkla kazan-masıdır. Bu, her modelin ürettiği en olası 5 kategorinin doğru kategoriyi içeripiçermediğine bağlı olan en-iyi-5 hatasını yüzde 26.1’den yüzde 15.3’e düşürmüştür(Krizhevsky vd., 2012). Bu andan itibaren bu yarışmalar düzenli bir şekilde derinevrişimsel ağlar tarafından kazanılmıştır. Derin öğrenmedeki ilerlemeler sayesinde,günümüzde en-iyi-5 hatası şekil Şekil 1.12’de gösterildiği üzere yüzde 3.6’ya kadardüşmüştür.

Derin öğrenmenin konuşma tanımada da büyük etkileri olmuştur. 1990’lı yıllarboyunca arttıktan sonra konuşma tanımadaki hata miktarları 2000’lerde durak-samaya başlamıştır. Derin öğrenmenin konuşma tanımada kullanılmasıyla (Dahlvd., 2010; Deng vd., 2010b; Seide vd., 2011; Hinton vd., 2012a) birlikte hataoranlarında büyük düşüşler elde edilmiş, hatta bazı hata oranları yarıya inmiştir.Derin öğrenme ve konuşma tanımanın tarihini Bölüm 12.3’te daha detaylı şekildeişleyeceğiz.

Derin ağlar aynı zamanda yaya saptama ve görüntü bölütleme (Sermanet vd.,2013; Farabet vd., 2013; Couprie vd., 2013) alanlarında da müthiş başarılar eldeetmiştir. Trafik işareti tanıma probleminde ise insanüstü performansa ulaşmıştır(Ciresan vd., 2012).

Derin ağların boyutları ve isabetliliği arttıkça, çözebildikleri problemlerin kar-maşıklıkları da arttı. Goodfellow vd. (2014d) bize sinir ağlarının tek nesnelerdenziyade bir görüntüdeki bütün harfleri üretebileceğini gösterdi. Daha önce bu tür biröğrenme için bütün elemanların etiketlenmesi gerektiği düşünülüyordu (Gülçehre

2010 2011 2012 2013 2014 2015Yıl

0.00

0.05

0.10

0.15

0.20

0.25

0.30

ILS

VR

C sınıf

landır

ma

hata

ora

nı

Şekil 1.12: Zamanla azalan hata oranları. Derin ağlar, ILSVRC’de yarışacak ölçeğe ulaştık-larından beri yarışmaları gittikçe azalan hata oranlarıyla düzenli bir şekilde kazanmışlardır.Veriler, Russakovsky vd. (2014b) ve He vd. (2015) isimli kaynaklardan alınmıştır.

24

✐✐

“main” — 2018/10/22 — 22:43 — page 25 — #67 ✐✐

✐✐

✐✐

GİRİŞ

ve Bengio, 2013). LSTM gibi yinelemeli sinir ağları günümüzde sabit büyüklüktegirdiler yerine sıralı dizilerle başka sıralı dizilerin arasındaki ilişkileri modellemekiçin kullanılmaktadır. Diziden-diziye öğrenme, makine çevirisi alanında devrimgetirecek gibi gözükmektedir (Sutskever vd., 2014; Bahdanau vd., 2015).

Artan karmaşıklığa olan eğilim derin öğrenmeyi mantıksal bir yönteme doğru itti.Bunun sonucunda bellek hücrelerinden okuyup keyfi bellek hücrelerine yazabilensinirsel Turing makineleri ortaya çıktı(Graves vd., 2014a). Bu tür sinir ağları,istenen davranışa ait örnekleri kullanarak basit programları öğrenebildiler. Örneğin,karıştırılmış sırada verilen sayı örneklerinden sayıları sıralamayı öğrenebildiler.Kendi kendini programlayan bu teknoloji hâlâ yeni olsa da, teorik olarak gelecektebütün problemlere uygulanabilecek bir yaklaşımdır.

Derin öğrenmenin diğer parlak başarılarından biriyse pekiştirmeli öğrenme-deki kullanımlarıdır. Pekiştirmeli öğrenmede özerk bir ajan, bir görevi denemeyanılma yöntemiyle yerine getirmeye çalışmaktadır. DeepMind, derin öğrenmetabanlı bir pekiştirmeli öğrenme sisteminin, Atari oyunlarını oynayabileceğini vebirçok görevde insan seviyesine ulaşabileceğini gösterdi(Mnih vd., 2015). Derinöğrenme aynı zamanda robotikte kullanılan pekiştirmeli öğrenmeyi de kayda değermiktarda iyileştirdi(Finn vd., 2015).

Birçok derin öğrenme uygulaması oldukça kârlıdır. Derin öğrenme günümüzdeGoogle, Microsoft, Facebook, IBM, Baidu, Apple, Adobe, Netflix, NVIDIA ve NECgibi birçok büyük teknoloji şirketi tarafından kullanılmaktadır.

Derin öğrenmedeki ilerlemeler yazılım altyapısına da güçlü bir şekilde bağlıdır.Theano (Bergstra vd., 2010; Bastien vd., 2012), PyLearn2 (Goodfellow vd., 2013c),Torch (Collobert vd., 2011b), DistBelief (Dean vd., 2012), Caffe (Jia, 2013), MXNet(Chen vd., 2015) ve TensorFlow (Abadi vd., 2015) gibi yazılım kütüphaneleri önemliaraştırma projelerinin ve ticari ürünlerin geliştirilmesine destek olmuştur.

Derin öğrenme aynı zamanda diğer bilimlere de katkı sağlamıştır. Nesne tanımakiçin kullanılan çağdaş evrişimsel ağlar, sinirbilimcilerin üstünde çalışabileceği birgörüntü işleme modeli sunar. Derin öğrenme, aynı zamanda büyük miktarlardakiveriyi işlemede ve bilim alanlarında öngörüler yapmada kullanışlı araçlar sunar.İlaç yapımında moleküllerin birbirleriyle nasıl etkileşeceklerini öngörmede başarıylakullanılmıştır (Dahl vd., 2014). Atom altı parçacıkları aramak (Baldi vd., 2014) vemikroskop görüntülerini otomatik olarak işleyerek insan beyninin 3B bir haritasınıçıkarmakta da başarılı olmuştur (Knowles-Barley vd., 2014). Derin öğrenmeningittikçe daha fazla bilim alanında yer alabileceğini öngörüyoruz.

Özetle, derin öğrenme geçtiğimiz on yıllar içinde geliştirilmiş, insan beyni, is-tatistik ve uygulamalı matematik bilgimizden yola çıkılarak geliştirilmiş bir makineöğrenmesi yaklaşımıdır. Geçtiğimiz yıllarda derin öğrenme, daha güçlü bilgisayarlar

25

✐✐

“main” — 2018/10/22 — 22:43 — page 26 — #68 ✐✐

✐✐

✐✐

BÖLÜM 1

daha büyük veri kümeleri ve derin ağları eğitmek için yeni tekniklerle birlikte hempopülerlik hem de kullanışlılık açısından gelişme göstermiştir. Önümüzdeki yıllarderin öğrenmeyi daha da geliştirmek için aşmamız gereken engeller ve fırsatlarladoludur.

26

✐✐

“main” — 2018/10/22 — 22:43 — page 27 — #69 ✐✐

✐✐

✐✐

I

Uygulamalı Matematik veMakine Öğrenmesinin Temelleri

✐✐

“main” — 2018/10/22 — 22:43 — page 28 — #70 ✐✐

✐✐

✐✐

KISIM I

Kitabın bu kısmı, derin öğrenmeyi anlamak için gerekli olan temel matematikselkavramları tanıtır. Uygulamalı matematikteki çok değişkenli fonksiyonları tanımla-mamızı ve bu fonksiyonların en yüksek ve en alçak noktaları bulmamızı sağlayangenel fikirlerinden başlayacağız.

Sonra makine öğrenmesinin temel amaçlarını tanıtacağız. Çeşitleri inançlarıtemsil eden bir model tanımlayarak, bu inançlarımızın gerçek dünyayla uygunluğunuölçen bir maliyet fonksiyonu tasarlayarak ve bu maliyet fonksiyonunu enküçülterekbu amaçlara nasıl ulaşacağımızı anlatacağız.

Bu çerçeve, derin olmayan makine öğrenmesi dahil olmak üzere birçok makineöğrenmesi algoritmasının temelini oluşturur. Kitabın ileriki bölümlerindeki derinöğrenme algoritmalarıyla ilgili bilgiyi bu çerçeve dahilinde geliştireceğiz.

28

✐✐

“main” — 2018/10/22 — 22:43 — page 29 — #71 ✐✐

✐✐

✐✐

2

Doğrusal Cebir

Doğrusal cebir bilimde ve mühendislikte geniş bir kullanım alanı bulan bir mate-matik dalıdır. Doğrusal cebirin ayrık matematikten ziyade sürekli bir matematikdalı olması birçok bilgisayar bilimcisinin doğrusal cebir hakkındaki tecrübesinisınırlamıştır. Doğrusal cebirin iyi bir şekilde anlaşılması, özellikle derin öğrenmeolmak üzere birçok makine öğrenmesi algoritmasını anlamak ve kullanmak içingereklidir. Dolasıyla derin öğrenmeye giriş yapmadan önce temel doğrusal cebirkavramlarından bahsetmek istiyoruz.

Eğer doğrusal cebir konusuna hâkim olduğunuzu düşünüyorsanız, bu bölümügeçebilirsiniz. Bu konularla daha önceden tecrübeniz mevcut ama önemli formüllereerişebileceğiniz detaylı bir referans arıyorsanız, The Matrix Cookbook (Petersen vePedersen, 2006) isimli kitabı öneriyoruz. Doğrusal cebir hakkında daha öncedenhiçbir tecrübeniz yoksa bu bölüm kitabın geri kalanı için yeterli olacaktır. YinedeShilov (1977) gibi sadece doğrusal cebire odaklanan ayrı bir kaynak kullanmanızıöneriyoruz.

Bu bölüm derin öğrenmeyi anlamak için gerekli olmayan bütün doğrusal cebirkonularını tamamen atlamaktadır.

2.1 Skalerler, Vektörler, Matrisler ve Tensörler

Doğrusal cebir birçok matematiksel nesne içermektedir:

• Skalerler: Doğrusal cebirde karşımıza çıkan birçok sayıdan oluşan dizilerdenfarklı olarak skalerler, tek bir sayıdan oluşurlar. Kitap boyunca skalerleri italikolarak belirteceğiz ve genellikle küçük harflerden oluşan isimler kullanacağız.

✐✐

“main” — 2018/10/22 — 22:43 — page 30 — #72 ✐✐

✐✐

✐✐

BÖLÜM 2

Bir skaleri tanımlarken nasıl bir tür sayı olduğunu belirteceğiz. Örneğin birgerçel sayıyı tanımlarken “s ∈ R bir doğrunun eğimi olsun” gibi bir ifadekullanacağız. Benzer bir şekilde doğal bir sayı tanımlarken “n ∈ N yapayağdaki ünitelerin sayısı olsun” ifadesini kullanacağız.

• Vektörler: Bir vektör bir sayı dizisidir. Bu sayıların her biri belli bir düzeniçindedir ve bu sayılara bu düzen içindeki sıralamasından yararlanarak erişe-biliriz. Genel olarak vektörleri x gibi kalın yazıyla belirteceğiz. Bu vektörünelemanlarını vektörün ismini ve bir altindisi kullanarak tanımlayabiliriz.Örneğin x vektörünün ilk elemanını x1, ikinci elemanını x2 vb. şeklindetanımlayacağız. Bu vektörün içinde ne tür sayıların saklandığını da belirt-memiz gerekmektedir. Eğer vektörün her elemanı R kümesinin bir elemanıise ve bu vektörün n adet elemanı varsa, bu vektör R ve n sayısının kartezyençarpımından ortaya çıkan ve Rn şekline gösterilen kümede yer almaktadır.Bir vektörün elemanlarını teker teker ayırt etmek istediğimizdeyse onlarıköşeli parentez içine alınmış bir sütun olarak gösterebiliriz:

x =

x1x2...xn

. (2.1)

Vektörleri, her bir elemanının farklı bir eksen üzerindeki koordinatını belirttiğibirer nokta olarak düşünebiliriz.

Bazı durumlarda vektörlerin elemanlarından oluşan bir kümeyi indeksle-memiz gerekebilir. Bu durumda, bu indislerden oluşan bir küme tanım-layıp, bu kümeyi altindiste belirterek bu elemanlara erişebiliriz. Örneğinbir kümedeki x1, x3 ve x6 elemanlarına erişmek için önce bir S = {1, 3, 6}kümesini tanımlayıp daha sonra xS yazabiliriz. − sembolünü bir kümenintümleyinini belirtmek için kullanacağız. Örneğin x−1 vektörü, x vektörününx1 hariç bütün elemanlarını içeren kümeyi temsil eder. x−S vektörü ise yinex vektörünün x1, x3 ve x6 elemanlarının çıkartılmış hâlini gösterir.

• Matrisler: Matrisler iki boyutlu sayı dizileridir ve her elemanları bir yerineiki indisle temsil edilir. Kitap boyunca matrisler için genellikle A gibi kalınyazı tipine sahip büyük harfli isimler kullanacağız. Eğer gerçel değerlerdenoluşan bir A matrisinin uzunluğu m genişliği n ise bu matris Rm×n kü-mesinin içindedir. Genelde matrisin elemanlarını kalın olmayan italik yazıtipiyle belirteceğiz. İndisleri ise virgülle ayıracağız. Örneğin A1,1 matrisin enüst ve soldaki elemanını belirtirken Am,n ise en alt ve en sağdaki elemanını

30

✐✐

“main” — 2018/10/22 — 22:43 — page 31 — #73 ✐✐

✐✐

✐✐

DOĞRUSAL CEBİR

belirmektedir. i numaralı düşey koordinattaki bütün elemanlara yatay koor-dinatta “:” operatörünü kullanarak erişebiliriz. Örneğin Ai,:, A matrisinindüşey koordinatının i olduğu yatay bir kesitini ifade eder. Bu A matrisinini’inci satırı olarak bilinir. Benzer bir şekilde A:,i, matrisin i’inci sütununubelirtir. Bir matrisi açık olarak göstermek istediğimizde köşeli parantez içineyazılı birer dizi olarak yazabiliriz:

�A1,1 A1,2

A2,1 A2,2

�. (2.2)

Bazı durumlarda birden fazla harften oluşan matrisli ifadeleri indekslememizgerekebilir. Bu durumda ifadeden sonra altindis kullanacağız, ancak herhangibir ifadeyi küçük harfe çevirmeyeceğiz. Örneğin, f(A)i,j ifadesi f fonksi-yonunu A matrisine uyguladıktan sonra ortaya çıkan matrisin (i, j) indislielemanını ifade etmektedir.

• Tensörler: Bazı durumlarda ikiden fazla ekseni olan dizilere ihtiyaç du-yabiliriz. En genel tanımında, düzenli bir ızgara üzerine yerleştirilmiş vedeğişken sayıda ekseni bulunan diziler tensör olarak adlandırılır. Biz “A”isimli bir tensörü A yazı tipini kullanarak belirteceğiz. A tensörünün (i, j, k)koordinatlarındaki bir elemanını Ai,j,k ifadesiyle göstereceğiz.

Matrisler için önemli olan operasyonlardan biri transpoz operasyonudur. Birmatrisin transpozu, o matrisin ana köşegen çizgisi etrafında aynalanmış hâlidir.Ana köşegen matrisin üst sol köşesinden sağ alt köşesine uzanır. Transpoz ope-rasyonunun bir gösterimi için Şekil 2.1’e bakınız. A matrisinin transpozunu A�

ifadesini kullanarak gösteriyoruz. Bu operasyon

(A�)i,j = Aj,i. (2.3)

ifadesiyle tanımlıdır.Vektörler tek bir sütun içeren matrisler olarak düşünülebilir. Dolayısıyla bir

vektörün transpozu tek bir satır içeren bir matristir. Bir vektörü satır içinde bir

A =

2

4

A1,1 A1,2

A2,1 A2,2

A3,1 A3,2

3

5 ) A>=

A1,1 A2,1 A3,1

A1,2 A2,2 A3,2

�

Şekil 2.1: Bir matrisin transpozu, matrisin ana köşegeni etrafında aynalanmış görüntüsüolarak düşünülebilir.

31

✐✐

“main” — 2018/10/22 — 22:43 — page 32 — #74 ✐✐

✐✐

✐✐

BÖLÜM 2

satır matrisi olarak yazıp daha sonra transpoz operatörüyle standart bir sütunvektörü olarak kullanmaktayız. Örneğin, x = [x1, x2, x3]

�.Bir skaler tek elemanlı bir matris olarak düşünelebilir. Bu sebeple bir skaler

kendisinin transpozudur: a = a�.Aynı şekile sahip oldukları sürece, iki matrisi birbiriyle toplayalabiliriz. Bunu

karşılıklı elemanlarını toplayarak yaparız: C = A+B öyleki Ci,j = Ai,j +Bi,j .

Aynı zamanda bir matrise skaler ekleyebiliriz ya da bir matrisi skalerle çarpabi-liriz. Bu bahsi geçen işlemi verilen matrisin her elemanına uygulamaya eş değerdir:D = a ·B + c öyleki Di,j = a ·Bi,j + c.

Derin öğrenme bağlamında alışılagelmiş gösterimlerin dışında gösterimler kul-lanmaktayız. Bir matris ve bir vektörün toplamını, sonucu bir matris olacak şekildetanımlıyoruz: C = A+ b, öyleki Ci,j = Ai,j + bj . Burada b vektörü matrisin herbir satırına eklenmiştir. Bu kısa gösterim toplama işleminden önce b vektörününher bir satırına kopyalandığı yardımcı bir matris tanımlama gereksinimini ortadankaldırır. b vektörü üstü kapalı kopyalama işlemine yayımlama denir.

2.2 Matris ve Vektörleri Çarpmak

Matrislerle ilgili en önemli işlemlerden biri iki matrisin çarpım işlemidir. A matrisive B matrisinin matris çarpımı C matrisidir. Bu çarpımın tanımlı olabilmesiiçin A matrisinin sütun sayısıyla B matrisinin satır sayısı eşit olmalıdır. Eğer Amatrisinin şekli m× n ve B matrisinin şekli n× p ise C matrisinin şekli de m× pkadardır. Matris çarpımını iki matrisi yanyana koyarak yazabiliriz. Örneğin,

C = AB (2.4)

.Çarpım işlemi

Ci,j =�

k

Ai,kBk,j . (2.5)

ifadesiyle tanımlanmıştır.Burada önemli olan nokta, matris çarpımının yalnızca matris elemanlarının

birebir çarpımına eşit olmadığıdır. Bu işleme eleman çarpımı ya da Hadamardçarpımı denir ve A�B şeklinde gösterilir.

İki eşit boyutlu vektör x ve y arasındaki iç çarpım, x�y ifadesiyle belirtilenmatris çarpımına eşittir. C = AB şeklindeki matris çarpımını, Ci,j ifadesini Amatrisinin i’inci satırının ve B matrisinin j’inci sütununun iç çarpımı olarakhesaplayarak gösterebiliriz.

32

✐✐

“main” — 2018/10/22 — 22:43 — page 33 — #75 ✐✐

✐✐

✐✐

DOĞRUSAL CEBİR

Matris çarpımı matrislerin matematiksel analizini kolaylaştıran birçok yararlıözelliğe sahiptir. Örneğin, matris çarpımı dağılma özelliğine sahiptir:

A(B +C) = AB +AC. (2.6)

Aynı zamanda birleşme özelliğine de sahiptir:

A(BC) = (AB)C. (2.7)

Matris çarpımı, skaler çarpımın aksine değişme özelliğine sahip değildir (yani,AB = BA eşitliği her zaman geçerli değildir). Bununla birlikte, vektörler arasın-daki iç çarpım değişme özelliğine sahiptir:

x�y = y�x. (2.8)

Bir matris çarpımının transpozu basit olarak

(AB)� = B�A� (2.9)

şeklinde ifade edilebilir. Bu çarpmının sonucu skaler olduğu ve dolayısıyla kenditranspozuna eşit olduğu için Denklem 2.8 eşitliğini ispatlar:

x�y =�x�y

��= y�x. (2.10)

Bu kitabın asıl odak noktası doğrusal cebir olmadığı için matris çarpımlarınınkullanışlı özelliklerini sıraladığımız etraflı bir listesini oluşturmayacağız. Ancakokuyucu birçok böyle özelliğin olduğunu unutmamalıdır.

Artık bir doğrusal denklemler sistemi yazabilecek doğrusal cebir notasyonubilgisine sahibiz:

Ax = b (2.11)

Bu eşitlikte A ∈ Rm×n bilinen bir matris, b ∈ Rm bilinen bir vektör ve x ∈ Rn

değerlerini bilmediğimiz ve çözmemiz gereken bir vektördür. x vektörünün herelemanı xi, bu bilinmeyen değişkenlerden biridir. A matrisinin her satırı ve bvektörünün her elemanı, sistem için yeni bir kısıtlamayı ifade eder. Denklem 2.11

A1,:x = b1 (2.12)

A2,:x = b2 (2.13)

. . . (2.14)

Am,:x = bm (2.15)

33

✐✐

“main” — 2018/10/22 — 22:43 — page 34 — #76 ✐✐

✐✐

✐✐

BÖLÜM 2

şeklinde yazılabilir. Hatta bunu daha da detaylı olarak,

A1,1x1 +A1,2x2 + · · ·+A1,nxn = b1 (2.16)

A2,1x1 +A2,2x2 + · · ·+A2,nxn = b2 (2.17)

. . . (2.18)

Am,1x1 +Am,2x2 + · · ·+Am,nxn = bm. (2.19)

şeklinde ifade edebiliriz.Matris vektör çarpımı notasyonu bu tür eşitlikler için daha kısa bir gösterim

sağlar.

2.3 Birim ve Ters Matrisler

Doğrusal cebir, Denklem 2.11 eşitliğini A matrisinin birçok değeri için analitikolarak çözebilmemizi sağlayan matris evirme olarak bilinen güçlü bir araç içerir.

Matris evirmeyi tanımlayabilmemiz için öncelikle birim matris kavramınıtanımlamamız gerekmektedir. Birim matrisler, bir vektör ile çarpıldıklarında ovektör üzerinde hiçbir değişiklik yapmayan matrislerdir. n boyutlu vektörler üze-rinde işlem yapan birim matrisleri In şeklinde belirtiyoruz. Biçimsel olarak bunu,In ∈ Rn×n ve

∀x ∈ Rn, Inx = x. (2.20)

şeklinde belirtiyoruz.Birim matrislerin yapısı oldukça basittir: Ana köşegen üzerindeki bütün ele-

manların değeri bir, geriye kalan bütün elamanların değeri ise sıfırdır. Bir örnekiçin Şekil 2.2 içerisine bakılabilir.

A matrisinin tersi, A−1 şeklinde gösterilir ve

A−1A = In. (2.21)

olacak şekilde tanımlıdır.

1 0 00 1 00 0 1

Şekil 2.2: Örnek birim matris: I3.

34

Documents

“main” — 2018/10/22 — 22:43 — page i — #1 · • Bölüm 3, Olasılık ve Bilgi Kuramı: John Philip Anderson, Kai Arulkumaran, Vincent Dumoulin, Rui Fa, Stephan Gouws,