31
Veri ve Metin Madenciliği Zehra Taşkın BBY 363, 30 Kasım 2016

Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Veri ve Metin Madenciliği

Zehra Taşkın

BBY 363, 30 Kasım 2016

Page 2: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer
Page 3: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Veri Madenciliği

• Bir kutu toplu iğne

• İçine 3 boncuk düşürdünüz

• Nasıl alacağız?

• Fikirler?

BBY 363, 30 Kasım 2016

Page 4: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Veri Madenciliği

• Data – Information – Knowledge

• Veri madenciliği;• Büyük yoğunluklu veri/metinler içinden önemli/ilginç örüntüler

keşfetme görevleri

• Toplu iğne örneği

BBY 363, 30 Kasım 2016

Page 5: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Veri Madenciliği

• İlişkili olduğu alanlar;• Bilgibilim

• Makine öğrenme, bilgisayar bilimleri

• Veri tabanı teknolojileri

• Görselleştirme

• İstatistik

• …

BBY 363, 30 Kasım 2016

Page 6: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Neden Veri Madenciliği

BBY 363, 30 Kasım 2016

• İhtiyacım olan veriyi bulamıyorum!

• İhtiyacım olan veriyi buluyorum ama elde edemiyorum!

• Bulduğum veriyi anlamıyorum!

• Anladığım veriyi kullanamıyorum!

• …

Page 7: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Veri Madenciliği Süreçleri

BBY 363, 30 Kasım 2016

Page 8: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

BBY 363, 30 Kasım 2016

Page 9: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Veri Madenciliği Araçları

BBY 363, 30 Kasım 2016

• Nooj

• Weka

• KNIME

• Angoss Knowledge Studio

• Matlab

• …

Page 10: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Veri Madenciliği Uygulamaları

BBY 363, 30 Kasım 2016

• Bilgi erişim (information retrieval)

• Bilgi çıkarımı (information extraction)

• Makine çevirisi (machine translation)

• Özetleme (summarization)

• Metin kategorizasyonu (text categorization)

Page 11: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Bilgi Erişim

BBY 363, 30 Kasım 2016

• İnsanların herhangi bir paragrafın, kitabın ya da büyük yoğunluklu metnin içinden ihtiyaç duydukları herhangi bir kısma erişimlerinin sağlanabilmesi

• Nasıl yapılabilir?

Page 12: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Bilgi Çıkarımı

BBY 363, 30 Kasım 2016

• Büyük yoğunluklu bir metnin içinden temel anahtar unsurların (kişiler, kurumlar, konumlar, ülkeler gibi) tanımlanması, etiketlenmesi ve çıkarımı

• Bilgi çıkarımı yapılınca işlem biter mi?

• Nooj programında bir veri çıkarımı uygulaması• Elde edilen verileri anlamlandırmak için ne yapılabilir?

Page 13: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Makine Çevirisi

BBY 363, 30 Kasım 2016

• Bir dilden diğer dile otomatik çeviri

• Algoritmalar nasıl yapılandırılabilir?

Page 14: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Otomatik Özetleme

BBY 363, 30 Kasım 2016

• Büyük yoğunluklu metinlerde yer alan cümle ya da paragraflar içinden,

• Dilsel veya istatistiksel bazı yöntemleri kullanarak,

• En önemli sözcükleri ya da cümleleri seçmeye,

• Metni temsil eden anlamlı bir özet çıkarmaya dayanır

Page 15: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Metin Kategorizasyonu

BBY 363, 30 Kasım 2016

• Tahminleyici bir metot

• Neleri tahmin edebiliriz?• Hava nasıl olacak?

• Patron kim olacak?

• Eurovision’u kim kazanacak?

• Golü kim atacak?

• 2 soru• Nasıl tahmin edecek?

• Nasıl başarıya ulaşacak?

Page 16: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Gözetimli vs. GözetimsizMetin Kategorizasyonu

BBY 363, 30 Kasım 2016

GözetimliUzman gözetiminde

GözetimsizTamamen bilgisayar yardımı ile

Her ikisinin de avantaj ve dezavantajları neler olabilir?

Page 17: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Metin Kategorizasyonunda Kullanılan Teknik ve Algoritmalar

BBY 363, 30 Kasım 2016

• Karar ağaçları

• İstatistiğe dayalı algoritmalar

• Mesafeye dayalı algoritmalar

• Yapay sinir ağları

Page 18: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Karar Ağaçları

BBY 363, 30 Kasım 2016

Page 19: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Karar Ağaçları

BBY 363, 30 Kasım 2016

• Sınıflandırma için bir ağaç oluşturulur (kök)

• Daha sonra her bir kayıt bu ağaca uygulanır (yaprak/düğüm)

• Çıkan sonuca göre kayıtlar sınıflandırılır

• Çeşitli algoritmaları var• ID3, C4.5, CART

Page 20: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

İstatistiğe Dayalı Algoritmalar

BBY 363, 30 Kasım 2016

• Verilerin önceden sınıflara ayrılması

• Gelecekte elde edilen sonuçların tahmini

• Yani sınıfların tahmini

Mesela;Öğrenci mezun olduysa Araştırma Yöntemleri dersinden geçmiştir.

Yüksek notla geçtiyse istatistiğe dayalı algoritmaları daha kolay anlar.

Page 21: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Mesafeye Dayalı Algoritmalar

BBY 363, 30 Kasım 2016

• Eldeki verilerin birbirlerine olan uzaklığı veya benzerliği kullanılarak sınıflandırma yapılır

Page 22: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Yapay Sinir Ağları

BBY 363, 30 Kasım 2016

• Biyolojik sinir ağlarından esinlenerek geliştirilmiştir

• Yapay sinir hücrelerinin birbirleriyle çeşitli şekilde bağlanmasından oluşur

• Genel olarak katmanlar şeklinde düzenlenir

• 3 temel katman vardır (girdi, gizli ve çıktı)

Page 23: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Performans Değerlendirme

BBY 363, 30 Kasım 2016

• Metodolojik değerlendirme• Test ve eğitim seti

• Çapraz doğrulama

• Sayısal Değerlendirme• Başarımın sayısal ölçümü

• Anma?

• Duyarlık?

• f değeri?

• ROC eğrisi

Page 24: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Performans Değerlendirme

BBY 363, 30 Kasım 2016

Gerçek kategori

Kategori 1 Kategori 2

Tahmin edilen kategoriKategori 1 Doğru pozitif (TP) Yanlış pozitif (FP)

Kategori 2 Yanlış negatif (FN) Doğru negatif (TN)

Anma= TP / TP+FN

Duyarlılık: TP / TP+FP

f= 2*anma*duyarlılık

(anma + duyarlılık)

ROC Eğrisi

Page 25: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

BBY 363, 30 Kasım 2016

Page 26: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

BBY 363, 30 Kasım 2016

Page 27: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

BBY 363, 30 Kasım 2016

Page 28: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

BBY 363, 30 Kasım 2016

Page 29: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

BBY 363, 30 Kasım 2016

Page 30: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Bilgi Danışmanlığı ve Veri Madenciliği

BBY 363, 30 Kasım 2016

• "Talep o kadar çok ki firmalar arasında paslaşmak zorunda kalıyoruz"

• Talepler ne olabilir

• Bilgi danışmanı neyi nasıl sunar? Sunmalı?

• Sosyal medya ve büyük veri: https://www.youtube.com/watch?v=z1RXxeZpBM8

Page 31: Veri ve Metin Madenciliği - Hacettepe Üniversitesiyunus.hacettepe.edu.tr/~umutal/lesson/bby363/363-007-2016.pdf · Makine Çevirisi BBY 363, 30 Kasım 2016 •Bir dilden diğer

Veri ve Metin Madenciliği

Zehra Taşkın

BBY 363, 30 Kasım 2016