24
Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER Sunan : Yasin BEKTAŞ 5 Şubat 2014

Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

  • Upload
    natan

  • View
    36

  • Download
    0

Embed Size (px)

DESCRIPTION

Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri. Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER Sunan : Yasin BEKTAŞ 5 Şubat 2014. İçindekiler. Giriş Alanyazın - PowerPoint PPT Presentation

Citation preview

Page 1: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER

Sunan : Yasin BEKTAŞ

5 Şubat 2014

Page 2: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

1. Giriş2. Alanyazın3. Açık Kaynak / Ücretsiz Yazılımlarla Türkçe

Tümcelerin Belirlenmesi 1. TUD-Alt Derlemi 2. Açık Kaynak Kodlu / Ücretsiz Uygulamaların

Performans Analizleri

4. Sonuç ve Öneriler 5. Kaynaklar

İçindekiler

Page 3: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Doğal Dil İşleme (DDİ) günümüzde dil bilimi, dil eğitimi, bilgisayar mühendisliği v.b.

pek çok farklı alanı birleştiren bir araştırma alanıdır.

1. Giriş

Page 4: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Derlem İşlemleme (Corpus Processing)

◦ Özel ya da genel amaçlı incelemeler yapmak için yazılı ve sözlü metinlerden oluşan metinler bütünüdür,

◦ Elektronik veritabanında kayıtlı metinlerin veri bilgisiyle birleştirilmiş toplamıdır,

◦ Derlem veritabanları, dilin farklı yönlerinin araştırmacılar tarafından betimlenmesine olanak tanımaktadır.

1. Giriş

Page 5: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Tümce sonu belirleme çalışmalarında, nokta, ünlem, soru işareti vb.

noktalama işaretleri sadece tümce ayracı olarak kullanılmazlar ve bu anlamda,

Tümce sonu belirleme, noktalama işaretlerinin belirginleştirilmesi olarak da özetlenebilir.

1. Giriş

Page 6: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Bilgisayar mühendisliği açısından tümce sonu belirleme ;◦ Sözdizimsel ayrıştırma (syntactic parsing), ◦ Bilgi çıkarımı (information extraction), ◦ Makine çevirisi (machine translation), ◦ Metin hizalama (text alignment), ◦ Belge özetleme (document summarization), ◦ İstatistiksel ya da makine öğrenmesi yöntemleri◦ Sözcük türü belirginleştirme

çalışmaları için önemli olduğu söylenebilir.

1. Giriş

Page 7: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Bilgisayarlı dilbilim alanyazınında tümce sonu belirleme problemi iki farklı yöntemle çözümlenmeye çalışılmıştır;

Kural Tabanlı Yaklaşım Makine Öğrenmesine Dayalı Yaklaşım

2. Alanyazın

Page 8: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Kural Tabanlı Yaklaşım◦ Anlaşılması zor◦ Veri setleri yalnızca kullanılan metinler ile

sınırlı

Makine Öğrenmesine Dayalı Yaklaşım◦ Reynar ve Ratnaparkhi(Maksimum Entropi)◦ Riley(Karar Ağacı Sınıflandırıcısı)◦ Palmer ve Hearst(Yapay Sinir Ağı)◦ Mikheev(Hiddin Markov-Maksimum Entropi)

2. Alanyazın

Page 9: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Var Olan Bazı Uygulamalar◦ Apache OpenNLP kütüphanesi◦ Julie Sentence Boundary Detector (Tomanek vd.)◦ GeniaSS◦ Splitta(Gillick)

2. Alanyazın

Page 10: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Türkçe için yapılan bazı çalışmalar◦ İstatistiksel Bir Bilgi Çıkarım Sistemi (Tür) -

Başarım: %91.56◦ Türkçede tümce sonu belirleme (Dinçer ve

Karaoğlan ) – Başarım: %96.02◦ Türkçe için kural tabalı cümle belirleme

metodu(Aktaş ve Çebi) - Başarım: %99.60

2. Alanyazın

Page 11: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Çalışmaya konu olan derlem, TUD dağılım ölçütleri kullanılarak hazırlanmış;

Günümüz Türkçesinin metin örneklerinden oluşan, 20 yıllık bir dönemi (1990-2009) kapsayan, Çok farklı alan ve türden Yazılı ve sözlü metin örneklerini içeren, Dengeli Temsil yeterliliğine sahip

bir alt-derlemdir.

3.1. TUD-Alt Derlemi

Page 12: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

3.1. TUD-Alt Derlemi

Alan Oran Toplam Sözcük Sayısı

Hedeflenen Sözcük Sayısı

1.Kurgusal Düzyazı

%19 1.901.174 1.900.000

2. Bilgilendirici Metinler

%81 7.956.406 8.100.000

Tablo 1. Alana göre Dağılım

Page 13: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

3.1. TUD-Alt Derlemi Türev Metin Biçimi Oran Toplam Sözcük

Sayısı

1. Akademik Düzyazı %95 1.806.708

2. Kurgu ve Şiir %2 37.0593. Dram, Tiyatro %3 57.407

Media Oran Toplam Sözcük Sayısı1. Kitaplar %46,1 3.667.9442. Süreli Yayınlar %37,1 2.951.859 2.1. Bilim.Dergileri %14,9 1.185.466 2.2. Gazeteler %11,1 883.176 2.3. Dergiler %11,1 883.2173. Diğer Basılmış Metinler

%6,09 484.550

4. Basılmamış Yazılı Metinler

%2,5 198.912

5. Sözlü Metinler %8,21 653.228

Tablo 2. Kurgusal Düzyazı Metinlerinin Türev Metin Biçimine göre Dağılımı

Tablo 3. Bilgilendirici Metinlerin Medyaya göre Dağılımı

Page 14: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

3.1. TUD-Alt Derlemi

Alan Oran Toplam Sözcük Sayısı

1. Bilgilendirici: Doğa ve Temel Bilimler %5,03 400.2072. Bilgilendirici: Uygulamalı Bilimler %10,21 812.3493. Bilgilendirici: Sosyal Bilimler %20,08 1.597.6464. Bilgilendirici: Dünya Sorunları %22,57 1.795.7615. Bilgilendirici: Sanat %8,78 698.5726. Bilgilendirici: Düşünce ve İnanç %5,00 397.8207. Bilgilendirici: Serbest %18,29 1.455.2268. Bilgilendirici: Ticaret ve Finans %10,04 798.823

Tablo 4. Bilgilendirici Metinlerin Alanlara göre Dağılımı

Page 15: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Bu çalışmada açık kaynak kodlu ◦ Julie Sentence Boundary Detector (JSBD),◦ GeniaSS, ◦ Splitta, ◦ Ücretsiz Web servisi şeklinde çalışan ve Dokuz

Eylül Üniversitesi Doğal Dil İşleme Araştırma Grubu (9EDDİ) tarafından Türkçe metinler için geliştirilmiş tümce ayırma sistemi karşılaştırılmıştır.

3.2. Açık Kaynak Kodlu / Ücretsiz Uygulamaların Performans Analizleri

Page 16: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

3.2. Açık Kaynak Kodlu / Ücretsiz Uygulamaların Performans Analizleri

Kullanılan alt derlem;• Yarı otomatik olarak oluşturulmuştur• 10 Milyon sözcük• 774.449 adet tümce elde edilmiştir.

Page 17: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

3.2. Açık Kaynak Kodlu / Ücretsiz Uygulamaların Performans Analizleri

Yazılım Bulunan Toplam Tümce Sayısı

Doğru Tümce Sayısı

Doğruluk Oranı

JSBD 690.998 539.628 %70Splitta 664.769 171.467 %22GeniaSS 893.401 681.850 %889EDDİ 683.609 576.920 %75

Tablo 5. Tümce Sonu Belirleme Yazılımlarının Alt-derlem Üzerindeki Başarımı

Page 18: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

3.2. Açık Kaynak Kodlu / Ücretsiz Uygulamaların Performans Analizleri

Şekil 1. Yazılımların Doğa ve Temel Bilimler Alanındaki Metinler Üzerindeki Başarımı

Şekil 2. Yazılımların Uygulamalı Bilimler Alanındaki Metinler Üzerindeki Başarımı

Şekil 3. Yazılımların Sosyal Bilimler Alanındaki Metinler Üzerindeki Başarımı

Şekil 4. Yazılımların Dünya Sorunları Alanındaki Metinler Üzerindeki Başarımı

Page 19: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

3.2. Açık Kaynak Kodlu / Ücretsiz Uygulamaların Performans Analizleri

Şekil 5. Yazılımların Sanat Alanındaki Metinler Üzerindeki Başarımı

Şekil 6. Yazılımların Düşünce ve İnanç Alanındaki Metinler Üzerindeki Başarımı

Şekil 7. Yazılımların Serbest Alanındaki Metinler Üzerindeki Başarımı

Şekil 8. Yazılımların Ticaret ve Finans Alanındaki Metinler Üzerindeki Başarımı

Page 20: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

◦ Şekillerde yer alan yüzdelik ifadeler, yazılımın ürettiği doğru tümce sayısının/yazılımın ürettiği toplam tümce

◦ Splitta hariç %75 ile %89 aralığında oranlar elde edilmiştir.

◦ En fazla tümceyi ve en fazla doğru tümceyi üreten GeniaSS uygulaması olmuştur.

◦ Güncel Türkçe metinler için hazırlanan 9EDDİ ise bazı alanlarda daha iyi sonuçlar vermiştir.

3.2. Açık Kaynak Kodlu / Ücretsiz Uygulamaların Performans Analizleri

Page 21: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

◦ İngilizce tıp metinleri için hazırlanmasına rağmen en iyi sonucu GeniaSS üretmiştir.

◦ Daha sonra (özellikle bazı metin gurupları için) 9EDDİ yazılımı başarılı sonuçlar vermiştir.

◦ Üretilen tümce sayının doğru tümcelere oranına bakıldığında 9EDDİ daha iyi sonuçlar vermiştir.

4. Sonuç ve Öneriler

Page 22: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Bu çalışma çeşitli alanlarda yazılmış Türkçe metinler için;

◦ Daha etkin tümce sonu belirleme sistemlerine ihtiyaç olduğunu göstermiştir.

◦ Tümce sonu belirleme yöntemi geliştirilirken TUD alt-derlemi gibi dili temsil etme yeteneğine sahip bir derlem ile çalışmanın daha etkin sistemlerin geliştirilmesine yardımcı olacağı düşünülmektedir.

4. Sonuç ve Öneriler

Page 23: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

 TÜBİTAK: Proje no 113K039

Destekler

Page 24: Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

Teşekkürler

Yasin BEKTAŞ[email protected]