95
ANKARA ÜNİVERSİTESİ SAĞLIK BİLİMLERİ ENSTİTÜSÜ TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ÖRNEKLEMİNİN OLUŞTURULMASI Levent GÜNER Ekim 1999 ANKARA

TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

  • Upload
    vudang

  • View
    225

  • Download
    1

Embed Size (px)

Citation preview

Page 1: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

ANKARA ÜNİVERSİTESİ

SAĞLIK BİLİMLERİ EN STİTÜSÜ

TÜRKÇE KONUŞMA VE KONUŞMACI

TANIMAYA YÖNELİK VERİ TABANI

ÖRNEKLEMİNİN OLUŞTURULMASI

Levent GÜNER

Ekim 1999

ANKARA

Page 2: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

iii

Ö N S Ö Z

Bu tez çalışmasında ülkemiz için yeni sayılabilecek Adli Amaçlı Konuşma ve Konuşmacı Tanıma algoritmalarının geliştirilmesi için Türkçe veri tabanı örneklemi yapılmıştır. Gelecekte oluşturulacak bir Türkçe veri tabanının oluşturulmasına yön verebileceği düşünülmüştür. Bundan sonra bu konu üzerinde yapılacak çalışmalara yardımcı olmasını dilerim. Yüksek Lisans eğitimime başlamama aracı olan değerli eğitmenim Prof.Dr.Tülin SÖYLEMEZOĞLU’na ve dilbilimini bana sevdiren, bu tezi oluşturmamda bana yardımcı olan değerli eğitmenim ve danışmanım Prof.Dr.İclâl ERGENÇ’e ve beni her konuda destekleyen sevgili eşim Dilek’e sonsuz teşekkür ederim.

Page 3: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

iv

İ Ç İ N D E K İ L E R

Kabul ve Onay ii

Önsöz iii

İçindekiler iv

Şekiller vii

Çizelgeler viii

1. GİRİŞ 1

1.1 Tezin konusu ve amacı 1

1.2 Tezin önemi 1

1.3

Çeşitli Üniversiteler ve Kuruluşlar Tarafından Oluşturulan Veri Tabanı Toplama Teknikleri ve Kullanım Yerleri

4

1.3.1 ATIS Veri Tabanı 5

1.3.2 BRAMSHILL Veri Tabanı 6

1.3.3. HCRC Map Task Veri Tabanı 6

1.3.4. KING Veri Tabanı 7

1.3.5 MACROPHONE Veri Tabanı 7

1.3.6 OGI SPELLED ve SPOKEN Veri Tabanı 8

1.3.7 PHONEBOOK Veri Tabanı 9

1.3.8. DARPA RESOURCE MANAGEMENT (RM1) Veri Tabanı 10

1.3.9 ROAD RALLY Veri Tabanı 10

1.3.10. SWITCHBOARD Veri Tabanı 12

1.3.11. SPIDRE Veri Tabanı 12

1.3.12. SWITCHBOARD EXCERPTS Veri Tabanı 13

1.3.13. TI46 Veri Tabanı 13

1.3.14. TIDIGITS Veri Tabanı 14

Page 4: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

v

1.3.15. TIMIT VE NTIMIT Veri Tabanı 15

1.3.16. YOHO Veri Tabanı 16

1.3.17. POLYPHONE Veri Tabanı ve Standartları 17

1.4. Veri Tabanı Toplama Tekniği 19

2. KONUŞMA ve SES ÖZELLİKLERİ 20

2.1. Seslerin Oluşumu 20

2.1.2. Konuşma Dilinin Özellikleri 29

2.1.3. Türkçenin Ses Özellikleri 33

2.1.4. Türkçede Sesler 36

3. VERİ ÇÖZÜMLEME 41

3.1. Okutulacak ve Spontan Olarak Söyletilecek Verilerin oluşturulması 41

4. UYGULAMA 47

4.1. Türkçe-POLYPHONE Veri Tabanı Örnekleminin Oluşturulması 49

4.2. Konuşmacıların Demografik Dağılımı 56

4.3. Konuşmacılardan Kaydedilecek Materyalin Seçimi 59

4.4. Kağıttan Okunacak Materyal 60

4.4.1. Konuşmacı Kodu 61

4.4.2. Sayı Dizileri 62

4.4.3. Telefon Numarası 62

4.4.4. Ard Arda Ayrık Rakam Dizisi 62

4.4.5. Reel Sayılar 63

4.4.6. Tarih 63

4.4.7. Saat 63

4.4.8. Yer (Şehir) Adı 64

4.4.9. Uygulama Sözcüğü 64

4.4.10. Harf Harf Söylenen Sözcük 64

Page 5: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

vi

4.4.11. Uygulama Sözcüğü Geçen Tümce 64

4.4.12. Ayrık Sözcük 65

4.4.13. Fonetik Açıdan Zengin Tümce 65

4.4.14. Sözcük Yakalama Amaçlı Sözce 65

4.5. Spontan Söylenecek Materyal 66

5. BULGULAR 69

6. SONUÇ VE DEĞERLENDİRME 74

6.1. Hukuki İnceleme 74

6.2. Veri Tabanı Örneklemini Oluşturan Seslerin İncelenmesi 77

ÖZET 78

SUMMARY 79

KAYNAKLAR 80

Page 6: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

vii

ŞEKİLLER DİZİNİ

Şekil 1.1 Oluşturulacak veri tabanının kullanım alanları. 3

Şekil 2.1 Konuşmanın sinir sistemiyle olan ilişkisi 21

Şekil 2.2 Ses yolunun şematik gösterimi 22

Şekil 2.3 Ses yolu tüp modeli 23

Şekil 2.4 Kaynak filtre modeli 24

Şekil 2.5 Gırtlağın yandan kesiti 27

Şekil 2.4 "i" ve "a" Seslerinin çıkartılmasında ses yolunun 28 aldığı şekil

Şekil 2.5 Ünlü dörtgeni 38

Şekil 4.1 Şehiriçi kayıt sırasında kullanılan hatların 49 durumunu gösteren diyagram.

Şekil 4.2 Şehirlerarası kayıt sırasında kullanılan hatların 50 durumunu gösteren diyagram.

Şekil 6.1 Aynı kişiye ait bir hafta arayla alınmış seslerin 78 karşılaştırılması

Şekil 6.2 Aynı tümceyi kullanan farklı konuşmacıların , 79 seslerinin karşılaştırılması

Şekil 6.3 Konuşmacının sesini perdeleyerek 81 (farklı bir sesi taklit ederek) kaydedilmiş sesinin özgün konuşmasıyla karşılaştırılması

Page 7: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

viii

ÇİZ ELG EL ER D İZ İN İ

Çizelge 3.1 POLYPHONE standardına göre oluşturulan 38 veri tabanlarının toplam sözce sayısı Çizelge 3.2 POLYPHONE veri tabanında kağıttan okunan 40 materyalin dökümü Çizelge 3.3 POLYPHONE veri tabanlarında spontan olarak 41 söyletilen Mataryalin dökümü Çizelge 4.1 Veri örneklerinin toplandığı yer ve kayıt şekillerini 47 gösteriri çizelge Çizelge 4.2 Ses örneği alınan deneklerin, cinsiyet, yaş eğitim 54 düzeyi ve büyüdükleri yerleri (lehçe kriteri için) gösterir çizelge Çizelge 4.3 Türkçe-POLYPHONE veri tabanı örnekleminde 57 kağıttan okutulan sözcüklerin dökümü Çizelge 4.4 Türkçe-POLYPHONE veri tabanı örnekleminde 64 spontan olarak söyletilecek sözcelerin dökümü Çizelge 5.1 Değişik diller için toplanan ses örnekleri ile 66 yapılan örneklemin karşılaştırılması Çizelge 5.2 POLYPHONE standardına göre oluşturulan veri 68 tabanları ile Türkçe veri tabanı örnekleminin karşılaştırılması

Page 8: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

1

1. GİRİŞ

1 .1 . Tez in Konusu ve Önemi

Adl i b i l im a l anında , i nsan ses i yo l uy l a i ş l enen suç l a r ın

o r taya ç ıka r t ı l ab i lmesi i ç i n son y ı l l arda i l e r l eyen

tekno lo j i y l e b i r l i k te b i l imsel me to t l a r ku l l anı lmaya

baş l anmış t ı r. Dünyadaki bu gel i şmele r Türk i ye ’ ye de

yans ımış ve b i r çok b i l im adamı ses tanıma ve ses

onay l ama g ib i ses i ş leme konus unda ça l ışmaya

baş l amış t ı r. Fakat bu araş t ı rmala r ın büyük çoğunl uğu

yabanc ı d i l de hazı r l anmış ver i tabanl a r ı üze r i nde

yap ı l mak tadı r.

Son y ı l l a rda suç a raş t ı rma b i l imi , konuşma

kay ı t l a r ı b i l imsel o la rak i nce lenmeye baş l amış ve bu

a l anda yoğun a raş t ı rmala r yap ı la rak bazı t i ca r i ürünl e r

p i yasaya sürü lmüş tür.

Ül kemi zde bu a l anda ça l ı şmala r o lmas ına rağmen

mevcut b i r Türkçe ver i tabanı o l mamasından dol ayı

o l uş turu l an s i s temle r i n Türkçe ses tanıma

a l go r i tmala r ında pe r fo rmans la r ın ın ne kadar i y i yada

kö tü o l duğu konus unda sağl ık l ı b i r t esp i t yap ı lması

mümkün o l amamış t ı r.

Bi r s i s temi n pe r fo rmans ını a r t t ı rmak i ç i n

o l uş turu l acak konuşmac ı tanıma a l go r i tmas ı değiş i k

c i ns i ye t , l ehçe ve yaş g rupl ar ından top l anan ses l e r le

Page 9: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

2

eği t i lmel i d i r. Bu nedenl e konuşma ve konuşmac ı tanıma

konul a r ında a raş t ı rma yap ı lab i lmesi i ç i n yete r i nce

zeng i n b i r konuşma ve r i tabanına sahi p o l unmal ıd ı r

(Demi rek le r ve ark . ,1995) . Bu konunun önemi , ses

a raş t ı rmala r ında öncü l ük eden ü l ke l e rde 1980 ’ l i y ı l l a r ın

baş l a r ında fa rk ed i l miş ve 1990 baş la r ında baş ta

İng i l i zce o lmak üzere çeş i t l i ba t ı d i l l e r i i ç i n fa rk l ı

amaçl ara yöne l i k b i r çok ve r i tabanı o r taya ç ıkar ı l mış t ı r.

Ol uş turu l acak böy le b i r ver i tabanıy l a aşağ ıda

Şeki l 1 .1 ’d e aç ık l and ığ ı g ib i b i r çok a landa

ku l l anı l ab i l ecek t i r.

Türk i ye Türkçes i i ç i n s tandar t konuşma ve r i tabanı

henüz mevcut o l mamas ı nedeni y le Türkçe konuşma ve

konuşmac ı tanıma konul a r ında araş t ı rma yapan herkes

kend i ver i s i ni kendi top lamakta ve bu i ş l em b i r

s tandarda o tur tu l mad ığından dolay ı çok vak i t kaybına

neden o l mak tad ı r. Bunun sonuc u o l a rak aynı

a l go r i tmala r üze r i nde ça l ışan ve i k i fa rk l ı ve r i tabanında

gel i ş t i r i l en benzer s i s teml e r b i rb i r l er i y le

ka rş ı l aş t ı r ı l amamak ta , hang i s i ni n daha başar ı l ı o lduğ u

sonuç l a ra bakarak anl aşı l amamak tad ır. Bütün bunl a ra

ek o l arak , böy le b i r ve r i tabanının bu l unmamas ı Türkçe

konus unda a raş t ı rma yapanl ar ın yabanc ı d i l l e r i ç i n

hazı r l anmış o l an ve r i tabanla r ına bağl ı ka l arak

ça l ı şmal ar ına neden o lmak tad ı r.

Page 10: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

3

Şeki l 1 .1 . Ol uş turu l acak ver i tabanının k u l l anım a l an l ar ı .

1 .3 . Çeşi t l i Ün iversi te le r ve Kuru luş lar Tara f ından

Oluşturu lan Ver i Tabanı Top lama Tekn ik ler i ve

Kul lan ım Yer ler i

Bu böl ümde Pennsyl vani a Ünive rs i tes i bünyes i nde

kuru l muş o l an LCD ( Li ngui s t i c Da ta Consor t i um )

Bitmiş Uygulamalar

Uygulama Alanları

Teknoloji ve

Araştırma

Kısa tümceler

üzerinde tanıma

Kelime yakalama

Konuşmacı

tanıma

Uzun

tümce üzerinde tanıma

Konuya dayalı ses

dizini

Ses Etkileşimli telefon arama merkezleri

Ses arşivlemesinde düzeltme ve dosyalamada

güvenli ses servisleri

HMMs ve

Hybrid Sistemler

Güçlü Karar

Güçlü konuşma

analizi

Yazılım

geliştirmede Teknolojinin desteği

- Anlaşılır modeller

- Çoklu bölüm - Konuşma zenginleştirme

- Denetimsiz eşitleme

Güçlü Konuşma Modelli

- Çoklu-eğilim

- Model uyarlama - Çeşitli sesletim

- Dil modeli

- Konuşmacı karakterleri - Alışılmış parolalar

- Güvenirliliğin ölçümü

- Varsayım testi

Uygulama, veri tabanları üzerinde

değerlendirme

Geliştirme

Page 11: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

4

ta ra f ından o l uş turu l an çeş i t l i d i l l e re a i t ve r i tabanı

top l ama tekni k le r i ve POLYPHONE s tandar t l a r ı

i nce l enecek t i r.

Son y ı l l a rda b i l g i sayar la konuşma ve konuşmac ı

tanıma, op t i k ka rakte r tanıma, ses sentezi , doğal d i l

i ş l eme g ib i uygul ama a l anl a r ına g i t t i kçe a r tan b i r i l g i

mevcut tur. Ö te yandan, geni ş i nsan k i t l e le r i ta raf ından

ku l l anı l an bütün d i l l e r i n çok karmaş ık ve zeng i n yap ı la r

o l duğunda n dol ay ı yukar ıda sözü edi l en ses

uygul amal ar ın başar ı l ı sonuç ve rebi l mesi i ç i n b i l g i sayar

al go r i tmala r ı çok büyük m ik ta r la rda ve r i i l e eğ i tmek

gerekmek tedi r ( Berns te i n e t a l . , 1995) . Bu nedenl e ,

çeşi t l i dünya d i l l e r i i ç i n ve r i tabanl a r ı o l uş turmak ve

o l uş turu l an ve r i tabanını dağı tmak i ç i n 60 ’ ın üs tünde

üni ve rs i te ve ş i r ket i n üye o lduğu b i r ko nsors i yum

kuru l muş tur. Li ngui s t i c Da ta Consor t i um (LDC) adıy l a

anı l an bu konsors i yum Pennsy l vani a Üni vers i tes i

bünyes i nde kuru l muş o l up baş ta İng i l i zce o lmak üzere

İ spanyol ca , F rans ızca , F lamanca, A l manca , Japonca ve

Çi nce g i b i çeş i t l i dünya d i l l e r i i l e i l g i l i ve r i tabanı

o l uş turma ve dağ ı tma faa l i ye t l e r i nde bul unmak tad ı r.

Çal ışmaya ış ı k tu tmas ı aç ıs ından önce l i k le LCD

ta ra f ından dağı t ım ı yap ı lan konuşma ve r i tabanı

teknik l e r i i nce lenerek aşağıda konuşma ve r i

tabanl ar ı y la i l g i l i b i l g i l e r ve r i lmi ş t i r. Anl a t ı l an ve r i

tabanl ar ın ın tamamına yakın ses ve r i l e r i ni eğ i tme ve

tes t grupl a r ı o l mak üzere i k i ye ay r ı l a rak aynı ve r i

tabanı üze r i nde ça l ışan a raş t ı rmac ı l ar ın e l de e t t i k l er i

Page 12: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

5

sonuç l a r ı b i r b i r i y le ka rşı l aşt ı r ı lma o lanağ ı sağl amış

o l acakt ı r.

1 .3 .1 ATIS Ver i Tabanı

AT IS (Ai r Travel In fo rmat ion Sys tem) hava dolaş ımı b i l g i

s i s teml e r i ver i tabanı , özel b i r bağl aml a s ını r l anmış

o l an doğal konuşma l ar ı i çe r i r ( Texas Ins t ruments ,

1999) . Bu ver i tabanı i l e konuşmac ıya bağıml ı konuşma

tanıma amaçl ar ı i ç i n düşünül müş t ür. Sözü ed i l en öze l

bağl am hava yo lcu l uğu b i l g i s is temiy l e i l g i l i d i r. Uçak

yo l cul uğu i l e i l g i l i b i l g i so rmak , reze rvasyon yap t ı rmak

g i b i amaçla ra yönel i k tümcel er i n ye r a l d ığ ı ve r i tabanı

10 konuşmac ıdan 16 kHz ö rnek leme hız ında , 16 b i t ’e

ni cemlenerek yak ı n konuşma i l e Sennhe i se r HMD414 ve

Crown PCC-160 model i k i f a rk l ı mik rofon la

top l anmış t ı r. AT IS ver i tabanı tes t ve eği t im s i s teml er i

ol a rak b i l i nen ATS0, ATIS2 ve ATIS3 o la rak

gel i ş t i r i lmiş t i r.

1 .3 .2. BRAMSHILL Ver i Tabanı

Bu ve r i tabanında he r b i r konuşmac ıdan a l ınan s tandar t

bazı tes t cüml e l er i ve serbest konuşma bul unmak tad ı r

(Pol i ce Sta ff Col l ege , 1979) . Karşı l ı k l ı konuşma

Page 13: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

6

bi ç i mi nde gerçek leşt i r i l en se rbest konuşma l a rda , he r b i r

konuşmac ı ç i f t i ne , üze r i nde konuşacakl a r ı fo toğra f l a r

ve r i lmi ş ve her b i r ç i f t te ye r a l an konuşmac ı la rdan

kaydedi l en ses l e r ayr ı ay r ı kütük l e r ha l i nde o rgani ze

edi l miş t i r. Bu kütük le re ek o l a rak konuşmac ının

c i ns i ye t , yaş , boy, k i l o , doğum yer i g ib i öze l l i k l e r

üze r i nde konuş tuğu fo toğ ra f ın kodu, tümcel er i n çev i r i

yazımı ve d i ya log o l uş turan i k i nc i konuşmac ının k iml i ğ i

de ay r ı kütük le r ha l i nde ver i l miş t i r. İ ng i l i z İng i l i zces i ne

yöne l i k bu ve r i tabanında ses l er 10 kHz’de ö rnek l enmi ş

ve 16 b i t ’ e ni cemlenmi ş t i r.

1 .3 .3. HCRC Map Task Ver i Tabanı

128 tane d i ya l ogdan o l uşan bu ve r i tabanı çeş i t l i

ha r i ta la r üze r i nde o l uş turu l an d i ya l og la r ı i çe rmek tedi r

(Human Communi ca t ions Research Cente r, 1992) . Yü z

yüze yap ı l an veya yüz yüze yap ı l mayan d i ya log l ara ek

ol a rak SGML (Standar t Genera l ized Markup Language )

f o rmat ında yap ı l mış çev i r i yazıml a r, ha r i ta la r ve ve r i

tabanını ku l l anacak k i ş i l e re yöne l i k bazı yard ımc ı

programl a r da 8 d i sk ten (CD -ROM) o l uşan ve r i tabanına

dahi l d i r. Ve r i tabanında ses le r ç i f t kana l o l arak 20

kHz’de ö rnek l enmi ş ve 16 b i t ’e n i ceml enmi ş t i r.

Page 14: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

7

1 .3 .4. K ING Ver i Tabanı

Tamamı e rkek o l an 26 New Jersey ve 26 San Di ego

kökenl i konuşmac ıdan top l anan K ING ver i tabanı

konuşmac ı tanıma araş t ı rmalar ı i ç i n ge l i ş t i r i l miş t i r

( ITT. ,1987) . Her b i r konuşmac ı i l e ayr ı kay ı t seans ı

yap ı l mış ve aynı konuşma hem geni ş hem de da r bant l ı

o l a rak kaydedi l miş t i r. Dar bant l ı kay ı t ta , konuşma

s tandar t b i r t e l e fon aparat ından geç i r i l e rek yere l b i r

sant ra l a , o radan da uzak b i r sant ra la yo l l anmış , sonra

y i ne ye re l sant ra l a ge t i r i l erek ge r i dönen ana l og

s i nyal den kay ı t yapı l m ış t ı r. Geniş b ant l ı kay ı t i se y i ne

aynı konuşmanın sess i z b i r oda da te le fon ahi zes i ne

tak ı l an ka l i t e l i b i r mik rofondan e lde edi lmi ş ha l i d i r. Her

i k i kay ı t da 8 kHz ö rnek l eme hız ında 16 b i t doğrusal

n i cemleme kul l anı l a rak yapı l m ış t ı r. Her b i r seans ta

konuşmac ıya üzer i nd e konuşacağ ı b i r konu ve r i l miş ve

he r b i r seans ta yak laş ık 30 sani ye l i k ses ve r i s i

a l ınmış t ı r.

1 .3 .5. M ACROPHONE Ver i Tabanı

1994 y ı l ı nda tamaml anan ve yak l aş ık 5000 Amer i ka l ı

dan a l ınan 200 .000 sözceyi kapsayan b i r ve r i tabanıd ı r

(SRI In te rna t i onal , 1995) . Ver i tabanı T1 te le fon

kana l l a r ından 8 kHz 8 -b i t u - l aw o l a rak kaydedi l miş t i r.

Her b i r denek ten, 45 ade t kağ ı t tan okunan so ruya yanı t ,

34 ade t kağ ı t tan okunan sözc ük ve 11 ade t spontan

so ru/yanı t vermesi i s tenmi ş t i r. Denek le re demogra f i k

Page 15: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

8

bi l g i l e r, şe hi r i s iml er i , ça l ı ş t ığ ı ye r g i b i bazı b i l g i l er

so ru lmuş /okutu l muş tur.

1 .3 .6. OGI SPELLED ve SPOKEN Ver i Tabanı

Tel e fon üzer i nden o tomat i k so ru so rup komut ve ren

(p rompt i ng ) ve kayı t yapan b i r s i s tem ta raf ından

kaydedi l en bu ve r i tabanında 3650 ’den fazl a konuşma

bul unmak tad ı r ( Oregon Gradua te Ins t i t u te , (1994) .

Konuşmac ı la ra ad l ar ı , ne reden a rad ık l ar ı , ne rede

büyüd ük l e r i , ve eve t \hay ır t i p inde cevap ve recekle r i

bazı so ru la r so ru lmuş tur. Ay r ıca adl ar ı ve soyadl ar ı

ha r f , ha r f söy lemele r i ( spel l i ng ) , s i s tem ta ra f ından

söy l enen bazı sözcük l e r i t ek ra r lamal a r ı ve y i ne s i s tem

ta ra f ından söy l enen bazı sözcük l e r i aç ık lamala r ı

i s tenmi ş t i r. Oregon Gradua te I ns t i t u te ’de (OGI) yapı l an

bu kay ı t l arda he r b i r so ru ya da emre ( prompt ) ve r i l en

yanı t ay r ı b i r kütük ha l i nde o rgani ze edi l miş ve

konuşmac ının c i ns i yet i , konuşmanın ka l i tes i ve

konuşmanı n zaman -çak ışmal ı o r tag ra f i k çevr i yazım

( t i me a l i gned or thographi c t ransc r i p t i on ) da ve r i

tabanında ve r i lmi ş t i r.

Page 16: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

9

1 .3 .7. PHONEBOOK Ver i Tabanı

Ayr ık sözcük tanıma s i s teml er i n i n önemi ni ko ruyacağı

va rsayımından hareke t le te le fon üzer i nden kaydedi l en

büyük b i r ay r ı k sözcük ve r i tabanıd ı r ( Pi te r l l i , e t a l . ,

1995) . Ay r ı k sözcük tanıma s i s teml e r i ni n devaml ı

konuşma ve r i l e r i y l e eğ i t i lmesin i n ay r ı k sözcükl e r le

eğ i t i lmesi ne göre daha kö tü sonuç l a r ve rmesi bu ve r i

tabanının o l uş turu l mas ı i ç i n b i r başka yönl endi rme

kaynağ ı o l muş tur. Ayr ı ca, sözcük s i s temle r i ni n ( word

spo t t i ng systems ) eğ i t imi nde de kul l anı l ab i l i r.

Phonebook ’ ta ye r a l an sözcük le r Amer i kan İng i l i zces i n i n

bütün sesbi r iml e r i ni ( phoneme ) mümkün o l duğu kadar

faz l a bağl amda kapsayacak b i ç imde seç i lmiş t i r. Topl am

23 saa t l i k ses kayd ı i çe ren bu ve r i tabanı ay r ıca çeş i t l i

konuşmac ı ve te le fon ha t ka rak ter i s t i k le r i ni de

yans ı tmak tad ı r. Ve r i tabanında 7979 sözcük seç i l erek

bi r havuz o l uş turu l muş ve he r b i r i demograf i k aç ıdan

ABD nüfus unu i y i t emsi l e t t i ğ i düşünül en, o r ta l ama 11 .7

ye t i şk i n konuşmac ı ta ra f ından ses l endi r i lmiş t i r. Ve r i

tabanında top lam 93667 sözcük yer a lmışt ı r. Ses l er

say ısa l o l arak doğrudan b i r T1 te l e fon ha t t ından 8 kHz

örnek lenerek 8 b i t mu - l aw say ısa l format ın da

kaydedi lmiş t i r.

Page 17: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

10

1 .3 .8. Darpa Resource Management (RM1) Ver i

Tabanı

Deni zc i l i k l e (Naval Resource Management ) i l g i l i

t ümce le r i n ye r a ld ığı bu ve r i tabanı konuşmac ıdan

bağ ımsız ve konuşmac ıya bağ ıml ı konuşma tanımaya

yöne l i k o l arak hazı r l anmış t ı r (De fense Advanced

Research Pro jec t Agency, 1987) . Konuşmac ıdan

bağ ımsız konuşma tanıma böl ümünde 160 konuşmac ının

he r b i r i nden a l ınan b i r kaç tümce bul unmak tad ı r.

Konuşmac ıya bağ ıml ı konuşma tanıma a raş t ı rm al ar ında

ku l l anı l mas ı p lan l anan böl ümünü i se 12 konuşmac ını n

he r b i r i nden a l ınan 612 tümce o l uş turmak tad ı r.

Konuşmac ı la r tümcele r i yazı l ı me t i nden okumuş tur.

Kay ı t l a r çok düşük a rka p lan gürü l tüsü o l an b i r o r tamda

Sennhe i se r SN414 mik rofon i l e yap ı lm ış ve ses 20

kHz’de ö rnek lenerek 16 b i t ’ e n i ceml enmi ş t i r. Daha

sonra aşağı -örnekleme ( down-sampl i ng ) yo l uy l a 16

kHz’de düşürü l en ses ve r i l er i , he r b i r t ümce ay r ı b i r

kütük o l uş turacak b i ç i mde o rgani ze edi lmi ş t i r. Tümce

uzunl uk l a r ı yak l aş ık o l a rak 3 -5 sani ye a ras ı ndad ı r.

1 .3 .9 ROAD R ALLY Ver i Tabanı

Bu ve r i tabanı , doğal konuşma i ç i nde sözcük yakal ama

a raş t ı rmala r ı düşünül e rek hazı r l anmışt ı r ( Nat iona l

Ins t i t u te o f Standar t and Techno logy, 1991) . Konuşma l ar

i k i k i ş i ni n b i r ra l l i p lan l amas ı konusu e t ra f ında

dönmek tedi r. Ay r ı odal a ra otur tu lan i k i k i ş i ye b i re r yo l

Page 18: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

11

har i tas ı ve r i lmiş , be l i r l i puanlama k r i t e r l e r i ne gö re

(ö rneği n dağ yo l l ar ı ya da i k inc i l yo l l a r ın o toyol l a ra

gö re daha yüksek puan ge t i rmesi g ib i ) ha r i tada

i şa ret l enen i k i nok ta a ras ında b i rb i r l er i y le kon uşarak b i r

güzergah be l i r l emele r i i s tenmi ş t i r. Bu ve r i tabanı i k i

bö l ümden o l uşmak tad ı r. Stonehenge ad ı ve r i l en

böl ümde d i ya l ogu o l uş turan i k i konuşmac ının he r b i r i ni n

ses i mik rofon la a l ın ıp 300 Hz -3300 Hz bant geni ş l i ğ i nde

b i r PCM F IR süzgeci nden geç i r i l e rek s tereo b i r t eyp

c i hazını n i k i kana l ına ay r ı ayr ı kaydedi l miş t i r. Daha

sonra ses o lmayan böl üml er ay ık lanarak konuşmac ı

baş ına o r ta lama 3 dak ika süren ses kütük l e r i e lde

edi l miş t i r. Bu böl ümde 96 konuşmac ı bu l unmak tad ı r.

Ve r i 28 tabanının Water l oo adı ve r i l en i k i nc i bö l ümde

i se benzer i kay ı t l a r doğrudan te le fon ha t l a r ı üze r i nden

yap ı l mış t ı r. Bu böl ümde b i r i nc i bö l ümdeki l e rden fark l ı

56 konuşmac ı ye r a lmaktad ı r. Ses ve r i l er i 10 kHz

ö rnek leme hız ı ve 16 b i t n i cemleme kul l anı l a rak

kütük l e r ha l i nde düzenl enm i şt i r. Sözcük yakalama

çal ı şmal ar ında ku l l anı l mak üzere , öneml i b i r bö l ümü

har i tadaki ye r i s iml er i nden o l uşan 20 sözcük seç i lmiş

ve e r b i r ses kütüğünde bunl a r ın geç t i ğ i ye r le r

i şa ret l enmi ş t i r. Sözcüğün baş l ang ıç nok tas ı ve ö rnek

say ıs ı c i ns i nden uzunl uğun un ye r a l d ığ ı bu kütük l e r ses

kütük l e r i i l e b i r l i k te ve r i tabanını o l uş turmak tad ı r.

Page 19: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

12

1 .3 .10. SWITCHBOARD Ver i Tabanı

Aral ar ında konuşma ve konuşmac ı tanımanın da

bul unduğ u çeş i t l i ses a raş t ı rmal a r ında ku l l anı lmak

üzere o l uş turan SW ITCHBOARD; te le fon h a t l ar ı

üze r i nden, tamamen b i l g i sayar dene t i mi nde otomat i k

o l a rak top lanmış b i r ve r i tabanıd ı r ( Texas Ins t ruments ,

1993) . Her b i r i 6 dak i ka süren 2430 d i yo loğun

bul unduğ u SW ITCHBOARD çok büyük b i r ve r i tabanıd ı r.

Topl am 240 saat l i k ses i çeren bu ve r i tabanı nda

Amer i kan İng i l i zces i ni n bütün ana lehçel e r i ne sahip

500 ’den fazl a konuşmac ının 3 m i l yondan faz l a sözcüğ ü

bul unmak tad ı r. Ses le r T1 te l e fon ha t t ından doğruda n

say ısa l o la rak 8 kHz ve 8 b i t mu - l aw kodl anmış

b i ç i mi nde top lanmış t ı r.

1 .3 .11. SPIDRE Veri Ta banı

SW ITCHBOARD ver i tabanının çok büyük o l mas ı

yüzünden, burada ye r a lan konuşma la r ın b i r bö l ümü

seç i l e rek, öze l l i k l e konuşmac ı tanıma uygul amal ar ında

ku l l anı l mak üzere SPIDRE ad ı ve r i l en yeni b i r ve r i

tabanı hazı r l anmış t ı r ( Texas Ins t ruments , 1994) . Ka nal

karakte r i s t i ğ i ni n konuşmac ı tanımadaki önemi üze r i ne

SW ITCHBOARD i ç i nden en az üç ay r ı t e le fon apara t ı

ku l l anan 45 konuşmac ı , konuşmac ı tanıma uygul amala r ı

i ç i n hede f k i t l e o l a rak seç i lmi ş t i r.

Page 20: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

13

1 .3 .12. SWITCHBOARD EXCERPTS Ver i Tabanı

SW ITCHBOARD ve r i tabanından k redi ka r t ı konusundak i

d i ya l og l ar seç i l e rek , sözcük yakal ama uygulamala r ına

yöne l i k o lan bu ve r i tabanı o l uş turu l muş tur ( Texas

Ins t ruments , 1993) . Eği tme amac ıy l a ku l l anı lmak üzere

35 d i ya l og i çe rmek tedi r. Daha sonra tes t amacına

yöne l i k 10 d i ya l og daha ek lenmesi p lan l anmak tad ı r.

1 .3 .13. TI46 Ver i Tabanı

Ayr ık sözcük tanıma ça l ı şmal a r ı i ç i n tasa r ıml anan b u

ve r i tabanında , ya r ı s ı erkek ya r ı s ı kadın o l mak üzere

top l am 16 konuşmac ıdan a l ınan 46 ay r ı k sözcük

bul unmak tad ı r ( Nat ional Ins t i tu te o f Standar t and

Techno l ogy, 1991) . Sözcük l er 0 -9 a ras ı rakamla r, A -Z

aras ı ha r f l e r i n tek tek ses lendi r i lmi ş ha l i “YES”, “NO” ve

bunl a ra ek o la rak “ENTER”, “STOP” ve “ERASE” g ib i 8

emi r sözcüğüdür. Herb i r sözcüğün herb i r konuşmac ıdan

26 ayr ı kayd ı a l ınmışt ı r . Ses le r Texas Ins t ruments

ta ra f ından, akus t i k i zo l asyonu o lan b i r kabi nde , El ect ro -

Voi ce RE-16 card i o ids di nami k mi k rofon la top l anmışt ı r.

Kay ı t l a r ın konuşmac ının ne fes ses l e r i nden

e tk i l enmemesi amacıy l a mi kro fon konuşmac ının ağzını n

tam önüne değ i l b i raz yanına ye r leş t i r i lmiş t i r.

Page 21: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

14

1 .3 .14. TIDIGITS Ver i Tabanı

Ard a rda gelen rakamla r ın ( connec ted d i g i ts )

konuşmac ıdan bağ ıms ız tanınab i lmesi amac ına yönel i k

bu ve r i tabanı top lam 326 konuşmac ıdan Texas

Ins t ruments ta ra f ından top l anan rakam di z i l e r i nden

ol uşmak tad ı r (Leonard ve Doddi gton, 1993) .

Konuşmac ı la r ın 111 ’ i e rkek , 114 ’ü kad ın 101 ’ i i se

çocuk tur. Lehçe de dengel i b i r dağ ı l ım i ç i n ABD 21

böl geye ay r ı lm ış ve s i yahl a rda dahi l ed i l i nce 22 g rup ta

denge l i b i r l ehçe dağ ı l ım ı sağl anmaya ça l ı ş ı lm ışt ı r. Her

bi r konuşmac ıdan, ay r ı k o l arak söy l enmi ş 22 rakam ve

he r b i r i fa rk l ı o l mak üzere 11 ’er tane i k i l i , üç l ü , dö r t l ü ,

beş l i ve yedi l i r akam grubu (a rd a rda söy lenmi ş rakam)

a l ınmış t ı r. Ses l er akus t i k i zo l asyonl u Tracous t i cs

RE244-B i s i ml i b i r kabi nde E l ec t ro Voi ce RE-16

ca rd i o ids mi kro fonl a a l ınmış ve mi k rofon konuşmac ını n

ağzının 2 -4 i nç uzağ ına ye r leş t i r i l miş t i r. 20 kHz

ö rnek leme hız ıy l a top lanan ve r i l er 12 .5 kHz 'e i nd i r i l e rek

bi r LPC anal i z -sentez s i s temi ne uygul anmış ve

d i n l ey i c i l e r ta ra f ından sadece sentezl e nen ses

di n l enerek konuşmac ının kendi s i ne ve r i l en rakam

di z i s i ni söy l ey ip söy lemediğ ine ka ra r ve r i lmi ş t i r.

Konuşmac ı ha ta l ar ın ın b i r bö l ümü düzenl enmi ş ,

düze l t i l emeyenl e r ve r i tabanından ç ıka r t ı lm ışt ı r.

Page 22: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

15

1 .3 .15. TIMIT ve NTIMIT Ver i Tabanı

Bu ve r i ta banı akus t i k - f one t i k ça l ı şmala r ı ve konuşma

tanıma ça l ı şmala r ın ı des tek l emek üzere hazı r l anmış t ı r

(Na t iona l Ins t i t u te of Standar t and Techno l ogy, 1991) .

Ver i tabanı , ABD’ni n 8 tane lehçe g rubunu temsi l eden

630 konuşmac ının he r b i r i nden a l ınan 10 tümce , ya ni

t op l am 6300 tümce i çermektedi r. Tümcele r üç gruba

ay r ı lm ış t ı r. B i r i nc i g ruba , l ehçe fa rk l ar ın ı öne ç ıka racak

b i ç i mde seç i l miş 2 tümce bul unm ak tad ı r ve bu i k i t ümce

630 konuşmac ının he r b i r i tara f ından okunmuş t ur. İ k i nc i

g rup ta , geni ş b i r i k i l i ses ( diphone ) kapsamı sağlayacak

b i ç i mde seç i l en ( phone t i ca l l y compac t ) 450 tümce

bul unmak tad ı r. Her b i r konuşmac ı bu grup tan 5 tümce

okumuş ve he r b i r t ümce de 7 deği ş i k konuşmac ı

ta ra f ından okunmuş tur. Üçünc ü g rup ta i se fone t i k

aç ıdan çeş i t l i l i k a rz eden ( phone t i ca l l y -d i ve rse) 1890

t ümce bul unmak tad ı r. Çeşi t l i me t i n le rden de r lenen b u

tümce le r tümce t i p i ve fone t i k bağl am aç ıs ından zeng i n

o l acak ve çok say ıda a l o fon i çe recek b i ç imde

seç i lmi ş t i r. Her konuşmac ı bu g rup tan üç tane ok umuş ,

he r b i r t ümce i se ya l nız b i r konuşmac ı ta ra f ından

okunm uş tur. Ses kütük l e r i y le b i r l i k te tümceni n

o r togra f i k , sözcük bazında ve ses bazında çev i r i yazımı

da ayr ı kütük l e r ha l i nde ve r i lmi ş t i r. Sözcük bazında

i şa ret l eme i l e he r b i r sözcüğün ö rnek say ıs ı c i ns i nden

baş l ang ıç ve b i t i ş nok ta l ar ı ve r i lmi ş t i r. Fone t i k

i şa ret l emede i se aynı i ş l em tümcedeki bütün ses l er i ç i n

yap ı l mış , ek o l arak tümceni n baş ve sonundak i ses

i çe rmeyen böl ge l er h i l e i şa re t l enmi ş t i r. 6300

Page 23: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

16

t ümceni n tamamı fone t i k i şa ret l e r i n i n tek tek konmas ı

çok zahmet l i , uzun v e pahal ı b i r süreç t i r. Ö te yandan

devaml ı konuşma tanıma s i s teml er i i ç i n bu tür

i şa ret l enmi ş ve r i tabanla r ı zo runl u b i r ge reks i ni mdi r.

Dol ay ıs ıy la , sess i z b i r or tamda kaydedi l en T IMIT

tümce le r i t e le fon s i s teml er i nden geç i r i l e rek yeni b i r ve r i

tabanı o l uş tu ru l muş tur. Ses le r i n te l e fon bant geni ş l i ğ i ne

sahi p o lduğu ve te le fon s i s temi nde o l ab i l ecek he r tür l ü

bozul maya ve gürü l tüye maruz ka l dığ ı bu yeni ve r i

tabanı NT IMIT o l a rak adl and ı r ı lm ış t ı r. NT IMIT te l e fon

üzer i nden devaml ı konuşma tanıma uygul amal ar ı i ç i n

ku l l anı l mak tadı r (Nynex Sci ence and Techno logy,

1992) . TIMIT tümcele r i ha reket l i b i r a raç te l e fonuy l a

ses l endi r i lmiş ve bu yeni ve r i tabanı CT IMIT (Own and

George, 1995) ad ı ve r i lmi ş t i r. CT IMIT henüz LD C

ta ra f ından dağ ı t ı l an ve r i tabanl a r ı a ras ında deği l d i r.

1 .3 .16. YOHO Ver i Tabanı

Konuşmac ının ge rçek ten i dd i a e t t i ğ i k i ş i o l up o l mad ığını

an l amaya , yani konuşmac ı doğru l amaya ( speaker

ve r i f i ca t i on ) yöne l i k s i s temle r i ç in tasa r ıml anan bu ve r i

tabanı , a rd a rda söy lenen üç a de t “ t hi r ty - four ” , “s i x ty -

one” g i b i i k i basamakl ı say ı l a rdan o l uşmak tad ı r

(ö rneği n36 -45 -89 ) ( ITT. , 1989) . YOHO ver i tabanında

108 e rkek 30 kad ın o l mak üzere top l am 138

konuşmac ının he r b i r i nden 136 tane üç l ü sayı d i zi s i

a l ınmış t ı r. Her b i r konuşmac ıdan a l ınan 136 say ı d i zi s i

14 ay r ı seans ta kaydedi lmi ş t i r. Konuşmac ı la r ın kodl ar ı ,

Page 24: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

17

c i ns i ye t l e r i ve coğra f i kökenl er i de ay r ı kütük l e rde

ve r i lmi ş t i r. Ses kütük le r i ni n ö rnek l eme hız ı 8 kHz o l up ,

he r b i r ö rnek 12 b i t doğrusal ni cemlenmi ş ancak

kütük l e rde 16 b i t o l arak ve r i lmi ş t i r.

1 .3 .17. POLYPHONE Ver i Tabanı ve Standar t la r ı

Çeşi t l i dünya d i l l e r i ni kapsayan ve çeş i t l i ses

a raş t ı rmala r ı i ç i n kul l anı l ab i l ecek t i ca r i aç ıdan öneme

sahi p b i r ve r i tabanı o l uş turu lmas ı f i k r i 1992 y ı l ı nda

COCOSDA ( Coord i na t i ng Commi t tee fo r Speech

Da tabase Assessment ,1994) ad ı ve r i l en b i r komi te

ta ra f ından öner i l miş ve POLYPHONE adı ver i l en bu

p ro j e hakk ında bazı s tandar t l ar o l uş turu l muş tur.

POLYPHONE çeşi t l i d i l l e r i ç i n te le fon ha t la r ı

üze r i nden top l anan ve r i l e rden o l uş turu l muş tur.

POLYPHONE ver i tabanl a r ın ın he r d i l i ç i n o d i l i konuşan

ü l kede b i r kurumca o l uş turu lmas ı p lan l anmış ve

uygul amada kul l anı l acak yöntem üzer i ne bazı

s tandar t l ar konmuş tur. POLYPHONE s tandar t l a r ın ın en

öneml i l e r i şunl a rd ı r :

Eğer mümkünse kay ı t l a r T1 veya ISDN gi b i sayısa l

ha t l ardan doğrudan s ayısa l o l arak yapı l mal ıd ı r .

Ver i l e r o ül kede kul l anı l an s ık ış t ı rma fo rmat ına (mu -

l aw veya A - l aw) sad ık ka l ına rak kaydedi lmel i ve ve r i

Page 25: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

18

tabanını ku l l anacak k i ş i l er i n bu s ık ış t ı rma ve r i l e r i

doğrusal ha l e çev i rmele r i i ç i n tab lo l a r ve r i lmel id i r.

Ver i tabanında en az 5000 konuşmac ı ve 125,000 ses

ö rneğ i ye r a lmal ıd ı r. Konuşmal a rdan 500 tanesi

100 ’e r l i g rup l ar ha l i nde 5 tes t g rubu o la rak

ay r ı lmal ıd ı r.

Her b i r konuşmac ıdan 25 i l e 50 a rasında sözce

a l ınmal ıd ı r.

Sözce le r aras ında az sayıda spontan konuşma ve

ay r ı ca konuşmac ının kay ı t l a i lg i l i yo rumunun ye r

a l d ığı b i r bö l ümde bul unma l ıd ı r.

Her b i r sözce , başında ve sonunda konuşma

i çe rmeyen b i re r bö l üml e b i r l i k te ay r ı b i r kütük te

sak l anmal ıd ı r.

Sözce le r aras ında tümcel e r, no rmal ha r f ha r f

söy l enen sözcük le r, çeş i t l i b i ç imle rdek i rakam di zi l e r i

ve say ı l ar ve i ç i nde say ı geçen sözcel e r yer

a l mal ıd ı r.

Sözce le r d i l i n i k i l i ses le r i n i %100 o ranında

kapsamal ı , üç l ü ses l e r i ni i se p ra t i k s ın ı r l amal a r

dahi l i nde mümkün o l duğu kadar fazl a kapsayacak

b i ç i mde seç i lmel id i r.

Her b i r sözceni n o r tog ra f i g çev i r i yazımı ve r i lmel i ,

ay r ı ca sözcel er ve konuşmac ı l ar ın öze l l i k l e r i de ses

ve r i l e r i y le b i r l i k te ve r i tabanına dahi l ed i lmel id i r.

Page 26: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

19

Bu tez i n amac ı yukar ıda bahsedi l en çeş i t l i ül ke le re a i t

ve r i tabanl ar ı i ncene le rek “Türkçe konuşma v e

konuşmac ı tanımaya yöne l i k ve r i tabanı ö rnek l emi

yapmak” t ı r. E l de edi l ecek sonuç l a r i l e dünyada

ku l l anı l an i nsan ses i ve r i tabanl a r ı i nce l enerek bu

a l anda s ık ınt ı s ı çek i l en b i r ve r i tabanı s tandard ı

o l uş turu l mas ı amaçlanmış t ı r. Bu ve r i tabanından e l de

edi l ecek fark l ı zamanl a rda a l ınan ses l e r üze r i nde

spek t rog raf i k anal i z yap ı la rak ses le r üze r i ndeki

deği ş i k l i k l e r i nce l enecekt i r.

Page 27: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

20

2 . KONUŞMA ve SES ÖZELLİKLERİ

2 .1 . Ses ler in Oluşumu

Bi r konuşma i nsan ta ra f ında o l uşturu l urken, he r şey den

önce b i r kont ro l s i s temi ( s i ni r ağ la r ı ) ya rdımıy la bey i ne

u l aş t ı r ı l ı r ve b i r şey i n söy lenmes i ne kara r ve r i l i r,

düze nl enen mesaj konuşma o rganl a r ı (mekani zmas ı)

ta ra f ından üre t i l i r. Bey i n tara f ından b i r çok o laya a i t

b i l g i l e r a l g ı l anı r, i ş l eni r, depola nı r ve ka ra r ve r i l e rek

konuşma o l uş turu l ur ( Hollien, 1990, s.:43).

Şeki l 2 .1 'de b i r konuşmanın s i ni r s i s temi y le i l i şk i s i

b i r d i yag ramla anla t ı lm ışt ı r. Burada konuşma beyi n

ta ra f ından kont ro l s i s temi uya r ı l ı r ve ses üre t i mi ne

ka ra r ve r i l i r, ses i ç i n ge rek l i o l an ener j i kaynağ ı

so l unum mekani zmas ı ta raf ından sağ lanmak tad ı r,

konuşma i ç i n ge rek l i ö tüml ü ( voi ce) ses l e r so l uk

bo rusu ( l a rynx ) i ç i nde bul una n ses te l l e r i ( vocal co rds )

bu ener j i y l e t i t r eşerek g ı r t l ak , burun, ağ ız , d i l ve

dudağ ın ya rd ımıy l a ses i ür e t i r l e r.

Güç Kaynağı (So lunum Sis temi ) : Bi r konuşmanı n

o l uşabi l mesi i ç i n ge rek l i o lan ener j i akc i ğe r l er

ya rd ımıy la hava i l e sağl anı r. Hava ç ı k ı ş ı yani ş idde t i

konuşmanı n n i te l i ğ i ne göre s i n i r s i s temi yo l uy l a

kaburgal a r a ras ı kas l ar ve kar ın kas l ar ı uy a r ı l a rak

göğüs a t ı ş ı y la ayar l anı r ( Hollien, 1990, s.:44). Hava akış ı

Page 28: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

21

s ı rasında kas la r i k i t ür l ü kas ı l ma yapar. B i r i nc i s i , he r

heceye denk gel en hece kası l mas ı , i k i nc i s i de cüml ede

vurgunun ke l i medeki ye r i ni be l i r tmek i ç i n vurgu

kas ı lmal ar ıd ı r.

Şeki l 2 .1. Konuşmanın s i ni r s i s temiy le o lan i l i şk i s i

(Hollien, 1990.s.:44)

Ses Kaynağ ı (G ı r t l ak Sis temi ) : Konuşma i ç i n i ç i n

ge rek l i o l an ener j i akc iğer l e rden sağ l and ık tan sonra ,

ses ağ ı l ı ndan geçen hava ses te l l e r i ni ha reket geç i r i .

Konuşma başl ad ığ ında ses te l le r i kapanı r, c iğe rdek i

hava basınc ı a r ta r ve ses te l l e r i açı l ı r, bu aç ı lma

kapanma ses te l l er i n i n t i t r eşmesi ne neden o l ur. Normal

konuşmada ses te l l e r i ni n aç ı l ı p -kapanma s ık l ığ ı

sani yede 60 dönü (ok tav ) i l e 360 dönü (2 ok tav )

aras ı ndad ır ( Hollien, 1990, s.:46-48).

Sinir Sistemi (Nervous System)

Kontrol Sistemi

Ses Jenaratörü

(Ses Kaynağı)

Güç Kaynağı

(Enerji)

Ses Değiştiricisi (Articulation)

Konuşma

Solunum Sistemi (Respiratory System)

Gırtlak Sistemi (Laryngeal System)

Ses Yolu (Vocal Tract)

Page 29: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

22

Ses Yo l u ( Vocal Tract ) : Ses yo l u üç bö l ümden o l uşur.

B i r i nc i s i g ı r t l ağ ın ( l a rynx ) hemen üs tünde boğaz

(pharynx ) . İ k i nc i s i geni z boş l uğu ( nasal cav i t y ) ve

üçünc üsü i se ağ ız (d i l , dudak ve d i ş l er ) . Bu üç böl ümün

bi r b i r i y l e o lan i r t i ba t ı d i k b i r t üpe benzer (Şeki l 2 .2 ) .

Şeki l 2 .2 . Ses yo l unun şemat ik gös te r imi (Ross i ng , 1990) .

Doğal ses l i ha r f l e r i n o l uşumunda ses yo l unun bas i t

model i , ses te l l e r i nden baş layıp dudakla ra uzana n

uzunl uğu L i l e göste r i l en (Şeki l 2 .3 ) b i r t üp tür. Fo=c /aL

( c :havada ses i n hız ı ) o lmak üzere tüp Fo, 3F1, 5Fo

Page 30: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

23

. . . . . . sonsuz f rekans rezonans l a r ına sahi p t i r. Normal b i r

ses yo l u L=17cm, c=340 m/s değer i nde rezonans

f rekansl ar ı 500 Hz, 100 Hz, 1500 Hz. . . . . bu l unur ( Owens,

1993, s.:5,6). Rezo na ns f rekans ı fo rmant f rekans ı o l a rak

ku l l anı l ı r.

Şeki l 2 .3. Ses yo l u tüp model i ( Owens, 1993, s.:5)

Ses yo l unun konuşmanı n he r anında fa rk l ı şek i l

a l mas ından dol ay ı fa rk l ı f o rmant f rekansl ar ı

üre t i l ecek t i r bu nedenl e de fa rk l ı ses le r o l uşacak t ı r. Bu

ses l er i n o l uşumu Owens (1990) 'na gö re kaynak f i l t r e

model i nde s i nyal ses kaynağ ından pe r i yodik i şa ret l er

(pu l s) veya rasgel e gürü l tü l er ha l i nde ç ıka r, ses

yo l unun rezo nans değer l e r i ne benzer değer le r i l e

zaman değ i ş iml i f i l t r e le r le f i l t re len i r. F i l t reni n f rekans

karakte r i s t i ğ i ta ra f ından kaynak spek t rumun çoğalmas ı

i l e konuşma s i nyal i ni n f rekans spek t rumu e l de edi l i r. Bu

durum ö tüml ü ve ö tümsüz ses l er i ç i n şek i l 3 .4 kaynak

f i l t re model i nde gös te r i lmi ş t i r. Av ve An ö tüml ü ve

ö tümsüz da l ga la r ın ş i dde t i ni tanıml a r.

Page 31: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

24

Şeki l 2 .4. Kaynak f i l t r e model i ( Owens, 1993, s.:7)

Ses yo l u sonsuz rezona ns değer i ne ve formant

f rekans ına sahi p o l mas ına rağmen 100 Hz i l e 3 ,5 kHz

a ras ı f rekans a l anını i çeren i l k 3 veya 4 formant

ye te r l i d i r. Çünkü ko nuşma s i nyal l e r i ndeki yüksek

fo rmant l ar ın genl i k le r i , ö tümsüz ses l er i n kaynağ ı

ta ra f ından yak l aşık 12 dB/ok tav kadar azal ı r. Ö tümsüz

kaynakl a rda spekt rum düz ve geni ş t i r. Şek i l dek i kaynak

f i l t re model i konuşma o l uşum i ş l emi ni o l dukça

bas i t l eş t i r i r. Sızmal ı sesl er ö tüml ü ve ne fes l i ses l e r le

aynı de recede vokal a lanın rezonans ı i l e f i l t r e

ed i l emezl er. Dol ay ıs ıy l a kaynak f i l t r e model i s ı zmal ı

ses l er i ç i n tam doğru deği l d i r.

Page 32: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

25

Ses yo l unun teo r i k model le r i nin i nce l emesi nden

sonra ge rçek te b i r ses i n o l uşumuna ka t k ı sağl ayan ses

o rganla r ın ın ne le r o l duğu (Şeki l 2 .5) ve gö rev l e r i nden

bahsedersek :

Geniz Boş luğu (1 ) : Yutak boş l uğu b i t i mi nden buru n

del i ğ i ne kadar uza nı r. Uzunluğu 10 cm kadard ı r

(Demi rcan, 1996 , s . :10 ) . Geni z ses le r i ni n ay r ı o l uşu,

geni z boş l uğundak i dalga deği ş imi nden meydana gel i r.

Dudak lar (2) : Ses yo l unun en d ış ucunda dudak l a r

bu l unur. Üs t -dudak ve a l t -dudak b i r l i k te ses ç ıka r t t ı ğ ı

g i b i (p ,b ,m g i b i ) , ya l n ızca a l t -dudak üs t -di ş le re ka rşı da

ku l l anı l ab i l i r ( f , v g i b i ) (Demi rcan, 1996 , s . :8 ) .

Dişler (3 ) : Ses l et i mde ya l nızca üs t -di ş l er ku l l anı l ı r.

Üs t -diş l er, d i l -ucu ve a l t -dudakla b i r l i k te f , v ses le r i ni

ç ıka rmak i ç i n kul l anı l ı r. Geni z (m,n) ses l e r i nden (v, f )

ses l er i ne geç i ş zo r o l duğundan, bu konumda m -n ay r ımı

o r tadan ka lkar. O bağl amda, b i r t ür m o l an a l tdudak -

üs td i ş geni z ünsüzü ç ıka r ı l ı r (Demi rcan, 1996 , s . :9 ) .

Damak(4,5,6) : damak , önden a rkaya doğru d i ş - se t i (4 ,

the a l veola r r i dge ) , ser t damak(5 , the ha rd pala te ) ,

yumuşak -damak(6 , the so ft pa la te or ve l l um) d i ye

böl ünür.

Diş -set i (4 ) , se r t -damak tan önce faka t d i ş le rden sonra

gel i r, d i l i n doğrusu ve ucu i l e b i r l i k te kul l anı lmak tadı r.

Page 33: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

26

Burada da ses yo l u ya kapanı r ( t , d ,n g i b i ) ya da

da ra l t ı l ı r (s , z g i b i ) .

Ser t damak(5 ) , ses le tmede d i l i n önüy l e b i r l i k te

ku l l anı l ı r. D i l -ucu, se r t -damakl a b i t i şe rek ses yo l unu

kapayabi l i r ya da s ızmaya neden o l acak kadar

da ra l ab i l i r ( ş , j g i b i ) / y / ses i ç ı ka r ı l ı r ken d i l -ucu i l e

damak a ras ındaki a ra l ı k , s ı zma o l mayacak kadar aç ı l ı r.

/ i , ü ,e ,ö / ün l ü l er i i ç i nse , bu a ra l ık de rece de rece daha

geni ş o l ur (Demi rcan, 1996 , s . :9 ) .

Yumuşak -damak (6 ) ( küçük d i l ) , i k i ay r ı gö rev yapar, ya

a l ça l arak geni z yo l unu açar (m,n g ib i ) , veya yukar ı

ka l karak geni z yo l unu kapa t ı r (a ,p ,s g i b i ) . Böy lece

ses l er ağ ız ses l e r i (a ,p,s g i b i ) , geni z ses l e r i (m,n g i b i )

d i ye i k i ye ayr ı l ı r. İ k i nc i gö rev i i se, d i l i n a rkas ıy l a

b i r l i k te ya ağız yo l unu kapa tmak (k ,g g ib i ) ya da

geni ş le tmek t i r (o ,a g ib i ) (Demi rcan, 1996 , s . :8 ) .

Di l (7 ) : En oynak en oynak ses o rganı o lan d i l ,

ses l e t i mde damak i l e b i r l i k te gö rev yapar. Ç ıka r ı l an

ses l ere gö re önden a rkaya doğru ş u bö l üml e re ay r ı l ı r ;

uç , o r ta , a r t . D i l üç tür l ü dev i n i r ;ağız yo l unu

kapar ( t ,d ,k ,g . . .g ib i ) , ağız yo l unu da ra l t ı r ( i , ü . . .g i b i ) , d i ş

se t i ne çarpar ( r g ib i ) (Demi rcan, 1996 , s . :8 ) .

Ağız boşluğu (8 ) : Ses yo l unun en öneml i bö l ümü

ağ ızd ı r. Ses deği ş iml er i d i l i n , yumuşak damağın durumu

ve çene açık l ığ ı değiş t i r i l e rek sağl anı r.

Page 34: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

27

Yutak Boş luğu (9) : Ses te l l er i y l e yemek borusu üs t

ucundan baş l ayıp ağız ve geni z boş l uğunu n

baş l ang ıc ına kadar süre r. Görev l i , d i l i n kökünü ge r i ye

çekerek g ı r t l ağ ın yukar ı doğru oyna ta ra k yutak yanl a r ın ı

kasarak deği ş t i r i r. (Demi rcan, 1996 , s . :10 )

Şeki l 2 .5. Gır t l ağ ın yandan kes i t i ( Hollien, 1990, s.:52) 1 , geni z boş l uğu -2 , dudakla r - 3 ,d i ş l e r -4,damak önü- 5,sert damak-6,yumuşak damak ya da küçük dil- 7,dil-8, ağız boşluğu- 9, yutak boşluğu- 10, gırtlak kapağı- 11, gırtlak- 12, yemek borusu-13, yutak ön duvarı- 14, boyun kemiği.

Page 35: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

28

Ses o rganl ar ın ın k ısaca görev l e r i ni anl a t t ı k tan

sonra bu o rganl ar ın b i r ses i ses le t i mi ndeki ses yo l unu n

a l d ığı şek i l i k ısaca i nceleyel im . " i " ve "a " ses l e r i ni n

ç ıka r t ı l mas ında ses yo l unun a l d ığ ı Şeki l 2 .6 'de göste r i l -

mi ş t i r.

Şeki l 2 .6. " i " ve "a " ses l er i n i n ç ıka r t ı lmasında ses yo l unun a l d ığ ı şek i l (F ry, 1979 .S. :77 ) .

Burada " i " ha r f i i ç i n d i l o r ta tara f ı damağa çok yak ı n ve

ses yo l u çok uzundur, buna ka rş ın d i l uzunl uğu çok

k ısadı r (F ry, 1979) . Spek t ra l göste r i mde b i r i nc i fo rmant

f rekans ı F1 120 Hz ' l i k ska lada 360 Hz, i k i nc i fo rmant

Page 36: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

29

f rekans ı F2 2280 Hz 'd i r. "a " ses l et i mi nde ses yo l u

tamamen fa rk l ıd ı r. D i l g ı r t l ak çeper i ne yatay o la rak

yakl aşmış ses yo l u k ısa l mış t ı r. Spek t ra l gös te r imde

b i r i nc i fo rmant f rekans ı F1 720 Hz, i k i nc i f o rmant

f rekans ı F2 1200 Hz 'd i r.

Formant f rekans ı , konuşma anında vokal a lanı n

fa rk l ı şek i l l e r a l mas ından dolay ı fa rk l ı rezonans l a r

o l uşur ve f a rk l ı ses l er o l uşur, he r b i r f ark l ı rezonansa

fo rmant f rekans ı deni r. Sürek l i konuşmada fark l ı

rezanans ta n do l ay ı konuşmanı n he r anı nda fa rk l ı

f o rmant f rekans ı üre t i l ecek t i r. Konuşmanı n o l uşumund a

fo rmant f rekansl a r ı he rkes ta ra f ından aynı Hz ' l e rde

sesl e t i l miş o l saydı h i ç k i mse b i r b i r i n i ses i nden

tanıyamayacak t ı . Bu nedenle he rkes i n kend i ne özgün

fo rmant f rekansl ar ı va rd ı r ve bu o k i ş i ni n ses

ka rakte r i s t i ğ i ni o l uş turur.

2 .2 . Konuşma Di l in in Öze l l ik ler i

Konuşma d i l i ni i nce l emeden önce, konuşma d i l i - yaz ı d i l i

ay r ımını i nce l emek te ya rar va rd ı r. İ nsanın ay r ıca l ık

be l ges i o l arak gö rebi l eceği mi z d i l , onun d ış dünyay la ve

d i ğe r b i rey l er l e i l i şk i l er i ni be l i r l eyen, yans ı tan; i nsan ve

top l umdan ay r ı düşünül emeyecek o lan b i l im , sana t ,

t ekn ik g i b i bütün a l anl a r la i l g i s i bul una n ve onl ar ı

o l uş turan b i r kurumdur. K i ş i ni n ruhsa l ve top l umsal

k i ş i l i ğ i ni n be l i rg i nl eşmesi nde ve düşünce ni n

o l uşmas ında öneml i i ş l ev i o l an d i l , başkal ar ın ı e tk i l eme,

Page 37: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

30

yönl endi rme , ak ta rmanın yanı s ı ra , be l l i amaçl a r la

ge rçek l i ğe i l i şk i n deneyi ml er i ak ta rmanın yanı s ı ra be l l i

amaçl ar l a ge rçek l i ğe şu ya da bu gö rüntüy ü ve rmek i ç i n

başvuru l an yöntemle r i n de baş ında gel i r (Ergenç , 1995,

s . :28) .

Her d i l konuşul duğunda top l um i ç i nde kendi ne

özgü b i r ek i n ve uygar l ı k çev res i nde b i ç i mleni r ken, d ış

dünyay ı top l umsal , ruhsa l ve f i z i kse l ge rçek l i ğ i özgün

b i r b i ç i mde yo ruml a r, kavramlaş t ı r ı r ve yap ı l aş t ı r ı r.

Bi l i nd i ğ i g ib i d i l i n i k i yönü va rd ı r ; konuşma d i l i ve

yazı d i l i . Gerçek te d i l o l gusu yazıdan bağ ıms ız,

ses l erden o l uşan b i r düz l eme bağl anı r. Bu a ç ıdan

konuşma d i l i b i r u l usun, b i r d i l b i r l i ğ i n i n d i l i ni n yazıy l a

i l i şk i l i o lmayan ve çeş i t l i söy l ey i ş öze l l i k l e r i ni taşıyan

yönüd ür. Bu nedenl e yazı çok sonra bul unduğ u i ç i n

temel o l ma ni te l i ğ i taşı r. Yazı d i l i i se , sözl ü b i l d i r i ş i m

a rac ı , d i l i gö rse l ve tek boyut l u b i r düzen i ç i nde sunan ,

uzak tan b i l d i r i ş i m sağl amak , b i ld i r i l e r i n y i t i p g i tmesi ni

ön l emek g i b i amaçla r la ku l l anı l an b i r düzgü, b i r

an l a t ım , k ısacas ı i k i nc i l b i r d i zgedi r. Saussure ’ ye gö re

“Di l ve yazı b i rb i r i nden ay r ı i k i gös te rgel er d i zges i d i r .

Yazı nın b i r i c i k va r l ı k nedeni , d i l i gös te rmek t i r. ”

İ k i nc i l d i zge, zamanla önem kazanarak kend i ne

özgü yeni b i r gerçek l i k düz l emi ya ra t ı r ken, genel l i k l e

d i l i durağanl aş t ı r ı r, ge leneğ i ko rur. Her tür l ü b i l d i r i ni n ,

bu a rada ek i nsel ve yazınsal değer l e r i n baş l ı ca ak ta r ım

a rac ı durumuna g i re rek kuruml aş ı r. Ta r i hsel koşul l ar ın

Page 38: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

31

e tk i s i y l e konuşma d i l i y l e yazı d i l i a rasında büyük b i r

kopuk l uk ta gö rül eb i l i r. Yazıy la söy ley i ş a ras ındaki

kopuk l uğun en ö neml i nedeni , d i l i n ev r i m geçi rmesi ne

ka rş ın, yazının deği şmede n o l duğu g i b i ka lmas ı sonucu

i k i d i zge a ras ındaki koşut l uğun o r tadan ka lkmas ıd ı r.

Yazı d i l i nden fa rk l ı o la rak konuş ma d i l i ni n kendi ne özgü

öze l l i k l er i vard ı r. Anl am ay ı r ı c ı güç te o l an bu özel l i k l e r,

yazı l ı me t i nl e rdek i ‘ sözcük ’ a ra l ar ın ı be l i r l emede

kul l an ı l an durak l a rdan, d i n l ey i c i ni n d i kka t i ni çekmek

i ç i n k imi söz öbekl er i ni öne ç ıka rmak üzere ne fes imi z i

yoğunl aş t ı rmamıza kadar uzana n geni ş b i r ye lpazede

ye r a lmak tad ı r.

Bi l i nç l i b i r anadi l i konuşuc usunun düşünce l e r i ni ,

duygul a r ın ı ka rş ıs ındaki ne sunarke n; onu e tk i l emek,

di kkat i n i çekmek amac ıy l a anadi l i ni n tüm o l anakla r ın ı

ku l l anmas ı bek l eni r. Bunun i ç i n de d i l i ni n i ş ley i ş

öze l l i k l er i n i b i lmek ve onl a r ı doğru b i ç i mde uygul amak

zo rundad ı r. Özel l i k l e i ş i ve amacı ge reği geni ş k i t l e l ere

sesl enenl er i n e l l er i ndeki en öneml i güç budur. Ancak ,

bu bek l ent i ni n he r zaman i s ten i l en düzeyde

ge rçek leşt i ğ i ni söy lemek zo rdur. Kul l anı l an met i n ne

denl i i y i o l ursa o l sun, sunuş kö tüyse amaçlanan e tk i

ya ra t ı l amaz. Bunun te rs i de söz konus udur. İ çe r i ğ i pek

dol gun o lmayan b i r bi ld i r i , e t k i l i b i r konuşmayl a

bek l enenden ö te sonuç l a ra u l aşabi l i r (Ergenç , 1990 , s :

157-164) . Hi çb i r yazı d i zges i , konuşma d i l i ndek i ton

yüksekl i ğ i ni ve vurgunun anl am taş ıyan değiş iml e r i ni

yans ı tamaz. Bi r konuşmanın eks i ks i z b i ç i mde

gerçek leşebi l me - s i i ç i n gereken koşul l a r şunl a rdı r ;

Page 39: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

32

konuşma o r tamı , konuşmay ı pay l aşan k i ş i l e r,

konuşmanı n amac ı , o ana kadar sunul an b i l g i l e re

d i n l eyeni n tepk i s i , konuşmada kul l anı l an a raç ,

konuşmanı n temel düşünse l des tek le r i ve i l e t i ş i mi n

b i ç i mi .

Bi r konuşmanın o l uşum unda ana koşul h i ç

kuşkusuz d i l se l i çe r i k t i r. B i r konuyu e tk i l ey i c i b i ç imde

ka rş ıdak i ne ak ta rma çabas ı , çok esk i l e re dayanı r ve

bunun öğre t i s i ne esk i çağl ardan be r i sözbi l im ( rhe tor i c )

denmi şt i r. İ .Ö .85 -84 y ı l l a r ında Çiçe ro, sözbi l imi n genel

o l a rak üç amacı o lduğunu söy l emi ş , bunl a r ı öğ retmek

(docere ) , i nand ı rmak(movere ) , ve hoşnut e tmek

(deba te re ) o l arak s ı ra lamış t ı r. Ç i çe ro ’nun sözb i l im

üzer i ndeki bul gu ve sap tamala r ın ı yazd ığ ı y ı l l a rda he r

çeş i t söy l ev ve söy lemi n genel o l a rak şu 5 ana

aşamadan o l uşmas ı ge rekt i ğ i öne sürü l üyo rdu (Ergenç ,

1995 , s . :14 ) :

Bul uş ( i nvent i o )

Düze n (d i spos i t i o)

Seçi m (e lecut i o )

Bel l eğe a lma (memor i a )

Sunuş (ac t i o , p ronunt i a t i o )

Bi r konuşmanın tam ve e tk i l i b i ç imde

gerçek leşt i r i lmesi i ç i n çeş i t l i koşul l ar ın b i r a rada

bul unmas ı ge rek i r. Bunl a r ın b i r bö l ümü doğrudan

konuşmac ıy l a i l g i l i d i r. Konuşmac ı , konuşmas ının

amac ını i y i be l i r l emel i , konusunun s ını r l a r ın ı i y i ç i zerek

Page 40: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

33

ona bağ l ı ka l mal ı ve konuş ma amac ı o lan d i l i n

o l anakl a r ın ı tanımal ıd ı r. Buna dayanarak b i r

konuşmanı n başar ıs ın ı e tk i l eyen koşul l ar şöy le

s ı ra lanabi l i r ; konuya bağl ı ka lma , konuşma o r tamı ,

konuş ul an k i ş i , i l e t i ş i m amac ı , İ l e t i ş im a rac ı , or tam

koşul l a r ı , konuşmanın düş ünse l des teği ne bağl ı ka lma

(Ergenç , 1995 , s . :14 -15 ) .

2 .3 . Türkçe ’n in Ses Özel l ik le r i

Bi r d i l i başka d i l l e rden ay ı ran en ö neml i öze l l i k l e rden

b i r i ses düzeni d i r. B i ç i msel s ın ı r l and ı rmal a rda

bağl ant ı l ı d i l l e r ( aggl ut i na t i ve l anguage ) g rubuna g i ren

Türkçe ’n i n ses aç ıs ından baş l ı ca öze l l i k l e r i ni şöy le

s ı ra layabi l i r i z ; Ünl üsü bol b i r d i l o l an Türkçe ’n i n e n t i p i k

öze l l i ğ i , benzeşme (assimi la t i on ) adı ver i l en ünl ü ve

ünsüz uyuml a r ıd ı r (vowel and consonant ha rmony ) .

Sözcüğün i l k ses l emi ndeki (öncül dek i ) ün l ünün ç ık ış

ye r i ve ç ık ış b i ç imi aç ıs ından taş ıd ığ ı özel l i k l er i sonrak i

(a rd ı l dak i ) ses l emde bul una n ünl ü ye u l aşt ı ra rak

kend i s i ne benze tmesi o l arak tanıml ayabi l eceğimi z ün l ü

uyum u kura l l a r ı , d i l imi ze g i ren yabanc ı sözcük l e r i n

söy l ey i ş le r i ni de e tk i l eye rek en az çabayl a

ses l et i mle r i ni sağl amak tadı r (Ergenç , 1995 , s . : 16) .

o - tu- ruş - l a - r ı -nı

i -ç i - l e -me-d i -ğ i n -den

ku- ru- tu l -mak- ta -dı r

baş - l a-d ı -ğ ı -mız -da

Page 41: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

34

sû re t>sura t

d îvâ r> duvar

hâs te> has ta

Türkçe de ünsüz benzeşmes i , kök ya da

gövdele r i n son ses i ndeki ünsüzün kend i s i nden sonra

gel en ek i n baş ındaki ünsüzl e ö tüm ( sonor i ty ) aç ıs ından

benzeşmes id i r.

ağaç+ ta oku l+dan

ev+de s i r k+ ten

dal +g ın e r+dem

seç+ki n yön+ tem

Türkçe ’n i n ses açıs ından b i r başka özel l i ğ i i se

sözcüğün ö n ses i nde b i rden çok üns üzün b i r a rada

bul unmas ıd ı r. Aynı ses lem i ç i nde ön ya da sonses te

b i rden fazl a ünsüzün bul unmas ı b i ç i mi nde

tanım layabi l eceği mi z ünsüz y ığ ı lmas ı , bul unduğ u d i l i n

ses l em düzeneğ i y l e s ık ı s ı k ıya bağlant ı l ı d ı r. Türkçe

ses l em yap ıs ının kura l l a r ı ge reği önses te ün l ü

y ığ ı lmas ına i zi n vermez. Bağlant ı l ı b i r d i l o lmas ı

nedeni y l e , ancak sonsesi nde ünsüz y ığ ı l mas ı o lan b i r

bi ç i mbi r ime ek lenmesi y le i çses te o l uşan ünsü z

y ığ ı lmas ı dedi ğ imi z o l ay la karş ı l aşabi l i r i z (Ergenç ,

1995 , s . :17 ) .

aba r t -mak ç ıka r t -mak ko rk -mak

s i l k -mek do l dur t -mak dür t -mek

Page 42: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

35

Sonses te ünsüz y ığ ı l mas ını i çe ren sözc ük l e r i n b i r

k ı smı Türkçe’n i n ses l em sonunda kabul ed i l en ünsü z

y ığ ı lmal ar ına ö rnek ve r i l ecek o l ursak :

k ıskanç i nanç i ğ renç bas ınç

e r i nç sev i nç t unç gül ünç

çel enk kepenk hınk

e rk öze rk kürk

sa rp t urp

ant kent t ont

ast üst

h i şt hoşt

Önses te ünsüz y ığ ı lmas ının bul unduğu yabanc ı

kökenl i sözcük l e r i n ses le t i mi nde zo r l uk l a karş ı l aş ı l d ığ ı

i ç i n söy ley i ş ko l ay l ığ ı sağl amak amacıy l a ya sözcüğün

baş ına ya da ünsüzl e r i n a rasına b i r ün l ü koyarak

ses l emle re ay ı rma yo l una g i d i l i r. Yı l l a r önce d i l imi ze

g i rmiş , önsesi nde ünsü z y ığı l masının ye r a l d ığ ı

sözcük l e r, bu yöntemle yeni b i r b i ç i me sokul muş ve bu

yeni b i ç im yazıma da yans ı t ı lm ış t ı r.

s ta t i on> is tasyon scuta r i >Üsküdar

sca l a> iskel e s tav roz> is tavroz

Bugün d i l imi zde kul l and ığ ımız ön ve i çses i nde

ünsüz y ığ ı l mas ı o lan s özcük l er i ses le t i r ken gene l l i k l e

ünsüzl e r i n a ras ına b i r ün l ü koymak tayız . Bu durum a

i çses türe tmesi (epenthes i s ) o l a rak ta ad land ı r ı l ı r.

Page 43: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

36

t ren~ t i ren, f ren~ f i ren, p l an~pi l an,

gr i p~g ır i p , p l a j~p i l a j , k ra l~k ı ra l ,

sant ra l ~sant ı ra l , e l ek t r i k~elek t i r i k ,

Sonsesi nde ünsüz y ığ ı l mas ı o l an yabanc ı kökenl i

sözcük l e rde de aynı durum yaşanmak tad ı r (Ergenç ,

1995 , s . :18 ) .

2 .3 .1. Türkçe ’de Ses ler

Konuşma o rganl a r ımızın (akc iğer, ağ ız , burun, boğaz

boş l uğuy l a so l uk ) uyum i ç i nde ve düzenl i ça l ı şmas ıy l a

an l aml ı sözc ük l er ve tümcele r o l uş turmak i ç i n

ağzımızdan ç ıka rd ığ ımız b i r i mle re düzenl i ses le r deni r

ve ünl ü le r ( vowel ) ve ünsüzl e r (consonant ) o lmak üzere

i k i ye ay r ı l ı r ( Ergenç , 1995 , s . :18 ) .

Ünl ü l er özgür ve gürü l tüsüz ses l e rd i r. B i r d iğe r

tanımıy l a akc i ğerden gel en so l uğun h i çb i r sür tünme ve

enge l l emeye uğramadan d i l i n üs tünden geçerken

ç ıka rd ığ ı ses le rd i r. Bu ses l e r ç ı ka r t ı l ı r ken konuşma

o rganla r ın ın he rhang i b i r yer inde kapanma ya da

da ra l ma o l madığ ı i ç i n gürü l tüsüzd ür l e r. Ünl ül e r i n

ç ı ka r ı l ı ş ında en öneml i gö rev i üs t l enen o rganl a r d i l ,

çene ve dudakl a rd ı r. Bu nedenl e ün l ü l er i n tanımsal

ay r ımlanmas ı bu o rganl a r ın durum una göre yap ı l ı r.

Türkçe ’n i n ün l ü l er i n i bu s ını f l and ı rmaya gö re şöy le

tanım layabi l i r i z :

Page 44: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

37

Çene aç ıs ın ın du rumuna göre:

Geni ş ün l ül e r (wide vowel ) a ,e ,o ,ö

Dar ünl ü l er (na r row vowel ) ı , i , u ,ü

Dudak la r ın b iç im ine gö re :

Düz ünl ü l er (unrounded vowel ) ı , i , a ,e

Yuvar lak ün l ü le r ( rounded vowel ) o ,ö ,u,ü

Di l in dev in imine gö re :

Arkadi l ün l ü le r i (back vowel ) ı ,a ,o ,u

Önd i l ün l ü l e r i ( f ront vowel ) i , e ,ö ,ü

Önd i l ün l ü l e r ide kend i a ra l a r ında i k i ye ay r ı l ı r :

Yuvar lak öndi l ün l ü l er i ö ,ü

Düz ö nd i l ün l ü l e r i e , i

Arkadi l ün l ü le r i a ras ında ye r a l an / ı / ün l üsü ç ık ış ye r i

aç ıs ından o r tad i l (mid i um vowel ) ün l üsü o l a rak da

gö rü l eb i l mek tedi r.

Her d i l i n ses l er i n i n özel l i ğ i b i rb i r i n den fa rk l ı

o l duğunda n daha sağ l ık l ı b i r be t iml eme yapabi lmek i ç i n

ün l ü dö r tgeni ( vowel quadr i l a tera l ) (Şeki l 2 .7) deni l en ve

ünl ü l er i n ç ı ka r ı l ı ş ında d i l i n ağ ız boş l uğundak i durumun u

gös te ren b i r düz l emden ya ra r l anı lmak tadı r.

Page 45: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

38

i

y u

ı

Y

e U

Ø

ε o

ǽ

œ Ï

a

Şeki l 2 .7. Ünl ü dö r tgeni (Ergenç , 1995 , s . :19 )

Konuşma ses l er i ni n i k i nc i büyük kümes i o l uş turan

ünsüzl e r, engel l i ses l erd i r. Ç ıka r ı l ı ş la r ı s ı rasında

konuşma o rganl a r ın ın he rha ng i b i r ye r i nde a l ı konul ur l a r

ve bunun sonuc u o l a rak b i r sür tünme ya da pa t lama

b i ç i mi nde o l uşur l ar. Ünsüzl er ç ı k ı ş b i ç i mle r i ne ,

ye r l er i ne ve ses te l l er i n i n durumuna göre s ını f l and ı r ı l ı r

(Ergenç , 1995 , s . :18 ) .

Çık ış b iç imle r ine gö re ;

Pat l amal ı üns üzl e r (p los i ve)b,d ,g,p , t ,k

Geni z üns üzl e r i (nasal ) m,n

Çarpmal ı ünsüzl e r ( ro l l ed) r

Yan dara l ma ünsüzl e r i ( l a te ra l ) l

Sür tünüc ü üns üzl e r ( f r i kat i ve) c , ç , f , h , j , s ,ş , v, y, z

Çık ış ye r le r ine gö re ;

Page 46: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

39

Çi f t dudak üns üzl e r i (b i l ab i a l ) b ,p,m

Dudak -di ş ünsüzl e r i ( l ab iodenta l ) f , v

D i l ucu d i şa rdı ünsüzl e r i (denta l ) d , t

D i l ucu-d işe t i ünsüzl e r i (pa l ato -a lveol a r ) n , r, s , z

Di l -öndamak ünsüzl e r i (a l veo -pala ta l ) c , ç , j , ş , y

D i l ucu-öndamak ünsüzl e r i (ap i ca l /pa l a ta l ) l

D i l -ar tdamak ünsüzl e r i ( ve la r ) k ,g

Gır t l ak ünsüzl e r i (g lo t taş ) h

Ses te l l er in in t i t r eş im ine gö re ;

Ötüml ü ünsüzl e r (vo i ced) b ,c ,d,g , j , l ,m ,n, r,v, y, z

Ötümsüz ünsüzl e r (vo i ce less) ç , f ,h , k ,p ,s ,ş , t

Öl çünl ü ( s tandar t ) Türkçe ’dek i ün l ü ve üns üzl e r i n

b i r bö l ümünün konuşma o rganl a r ındak i o l uşum yer l er i ne

gö re değişkele r i ( var iant ) bu l unmak ta d ır. Anl am ayı r t

ed i c i güç te o l mayan bu değişkele r i n d i l dek i

dağ ı l ıml ar ın ın be l l i o lmasına ka rş ın k imi zaman

b i rb i r l e r i ni n yer i ne kul l anı l ab i lmek tedi r. Anlam fa rk ı

ya ra tmayan bu durum, ö l çünl ü söy l ey i ş i n d ış ında b i r

gö rünüm serg i l emektedi r (Ergenç, 1995, s . : 20) .

Türkçe ’n i n ses lem yap ıs ı ge reği , aynı ses l em

i ç i ndeki i k i ün l ünün b i r arada bulunmas ı yabanc ı kökenl i

sözcük l e r d ış ında söz konus u deği l d i r. Bu nedenl e yazı

d i l i nde ünl ü kaymas ı (di phthong ) yok tur. Ancak ,

konuşma d i l i nde k i mi ünsüzl e r i n söy l ey i ş s ı ras ında

ses l et i l memele r i nedeniy l e , “ tek sesmi ş g i b i ç ı kar ı l an ya

da baş l ang ıç ta duyul an ses i n b i t i ş i nde yer i ni b i r başka

sese b ı rakmas ı ” o la rak tanıml ayabi l eceği mi z ün l ü

Page 47: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

40

kaymala r ın Türkçe’n i n konuşma d i l i nde var o lduğu

sesyazar l ar l a yap ı lan ö l çüml e r sonu c u kanı t l anmışt ı r.

Öl çünl ü Türkçe de va r o l an ses ler i n gene l gö rünüm ünü n

d ış ındaki öze l l i k l e r i i ç i n bu konuda yazı l mış yap ı t l a ra

başvuru l ab i l i r (Ergenç , 1995 , s . :22 ) .

Page 48: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

41

3 . GERÇ VE YÖNTEM

Bu bö l ümde Türkçe ver i tabanı o l uş turu l mas ın da

uygul anacak en uygun ve r i tabanını n be l i r l enmesi i ç i n

b i r i nc i bö l ümde i ncel enen ve r i tabanla r ı i l e

POLYPHONE s tandar t l a r ı ka rş ı l aşt ı r ı lm ış ve ve r i

tabanının ö rnek l emi i ç i n gerek l i o l an söz l ü ve yazı l ı

ma te rya l l e r o l uş turu lmuş tur.

Ayr ıca, konuşma ve konuşmac ı tanıma i ç i n

o l uş turu l acak TÜRKÇE -POLYPHONE ses ver i tabanı

ö rnek lemi neden POLYPHONE standar t l a r ı seç i l d i ğ i ve

neden te l e fon ha t t ı üze r i nden a l ınmas ı ge rek t i ğ i

an l a t ı l m ış t ı r.

3 .1 . Okutulacak ve Spontan Olarak Söyle t i lecek

Ver in in Oluşturu lmas ı

Bi r i nc i bö l ümde anl a t ı l an çeş i t l i ül ke le re a i t ve r i

tabanl ar ı , POLYPHONE pro j es i nden önce top land ığ ı i ç i n

o l uş turu l an s tandar t l a r ın d ış ında ka l mışt ı r. Bu nedenl e

s tandar t kapsamında veya buna yak ın şek i l de top lanan

dö r t ve r i tabanı i l e i l g i l i ve r i l e r ka rş ı l aş t ı rmal ı o la rak

Çi ze lge 3 .1 . ’ de ver i lmi ş t i r. Bunla r Amer i kan İng i l i zces i

i ç i n yürütü l en MACROPHONE (Berns te i n e t a l . ,1995) ,

Japonca i ç i n yürütü l en “ Voice Ac ross Japan (VAJ)

(Stapl es e t a l . , (1994) , ABD’deki İ spanyol ca konuşul a n

k i ş i l e r i ç i n yürütü l en “Voi ce Across Hispani c ” (VAHA)

Page 49: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

42

(Muthusamy e t a l . , (1995) ve F lemenkçe i ç i n yürütü l en

“Dutch POLYPHONE” (Boves e t a l . , 1993) p ro je l er i d i r.

Or taya ç ıkan ve r i tabanl a r ı ay r ın t ı l ı o la rak i nce l enmi şt i r.

Ver i tabanı o l uş turu l ması i ç i n ses ö rneği a l ınacak

k i ş i l e re okutu l acak materya l i n seç i mi , kağı t tan okuna n

ve spontan söy le t i l en o l a rak i k iye ay r ı l mış t ı r. Her b i r

ve r i tabanında ye r a l an sözcele r i n top l am say ıs ı ve

okuna n ve spontan söy l et i l en sözcük l e r i n say ıs ı ç i ze lge

3 .1 ’de ve r i lmiş t i r.

Çize lge 3 .1 POLYPHONE s tandard ına gö re

o l uş turu l an ve r i tabanl a r ın ın top lam sözce say ıs ı .

Macrop-

hone VAJ VAH A

Dutch

Po lyphone

Okuna n

sözce 34 10 36 32

Spontan

sözce 11 4 9 18

Topl am

sözce 45 14 45 50

POLYPHONE s tandard ına gö re kağı t tan okunan ve

spontan o la rak söy l e t i l en mate rya l i n dükümü o r i j i na l i ne

uygun o l arak s ı ras ıy la ç i ze lge 3 .2 ve ç i ze l ge 3.3 ’de

ve r i lmi ş t i r.

Page 50: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

43

Spontan o l arak yanı t l anan so ru l a r ın b i r bö l ümü

konuşmac ı la ra gönder i l en met i n kağ ı t l a r ında yer

a l mak ta, do l ay ıs ıy l a konuşmac ı ne söy l eyeceği n i daha

önceden pl anlayabi lmek tedi r. So ru l ar ın d i ğe r bö l ümü

i se kay ı t i ş l emi s ı rasında doğrudan konuşmac ıya

so ru lmak tadı r.

Çi ze lge 3 .1 ’de fa rk ed i l d iğ i g ib i Japonca i ç i n yürütü l en

VAJ pro jes i POLYPHONE s tandard ını tam o l arak

ka rş ı l amamak tadı r. POLYPHONE s tandard ında

konuşmac ı baş ına en a 25 sözce a l ınmas ı öngörül ürken

VAJ ve r i tabanında 14 sözce yer a l mak tad ı r. VAJ ve r i

tabanı , bunun d ış ında bazı nok ta l a rda da POLYPHONE

s tandard ını tam o l a rak ka rş ı l amamak tad ı r. Bunu n

nedeni VAJ pro j es i ni n POLYPHONE s tandard ı

bel i r l enmede n önce baş l amış o lmas ıd ı r. Buna rağmen

söz konus u ve r i tabanı da POLYPHONE çerçevesi i ç i nde

değer lend i r i lmek tedi r.

Page 51: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

44

Çize lge 3 .2 POLYPHONE ver i tabanında kağ ı t tan

okuna n mate rya l i n dökümü.

Ma c rop-ho ne

VAJ VAH A Dut c h Po l yp ho ne

Ko nu şma c ı n ı n Ko du (sa y ı )

1 - 1 1

Sa y ı d i z i l e r i xxx -xxx - xxxx g i b i

2 6 1 -

Ba n ka veya ked i kar t ı no ’su

- - 2 1

Te le fo n no ’su - - 4 1

Ar d a r da a yr ık r aka m d i z i s i

- - 1 ta ne 6 r aka ml ık d i z i

1

Do ğa l say ı l a r ( b i r i ms i z /b i r i ml i )

1 /6 ( to p la m7 ) ( 4 ta ne s i $ )

- 0 /2 ( t op l a m2 ) ( 1 tan es i $ )

¾ ( to p la m7 ) ( 3 ta ne s i DFL )

Ke s i r ( 1 / 4 , 7 / 10 g i b i )

1 - - -

Al f an ü me r i k d i z i - - 1

( 8 ka ra k t e r ) -

Tar i h 1 - 1 1

Sa a t 1 - - 1

Ye r ( şe h i r ) a d ı 2 - - 2

Uygu l a ma sö zcüğ ü ( çe k ,b i l e t , vb . )

6 - 1 2 4

Ha r f ,h ar f sö y le nen sö zcü k

2 - 1 3

Şu i ş te ça l ışan ş u k i ş i t i p i n de sö zcü k

3 - - -

Şu adr es te k i şu k i ş i t i p i n de sö zcü k

3 - - -

İ ç i n de u ygu la ma sö zcüğ ü o l a n t ü mce

- - - 4

F on et i k aç ıd an ze ng in t ü mce

7 4 8 5

T O P L AM S Ö Z CE S AY I S I

3 4 1 0 3 6 3 2

Page 52: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

45

Çize lge 3 .3 POLYPHONE ver i tabanl ar ında spontan o l arak söy le t i l e n Mata rya l i n dökümü.

Ma c rop

ho ne VAJ VAH A

Dut c h

Po l yp ho ne

Eve t / Ha y ı r t ü rü nd e ya n ı t ı o l an sor u l a r

5 2 4 5

Bi r ( yaşad ığ ın ız ) şe h i r ad ı sö y le y i n

1 - - 1

Bu gün ün ta r i h i ne d i r? 1 - - -

Şu an saa t ka ç 1 - 1 1

Do ğu m ta r i h i n i z ne d i r? 1 - - 1

Ka p ı nu ma r an ız n ed i r ? 1 - - 1

Bi l d i ğ i n i z t e l e f on n u ma ra l a r ı - 2 1 1

Bi r i s i m sö y ley i n i z . - - 1 1

So kağ ın ız ın a d ı n ed i r ? - - - 1

Po s ta ko du nu z ne d i r? - - - 1

Ha ng i şeh i r de b üyüd ün üz? - - - 1

C in s i ye t i n i z ne d i r? - - - 1

Ya ş ın ı z ka ç? - - - 1

Eği t i m sev i ye n i z n ed i r ? ( 1 , 2 , 3 ) - - - 1

Ad ı n ı z ı h ar f har f söy l ey i n i z - - - 1

Evd e ko nu şu l an d i l ne d i r? - - 1 -

Ha ng i s ık l ı k ta se yaha t e de rs i n i z?

- - 1 -

Bu ka y ı t ha kk ı nd ak i yor u mu n uz n ed i r ?

1 - - 1

TOP L AM S ÖZ CE S AYIS I 11 4 9 1 8

Page 53: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

46

Ol uş turu l an Türkçe Ver i Tabanı Örnekl emi ni n

POLYPHONE s tandard ını ka rş ı l ama durumu aşağ ıda

aç ık lanmış t ı r.

Kay ı t l a r Türk i ye de kul l anı l an mevcut ha t l a r l a

yap ı l mış t ı r. İs tanbul ve Bursa 'dan a l ınan kay ı t l a r

ISDN ha t üze r i nden, Van'dan a l ınan kay ı t l ar ın ana l og

ha t üze r i nden ano log kay ı t c i haz la r ı y la y ap ı l mış t ı r.

Ver i l e r X.WAV fo rmat ında kaydedi lmiş t i r. Ve r i

tabanını ku l l anacak k i ş i l er i n bu s ık ış t ı rma ve r i l e r i

doğrusal ha l e çev i rmele r i i ç i n tab lo l a r ve r i lmel id i r.

Ver i tabanında 55 konuşmac ıdan 5390 ses ö rneği ye r

a l mışt ı r. Test grubu ay r ı l mamış t ı r.

He r bi r konuşmac ıdan 49 sözce a l ınmış t ı r.

Sözce le r a ras ında spontan konuşma böl ümü mevcut

o l up , konuşmac ı l ardan kayı t l a i l g i l i yo rum al ınmamış -

t ı r.

Her b i r sözce , başında ve sonunda konuşma

i çe rmeyen b i re r bö l üml e b i r l i k te ay r ı b i r kütük te

sak l anmışt ı r.

Sözce le r aras ında tümcel e r, no rmal ha r f ha r f

söy l enen sözcük le r, çeş i t l i b i ç imle rdek i rakam di zi l e r i

ve sayı l ar ve i ç i nde say ı geçen sözce l er ye r a lmışt ı r.

Page 54: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

47

Her b i r sözceni n or togra f i g çev i r i yazımı ve r i lmi ş t i r.

Sözce le r ve konuşmac ı l a r ın öze l l i k l er i ses ve r i l er i y le

bi r l i k te ve r i tabanına dahi l ed i lmiş t i r.

Dünyada mi k ro fon/ te le fon ha t t ı üze r i nden

kaydedi l en ve r i tabanl ar ın ın bazı l a r ı b i r i nc i bö l ümde

aç ık lanmış t ı r. Bu ve r i tabanl a r ın ın o l uş turu l masında

ku l l anı l an yöntemle r amac ına gö re b i rb i r l er i ne yakın

ol mas ı na rağmen bunl a r ın a rasından POLYPHONE ver i

tabanı seç i lmiş t i r. Türkçe i ç i n o luş tur u l acak ve r i tabanı

ö rnek lemi ni n mümkün o lduğu kadar POLYPHONE

s tandar t l ar ın ı ka rş ı l amas ı amaçlanmış t ı r. POLYPHONE

s tandard ında b i r ve r i tabanı ö rnek l emi seç imi n

ge rekçesi daha öncede aç ık land ığ ı g i b i konuşma ve

konuşmac ı tanıma, konuşmac ıdan bağ ıms ız o la rak hem

ay r ı k sözcük , hem bağlant ı l ı sözcük , hem de devaml ı

konuşma tanıma a l anl a r ında o l uş turu l acak

a l go r i tmala r ın denenmesi nde ku l l anı l ab i lmesi

amaçl anmışt ı r. Yani , ay r ık sözcük l e r koyarak ay r ı k

sözcük tanıma s i s temle r i ni n eğ i t i mi sağl anabi l i r, a rd

a rda söy lenen say ı d i z i l e r i koyarak bağlant ı l ı sözcük

tanıma s i s teml er i n i n eğ i t i mi sağlanab i l i r, f one t i k aç ıdan

zeng i n tümce le r koyarak devaml ı konuşma tanıma

s i s teml e r i ni n eğ i t i l mesi sağl anabi l i r, ha r f ha r f söy l enen

sözcük l e r le ünsüz - ünl ü (CV) ç i f t l er i ni n ana l i zi

yap ı l ab i l eceği g ib i spontan sözce l er de i çe rmesi

sağl anarak okuma ve doğal konuşma a ras ındaki fa rk la r

i r de leneb i l i r.

Page 55: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

48

Yukar ıda say ı lan s i s teml er d ış ında , konuşmac ıya

okutu l acak uygun met i nl e r le veya so rul acak uygun

soru l ara ve r i l en yanı t l a r l a sözcük yakal ama ( word-

spo t t i ng ) s i s temle r i ni n eğ i t i lmesi mümkün o l ab i l ecek t i r.

POLYPHONE s tandar t l a r ında b i r ve r i tabanı

ö rnek lemi nde konuşmac ı say ıs ı , yaş grubu ve eği t im

düzey i aç ıs ından ye te r i nce büyük b i r ö rnek leme

yap ı l ab i l eceği nden çeş i t l i l ehçe ve ağ ız fa rk l a r ın ın,

ay r ı ca yaş ve c i ns i ye te bağl ı o l arak b i r çok

pa rametreni n ve r i tabanı ö rnek lemi nde ye r a l mas ını

sağl amak mümkündür.

Adl i vakal a rda , ( k i ş i ye hakaret , söz l ü c i nsel tac i z ,

rüşve t ve yanl ı ş i hbar g ib i ) suç lu l a r ın son dönemle rde

en faz l a ku l l and ık l ar ı yöntem te l e fon ku l l anmak t ı r.

Dol ay ıs ıy la te l e fon üzer i nden konuşma ve konuşmac ı

tanıma ana l i zl er i , suç l unun o r taya ç ıkar ı l mas ında

faz l as ıy la önem kazanmış t ı r. Faka t bu tü r anal i zl er ve

suç l unun yaka lanmas ı akus t i k i zo l asyon oda da ya da

laboratua r koşul l a r ında a l ınan ses l e r üze r i nde konuşma

ve konuşmac ı tanıma i ş l emi ne gö re çok daha zo r ve

p robl eml i d i r. Çünkü, te l e fon ha t l a r ından kaynakl anan

gürü l tü ve bozul ma g ib i e tmenl e r, f a rk l ı mik ro fon ve ha t

ka rakte r i s t i k le r i ni n ses üzer i ne kaç ını l maz o l arak

yans ıyacakt ı r. Ş i mdi ye kadar bu tür ana l i z l er i ç i n

ge l i ş t i r i l en a l go r i tmal ar ın , o l uş turu l an bu ve r i tabanı

ö rnek lemi i l e eğ i t i l en s i s temle r i n , bu t i p çevre e tk i l e r i ne

ka rş ı ye te r i nce d i renç l i o l acak l ar ı düşünül müş tür.

Page 56: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

49

3 .2 . Türkçe -POLYPHONE Veri Tabanı Örnek lemin in

Oluşturu lması

POLYPHONE ver i tabanı 5000 k i ş iden o l uşumun u

önermek tedi r, yapı l an ça l ı şma b i r ö rnek lem o l mas ı

nedeni y l e 55 denek kul l anı l m ışt ı r. Yi ne POLYPHONE

s tandard ında bel i r t i l d iğ i g i b i bunl a r ın yaş, c i ns i ye t ve

l ehçe o l a rak düzgün dağ ı l ımına d i kka t ed i lmi ş t i r.

Denek le r i n yaş o r ta l amas ı 29 ’dur.

Denek le rden a l ınan ses ö rnek le r i ne a i t kayı t

b i l g i l e r i ( t e le fon c i ns i g ib i ) Çi ze lge 4 .1 . ’ de ver i l miş t i r.

Burada te l e fon, s ant ra l ve ha t c i ns le r i ses kayd ının

ka rakte r i s t i k özel l i k l e r i ni n değişmesi nde en öneml i

f ak tör o l duğu i ç i n tüm ay r ın t ı l ar ve r i lmi ş t i r. Toplam 29

say ısa l , 22 Ana log ve 4 sayısa l sant ra l a bağl ı i ç ha t

te l e fon gö rüşmesi yapı l mış t ı r. Ç i ze lgedeki Ankara ’dan

a l ı nan ses kay ı t l ar ı , doğrudan e r i ş i l en te l e fon la rd ı r

( te lefonsayısal şeh i r santra l ı te le fon ) ,Şek i l 4 .1 ’de

gös te r i lmiş t i r.

Te l e fon Kabl o l u Say ısa l Kabl o l u Te l e fon Ha t Sant ra l Ha t

Şeki l 3 .1 . Şehi r i ç i kay ı t s ı ras ında ku l l anı l an ha t l a r ın durum unu gös te ren d i yagram.

Page 57: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

50

İ s tanbul , Van ve Bursa ’dan a l ınan kay ı t l a r say ısa l

sant ra l a racı l ı ğ ı y l a a l ınmış t ı r ( te le fonbina iç i sayısa l

sant ralsayısa l şehi r santral ıbina iç i sayısa l

sant ral te le fon ) . Sant ra l a rac ı l ı ğ ıy l a ul aş ı l an

te l e fon l ar ın ha t öze l l i ğ i ş ek i l 5 .2 ’de göste r i lmiş t i r.

Ka b lo l u Ha t Sa y ısa l Uydu Sa y ısa l / Ana lo g Te le fo n Sa n t ra l Ye r Sa n t ra l İ s tasyo nu

Ka b lo l u Ha t

Te le fo n

Şeki l 3 .2 . Şehi r l e ra ras ı kay ı t s ı ras ında kul l anı l an ha t l ar ın durumunu gös te ren d i yagram.

Şeki l de gös ter i l en kabl o TD -PoP-0 ,5x2x200 ye r a l t ı

kabl osudur. Üzer i nden aynı anda 200 görüşme

yap ı l ab i lmek tedi r.

Kay ı t l a r b i rer ha f ta a ray l a a l ınmaya ça l ı ş ı lm ışt ı r.

Bazı kay ı t l a r ın a l ım ı b i r ha f tadan daha sonrak i b i r

zamanda yap ı lm ışt ı r. Bunun nedeni i se denekl ere

zamanında u l aş ı l amamas ıd ı r. B i r i nc i kayd ı yap ı l an 5

Page 58: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

51

deneğ i n i k i nc i ses kayd ında denekl e re

u l aş ı l amadığ ından kaydedi l memiş t i r. Her ne kadar bu

ge rçek leşemediyse de b i r i nc i kay ı t l ar ın ın ku l l anı l ab i l i r

o l mas ından dolay ı ö rnek l eme ek lenmi ş t i r.

Çize lge 3 .4 Ver i örnek l e r i ni n top l and ığ ı ye r ve kay ı t şek i l l er i ni gös te r i r i ç i ze l ge.

K o d

No .

Al ı n d ı ğ ı

Ye r

1 nc i Ka y ı t

Tar ih i

2 nc i Ka y ı t

Tar ih i

Te le f on

C ih a z ı n ı n

C in s i

B a ğ la n t ı

K u r u la n

Sa n tr a l

C in s i

0 1 An ka ra 14 .06 . 1999 21 .06 . 1999 N ETA Ş Sa y ısa l

0 2 An ka ra 13 .06 . 1999 22 .06 . 1999 P A N A P H O N E Sa y ısa l

0 3 An ka ra 13 .06 . 1999 23 .06 . 1999 O meg a 820 Sa y ısa l

0 4 An ka ra 13 .06 . 1999 25 .06 . 1999 N ETA Ş Sa y ısa l

0 5 An ka ra 13 .06 . 1999 25 .06 . 1999 N ETA Ş Sa y ısa l

0 6 An ka ra 13 .06 . 1999 20 .06 . 1999 S ON Y Sa y ısa l

0 7 An ka ra 13 .06 . 199 9 20 .06 . 1999 S ON Y Sa y ısa l

0 8 An ka ra 13 .06 . 1999 20 .06 . 1999 EL İT Sa y ısa l

0 9 An ka ra 14 .06 . 1999 21 .06 . 1999 T ELE TAŞ -

H i t i t

Sa y ısa l+

D ah i l i Abone

0 1 0 An ka ra 14 .06 . 1999 21 .06 . 1999 T ELE TAŞ -

H i t i t

Sa y ısa l+

D ah i l i Abone

011 An ka ra 14 .06 . 1999 22 .06 . 1999 S HE RO N Sa y ı sa l

0 1 2 An ka ra 14 .06 . 1999 21 .06 . 1999 S HE RO N Sa y ısa l+

D ah i l i Abone

Page 59: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

52

Çize lge 3.4 (Devamı ) Ver i örnek l er i n i n top land ığ ı ye r ve kayı t şek i l l e r i ni göste r i r i ç i ze lge .

K o d

No .

Al ı n d ı ğ ı

Ye r

1 nc i Ka y ı t

Tar ih i

2 nc i Ka y ı t

Tar ih i

Te le f on

C ih a z ı n ı n

C in s i

B a ğ la n t ı

K u r u la n

Sa n tr a l

C in s i

0 1 3 An ka ra 14 .06 . 1999 21 .06 . 1999 Q GPASSE T Sa y ısa l

0 1 4 An ka ra 14 .06 . 1 9 9 9 22 .06 . 1999 T ELE TAŞ Sa y ısa l

0 1 5 Bu r sa 15 .06 . 1999 22 .06 . 1999 E R ICS SO N

T D -1 Sa y ısa l

0 1 6 Bu r sa 15 .06 . 1999 22 .06 . 1999 E R ICS SO N

T D -1 Sa y ısa l

0 1 7 Bu r sa 15 .06 . 1999 30 .06 . 1999 E R ICS SO N

T D -1 Sa y ısa l

0 1 8 Bu r sa 15 .06 . 1999 A l ına mad ı E R ICS SO N

T D -1 Sa y ısa l

0 1 9 Bu r sa 15 .06 . 1999 A l ına mad ı E R ICS SO N

T D -1 Sa y ısa l

0 2 0 Bu r sa 15 .06 . 1999 22 .06 . 1999 E R ICS SO N

T D -1 Sa y ısa l

0 2 1 Van 15 .06 . 1999 22 .06 . 1999 T ELE TAŞ -

H i t i t -48 0 An a l og

0 2 2 Van 15 .06 . 1999 22 .06 . 1999 T ELE TAŞ -

H i t i t -48 0 An a l og

0 2 3 Van 15 .06 . 1999 22 .06 . 1999 T EL E TAŞ -

H i t i t -48 0 An a l og

0 2 4 Van 15 .06 . 1999 22 .06 . 1999 T ELE TAŞ -

H i t i t -48 0 An a l og

0 2 5 Van 15 .06 . 1999 22 .06 . 1999

T ELE TAŞ -

H i t i t -48 0

An a l og

Page 60: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

53

Çize lge 3.4 (Devamı ) Ver i örnek l er i n i n top land ığ ı ye r ve kayı t şek i l l e r i ni göste r i r i ç i ze lge .

K o d

No .

Al ı n d ı ğ ı

Ye r

1 nc i Ka y ı t

Tar ih i

2 nc i Ka y ı t

Tar ih i

Te le f on

C ih a z ı n ı n

C in s i

B a ğ la n t ı

K u r u la n

Sa n tr a l

C in s i

0 2 6 Van 15 .06 . 1999 22 .06 . 1999 T ELE TAŞ -

H i t i t -48 0 An a l og

0 2 7

Van

15 .06 . 1999

22 .06 . 1999

T ELE TAŞ -

H i t i t -48 0

An a l og

0 2 8 Van 15 .06 . 1999 22 .06 . 1999 T ELE TAŞ -

H i t i t -48 0 An a l og

0 2 9 Van 15 .06 . 1999 22 .06 . 1999 T ELE TAŞ -

H i t i t -48 0 An a l og

0 3 0 Van 15 .06 . 1999 22 .06 . 1999 T ELE TAŞ -

H i t i t -48 0 An a l og

0 3 1 Van 15 .06 . 1999 22 .06 . 1999 T ELE TAŞ -

H i t i t -48 0 An a l og

0 3 2 Van 15 .06 . 1999 22 .06 . 1999 T EL E TAŞ -

H i t i t -48 0 An a l og

0 3 3 Van 15 .06 . 1999 22 .06 . 1999

T ELE TAŞ -

H i t i t -48 0

An a l og

0 3 4 Van 15 .06 . 1999 22 .06 . 1999 T ELE TAŞ -

H i t i t -48 0 An a l og

0 3 5 Van 15 .06 . 1999 22 .06 . 1999 T ELE TAŞ -

H i t i t -48 0 An a l og

0 3 6 Van 15 .06 . 1999 22 .06 . 1999 T ELE TAŞ -

H i t i t -48 0 An a l og

Page 61: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

54

Çize lge 3.4 (Devamı ) Ver i örnek l er i n i n top land ığ ı ye r ve kayı t şek i l l e r i ni göste r i r i ç i ze lge .

K o d

No .

Al ı n d ı ğ ı

Ye r

1 nc i Ka y ı t

Tar ih i

2 nc i Ka y ı t

Tar ih i

Te le f on

C ih a z ı n ı n

C in s i

B a ğ la n t ı

K u r u la n

Sa n tr a l

C in s i

0 3 7 Van 15 .06 . 1999 22 .06 . 1999 T ELE TAŞ -

H i t i t -48 0 An a l og

0 3 8 Van 15 .06 . 1999 22 .06 . 1999 T ELE TAŞ -

H i t i t -48 0 An a l og

0 3 9 Bu r sa 15 .06 . 1999 22 .06 . 1999 E R ICS SO N

T D -1 Sa y ısa l

0 4 0 Bu r sa 15 .06 . 1999 22 .06 . 1999 E R ICS SO N

T D -1 Sa y ısa l

0 4 1 Bu r sa 15 .06 . 1999 22 .06 . 1999 E R ICS SO N

T D -1 Sa y ısa l

0 4 2 Bu r sa 15 .06 . 1999 30 .06 . 1999 E R ICS SO N

T D -1 Sa y ısa l

0 4 3 Bu r sa 15 .06 . 1999 22 .06 . 1999 E R ICS SO N

T D -1 Sa y ısa l

0 4 4 Bu r sa 16 .06 . 1999 22 .06 . 1999 E R ICS SO N

T D -1 Sa y ısa l

0 4 5 Bu r sa 16 .06 . 1999 30 .06 . 1999 E R ICS SO N

T D -1 Sa y ısa l

0 4 6 Bu r sa 16 .06 . 1 9 9 9 30 .06 . 1999 E R ICS SO N

T D -1 Sa y ısa l

0 4 7 Bu r sa 16 .06 . 1999 A l ına mad ı E R ICS SO N

T D -1 Sa y ısa l

Page 62: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

55

Çize lge 3.4 (Devamı ) Ver i örnek l er i n i n top land ığ ı ye r ve kayı t şek i l l e r i ni göste r i r i ç i ze lge .

K o d

No .

Al ı n d ı ğ ı

Ye r

1 nc i Ka y ı t

Tar ih i

2 nc i Ka y ı t

Tar ih i

Te le f on

C ih a z ı n ı n

C in s i

B a ğ la n t ı

K u r u la n

Sa n tr a l

C in s i

0 4 8 Bu r sa 16 .06 . 1999 A l ına mad ı E R ICS SO N

T D -1 Sa y ısa l

0 4 9 An ka ra 16 .06 . 1999 22 .06 . 1999 E R ICS SO N

T D -1

Sa y ısa l+ Dah

i l i Abone

0 5 0 An ka ra 16 .06 . 1999 22 .06 . 1999 E R ICS SO N

T D -1

Sa y ısa l+ Dah

i l i Abone

0 5 1 Bu r sa 16 .06 . 1999 22 .06 . 1999 S IME N S An a l og

0 5 2 Bu r sa 16 .06 . 1999 22 .06 . 1999 S IME N S An a l og

0 5 3 Bu r sa 16 .06 . 1999 22 .06 . 1999 S IME N S An a l og

0 5 4 Bu r sa 16 .06 . 1999 A l ına mad ı S IME N S An a l og

0 5 5 İ s t anbu l 20 .06 . 1999 31 .06 . 1999 PA NA S O N I C Sa y ısa l

Adl i b i l im (Forensi k ) a lanında i nsan ses i tanıması /

onay l amas ına yönel i k b i r a l gor i tmanın ge l i ş t i r i l mesi ne

ya rd ımc ı o l acak bu ses ve r i tabanı ö rnek l emi kaydında

SONY TCM -5000EV markal ı p ro fesyonel o l mayan

herkes i n bu l ab i l eceği b i r te l e fo n ha t t ına bağ l anabi l i r

Page 63: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

56

kay ı t c i hazı kul l anı l m ış t ı r. Bunun nedeni , ad l i vakala rda

del i l o la rak sunul an ses kaset l e r in p ro fesyonel o l mayan

c i haz l a r ve k i ş i l e rce kaydedi l mesi nden dol ay ıd ı r. Ses

kay ı t l a r ı TDK IECI I /TYPE I I SF100 markal ı kase t l ere

kaydedi lmiş t i r. Kayı t sev i yes i ses ş i ddet i ne gö re mi n -1 ,

max-2 ‘de tu tu l muş tur. Ver i t op lama i ş lemi b i t t i k ten

sonra ; ses l e r b i l g i sayar o r tamına SONY Tc -D5M kaset

çal a r ı y l a b i l g i sayar o r tamına a t ı l m ışt ı r. Sound Forge

4 .0 . (Soni c Foundry I nc . , 1996) ses i ş leme yazı l ımı y la

“wav ” fo rmat ında kaydedi lmi ş t i r. Kay ı t 8 kHz, 8 b i t ’ de

n i cemlenerek i ş l enmi şt i r.

3 .3 . Konuşmacı la r ın Demograf ik Dağ ı l ımı

Konuşmac ı la r ın s ı ras ıy l a c i ns i yet , yaş, eğ i t im düzey i ve

l ehçe deği ş i k l i k l er i ne gö re denge l i dağ ı l ımı

p l an l anmışt ı r. Konuşmac ı l a ra a i t demogra f ig b i l g i l e r

Çi ze lge 4.2 . ’de ver i lmi ş t i r.

Çi ze lgeden de gö rül düğü g i b i Marmara ’dan 8 ,

Ege ’den 3 , İ ç Anadol u ’dan 29 , Karadeni z ’den 5 ,

Akdeni z ’den 5 ve Doğu Anadol u ’dan 5 denek ten top l am

55 ses ö rneği a l ınmışt ı r bunl a r ın 11 ' i bayan, 44 ’ü e r kek

konuşmac ıd ı r. Burada konuşmac ı la r ın doğduk la r ı ye r le r

deği l büyüdük l e r i yer l e r göz önüne a l ınmış t ı r. Bunun

nedeni i se ül kemi z i nsanl a r ın ın i ş bul ma nedeni y le

meml eke t l er i nden uzak l aşmal ar ı , çocuk l ar ın yer l eş i l en

ye rde büyüme l er i ve o ranın ş i ves i ni kul l anmal ar ıd ı r.

Page 64: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

57

Denek le r i n i k i s i i l kokul , 33 'ü l i se ve 20 's i yüksek okul

mezunudur.

Çize lge 3.5 Ses ö rneği a l ınan denek l e r i n , c i ns i yet ,

yaş eği t i m düzey i ve büyüdük le r i ye r le r i ( l ehçe k r i t er i i ç i n) gös te r i r ç i ze l ge .

K o n u şma c ı

K o d u C in s iye t i Ya ş ı

E ğ i t im

D ü ze y i

B ü yü d üğ ü

Şe h i r

01 Erkek 30 Üni vers i te Teki rdağ

02 E rkek 30 Üni vers i te Kayser i

03 Bayan 21 Üni vers i te Ankara

04 Erkek 25 L i se Çorum

05 Bayan 24 L i se Karaman

06 Erkek 33 L i se Bursa

07 Erkek 39 Üni vers i te Toka t

08 E rkek 31 L i se Ankara

09 Bayan 27 Üni vers i te Mers i n

010 Bayan 26 Üni vers i te Ankara

011 Erkek 28 Üni vers i te İ zm i t

012 Bayan 26 Üni vers i te İ zm i r

013 Erkek 40 Üni vers i te S i vas

014 Erkek 30 Üni vers i te İ zm i t

015 Erkek 30 L i se Bal ı kes i r

016 Erkek 28 L i se Ordu

017 Erkek 29 L i se Ankara

018 Erkek 29 L i se Si vas

019 Erkek 26 Üni vers i te Adana

020 Erkek 22 L i se Amasya

021 Erkek 31 L i se Toka t

Page 65: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

58

Çize lge 3 .5 (Devamı ) Ses ö rneği a l ınan denek l e r i n , c i ns i ye t , yaş eği t i m düzeyi ve büyüdük l e r i ye r l er i ( l ehçe k r i t er i i ç i n) gös te r i r ç i ze l ge .

K o n u şma c ı

K o d u C in s iye t i Ya ş ı

E ğ i t im

D ü ze y i

B ü yü d üğ ü

Şe h i r

022 Erkek 30 L i se Osmaniye

023 Bayan 26 L i se Kı r ı kka l e

024 Erkek 27 Üni vers i te El azığ

025 Bayan 29 Üni vers i te Ankara

026 Bayan 29 L i se Ankara

027 Erkek 28 L i se Ordu

028 Erkek 20 İ l kokul R i ze

029 Bayan 30 L i se Ankara

030 Bayan 27 Üni vers i te Ankara

031 Erkek 21 İ l kokul Ankara

032 Erkek 36 Üni vers i te A fyon

033 Erkek 26 L i se Aksaray

034 Erkek 25 Üni vers i te Ankara

035 Erkek 29 L i se A fyon

036 Erkek 33 L i se Kı r ı kka l e

037 Erkek 23 L i se Mers i n

038 Erkek 37 Üni vers i te Mal a tya

039 Erkek 34 L i se Gazi antep

040 Erkek 21 L i se Eski şehi r

041 Erkek 32 L i se Konya

042 Erkek 30 L i se Ankara

043 Erkek 21 L i se Ankara

Page 66: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

59

Çize lge 3 .5 (Devamı ) Ses ö rneği a l ınan denek l e r i n , c i ns i ye t , yaş eği t i m düzeyi ve büyüdük l e r i ye r l er i ( l ehçe k r i t er i i ç i n) gös te r i r ç i ze l ge .

K o n u şma c ı

K o d u C in s iye t i Ya ş ı

E ğ i t im

D ü ze y i

B ü yü d üğ ü

Şe h i r

044 Erkek 29 Üni vers i te Kı r ı kka l e

045 Erkek 34 L i se Kayser i

046 Erkek 32 L i se Nevşehi r

047 Erkek 32 L i se Ankara

048 Erkek 28 L i se Eski şehi r

049 Erkek 28 L i se Osmaniye

050 Erkek 31 L i se Bol u

051 Bayan 25 Üni vers i te Eski şehi r

052 Bayan 18 L i se Eski şehi r

053 Erkek 53 L i se Eski şehi r

054 Erkek 18 L i se Bursa

055 Erkek 34 Üni vers i te İ s tanbul

3 .4 . Konuşmacı la rdan Kaydedi lecek Materya l in

Seç imi

Konuşmac ıdan top l anacak mate rya l POLYPHONE

s tandard ında bel i r t i l d i ğ i g i b i hem kağ ı t ta n okuna n hem

de spontan o la rak söy le t i l en sözce l erden seç i lmi ş t i r.

Böy l ece okuma ve doğal konuşma a ras ındaki fa rk l a r ın

i nce l enmesi ne o l anak tanınmış o l acağı g ib i , konuşma

tanıma s i s teml e r i f a rk l ı t i p te söy lenen sö zce l er üze r i nde

Page 67: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

60

de deneneb i lecekt i r. Türkç e-POLYPHONE ver i tabanı

ö rnek lemi nde 32 ’s i kağ ı t tan okunan, 17 ’ i spontan o l a rak

söy l et i l en top l am 49 sözce bul unmas ına ka ra r

ve r i lmi ş t i r.

3 .5 . Kağı t tan Okunacak Materya l

Kağı t tan okunacak mate rya l ç i ze lge 4 .3 ’de ve r i lmiş t i r.

Çize lge 3 .6 . Türkçe -POLYPHONE ver i tabanı ö rnek lemi nde kağ ı t tan okutu l an sözcük l e r i n dökümü.

Ad e t Açık lama ve örnek

Konuşmac ı kodu 1 01 -50 a rası b i r say ı

Say ı d i zi l e r i 3

312 -231 -763

68 -99 -20

7 -5 -1-2 -1-3 -4-8

Tel e fon numaras ı 1 0 -212 -456-38 -79

Ard arda ay r ık rakam di z i s i

2

Yed i -dör t -al t ı -üç -beş - i k i -b i r -sek i z

Dokuz-dör t -s ı f ı r -yedi - i k i -al t ı -üç

Sek i z -beş -b i r

Reel say ı la r 3 4 k i l o , 2 me tre , 9 sant i m

Tar i h 1

Ya l nızca b i r i ni okuyunuz.

10 KASIM 1938

13 EKİM 1974

31 AĞUSTOS 1995

Saa t 1

Ya l nızca b i r i ni okuyunuz.

İ k i y i beş geç iyo r

Seki z on a l t ı

Dokuza on va r

Yer (şehi r ) adı 3 Ankara , İ zmi r, İ s tanbul

Uygul ama sözcüğü 4 B i l e t , Rezervasyon, Hesap , K redi ka r t

Page 68: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

61

Çize lge 3.6 . (Devamı ) Türkçe -POLYPHONE ver i

tabanı ö rnek l emi nde kağı t tan okutu l an sözcük l e r i n dökümü.

Ad e t Açık lama ve örnek

Har f ha r f söy lenen sözcük

2 A -N-K-A-R-A , B -E-G-Ü -M

Uygul ama sözcüğü geçen tümce

2

Mavi t rene i k i bi le t i s t i yo rum.

O te l rezervasyonu yap t ı rmak

i s t i yo rum

Bankadan k redi ka r t ı a ld ım.

Ci mbomun maç ına gel i r mi si n?

Ayr ık sözcük 2 A -B-F-8 -C

I -E -5-D-K

Fone t i k açıdan zeng i n tümce

5

Cumhurbaşkanı Sül eyman Demi re l Gazi antepe g i t t i .

Çık r ıkç ı l a r yokuşunda b i r camcı dükkanında Pazar günü tüp pa t l adı .

Mi l l i Eği t i m Bakanı Şuba t ta t i l i nde öğ renci l e re faz la ev ödevi ve r i lmemesi ni i s ted i .

Sözcük yakal ama amaçl ı sözce

2

Hemen İs tanbul ’a g i tmem gerek iyo r.

Ankara ’dan İ s tanbul ’ a hep t ren le g ide r im .

Topl am 32

3 .5 .1. Konuşmacı Kodu

Konuşmac ı kodu, ses ö rneği top l anı rken ses i a l ınan

denek le r i n ge rçek i s imle r i ni söy l emesi konusunda b i r

Page 69: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

62

t ed i rg i n l i k ya ra tmamas ı i ç i n i s imle r i so rul mamış bunu n

ye r i ne i k i basamakl ı b i r kod numaras ı okumas ı

i s tenmi ş t i r. Örne ği n s ı f ı r -on i k i g ib i .

3 .5 .2. Sayı D iz i le r i

Say ı d i zi s i o la rak kredi ka r t numaral ar ın ı and ı ran üçer l i ,

i k i şer l i ve b i re r l i say ı l ar okutu l muş tur. Konuşmac ı

bunl a r ı üçe r l i , i k i şe r l i ve b i re r l i okumuş tur. Bu d i z i l e r

seç i l i r ken, rakaml ar ın dengel i dağ ı l ım ı na d i kkat

edi l miş t i r.

3 .5 .3. Tele fon Numaras ı

Böl ünmüş o n b i r basamakl ı b i r t e le fon numaras ı

konuşmac ıya okutu lmuş . Tel e fon numara la r ın ın

okunmas ı büyük b i r çoğunl uk tara f ından şehi r l e r a ras ı

i ç i n s ı f ı r, a l an kodu(üç ’ l ü b i r numara ) ve te le fon

numaras ın ın(üç - i k i - i k i g rup l u) söy l enmesi i l e i l e t i l i r. Bu

nedenl e denekle r i n hepsi nden te le fon numara l ar ın ın bu

şek i l de okunmas ı i s tenmi şt i r.

3 .5 .4. Ard Arda Ayr ık Rakam Diz isi

Konuşmac ı la r ın kendi l er i ne ve r i len kağ ı t ta ye r a l an 8 , 7

ve 3 rakaml ı b i r d i zi y i t ek t ek rakamla r ha l i nde

okuma la r ı i s tenmi şt i r. (örneği n 4 -2 -3 -6 -9 -8 i ç i n dör t - i k i -

üç -a l t ı -dokuz-sek i z g i b i ) .

Page 70: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

63

3 .5 .5. Reel Sayı la r

İ k i tanes i b i r i ml i o l acak b i ç imde seç i lmi ş ree l sayı l ar

konuşmac ı la ra okutu l muş tur. Örneğ i n 4 k i l o , 2 met re

g i b i . Say ı la r ın o lması te rc i h ed i l miş t i r. B i r iml er l i ra ,

g ram, k i l o , k i l ogram, ton, l i t r e , sani ye , dak i ka , gün,

ha f ta , y ı l , mi l im, mi l imet re, sant im , sant i me t re, me tre ,

k i l omet re, ve l i t r e o l a rak seç i lmel id i r.

3 .5 .6. Tar ih

Gün ve ay i s iml e r i dengel i dağ ı lm ış o la rak

okutu l muş tur. Örneği n “10 Kas ım 1938” g i b i .

3 .5 .7. Saat

Bi rçok d i l de o l duğu g i b i Türkçe ’de de saa t çeş i t l i

b i ç i mle rde söy l enmektedi r. Bunun i ç i n konuşmac ı l ara

dağ ı t ı l an kağ ı t l a rda saa t i n çeş i t l i b i ç iml erde yazı l ı ş ına

d i kkat ed i lmi ş t i r. Örneği n, “ İ k i y i b eş geç iyo r” , “Seki z -on

al t ı ” , “Dokuza on va r ” .

Page 71: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

64

3 .5 .8. Yer (şeh i r) Ad ı

Şehi r ad la r ı b i r çok uygul amada büyük öneme sahi p

o l duğunda n konuşmac ı la ra Türk i ye ’dek i ye r leş im o la rak

en büyük i l i s i mle r i okutu l muş tur. Bunun nedeni

uygul ama sözcük l e r i i ç i nde en çok kul l anı l ıyo r

o l mas ındand ı r.

3 .5 .9. Uygulama Sözcüğü

Tel e fon vas ı tasıy l a o tomat i k o la rak yap ı lan konuşma

tanıma tabanl ı reze rvasyon, banka hesab ı g ib i

uygul amal ar ve uygul amal arda geçebi l ecek anahta r

sözcük l e r ö rnek lem de ye r a l mış t ı r. Uygul ama

sözcük l e r i “b i l e t ” , “ reze rvasyon” , “hesap” , “ k red i ka r t ı ” ,

“maç” , “ t ren” g i b id i r.

3 .5 .10. Har Har f Söylenen Sözcük

Ver i l en sözcük l e r i konuşmac ı l a r ın ha r f , ha r f söy lemele r i

i s tenmi ş t i r. Sözcük le r i n dengel i o la rak dağı l mas ına

d i kkat ed i lmiş t i r.

3 .5 .11. Uygulama Sözcüğü Geçen Tümce

Bu tümce le r i ç l er i nde yukar ıda ay r ın t ı l a r ı aç ık l anan

uygul ama sözcük l e r i geçecek b i ç i mde seç i lmiş t i r. B i r

Page 72: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

65

t ümce b i rden faz l a uygul ama tümcesi i çe rmi ş t i r. Örneği n

“Mavi t rene b i r b i l e t i s t i yo rum” tümces i hem bi l e t hem

de t ren uygul ama sözcük l e r i ni i çermek tedi r.

3 .5 .12. Ayr ık Sözcük

Ayr ık sözcük tanıma s i s teml er i i ç i n konuşmac ıdan

e l i ndek i kağ ı t ta yazı l ı o l an ay r ık sözcük le r i okunmas ı

i s tenmi ş t i r. Ayr ı k sözcükl e r Türkçe ’n i n i k i l i ses

kombi nasyonl a r ın ı mümkün o l duğunca geni ş b i r b i ç imde

i çe rmesi ne d i kka t ed i lmi ş i t i r.

3 .5 .13. Fonetik Aç ıdan Zengin Tümce

Bu böl ümde konuşmac ı l a ra Türkçe ’ni n bütün i k i l i ses

kombi nasyonl a r ı mümkün o lduğu kadar deği ş i k

bağl amla rda kapsayan ve mümkün o l duğu kadar zeng i n

tümce le r okutu l muş tur. Bunl a r ın yanında tümce

seç i mi nde , tümcel e r i n çok uzun o l mamas ına (80 ha r f l e

s ın ı r l ı o lması ) d i kka t ed i l miş t i r.

3 .5 .14. Sözcük Yaka lama Amaçl ı Sözce

Kağı t tan okutu l an materya l i n son böl ümünde , sözcük

yakal ama s i s teml er i i ç i n , i ç i nde yakalanacak

sözcük l e r i n geç t iğ i i k i t ümce okutu l muş tur. Daha

önceden be l i r t i l d iğ i g ib i şehi r i s i mle r i yakalanacak

Page 73: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

66

hede f sözcük k i t l es i o la rak düşünül ürse , bu böl ümde,

i ç i nde şehi r i smi geçen i k i t ümce okutu l muş tur.

Bürünse l (prosodi c ) açıdan zeng in l i k sağl amak amac ıy l a

bu tümcel e rde şehi r i s i mle r i ni n tümceni n baş, or ta ve

son ta ra f ında yak l aş ık eş i t o randa geçmesi ne d i kkat

ed i l miş t i r.

3 .6 . Spontan Söyle t i lecek Materya l

Spontan o l a rak yanı t l anan so ru la r ın dökümü Ç i ze l ge

4 .4 ’de ve r i lmiş t i r. Burada denekl e re daha önceden

soru l acak soru l ar ve r i lmiş , kay ı t baş lamadan önce

b i r kaç de fa okuyarak ve recekle r i yanı t l ara hazı r l ık l ı

o l mal ar ı i s tenmi şt i r.

Denek le r i n doğru o l a rak yanı t l aması i s tenen

so ru l ar şunl a rd ı r : kayı t ta r i hi n i n doğru o la rak

bel i r l enmesi i ç i n “Bugünün ta r i hi nedi r? ” , yaş

dağ ı l ım ının doğru yap ı l ab i l mesi i ç i n “doğum ta r i ni z

ned i r?” ve denekl er i n eğ i t i m sev i ye le r i ni ö l çmek ve

eği t i lmi ş i nsanl ar ın tepk i ve organi ze ye tenekl er i n i n

ö l çümü i ç i n “eğ i t im sev iyeni z nedi r? ” so rul a r ına doğru

yanı t ve r i lmesi i s tenmi şt i r. Bu yanı t l a r i k i nc i de fa

al ın ı r ken de doğru a la rak söy l enmesi i s tenmiş t i r.

Bunl a r ın d ış ında ka l an d i ğe r so ru l ar b i r i nc i ve i k i nc i

kay ı t i ç i n konuşmac ının i s teğ i ne b ı rakı l m ış t ı r.

Page 74: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

67

Çize lge 3.7 Türkçe -POLYPHONE ver i tabanı

ö rnek lemi nde spontan o la rak söy le t i l ecek sözce le r i n dökümü.

Ad e t Aç ı k l a ma ve Örn e k

Eve t /Hay ır Yanı t l ı soru 5 Ev l i mi s i ni z?

Çocuğun va r mı?

Babanız sağ mı?

Yur td ış ında bul undunuz mu?

Yabanc ı d i l b i l i yo r musunuz?

Ya şad ığ ın ı z Şehr i n i smi? 1

Bugünün ta r i h i nedi r? 1

Şu anda saa t kaç? 1

Doğum ta r i hi n i z nedi r? 1

Yaş ınız kaç? 1

Kapı numaranız? 1 Ve ya b i r say ı söy le y i n .

Tel e fon numaranız

ned i r?

1 Veya he rhang i b i r t e l e fon numaras ı ol abi l i r.

Bi r i s i m söy ley i ni z 1

Hang i şehi rde büyüd ünüz?

1

Ci ns i ye t i ni z ned i r? 1

Eği t im sev i yeni z ned i r? 1

or ta öğre t im =1

L i se =2

Üni vers i te =3

En sevdi ğ i ni z TV

p rog ramı nedi r? 1

Top lam

17

Page 75: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

68

Eği t im sev i yes i hakkındaki so ruya bek lenen yanı t 1 ,2 ve

3 o lmak üzere k i ş i ni n hang i eğ i t i m ka tegor i s i ne

g i rd iğ i ne i l i şk i n b i r say ıdı r. Konuşmac ının bu so ruy a

haz ı r l ı k l ı o lması i ç i n bu so ru hakk ında aç ık l ama

dağ ı t ı l an met i nde yazı l m ış t ı r.

Page 76: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

69

5 .BULGULAR

Türkçe Konuşma ve Konuşmac ı Tanımaya Yöne l i k Ver i

Tabanı Örnekl emi b i r i nc i bö l ümde i ncel enen 16 adet

çeş i t l i d i l l ere a i t ve r i tabanıy la o l an k a rşı l aşt ı rmas ı

Çi ze lge 5 .1. ’ de ve r i lmiş t i r. Bu 16 ve r i tabanı

POLYPHONE s tandar t l ar ın ın b i r k ı smını karş ı l ı yo r o l sa

da yap ı lan ö rnek lemi n s tandar t l ara uygunl uğu aç ıs ından

b i r f i k i r ve rmesi i ç i n ka rşı l aş t ı rmas ı ç i ze lgede

ve r i lmi ş t i r. Ç i ze l gede ver i tabanını n ku l l anım amacı ,

ö rnek lend iğ i f rekans , ni cemleme say ıs ı ve denek say ıs ı

ve r i lmi ş t i r.

Yapı l an Türkçe ö rnek l emde te l e fon üzer i nden

a l ınan ses le r 8 Khz’de ö rnek l enmi ş , 8 b i t ’ de

n i cemlenmiş t i r. Ç i ze l geni n sonunda o l uş turu l an Türkçe

ö rnek lemi n değer le r i ve r i lmiş t i r. Buradan da görü l eceği

g i b i ver i tabanı b i r ö rnek lem o lmas ına rağmen, b i r çok

ve r i tabanındaki denek ve sözce say ıs ı d i ğer ver i

tabanl ar ından faz l ad ı r.

Page 77: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

70

Çize lge 5 .1 . Deği ş i k d i l l e r i ç i n top l anan ses

ö rnek le r i i l e yapı l an ö rnek l emi n ka rş ı l aş t ı r ı lmas ı .

İ n c e l en en Ve r i t ab an ı

K u l l an ı m a l a n ı K a y ı t ş e k l i K a y ı t c i n s i

D e n ek S a y ı s ı

C ü mle sa y ı s ı

K h z B i t

ATIS Ver i Tabanı

Hava dol aşımı bi l g i s i s temle r i

16 16 Yak ın

mi k rofon 10 -

BRAMSHILL Ver i Tabanı

Konuşmac ı tanıma

10 16 Mi k rofon 50 -

HCRC Map Task Ver i

Tabanı

Har i ta la r üzer i nde çeş i t l i

bi l g i l e r i n tanım lanmas ı

20 16 Ste ro

Mi k rofon 128 -

KING Ver i Tabanı

Konuşmac ı tanıma

8 16 Tel e fon 52 -

MACROPHONE Ver i Tabanı

Konuşmac ı tanıma

8 8 Tel e fon 5000 90

Sö z cük

OGI SPELLED

ve SPOKEN Ver i Tabanı

Konuşmac ı tanıma

8 8 Tel e fon 125 -

PHONEBOOK Ver i Tabanı

Ayr ık sözcük tanıma

8 8 Tel e fon 12 797 9

Sö z cük

DARPA RESOURCE MANAGEME

NT (RM1) Ver i Tabanı

Deni zc i l i k l e i l g i l i

Konuşmac ıdan bağ ıml ı ,

konuşmac ıdan bağ ımsız

20 16 Mi k rofon 160 -

Page 78: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

71

Çize lge 5.1 . (Devamı ) Değiş i k d i l l e r i ç i n top lanan ses ö rnek le r i i l e yapı l an ö rnek l emi n ka rş ı l aş t ı r ı lmas ı .

İ n c e l en en Ve r i t ab an ı

K u l l an ı m a l a n ı K a y ı t ş e k l i K a y ı t c i n s i

D e n ek S a y ı s ı

C ü mle sa y ı s ı

K h z B i t

ROAD RALLY Ver i

Tabanı

Doğal konuşma i ç i nde sözcük

yakal ama 10 16

Ste ro Mi k rofon

56 20

Sö z cük

SW ITCH-BOARD Ver i

Tabanı

Konuşma ve konuşmac ı

tanıma 8 8 Tel e fon 500

300 0 Sö z cük

SPIDRE Ver i Tabanı

Konuşmac ı tanıma

8 8 Tel e fon 45 -

SW ITCH-BOARD

EXCERPTS Ver i Tabanı

Sözcük yakal ama

8 16 Mi k rofon - 35

d i ya log

TI46 Ver i Tabanı

Sözcük Tanıma 8 16 Mi k rofon 16 4 6

TIDIGITS Ver i Tabanı

Konuşmac ıdan bağ ımsız

tanıma 20 1 2. 5 Mi k rofon 326

33 s öz cü k

TIMIT VE NTIMIT Ver i

Tabanı

Konuşma tanıma

8 8 Tel e fon 630 630 0

t üm ce

YOHO Ver i Tabanı

Konuşmac ı doğru lama

8 12 Mi k rofon 138 136

s öz cü k

TÜRKÇE VERİ

TABANI ÖRNEKLEMİ

Konuşma ve konuşmac ı

tanıma 8 8 Tel e fon 55

49 s öz cü k

Page 79: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

72

Türkçe Konuşma ve Konuşmac ı Tanımaya Yönel i k

Ver i Tabanı Örnekl emi POLYPHONE s tandarda

hazı r l anan bazı ve r i tabanl a r ı i l e ka rş ı l aş t ı r ı l mas ı

Çi ze lge 5.2 . ’de ve r i lmi ş t i r. Burada okunan sözce i l e

spontan sözce mi k ta r l ar ı VAJ ve r i tabanı ha r i ç b i r

b i r l er i ne yakın o l masına rağmen k u l l anı l an denek say ıs ı

Macrophone ve r i tabanında 5000 , VAJ ver i tabanında

yak l aşık 2500, VAHA ver i tabanı 915 , Dutch Pol yphone

ve r i tabanında 5050 d i r.

Çize lge 5 .2 . POLYPHONE s tandard ına gö re

o l uş turu l an ve r i tabanl ar ı i l e Türkçe ver i tabanı ö rnek lemi ni n karşı l aşt ı r ı lması .

Macrop

-hone VAJ VAH A

Dutch

Po ly-

phone

Türkçe

Ver i

Tabanı

Örnek lemi

Okuna n

sözce 34 10 36 32 32

Spontan

sözce 11 4 9 18 17

Toplam

sözce 45 14 45 50 49

Ver i t op lamada so ru cevap böl ümünde top l am 13

so ru so rul muş tur, so ru la ra bazı denekl e r i n ve rd i k le r i

ha ta l ı cevapla r nedeni y le ses le r b i l g i sayarda i ş len i r ken

bu bö l üml er ç ıka r t ı l m ış t ı r. Bunun nedeni ; soru l ar

Page 80: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

73

denek le re so rul duğunda ve r i l en yanl ı ş yanı t l a r ın veya

okuma la r ın tek rar ed i l mesi bu nedenl e o l uşan l üzums uz

konuşma l a r ın ve r i tabanını k i r l e tmesi d i r. Ses l e r i n CD ’ye

kaydedi l i rken ses l er i n b i r i ş l enmiş ha l i b i rde i ş lenmemi ş

ha l i kaydedi lmi ş t i r. Bunun nedeni , bu ve r i tabanı

üze r i nde ça l ışacak i nsanl ar i ç i n i l g i nç o lab i l ecek

kay ı t l a r ın bul una b i l eceği ve b i r uygul amada i ş lenmiş

bi r ses i l e i ş lenmemi ş ses a rasındaki b i r i l i şk i

kuru l ab i l eceği düşünül müş tür. Ses kay ı t l a r ın ın top l amı

230Mb o l up b i r CD-ROM’a yazı lm ış t ı r.

Page 81: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

74

6 . SONUÇ VE DEĞERLENDİRME

Bu tez i n konus u o l an Türkçe ver i tabanı ö rnek l emiy l e ne

amaçl and ığı b i r i nc i bö l ümde bahsed i lmi ş t i . Bu ve r i

tabanı b i ze fa rk l ı zamanl arda a l ınan ses l er i n zaman

i ç i nde ne g i b i değiş i k l i k l e r gös te receği ve aynı

ke l i mel e r i konuşmuş o l sa dahi k i ş i l e r a rasında k i ses

benzer l i ğ i / f ark l ı l ı k l a r ın ı o r taya koymay ı sağl amış t ı r.

Ay r ı ca ses anal i z i ni n hukuk a lanında kabul ed i l i r l i ğ i ni n

ne o l mas ı ge rek t i ğ i i nce lenmiş t i r.

6 .1 . Hukuki İnce leme

Son y ı l l a rda i l e r l eyen teknol o j i y le be raber i nsan ses i

yo l uy l a i ş lenen suç l a rda da büyük b i r ar t ış meydana

gel miş t i r. Suç çeş i t l i l i ğ i ve yoğunl uğu i se c i nse l tac i z ,

t ehd i t ve rüşve t o l ay l ar ında or taya ç ıkmak tad ı r. Bu t i p

suç l ar l a yoğun o l arak ka rş ı l aşan mahkeme l er bu tür

de l i l l e r i nas ı l değer lendi recek l er i kanunda aç ık o l arak

ye r a lmadığ ı i ç i n veya hang i şa r t l a r a l t ı nda e l de edi l en

sesl er i n de l i l n i te l i ği o l acağ ı ta r t ışmas ını baş l atmışt ı r.

Bi l i nd i ğ i g i b i ceza mahkemesi nde , maddi ge rçek

a raş t ı r ı l ı r. Bu nedenl e he r şey del i l d i r. Haki m ka ra r ın ı

de l i l l e r l e doğrudan doğruya temasa geçerek ve r i r, bu

durum vas ı tas ız l ı k i l kes i o la rak anı l ı r (CMUK Md.254 ,

1983) .

Page 82: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

75

Ceza ya rg ı l amala r ı mevzua t ı konusunda yazı l an b i r

çok k i tap ta bant kay ı t l a r ın ın i spa t gücü konusund a

yazar l a r ın fark l ı düşünce l e rde o lduğu gö rü l mek tedi r. B i r

k ı s ım yazar, bant kayı t l ar ın ın de l i l o l amayacağ ı ancak

b i r keş i f o l ab i l eceği (Yener, 1998) yazm ak tad ı r. D iğe r

b i r gö rüş i se hukuka uyg un şek i l de e lde edi l en ve

top l umun y üksek ç ıka r la r ın ın hak l ı k ı l ı nmas ı ha l i nde, bu

g i b i de l i l l e r i n ku l l anı l ab i l eceği ni ve he r tür l ü de l i l i n

(bant kayı t l a r ı dahi l ) geçer l i o lduğunu be l i r tmektedi r

(Yur tcan, 1994) .

Buradan da gö rü l düğü g i b i hukuk i a l anda b u

konuda o l dukça fa rk l ı görüş l er va r. B i r i nc i gö rüşü

savunan hukukç ul a r ın ge l i şen teknol o j i y l e ses le r

üze r i nde he r ne kadar oynana b i leceği ni söy lesele r dahi

bunl a r ın tespi t i nde de gel i şen tekno l o j i y l e b i r l i k te

bul unab i l eceği ni hesaba katmad ık l ar ı gö rü lmek tedi r.

İ k i nc i gö rüş i se tamamen kat ı lmak ge rek i yo r, çünkü b i r

o l ay ın aydın l a t ı l mas ı i ç i n kanuni yo l dan e l de edi l en he r

tür l ü de l i l değer lend i r i l mel i ve kabul ed i lmel id i r. Yani b i r

o l ay ın nas ı l meydana geld i ğ i ni , hakare t , tehd i t , şanta j

ve buna benzer o l ay la r ın k imle r tara f ından ve nas ı l

yap ı l d ığ ı bant kay ı t l a rdan e l de edi l eb i l i yo rsa neden b i r

de l i l o la rak kabul ed i lmek i s tenmedi ğ i ni an l amak zo r.

Her de l i l i n arkasında b i r masum sanığ ın o l ab i l eceği

unut u l mamal ıd ı r.

Adl i vaka ni te l i ğ i kazanmış o lay la rda del i l o la rak

i nce l enen ses kayı t l ar ı b i r çoğu sami mi o r taml a rda kay ı t

Page 83: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

76

edi l miş t i r. Sanık konumunda o l an şahs ın ses i ni

deği ş t i rmesi /pe rdel emesi mümkün deği l d i r. Böy l e o lmas ı

durum unda dahi çeş i t l i b i l imsel me to t l a r kul l anı l a rak

k i ş i ye özgün ses öze l l i k l e r i bu l unabi l i r.

İ nsan ses i ni n de l i l o la rak değer lend i rmesi b i r çok

ü l ke tara f ından ku l l anı l mak tad ı r (Amer i ka, A lmanya ,

F ransa , İ ta l ya, İng i l t e re. . .g ib i ) . Dünyadaki bu gel i şmel e r

Türk i ye ’ ye de yans ımış ve b i r çok adl i o l ayda s es del i l

ol a rak kul l anı l m ış t ı r.

Bi l i m adamla r ımız konuşmac ı tanıma ve konuşma

onay l ama g i b i ses i ş l eme konusunda k i ça l ışmala r ın ı

h ız l ı b i r şek i l de sürdürmek tedi r l e r. Türk i ye de bu

konuda ça l ışma yapan tüm üni ve rs i te l e r “S i nyal İş l eme

ve Uygul amala r ı (S İ U) ” baş l ığ ı a l t ı nda kuru l tay l ar

düze nl ey i p , bu a landa kend i l e r in i n yap t ığ ı ça l ışmala r ı

ve dünyadaki ge l i şmel er i an l a tmak tad ı r l ar. Faka t

yapmış o lduk l a r ı araş t ı rmala r kendi çev re l er i nden

a l d ık la r ı b i r kaç ses üzer i nde o lmak tad ı r. Yani t i ca r i ve

adl i uygulama al anında gel i ş t i r i l en s i s teml er i n

deneneb i l eceği b i r Türkçe ver i tabanı o lmadığ ı i ç i n

yabanc ı d i l de hazı r l anmış ver i tabanl a r ı üze r i nde

yapmak tad ı r l a r, tab i bunun sonucunda da i s tenen ve r im

a l ınamamak tad ı r.

Bu tez i n sonucunda e lde edi l ecek o lan Türkçe ve r i

tabanı ö rnek l emi i l e yukar ıda bahsedi l en s ık ın t ın ın

b i raz da o l sa g i der i l eb i l eceği düşünül müş tür.

Page 84: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

77

6 .2 . Ver i Tabanı Örnek lemin i O luşturan Ses ler in

İnce lenmesi

Bu ça l ışma sonuc unda 43 e rkek ve 12 bayan b i re r ha f ta

a ray l a i k i defa ses ö rnek l e r i a l ınmış t ı r. Konuşmac ı l a r ın

b i r ha f ta sonra ses l e r i nde meydana gel en değiş i k l i k l e r

(pe rde, fo rmant f rekans ı , spek t rog ram, . . .g ib i )

i nce l enmi şt i r. Bunl ara a i t i nce l emel er aşağıda

ve r i lmi ş t i r.

Şeki l 6 .1 . ’ de spek t rog raf i k i nce lemede ; üs tek i i l k

a l ınan ses , a l t tak i i se b i r ha f ta sonra aynı or tamda

a l ınmış ses i n spek t rog ramıd ı r. İ k i ses a ras ındaki

pa rametr i k eş leşmede çok az fa rk l ı l ı k l a r o l duğu,

öze l l i k l e b i r i nc i f ormant f rekansl a r ında b i r değiş i mi n

o l mad ığ ı gözl enmi ş t i r. Burada ku l l anı l an tümce

“Cumhurbaşkanı Sül eyma n Demi re l ”d i r bu tümceni n

uzunl uğu 2 sani yedi r.

Şeki l 6 .2 . aynı tümceyi ku l l anan fa rk l ı i k i

konuşmac ının spek t rog raf i k i nce l emesi yap ı lm ış t ı r.

Pa ramet r i k eş l eşmel erde fark l ı l ı k l a r o lduğu, özel l i k l e

b i r i nc i ve i k i nc i fo rmant f rekansla r ında değiş imi n faz la

ol duğu göz l enmi ş t i r. Burada kul l anı l an tümce “Cumhur

Başkanı Sül eyman Demi re l ”d i r bu tümce ni n uzunl uğu 2

sani yedi r.

Page 85: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

78

Şeki l 6 .1 . Aynı k i ş i ye a i t b i r ha f ta a ray la a l ınmış

ses l er i n ka rşı l aşt ı r ı l mas ı

Page 86: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

79

Şeki l 6 .2 . Aynı tümceyi ku l l a nan fa rk l ı

konuşmac ı la r ın ses le r i ni n ka rş ı l aş t ı r ı lması

Page 87: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

80

Ses parametre l er i doğal süreç i çe rs i nde çeş i t l i

deği şmel e re uğ ramak tadı r. Bu deği ş i k l i k matemat i kse l

o r ta l amal ar ı hesapl anarak k i ş i ye özgün b i r o r ta l ama

sonuc un b ul unab i l mek tedi r.

Konuşma tak l i d i , pe rdel eme g ib i konuşmac ını n

ses i ni deği ş t i rme eği l imle r i mümkün o l mas ına rağmen

kend i ses i ne özgün ka rak te r l er i n tespi t i mümkündür

(Şeki l 6 .3 ) . Üstek i spek t rog ram konuşmac ının no rma l

ses i , a l t ta k i spek t rog ram perdel enmi ş ( tak l i t ) sese

ai t t i r. B i r konuşmac ının no rma l yap ı l an kayı t tan sonra

ses i ni değiş t i rmesi i s tenmiş aynı so rul a r so ru lmuş ve

aynı ma te rya l okutu l muş tur. Buradaki amaç,

konuşmac ı la r ses le r i ni ne kadar değiş t i rme eği l imi nde

o l sa da i k i ses a ras ındaki benze r l i k fark ı , bu ses i tak l i t

e tmeğe ça l ı şan konuşmac ının fa rk ından daha az

o l acakt ı r. Burada unutu l mamas ı ge reken b i r konuda

parametre l erdek i benzer l i k yanında i ş i tse l (uzmanı n

d i n l eye rek vard ığı sonuç ) tanı ’n ın da çok öneml i

o l duğudur. Kekel eme g ib i konuş ma bozuk l uk l a r ı he r ne

kadar pa ramet r i k i nce l emede tespi t ed i l se de ses -rengi

gi b i sübj ek t i f b i l g i l er ancak i ş i tse l yo l i l e tesp i t

edi l eb i lmek tedi r.

Page 88: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

81

Şeki l 6 .3 . Konuşmac ının ses in i pe rdel eye rek

( fa rk l ı b i r ses i tak l i t ederek ) kaydedi lmi ş ses i ni n

özgün konuşmas ıy l a ka rş ı l aş t ı r ı lmas ı

Page 89: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

82

Günüm üz tekno l o j i s i y l e ad l i amaçl ı ( t i ca r i

uygul amal ar ha r i ç ) o tomat i k konuşmac ı tanıma p rog ramı

ha l en yok tur. Bunun baş l ıca nedeni i se , şu anda mevcut

o l an veya gel i ş t i r i l en a l go r i tmal a r temi z ses le r i

tanımaya ve onaylamaya yönel i k t i r. Oysaki de l i l o la rak

o r taya konul an ses le r doğal o r taml a rda a l ınmış a rka

gürü l tü l er i n ( kay ı t c i hazının i ç gürü l tüsü, çevre

gürü l tüsü, te le fon ha t la r ın ın doğal gürü l tüsü, . . . g ib i )

yoğun o l duğu ses l e rd i r. Dol ay ıs ıy l a devaml ı de ği şen

a rka gürü l tül e r i ses kayd ını e tk i l i yecek t i r. Gürü l tüdeki

bu deği ş iml er düzg ün per i yo t ta o l mad ığı i ç i n

konuşmanı n he r sani yes i nde fa rk l ı e t k i l e r göste recek t i r.

Bu nedenl e ad l i amaçl ı konuşmac ı tanıma ve onayl ama

i ş l e r i pa rametr i k ve i ş i tse l anal i z o l arak b i r uzma n

ta ra f ından manue l yap ı lmak tad ı r.

Sonuç o l arak te le fon üzer i nden e l de edi l en bu

ve r i l e r, k ı sa tümce üzer i nde tanıma, ke l ime yakalama,

konuşmac ı tanıma ve uzun t ümce üzer i nde tanıma

s i s teml e r i ni n a l go r i tmala r ın ın denenmes i nde büyük

ya ra r sağ layacağ ı ve bunun da ne kadar başar ı l ı o l duğu

ancak çeş i t l i ses a l go r i tmala r ı ge l i ş t i ren b i l im

kuru l uş l ar ınca bel i r l enebi l ecek t i r.

Page 90: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

83

ÖZET

Türkçe Konuşma ve Konuşmacı Tanımaya Yönelik Veri Tabanı Örnekleminin Oluşturulması

Günümüzde teknolojinin gelişmesiyle birlikte Adli Bilimde, insan sesi yoluyla işlenen suçların ortaya çıkartılabilmesi için bilimsel metotlar kullanılmaya başlanmıştır. Dünyadaki bu gelişmeler Türkiye’ye de yansımış ve bir çok bilim adamı ses tanıma ve ses onaylama gibi ses işleme konusunda araştırmalara başlamıştır. Bu araştırmaların büyük çoğunluğu yabancı dilde hazırlanmış veri tabanları üzerinde yapılmaktadır. Bu çalışma sonucunda hazırlanan Türkçe veri tabanı örneklemiyle bu alanda ihtiyaç duyulan bir veri tabanı standardının belirlenmesine çalışılmıştır.

Veri tabanı örnekleminin hazırlanmasında bir çok veri tabanı incelenmiş ve bunların arasından COCOSDA (Coordinating Committee for Speech Database Assessment) adı verilen bir komite tarafından önerilen ve POLYPHONE adı verilen veri tabanı hazırlama standartları kullanılmıştır.

Veri tabanı örneklemi, telefon hatları üzerinden birer hafta arayla 55

denekten alınmıştır. Ses kayıtları telefon hattına bağlanan bir teyp aracılığıyla yapılmış ve bu kayıt daha sonra bilgisayar ortamında işlenerek 8 kHz'de örneklenmiş, 8 bit'de nicemlenerek x.wav formatında CD-ROM'a yazılmıştır.

Sonuç olarak, değişik cinsiyet, lehçe ve yaş gruplarından toplanan bu veri

tabanı örneklemi Türkçe konuşma ve konuşmacı tanımaya yönelik hazırlanacak ses algoritmalarının denenmesinde ve geliştirilmesinde kullanılabilecektir. Veri tabanı örnekleminin ne kadar başarılı olduğunun, çeşitli ses tabanlı algoritmalar geliştiren bilimsel kuruluşlarca belirlenebileceği sonucuna varılmıştır.

Anahtar Sözcükler : Konuşma ve konuşmacı tanıma, ses algoritması,

POLYPHONE standardı.

Page 91: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

84

SUMMARY

Production of Data Base Sampling for Turkish Speech and Speaker Recognition

Today, with the improvement in technology, scientific methods are put into use

for the purpose of enlightening crimes committed by using human voice. This improvement around the globe found its reflections in Turkey too, and numerous scientists began researches on voice processing topics like voice recognition, and voice verification. Most of these researches are based on databases which are prepared in a foreign language. With the help of the Turkish database prepared as a result of this work, it is aimed that a database standard, which is a need in this area, is set.

In preparing this database sampling, many database are examined, and

among those a database preparing standard which is named POLYPHONE, and advised by COCOSDA (Coordinating Committee for Speech Database Assessment) is used.

Database samples are recorded from 55 subjects with 1-week intervals, using

telephone lines. Recording is made via a tape recorder connected to the telephone line. Then this recording, through the process in a computer, is sampled at 8 kHz, and after quantified in 8 bits is written on a CD-ROM.

As a result, this database sampling gathered from various sex, dialect, and

age groups will be an asset to be used in testing and improving voice algorithms which will be prepared for Turkish speech, and speaker recognition. It is concluded that, how successful this database sampling is can be determined by the scientific organizations that produce different voice-based algorithms.

Key words: Speech and speaker recognition, voice algorithm, POLYPHONE

standard.

Page 92: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

85

KAYNAKLAR

1. ALİKAŞİFOĞLU,K., DOĞU, E. (1983). Ceza Mahkemeleri Usulü Kanunu. Ankara: Seçkin Kitapevi,s.:237.

2. BERNSTEİN, J., TAUSSING, K., GODFREY, J.( 1995 ). MACROPHONE: An American English Telephone Speech Corpus for The POLYPHONE Project, Proc., Detroit, ICASSP’94, p.:I-81.

3. BOVES, L., BOGAART, L., BOS, L. (1993). Dessign and Recording of Large Data Bases

for Use in Speaker Verification and Identification. Proc.ESCA Workshop on Automatic Speaker Recognition, Identification and Verification, , Martigny, Switzerland, p.:43-46.

4. BROWN K.L., GEORGE E.B. (1995). CTIMIT: A Speech Corpus For The Cellular Environment with Applications to Automatic Speech Recognition. Proc.ICASSP’95. Detroit. pp.105-108. Erişim:[http://www.ldc.upenn.edu/readme_ files/ctimit.readme.html]. Erişim Tarihi:11 Haziran 1999

5. COCOSDA . (1994) Institute of Information Sciences and Electronics University of Tsukuba, Meeting in Yokohama. Erişim: [http://www.milab.is.tsukuba.ac.jp/o- cocosda/cosda94or.html].Erişim Tarihi:11 Haziran 1999

6. DEFENCE ADVANCED RESEARCH PROJECT AGENCY(DARPA). (1987). DARPA Resource Management Continuous Speech Database RM1. NIST [Electronic Journal], June 1999. Erişim: [http://www.ldc.upenn.edu/readme_files/rm1.readme.html] Erişim Tarihi:11 Haziran 1999

7. DEMİRCAN,Ö. (1996). Türkçe’nin Sesdizimi.İstanbul, s.:8-10.

8. DEMİREKLER,M. BİNGÖL,S. KAYHAN,S. (1995). Türkçe Konuşma ve Konuşmacı Tanıma Amaçlarına Yönelik Veri Tabanları Hazırlanması için Bir Standart Önerisi. TÜBİTAK-BİLTEN,1:1-6.

9. ERGENÇ,İ. (1990). Konuşma Dilinde Sözdizimiyle Bürün Olgularının İlişkisi

Üzerine:IV.Dilbilim Sempozyumu Bildirileri, 1:157-164.

10. ERGENÇ, İ. (1995). Konuşma Dili ve Türkçe’nin Söyleyiş Sözlüğü. Ankara, s.:11-28.

11. FRY, D.B. (1979). The Physics of Speech, Cambridge Uni.press, p.: 77.

12. HOLLIEN,H.(1990). The Acoustics of Crime. Plenum, New York, p.:43-45.

13. HUMAN COOMUNICATION RESEARCH CENTER (1992). The HCRC Map Task Corpus Version 1.0. LDC at the University of Pennsylvania. [Electronic Journal], June 1999. Erişim: [http://www.ldc.upenn.edu/readme_files/hcrc.readme.html]. Erişim Tarihi:11 Haziran 1999

14. ITT. (1987). King-92 Corpus for Speaker Verification. LDC at the University of Pennsylvania. [Electronic Journal], June 1999. Erişim: [http://www.ldc.upenn.edu /readme_files/king.readme. html]. Erişim Tarihi:11 Haziran 1999

15. ITT. (1989). YOHO Speaker Verivacation. Linguistic Data Consortium. [Electronic

Journal]. Erişim:[http://www.ldc.upenn.edu/readme_files/yoho.readme.html]. Erişim Tarihi:11 Haziran 1999

Page 93: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

86

16. LEONARD R,G., DODDIGTON R,G. (1993). A Speaker-Independent Connected-Digit Database. TIICRL [Electronic Journal], June 1999. Erişim: [http://www.ldc.upenn.edu/ readme_ files/tidigits.readme.html]. Erişim Tarihi:11 Haziran 1999

17. MUTHUSAMY, Y., HOLLIMAN, E., WHEATLEY, B., PICONE, J., GODFREY, J. (1995).

Voice Across Hispanic America : A Telephone Speech Corpuse of American Spanish. Proc.ICASSP’94, Detroit, p.:I-85-88.

18. NATIONAL INSTITUTE of STANDART AND TECHNOLOGY. (1991). The Road Rally

World-Spotting Corpora. RDRALLY1. Linguistic Data Consortium [Electronic Journal], June 1999. Erişim: [http://www.ldc.upenn.edu/readme_files/road_rally.readme.html]. Erişim Tarihi:11 Haziran 1999

19. NATIONAL INSTITUTE of STANDART AND TECHNOLOGY. (1991). World Speech

Database Speaker-Depended Isolated World Corpus. NIST [Electronic Journal], June 1999. Erişim: [http://www.ldc.upenn.edu/readme_files/ti46.readme.html]. Erişim Tarihi:11 Haziran 1999

20. NATIONAL INSTITUTE of STANDART AND TECHNOLOGY. (1991). Acoustic-Phonetic

Continuous Speech Corpus. Linguistic Data Consortium [Electronic Journal], June 1999. Erişim: [http://morph.ldc.upenn.edu/readme_files/timit.readme.html]. Erişim Tarihi:11 Haziran 1999

21. NYNEX SCEINCE AND TECHNOLOGY. (1992). NTIMIT Speech Corpus CD-ROMs.

Linguistic Data Consortium [Electronic Journal], June 1999. Erişim: http://morph.ldc. upenn.edu/readme_files/ntimit.readme.html]. Erişim Tarihi:11 Haziran 1999

22. OREGON GRADUAT INSTUTE. (1994). The Spelled and Spoken Word Telephone

Corpus. LDC at the University of Pennsylvania. [Electronic Journal], June 1999. Erişim: [http://www.ldc. upenn.edu/readme_files/ogispell.readme.html]. Erişim Tarihi:11 Haziran 1999

23. OWENS, F.,J. (1993). Signal Processing of Speech. London, The Macmillan Press.,p.:5,6.

24. PITERLLI, J.F., FONG, C., LEUNG H.C. (1995) Phonebook Final Report. LDC at the

University of Pennsylvania. [Electronic Journal], June 1999. Erişim:[http://www.ldc. upenn.edu/readme_ files/phonebook.html]. Erişim Tarihi:11 Haziran 1999

25. POLICE STAFF COLLEGE. (1979). Bramshill Speech Collection. LDC at the University

of Pennsylvania. [Electronic Journal], June 1999. Erişim: http://www.ldc.upenn.edu/ readme_files/ bhill.readme.html]. Erişim Tarihi:11 Haziran 1999

26. ROSSING, T.D. (1990) The Science of Sound. USA. 2nd

Ed., p.:312. 27. Sound Forge 4.0. 1996. Soni c Foundry Inc .

28. SRI INTERNATIONAL. (1995). Macrophone Corpus. LDC at the University of

Pennsylvania. [Electronic Journal], June 1999. Erişim: [http://www.ldc.upenn.edu/ readme_files/macrophone.readme.html ]. Erişim Tarihi:11 Haziran 1999

29. STAPLES, T., PICONE, J., ARAI, N., (1994). The Voice Across Japan Database- The Japanese contribution to POLYPHONE. Proc.ICASSP’94, Adelaide, Australia, p.:I-89-92.

Page 94: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

87

30. TEXAS INSTRUMENTS. (1993). Switchboard Corpus of Recorded Telephone Conversation. NIST [Electronic Journal], June 1999. Erişim: [http://www.ldc.upenn.edu/ldc/news/newsletter/ v1.2/Switch.html]. Erişim Tarihi:11 Haziran 1999

31. TEXAS INSTRUMENTS. (1993). Switchboard Credit Card. NIST [Electronic Journal],

June 1999. Erişim: [http://morph.ldc.upenn.edu/Catalog/LDC93S8.html]. Erişim Tarihi:11 Haziran 1999

32. TEXAS INSTRUMENTS. (1994). Speaker Identification Research Corpus. NIST

[Electronic Journal], June 1999. Erişim: http://www.ldc.upenn.edu/readme_files/ spidre.readme.html]. Erişim Tarihi:11 Haziran 1999

33. TEXAS INSTRUMENTS. (1999). ATIS Speaker-Dependent Training Data. NIST

[Electronic Journal], June 1994. Erişim: http://www.ldc.upenn.edu/readme_files/atis/ sspcrd.readme.html]. Erişim Tarihi:11 Haziran 1999

34. YENER, O. (1998). Ceza Yargılaması Polis ve Jandarma Mevzuatı. Ankara :Adil

Yay.Evi,s.:113.

Page 95: TÜRKÇE KONUŞMA VE KONUŞMACI TANIMAYA YÖNELİK VERİ TABANI ...leventguner.com/depo/turkcekonusmavekonusmacitanimayayonelikveri... · ankara Ünİversİtesİ saĞlik bİlİmlerİ

88

ÖZ GEÇMİŞ

30 Ocak 1963 yı l ı nda Band ı rmada doğmuş tur. İ l k ve

o r ta ö reni mi ni Band ırmada, l i se öğ reni mi ni Konyada

tamaml amış t ı r.1980 -1984 y ı l l a r ı a ras ında Kara Harp

Okul u El ek t ron ik Böl ümünde öğrenim görmüş ve

Muhabere Teğmen o l arak 1984 y ı l ı nda mezun o l muş tur.

Mezuni ye t i nden sonra çeş i t l i yer le rde böl ük komutanl ığ ı

gö rev le r i ni yapmış ve 1993 y ı l ı nda yeni kuru l an

Kr i mi nal Dai re Başkanl ığ ına Ses anal i z Şube Müdür ü

o l a rak a tanmış t ı r. İ ta l ya Jandarma Suç Araşt ı rma

Laboratuvar l a r ında eği t i mi ni tamaml ad ık tan sonra 1995

y ı l ı nda Ses anal i z l aboratuvar ın ı ku rmuş tur.

Levent GÜNER, ev l i ve b i r çocuk babas ıd ı r.