Transcript
Page 1: byoyo.cmpe.boun.edu.trbyoyo.cmpe.boun.edu.tr/posterler/alican_gok-byoyo18.pdf · Created Date: 20180702002340Z

Uçtan Uca Anahtar Sözcük AramaAlican Gök ve Murat SaraçlarBoğaziçi Üniversitesi, Elektrik Elektronik Bölüm Başkanlığı[email protected], [email protected]

1. ÖzetBu çalışmada, klasik otomatik konuşma tanıma (OKT) tabanlı sistemlerin aksine, düşük gözetimle eğitilmiş bir uçtan uca anahtar sözcük aramasistemi tanıtılmaktadır. Bu sistem üç alt-sistemden oluşmaktadır. İlki, konuşmayı sabit boyutlu bir gömme kullanarak geriçatmak için eğitilmiş,özyinelemeli sinir ağı (RNN) tabanlı bir akustik özgizyazıcı; ikincisi ise karakter seviyesinde evrişimli sinir ağı - özyinelemeli sinir ağı(CNN-RNN) tabanlı, sorgu terimleri için sabit boyutlu bir gömme çıkartan bir dil modelidir. Bu iki gömme farklı gösterim uzaylarında oluklarıiçin, anahtar sözcüğün konuşmada yer alıp almadığını öngören üçüncü bir ileri beslemeli sinir ağına girdi olarak eklenmektedir. Klasik OKT-tabanlısistemlere göre çok daha hızlı eğitilebilen bu uçtan uca sistem, özellikle dağarcık dışı terimlerin bulunmasında önemli derecede iyileşme sağlamaktadır.

2. Anahtar Sözcük Arama Nedir?Anahtar Sözcük Arama (ASA) metin olarak verilen bir sorgu terimininkonuşma verisi içerisinde aranması işlemidir.

3. Ses Girdisinin ModellenmesiBu ağın amacı, anahtar sözcüklerin taratılacağı, farklı uzunluklarda ola-bilen ses dizilerini betimleyen sabit boyutlu gömmeler elde etmektir. Göze-timsiz eğitilen bu özgizyazıcıda girdi olarak ses dizilerinin posteriorgramıya da çok dilli darboğaz öznitelikleri kullanılabilir. Önerdiğimiz modelintemeli, [1] numaralı çalışmaya dayanmaktadır.

1x

eh1

Bx

e

Bh

Sx

e

Sh

Tx

e

Th

d

Bh 1

d

Shd

Bh

Bx 1ˆ

Bx Sx

GizyazıcıRNN

GizçözerRNN

Akustik Gömme

Akustik girdi dizisi

Geriçatılmış dizi

4. Metin Sorgunun ModellenmesiBenzer şekilde, farklı uzunluklarda olabilenanahtar sözcükleri sabit boyutlu bir uzaydagöstermek için aşağıdaki karakter-tabanlı dilmodeli kullanılmıştır. Bu ağ, hedef dile ait her-hangi bir grup yazı dizisi ile gözetimsiz olarakeğitilir.

2h Nh1h

1c

GizçözerRNN

Geriçatılmışharf dizisi

2c Nc

Sorgu gömmesi

Zamandaen büyük havuzlama

Harf dizisi girdisi

Evrişim katmanı

1c 2c Nc

5. Anahtar Sözcük Arama AğıAnahtar sözcüğün taranacağı ses ile yazılı sözcüğün gömmeleri bu nihaiağda birleştirilir. İleri beslemeli bu ağ, olumlu ve olumsuz örneklerle göze-timli bir biçimde eğitilir.

1x

eh1

Bx

e

Bh

Sx

e

Sh

Tx

e

ThGizyazıcı

RNN

Akustik gömme

Akustik girdi dizisi

Zamandaen büyük havuzlama

Harf dizisi girdisi

Evrişim katmanı

1c 2c Nc

İşitsel gizyazıcı

Sorgu gömmesi

Yazılı sorgu gizyazıcısı

İfade sorguyu içeriyorsa: 1 içermiyorsa: 0

Anahtar Sözcük AramaSinir Ağı

6. Sonuçlar ve Tartışma• Türkçe dili için, 10’ar saatlik eğitim ve sınama verileri ile eğitilmiş ve sınanmıştır.

• Eğitilmesi günler süren OKT-tabanlı daha karmaşık sistemlerin aksine birkaç saatte eğitilebilenbu sistem, bilgimiz dahilinde gerçekçi ölçevler ile sınanmış, uçtan uca yapay sinir ağı tabanlıilk büyük dağarcıklı ASA çalışmasıdır.

• Sistemimiz klasik OKT-tabanlı sistemlerle birleştirildiğinde [2], sistemimizin ASA başarımınıözellikle dağarcık dışı (DD) terimlerde önemli derecede arttırdığı görülmüştür.

– MTWV: Tüm anahtar sözcüklere aynı eşik değeri ile elde edilen tespit başarımı,– OTWV: Farklı sözcükler için en iyi eşik değeri ile elde edilen tespit başarımı,– STWV: Sahte alarmlara maliyet uygulanmaksızın elde edilen tespit başarımı.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

MTWV

OTWV

STWV

7. Kaynakça[1] K. Audhkhasi, A. Rosenberg, A. Sethy, B. Ramabhadran, and B. Kingsbury. End-to-end ASR-free keyword search from speech. IEEE Journal of Selected Topics

in Signal Processing, 11(8):1351–1359, Dec 2017.[2] B. Gündoğdu, B. Yusuf, and M. Saraçlar. Fusion of event detection systems: An application to keyword search. In 2018 26th Signal Processing and Communication

Application Conference (SIU), May 2018.

Recommended