Upload
xanthus-telma
View
45
Download
4
Embed Size (px)
DESCRIPTION
Linear Predictive Coding ve D ynamic Time Warping Teknikleri Kullanılarak Ses Tanıma Sistemi Geliştirilmesi. Murat Kemal BAYGÜN Egecom Ltd. [email protected] Yard. Doç. Dr. A. Kadir YALDIR Pamukkale Üniversitesi [email protected]. Akademik Bilişim 2006 9-11.02.2006 DENİZLİ. Ses. - PowerPoint PPT Presentation
Citation preview
Linear Predictive CodingLinear Predictive Codingve Dve Dynamic Time Warping ynamic Time Warping
Teknikleri Kullanılarak Teknikleri Kullanılarak Ses Tanıma Sistemi Ses Tanıma Sistemi
GeliştirilmesiGeliştirilmesi
Murat Kemal BAYGÜNMurat Kemal BAYGÜNEgecom Ltd.Egecom Ltd.
[email protected]@egecom.net
Yard. Doç. Dr. A. Kadir YALDIRYard. Doç. Dr. A. Kadir YALDIRPamukkale ÜniversitesiPamukkale Üniversitesi
[email protected]@pau.edu.tr
Akademik Bilişim 2006Akademik Bilişim 20069-11.02.20069-11.02.2006DENİZLİDENİZLİ
SesSes
Rabiner ve Juang:Rabiner ve Juang:
Akciğerlerden havanın dışarı atılması Akciğerlerden havanın dışarı atılması sonucunda oluşan hava akımının, ses sonucunda oluşan hava akımının, ses sisteminde bir yerlerde sıkıştırılarak sisteminde bir yerlerde sıkıştırılarak karıştırılmasından yayılan akustik karıştırılmasından yayılan akustik dalgalardır[1].dalgalardır[1].
Ses TanımaSes Tanıma
Cole vd:Cole vd:
Mikrofon ya da telefon tarafından Mikrofon ya da telefon tarafından alınmış akustik bir sinyalin, kelime alınmış akustik bir sinyalin, kelime kümesine olan çevrim işlemi olarak kümesine olan çevrim işlemi olarak tanımlanmaktadır [2]. tanımlanmaktadır [2].
İnsanlar arası sesli iletişimİnsanlar arası sesli iletişim
Şekil 1: Huang vd tarafından verilen, İnsanlar arası sesli iletişim modeli [3].
Ses Tanıma Sistemleri Nasıl Ses Tanıma Sistemleri Nasıl Çalışır?Çalışır?
Şekil 2: Ses Tanıma sistemleri, insanlar arası sesli iletişimŞekil 2: Ses Tanıma sistemleri, insanlar arası sesli iletişimsürecinde dinleyicinin yaptığı işlevleri yapay olarak gerçekleştirmeye sürecinde dinleyicinin yaptığı işlevleri yapay olarak gerçekleştirmeye çalışır.çalışır.
Ses Tanıma SüreciSes Tanıma Süreci
Sesin kaydedilmesi ve ifadenin saptanması
Sesin işlenmesi Karşılaştırma ve eşleştirme İşlevin gerçekleştirilmesi
Sesin kaydedilmesi ve ifadenin saptanması
Mikrofon veya telefon ile kayıt işleminin Mikrofon veya telefon ile kayıt işleminin gerçekleştirilmesigerçekleştirilmesi
Konuşma başlangıç ve bitişinin belirlenmesiKonuşma başlangıç ve bitişinin belirlenmesi
Bir çerçevedeki RMS değeri ve Sıfırı geçiş sayısıBir çerçevedeki RMS değeri ve Sıfırı geçiş sayısı
(1)
Sesin işlenmesi
PencerelemePencereleme FiltrelemeFiltreleme Sesin kodlanması (Özellik çıkarımı)Sesin kodlanması (Özellik çıkarımı)
Sesin işlenmesi – Sesin işlenmesi – PencerelemePencereleme
Şekil 3: Geliştirilen uygulama ile 8000 Hz ile örneklenerek kaydedilmiş ‘sıfır’ kelimesi için başlangıç ve bitişi saptanarak belirlenmiş ses sinyali.
Şekil 4: Hamming penceresinden Şekil 4: Hamming penceresinden geçirilmiş ‘sıfır’ kelimesi için ses sinyali.geçirilmiş ‘sıfır’ kelimesi için ses sinyali.
(2)
Sesin işlenmesi – Sesin Sesin işlenmesi – Sesin kodlanmasıkodlanması
PCM (Linear Pulse Code Modulation)PCM (Linear Pulse Code Modulation) APCM (Adaptive Pulse Code Modulation)APCM (Adaptive Pulse Code Modulation) DPCM (Differential Pulse Code Modulation)DPCM (Differential Pulse Code Modulation) ADPCM (Adapted Differential Pulse Code ADPCM (Adapted Differential Pulse Code
Modulation)Modulation) DM (Delta Modulation)DM (Delta Modulation)
Sesin işlenmesi – Sesin Sesin işlenmesi – Sesin kodlanmasıkodlanması
Bank-of-FiltersBank-of-Filters LPC (Linear Predictive Coding)LPC (Linear Predictive Coding) CELP (Code-Excited Linear Prediction)CELP (Code-Excited Linear Prediction) PLP (Perceptual Linear Prediction)PLP (Perceptual Linear Prediction) RASTA-PLP (RelAtive SpecTrAl Technique - RASTA-PLP (RelAtive SpecTrAl Technique -
Perceptual Linear Prediction)Perceptual Linear Prediction)
Karşılaştırma ve eşleştirme
HMM (Hidden Markov Model)HMM (Hidden Markov Model) DTW (Dynamic Time Warping)DTW (Dynamic Time Warping) Yapay Sinir AğlarıYapay Sinir Ağları
İşlevin gerçekleştirilmesi
Ses tanıma sisteminin, giriş olarak Ses tanıma sisteminin, giriş olarak aldığı ses sinyalinden çıkarımını aldığı ses sinyalinden çıkarımını yaptığı, eşleştirilen kelimeye karşılık yaptığı, eşleştirilen kelimeye karşılık gelen işlevin gerçekleştirilmesi.gelen işlevin gerçekleştirilmesi.
LPC – Linear Predictive LPC – Linear Predictive CodingCoding
LPC, sıradaki örneğin, önceki bir seri örnekten yaklaşık olarak elde LPC, sıradaki örneğin, önceki bir seri örnekten yaklaşık olarak elde edilebileceği prensibiyle çalışır (Eş. 5).edilebileceği prensibiyle çalışır (Eş. 5).
pp : LPC kodlayıcı seviyesi: LPC kodlayıcı seviyesiaa11, a, a22, ... , a, ... , app : LPC Parametreleri: LPC Parametreleri
(3) (4)
(5) (6)
DTW – Dynamic Time DTW – Dynamic Time WarpingWarping
Şekil 5: Konuşma sinyaline doğrudan DTW algoritmasının Şekil 5: Konuşma sinyaline doğrudan DTW algoritmasının uygulanması [8].uygulanması [8].
LPC Parametreleri üzerine DTW LPC Parametreleri üzerine DTW uygulanmasıuygulanması
Şekil 6: LPC Parametreleri üzerine DTW algoritmasının uygulanması.Şekil 6: LPC Parametreleri üzerine DTW algoritmasının uygulanması.
Geliştirilen Ses Tanıma Sistemi Geliştirilen Ses Tanıma Sistemi ModeliModeli
Şekil 7: Geliştirilen Ses Tanıma Sistemi Modeli 1. Seviye diyagramıŞekil 7: Geliştirilen Ses Tanıma Sistemi Modeli 1. Seviye diyagramı
Geliştirilen Ses Tanıma Sistemi –Geliştirilen Ses Tanıma Sistemi –İş parçacıklarıİş parçacıkları
Ana İş ParçacığıAna İş Parçacığı Kuyruk AnalizcisiKuyruk Analizcisi İfade Kuyruğu Analizcisiİfade Kuyruğu Analizcisi LPC Kuyruğu AnalizcisiLPC Kuyruğu Analizcisi
KaynaklarKaynaklar [1][1] Rabiner, L., Juang, B., 'Fundamentals of Speech Rabiner, L., Juang, B., 'Fundamentals of Speech
Recognition', ISBN: 0-13-015157-2, 1993.Recognition', ISBN: 0-13-015157-2, 1993.
[2] Cole, R.A., Mariani, J., Uszkoreit, H., Zaenen, A. and [2] Cole, R.A., Mariani, J., Uszkoreit, H., Zaenen, A. and Zue, V., ‘Survey of the State of the Art in Human Zue, V., ‘Survey of the State of the Art in Human Language Technology’ Language Technology’ http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html, 1995http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html, 1995
[3] Huang, X., Acero, A. and Hon, H.W., ‘Spoken Language [3] Huang, X., Acero, A. and Hon, H.W., ‘Spoken Language Processing: A Guide to Theory, Algorithm and System Processing: A Guide to Theory, Algorithm and System Development’(1st Ed.) Prentice Hall PTR, ISBN 0-13-Development’(1st Ed.) Prentice Hall PTR, ISBN 0-13-022616-5, 2001.022616-5, 2001.
[4][4] Coleman, J., ‘Introducing Speech and Language Coleman, J., ‘Introducing Speech and Language Producing’, Cambridge University Press, ISBN 0-52-Producing’, Cambridge University Press, ISBN 0-52-153069-5, 2005.153069-5, 2005.
KaynaklarKaynaklar [5][5] Smith, S.W., ‘The Scientist’s and Engineer’s Guide Smith, S.W., ‘The Scientist’s and Engineer’s Guide
to Digital Signal Processing’(2nd Ed.) California Technical to Digital Signal Processing’(2nd Ed.) California Technical Publishing, ISBN 0-96-601764-1, 1999Publishing, ISBN 0-96-601764-1, 1999
[6][6] Robinson, T., ‘Speech Anaylsis Tutorial’,Robinson, T., ‘Speech Anaylsis Tutorial’,http://svr-www.eng.cam.ac.uk/~ajr/ SpeechAnalysis/, http://svr-www.eng.cam.ac.uk/~ajr/ SpeechAnalysis/, 1998.1998.
[7][7] Fingerhut, A., ‘U.S. Department of Defense LPC-10 Fingerhut, A., ‘U.S. Department of Defense LPC-10 2400 bps Voice Coder’, 2400 bps Voice Coder’, http://www.arl.wustl.edu/~jaf/lpc/lpc10-1.5.tar.gz, 1997.http://www.arl.wustl.edu/~jaf/lpc/lpc10-1.5.tar.gz, 1997.
[8][8] Kale K. R., ‘Dynamic Time Warping’, Kale K. R., ‘Dynamic Time Warping’, http://www.cnel.ufl.edu/~kkale/dtw.html, 2006.http://www.cnel.ufl.edu/~kkale/dtw.html, 2006.
Teşekkürler...Teşekkürler...
Murat Kemal BAYGÜNMurat Kemal BAYGÜNEgecom Ltd.Egecom Ltd.
[email protected]@egecom.net
Yard. Doç. Dr. A. Kadir YALDIRYard. Doç. Dr. A. Kadir YALDIRPamukkale ÜniversitesiPamukkale Üniversitesi
[email protected]@pau.edu.tr