Automatic Speech Recognition (seminarium)

Embed Size (px)

Text of Automatic Speech Recognition (seminarium)

  • 1. Historia automatycznego rozpoznawania mowy
    • Na podstawie:
  • Automatic Speech Recognition- a Brief History of the Technology Development B.H. Juang & Lawrence R. Rabiner Arkadiusz Janicki seminarium na przedmiot: Automaty z wagamiprowadzcy: Sebastian Bala Uniwersytet Wrocawski, zima 2008

2. Skrty i pojcia

  • ASR- automatic speech recognition - automatyczne rozpoznawanie mowy
  • rozpoznawacz mechanizm (system, algorytm) do automatycznego rozpoznawania mowy.(Nie ma takiego sowa w sowniku PWN, ale wydaje si by utworzone wg poprawnych regu. Myl, e p. Miodek by mnie nie skrzycza.)

3. Po co nam rozpoznawacze mowy? Motywacje

  • wyzwanie samo w sobie!
  • ciekawo mechanizmw pozwalajcych na zautomatyzowanie procesu mwienia
  • usprawnienie komunikacji pomidzy czowiekiem a komputerem
  • zaprojektowanie maszyny z ktr mona by porozumiewa si w jzyku naturalnym (najwygodniejszym do wikszoci zada)

4. Historia 5. 1773 - Christian Kratzenstein

  • rosyjski naukowiec, wytumaczy fizjologicznernice odpowiedzialne za rne brzmienie samogosek, oraz zaprezentowa aparat generujcy dwiki za pomoc rur rezonansowych podczonych do organw (np. kocielnych)

6. 1791 - Wolfgang von Kempelen

  • Acoustic-Mechanical Speech Machine

7. 1879 - Charles Wheatstone

  • rezonator zrobiony ze skry - mona byo rcznie modulowa gos

8. 1877 Gadajca lala - Thomas Edison 9. 1881 A.G. Bell, C. Bell i C.S. Tainter

  • dyktafon - woskowa pyta
  • automatyzacja biura - dyktowanie tekstw dla stenotypistek

10. 1922 - Fletcher et al.@ Bell Laboratories

  • dokumentacja zwizku pomidzy spektrum gosu (rozkad siy dwiku pomidzy czstotliwociami), oraz informacje o tym jak gos jest odbierany przez czowieka.

11. 1930 - Homer Dudley - VODER

  • Zafascynowany prac Fletchera stworzy VODERA Voice Operating DemonstratoR

12. VODER UI:

  • nadgarstek: pasek wyboru- relaxation oscylator lub szum
  • noga: peda do kontrolowania czstotliwoci oscylatora (tonacji gosu syntezatora).
  • palce: 10 filtrw siy dwiku w danej czstotliwoci

13. 14. VODER podczas 'World Fair' New York, 1939

  • wielki krok w ewolucji maszyn mwicych

15. 1961 - IBM 7094 - pierwszy piewajcy komputer

  • Bell Laboratories - John Kelly, Carol Lockbaum, Max Mathews
  • Arthur C. Clarke by przypadkowym gociem podczas demonstracji, co zaskutkowao umieszczeniem piosenki w Odysei Kosmicznej 2001

16. Daisy, Daisy...

  • HAL 9000 piewa t piosenk gdy Dave Bowman "przecza go na stan upienia"
  • (...) Daisy, Daisy, give me your answer do I'm half crazy all for the love of you It won't be a stylish marriage I can't afford a carriage But you'll look sweet upon the seat Of a bicycle made for two(...)

17. Rozpoznawanie gosu

  • wczesne techniki bazoway na teorii akustyczno-fonetycznej i zrozumieniu jak gos jest generowany podczas wypowiedzi.
  • np. aby wygenerowa samogosk struny gosowe musz wibrowa. naturalne czstotliwoci zwane formantami, lub czstotliwociami formantowymi (formant frequencies) s widoczne jako due skupiska energii na diagramach czstotliwoci

18. 19. 1952 - Davis, Biddulph, and Balashek @ Bell Laboratories

  • rozpoznawacz cyfr dla jednego uytkownika, pniej 10 sylab
  • Forgie and Forgie & MIT Lincoln Lab rozpoznawacz 10 samogosek dla wielu uytkownikw

20. 21. 1959 - Fry, Denes@ University College, England

  • rozpoznawacz fonemw - 4 samogoski, 9 spgosek
  • dodajc informacjestatystycznezwikszyli poprawno dla sw skadajcych si z 2 lub wicej fonemw
  • pierwsze uycie skadnistatystycznej(na poziomie fonemw)

22. 1960s - japoski hardware

  • rozpoznawacz cyfr - NEC Laboratories 1963
  • rozpoznawacz samogosek - Suzuki and Nakata @ the Radio Research Lab in Tokyo 1961
  • rozpoznawacz fonemw - Sakai and Doshita@ Kyoto University 1962
    • segmentowaniewypowiedzi i analiza rnych porcji danych
    • prekursor rozpoznawaniamowy cigej(continuous speech recognition)

23. Tom Martin @ RCA Laboratories

  • alternatyw dla segmentowania byo uycie niejednorodnej skali czasu
  • Tom Martin @ RCA Laboratories
  • tymczasowa niejednorodno przy powtrzeniach, wykrywanie zakocze wypowiedzi, ...

24. Vintsyuk @ ZSRR 1968

  • uyciedynamicznego programowaniado lepszego dopasowania czasu midzy dwiema wypowiedziami poprawiao jako oceny ich podobiestwa.
  • jego praca, chocia mao znana na zachodzie, wydaje si wyprzedza osignicia Sakoe i Chiba [18] i innych, ktrzy zaproponowali bardziej formalne metody, znane jako dynamiczne wygicia czasu w dopasowaniu wzorca w mowie.

25. Programowanie dynamiczne

  • od pnych lat 70-tych, gwnie dziki publikacji Sakoe i Chiba programowanie dynamiczne w przernych formach stao si nieodzownym elementem systemw ASR.

26. ARPA rozdaje granty ('70)

  • Advanced Research Projects Agency (ARPA) of the U.S. Department of DefensefundujeSpeech Understanding Research (SUR)
  • Carnegie Mellon Universitys Harpy - pierwszy system wykorzystujcy sieci stanw (finite state network FSN)
  • rozpoznawany jzyk by dostarczony jako poczona sie stworzona na podstawie danych sownikowych z syntaktycznymi reguami produkcji i zakresami sw.

27. Fred Jelinek, IBM

  • voice-activated typewriter (VAT), system transkrypcji dla jednego uytkownika
  • skupiono si na wielkoci sownika - tak duego jak si da i strukturze modelu jzyka (gramatyce).
  • statystyczne zasady syntaktyczne definioway z jakim prawdopodobiestwem sekwencja symboli (sw lub fonemw) moga pojawi si w wypowiedzi.

28. n-gramy

  • zestaw zasad statystycznych nazywano 'modelem jzyka' i do jego reprezentacji najczciej uywano modelu'n-gramw'
  • model n-gramw definiowa zalenoci w zakresie n sw - jest to bardzo wygodna i mocna statystyczna reprezentacja gramatyki
  • Claude Shannon 1948 - zawody pomidzy czowiekiem a komputerem. zadanie: odgadnicie kolejnego sowa w zdaniu. komputer bazowa na wiedzy statystycznejn-gramw o dugoci 3 i mia znaczn przewag nad czowiekiem.

29. AT&T Bell Laboratories

  • zautomatyzowane usugi telekomunikacyjne (wybieranie gosowe, przeczanie rozmw, etc.)
  • dua wydajno - system mia dziaa dla dziesitkw milionw amerykanw,
  • speaker-independent - bez potrzeby trenowania systemu dla indywidualnego uytkownika, bez wzgldu na jego ton gosu czy akcent

30. AT&T Bell Laboratories

  • efektem bya caa gama algorytmw do tworzenia wzorcw sw i wyrazw, ktre rozpoznawayby sowo niezalenie od gosu czy akcentu.
  • badania nad zrozumieniem akustycznej rnorodnoci gosw zaskutkowao wynalezieniem metod mierzenia odlegoci spektralnej (np. odlego Itakury[22])
  • 'keyword spotting' - prosta forma rozumienia wypowiedzi.

31. 1980s

  • zmiana metodologii z bardziej intuicyjnych metod opartych na wzorcach, na bardziej rygorystyczne rodowiska modelowania statystycznego (statistical modeling framework).
  • w poowie lat '80 pojawiy si publikacje dotyczce HMM
  • od tego czasu, do dzi HMM s podstawowym narzdziem wykorzystywanym w ASR, gwnie ze wzgldu na stay rozwj i cige usprawnienia tej technologii

32. HMM Hidden Markov Model(ukryty model Markova)

  • HMM to podwjny proces stochastyczny modelujcy: 1) specyficzne zachowania sygnau gosowego wraz ze spektralnymi efektami 2) struktur jzyka w SMF (statistical modeling framework). Za pomoc prbek uczcychi algortymu Baum'a-Welch'a, tworzymy najlepsz sie odpowiadajc danemu modelowi.

33. 34. HMM

  • poczenie HMM i skoczonej sieci stanw byo kolejnym wanym osigniciem '80
  • w kadej chwili jest sprawdzanych wiele hipotetycznych moliwoci zidentyfikowania dwiku i wybierana jest ta o najlepszym wyniku
  • liczba hipotez do sprawdzenia moe by ogromna i moe wymaga wielkiej mocy obliczeniowej
  • finite state transducer - opracowana w poowie lat 90 staa si gwnym komponentem prawie wszystkich wspczesnych systemw rozpoznawania i rozumienia mowy.

35. artificial neural networks (ANN)

  • ponowne prby w pnych latach '80
  • sukcesy z rozpoznawanie pojedynczych cyfr
  • jednak ograniczenia wynikajce ze specyfiki danych (czasowa zmienno)
  • aktualnie trwaj prace nad poczeniem ANN i HMM

36. Lata '90 - wiele innowacji

  • pattern recognition przeszo w problem optymalizacyjny, w ktrym starano si minimalizowa empirical recognition error [44].
  • uzmysowiono sobie, e rozkad funkcji gosu nie moe by dokadnie wyznaczony, ani zdefiniowany, wic Bayes'owska teoria decyzyjna jest w tym przypadku nieodpowiednia
  • celem rozpoznawacza powinno by osignicie jak najmniejszego bdu podczas rozpoznawania, a nie najlepsze dopasowanie do zadanego zestawu danych.
  • wynik: zastosowanie discriminative training, support vector machines (SV