38
T.Gy. Beszedfelism es szint. 2014.02.11. 1 Beszédfelismerés és beszédszintézis Takács György 1. előadás 2014. 02. 11.

Beszédfelismerés és beszédszintézis

Embed Size (px)

DESCRIPTION

Beszédfelismerés és beszédszintézis. Takács György 1. előadás 2014. 02. 11. A beszédtárgy szerepe a PPKE informatikus képzésben. A jelelméletről, kódelméletről, jelfeldolgozásról általában, képfeldolgozásról speciálisan, kommunikációs rendszerekről általában már sok ismeret összegyűlt. - PowerPoint PPT Presentation

Citation preview

Page 1: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

1

Beszédfelismerés és beszédszintézis

Takács György

1. előadás

2014. 02. 11.

Page 2: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

2

A beszédtárgy szerepe a PPKE informatikus képzésben

• A jelelméletről, kódelméletről, jelfeldolgozásról általában, képfeldolgozásról speciálisan, kommunikációs rendszerekről általában már sok ismeret összegyűlt.

• Egy jellegzetesen szintetizáló tárgy. Sokrétű alapon, sokfelé kitekintéssel dolgozik.

• A beszéd régebbi, hatékonyabb, emberibb kommunikációs forma, mint az írás!

• Az emberi beszédfolyamat másként összetett, mint a számítógépek folyamatai.

• A beszédtechnológiák másként összetettek, mint az írott-nyelv technológia.

Page 3: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

3

Mivel foglalkozik ez a tantárgy?• A beszéddel, mint akusztikai jelenséggel• A beszéddel, mint nyelvi jelenséggel• Az emberi beszédkeltés folyamatával• Az emberi beszédérzékelés folyamatával • Mesterséges beszédfunkciókkal és

alkalmazásokkal– Beszéd gépi felismerése– Mesterséges beszéd, beszédszintézis– Beszélő személy felismerése

• Beszédkódolással, beszédtömörítéssel

Page 4: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

4

Mivel nem foglalkozik ez a tantárgy (pedig szép és érdekes lenne -- s ha van komoly érdeklődő kutathat)

• A beszédfeldolgozás történeti kérdéseivel• A szép beszéddel (eufonetika)• Beszédtisztítással (speech enhancement)• Beszédmanipulációval (voice transformation)• Beszédkiejtés-javítás gépi segédeszközeivel• Sérültek beszédkommunikációját segítő eszközökkel• Hangfájlok szerkezetével, kezelésével, szerkesztésével….• Párbeszéd -rendszerekkel – amelynek elemei a természetes beszéd

megértése, a dialógus irányítása, a válaszok és kérdések generálása és kimondása.

• Beszéd gépi fordításával (spoken language translation)• Hallhatatlan beszéddel (silent speech)• Kulcsszavak keresésével a folyamatos beszédben (word spotting)• Magyar beszéd és a magyarok eredete…….

Page 5: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

5

Tantárgyprogram I.

Page 6: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

6

Tantárgyprogram II.

Page 7: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

7

Tankönyv, jegyzet, segédanyagok….• Előadások (szokás szerint) a honlapon

• Új tankönyv van, de nagyon vastag…

A régi elavult és nem kapható!

• Nagyon jó CD oktatóanyag van! Nyelvtudományi Intézet Fonetikai kutatólaboratóriuma készítette. Jogvédett! Csak korábbi böngészőkkel fut!!!!

Page 8: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

8

Tárgykövetelmények• Az előadásokat célszerű látogatni• A laboratóriumi gyakorlatok kötelezők• Minden mérési feladatot teljesíteni kell• Minden méréskor kicsi ZH (hogy ne jöjjenek

felkészületlenül – felkészülés a vonatkozó előadás alapján)• Szóbeli vizsga magyar nyelven, az aláírás feltétele :

eredményes ZH, teljesített mérések.• Lehet egyéni vállalást tenni (pl. mérés előkészítés stb.)• Érdeklődőknek korlátlan TDK lehetőségek• Önálló labor és szakdolgozat feladatok választhatók a

témában

Page 9: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

9

Néhány beszédminta elmélkedésre

• Nehezen érthető beszéd

• Jól érthető beszéd, pedig énekelt…..

Page 10: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

10

Miért különleges információhordozó a beszéd?

• Sötétben is mindent kifejez…• Álmunkban is megértjük….. Kb. 20dB szinttel halkabban

elég a nevünket hallani az ébredéshez, mint egyéb szöveget……

• Az ember információ befogadó sebessége kb. 50 bit/másodperc!!!!!!!!!! Ebből kb. 2/3 rész a hallás!!!!!!!!!!!!

• Óriási redundanciája van … a kabaré artikulálatlan hadarását is megértjük, de csak az anyanyelv és a háttérismeretek birtokosai!!!!!!!!!!!

• A nyelv (beszéd) segítségével szinte minden kifejezhető.

Page 11: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

11

Feladatmegoldás különböző kommunikációs módoknál

Page 12: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

12

Page 13: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

13

Page 14: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

14

Massachusetts Institute of Technology

Page 15: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

15

Page 16: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

16

Page 17: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

17

Institut de la Communication ParléeUMR CNRS 5009 - INPG -  Université StendhalINP Grenoble

Page 18: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

18

Page 19: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

19

Page 20: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

20

Page 21: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

21

Page 22: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

22

• ELTE BTK

• A Fonetikai Tanszékállandó (kötelező) és választható kurzusainak leírása

• Fonetika (szeminárium) Óraszám: 2 Kreditszám: 2• A fonetika vizsgálati területeinek, a beszéd szegmentális

(beszédhangok rendszere és sajátosságai) és szupraszegmentális szerkezetének (intonáció, hangsúly, tempó, szünet, hangszínezet, hangerősség), az elemzési lehetőségek megismerése; a fiziológiai, akusztikai és percepciós beszédvizsgálatok összefüggéseinek bemutatása, a fonetikai elemzés sajátosságainak elsajátíttatása.

Page 23: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

23

• Pszicholingvisztika (előadás) Óraszám: 1 Kreditszám: 2

• A pszicholingvisztika kialakulása, előzményei, kutatási területei, sajátos módszertana, elmélet és gyakorlat (pedagógia, pszichológia, mesterséges intelligencia) viszonya. A nyelv és a beszéd vezérlése: az agy, felépítése, agyműködési elméletek.

Page 24: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

24

• Kísérleti és alkalmazott fonetika - előadás, heti 2 óra.• Bevezető és összegző előadás, amely megismerteti a

hallgatót a tárgykörrel, a hazai és nemzetközi eredményekkel, kísérleti megközelítésekkel, valamint a megoldásra váró problémákkal. A tantárgy előkészíti a kísérleti fonetika artikulációs, akusztikai és percepciós vizsgálatának, valamint a beszédtechnológiai alapismereteknek (mesterséges beszédelőállítás, beszédfelismerés, a beszélő személy azonosítása, jelfeldolgozás stb.) az oktatását.

Page 25: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

25

• Beszédképzés és akusztikum I. - szegmentális fonetika - szeminárium, heti 2 óra

• A beszédhangok, hangkapcsolatok és hangsorok létrehozásának fiziológiai sajátosságait és annak akusztikai következményeit tárgyalja. A tantárgy a beszédhangok képzésével, a hangátmenetekkel, a koartikuláció jelenségével, illetőleg mindezek elemzési lehetőségeivel, kísérleti vizsgálatával foglalkozik.

• Beszédképzés és akusztikum II. - szupraszegmentális fonetika - szeminárium, heti 2 óra

• A kurzus a beszéd szupraszegmentumait (beszéddallam, hangsúly, tempó, ritmus, szünet, hangszínezet) tárgyalja a képzés és az akusztikai sajátosságok szempontjából, elemzési gyakorlatokkal.

Page 26: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

26

• Beszédtechnológia - szeminárium, heti 2 óra• A beszédkutatás eredményeinek egyfajta

gyakorlati alkalmazásaival foglalkozik. Kitér a beszédszintézis és a mesterséges beszédfelismerés fonetikai vonatkozásaira, a működő rendszerek ismertetésére, a jelfeldolgozás aktuális kérdéseire, valamint a beszélő személy felismerésének (azonosításának) fonetikai sajátosságaira.

Page 27: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

27

Page 28: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

28

A tanegység neve: Hangtan (fonetika)A tanegység kódszáma: GL 110

A felelős oktató neve: Szende Tamás, Szépe Judit

1. A hangtani leírás szintje: Fonetika és fonológia, egység és elhatárolás, Beszédhang ésfonéma, A fonetika tárgykörei: beszédképzés, beszédakusztika, beszédpercepció, A fonetikahagyományos módszerei: artikulációs és akusztikai vizsgálati eljárások – 2. A beszédképzőszervek és a zöngeképzés mechanizmusa: A beszédképző szervek funkciói, A beszédcsatornafelépítése, Alaphang és magánhangzó-minőség – 3. Az akadályképzés – 4. A beszédképzőszervek lehetséges működésmódjainak típusai: A forrás dimenziója, A képzőmozzanatokkeletkezési helyének, ill. a képzőszervek konfigurációinak a dimenziója, A működésmód, aműködésintenzitás dimenziója, A folyamatdimenzió – 5. A magánhangzók képzési dimenziói– 6. A mássalhangzók képzési dimenziói – 7. Artikulációs alapú mássalhangzó-osztályozás azakadály típusa, az akadályképzés helye szerint – 8. Fonetikai átírási rendszerek: Az IPA-átírás,A Setälä-féle átírás, Az egyezményes magyar átírás.Tankönyv, jegyzet:Kassai Ilona: Fonetika. Nemzeti Tankönyvkiadó, Budapest 1998.Szépe Judit: Hangtan. PPKE BTK, Piliscsaba 2000.

Page 29: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

29

• Mik a főbb fejlődési irányok?

• Meggazdagodott-e már valaki beszédfelismerés vagy beszédszintézis termékeken?

Page 30: Beszédfelismerés és beszédszintézis

Three Trends to Watch in 2013 [Speech Technology]

• In smartphone use, there's mounting interest in effectively using speech technology in multimodal and cross-channel environments. This development requires voice user interface (VUI) and graphical user interface (GUI) designers to work together and create fully integrated applications.

• The creation of voice-enabled virtual assistants for the enterprise. Unlike Siri, these virtual assistants are designed for business purposes. Siri is the intelligent personal assistant that helps you get things done just by asking. It allows you to use your voice to send messages, schedule meetings, place phone calls, and more. Siri is available for iPhone 5, iPhone 4S, iPad with Retina display, iPad mini, and iPod touch (5th generation).

• Voice biometrics -- "Your Voice Is Your Password„ -- voiceprints (hanglenyomat?)

T.Gy. Beszedfelism es szint. 2014.02.11.

30

Page 31: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

31

Page 32: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

32

Page 33: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

33

Page 34: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

34

Page 35: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

35

Page 36: Beszédfelismerés és beszédszintézis

T.Gy. Beszedfelism es szint. 2014.02.11.

36

Page 37: Beszédfelismerés és beszédszintézis

37T.Gy. Beszedfelism es szint. 2014.02.11.

Page 38: Beszédfelismerés és beszédszintézis

38T.Gy. Beszedfelism es szint. 2014.02.11.