Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Preview:

DESCRIPTION

Beszédfelismerés és beszédszintézis Beszédszintézis alapok. Takács György 2014. 03. 27. A hagyományos beszédtechnológia az alábbi négy fő technológiai területet foglalja magában:. 1. Az automatikus beszédfelismerés határozza meg, hogy milyen szavakat mondott ki a felhasználó. - PowerPoint PPT Presentation

Citation preview

Beszed. 2013.03.27. 1

Beszédfelismerés és beszédszintézis

Beszédszintézis alapok

Takács György

2014. 03. 27.

A hagyományos beszédtechnológia az alábbi négy fő technológiai területet foglalja magában:

• 1. Az automatikus beszédfelismerés határozza meg, hogy milyen szavakat mondott ki a felhasználó.

• 2. A szintaktikai elemzés és a szemantikai interpretáció segítségével elemezhető a felhasználó közlésének szintaktikai szerkezete, valamint leképezhető annak szemantikai interpretációja az adott endszer céljainak megfelelően.

• 3. A dialógusvezérlés az input nyelvi jellemzői, az adott felhasználó és feladat egyéni beállításai alapján valósítja meg a rendszer megfelelő lépését, az adatbázis-lekérdezést.

• 4. A beszédszintézis technológiáját alkalmazzák arra, hogy a gép előállítsa a megfelelő beszédkimenetet

Beszed. 2013.03.27. 2

A beszédtechnológia szolgáltatja az alapot olyan interfészek előállításához, amelyek lehetővé teszik, hogy a felhasználók a gépekkel természetes emberi nyelven, és ne csak grafikus felület, billentyűzet vagy egér segítségével kommunikáljanak.

A beszédszintézist alkalmazzák például autós navigációs rendszerekben és az okostelefonokban a grafikus felület alternatívájaként.

A legszélesebb körben használt magyar beszédszintetizátor a Profivox, amely 2002 óta elérhető, és amelyet több alkalmazásba is beépítettek: SMS- és e-mailfelolvasó szoftverbe, autós és mobiltelefonos GPS rendszerbe, valamint e-book és képernyőolvasó szolgáltatásba

Beszed. 2013.03.27. 3

Beszed. 2013.03.27. 4

Beszed. 2013.03.27. 5

Mi tehát a beszédszintézis?• A természetes beszédlánchoz képest a

beszédüzenetet küldő ember helyett egy intelligens eszköz (számítógép, telefonközpont, GPS alapú navigáló rendszer, mobiltelefon) kezdeményezi az üzenetet és beszédjel formájában közli a felfogó emberrel.

• Lehetőség szerint a beszédüzenet legyen természetes és érthető, mintha igazi ember mondta volna.

Beszed. 2013.03.27. 6

A beszédszintetizátorok alapvető osztályai

Beszed. 2013.03.27. 7

Megoldott kérdés-e a beszédszintézis, más szóval szöveg-

beszéd átalakítás?

Beszed. 2013.03.27. 8

Igen

• Mert termékként állnak rendelkezésre megoldások.

• Mert jobb rendszerek beépített eleme (pl. OTP számlaegyenleg felolvasó, Hangposta, Windows XP, pályaudvari bemondó)

• Mert könyvek leírják, iskolában tanítják….

Beszed. 2013.03.27. 9

Példa az XP rendszerben!

• Vezérlőpult/beszéd • ….

Beszed. 2013.03.27. 10

Megoldott kérdés-e a beszédszintézis, más szóval szöveg-

beszéd átalakítás?

Beszed. 2013.03.27. 11

NEM!

• Mert nem szeretik!

• Mert nem használják!

• Mert nem hozott komoly üzleti eredményt senkinek!

Beszed. 2013.03.27. 12

Beszed. 2013.03.27. 13

Beszed. 2013.03.27. 14

Elfogadjuk az ilyen szintetikus beszédet? Ha nem, akkor miért

nem?

Beszed. 2013.03.27. 15

Az én válaszaim

• Nem is lehetett mindent megérteni (pl. 4:14 „A Reuters jelentése szerint a robbanás a Bagdad Karrada kerületében található Dzsabal Lubnan (Libanoni-hegység) szállodát döntötte romba.”)

• A szöveg-beszéd átalakítás nem „értette” azt amit mond. Azt sem tudta, hogy nekem mi lehet megértési probléma!

• Akadtak tényleges kiejtési hibák is!• A beszéd több, mint elemek egymásutánisága!

Hiányzottak a beszédfolyamat szükséges további tényezői közül a finom hangsúly, a dallam, a szünetek, a ritmus, a tempóváltások. Ezek az értelmezést is segítik, a beszédet emberivé, széppé teszik.

Beszed. 2013.03.27. 16

Friss hírek a hangportálon (2005. 03.30.)

Hosszabb híranyagcsemege1

csemege2

csemege3

csemege4

csemege5

Beszed. 2013.03.27. 17

Beszed. 2013.03.27. 18

Érdekesebb helyek a hálón!

• http://www.research.att.com/~ttsweb/tts/demo.php#top

• http://sayso.elan.fr/interactive_va.asp

• http://www.vakalap.hu

Beszed. 2013.03.27. 19

A beszédszintézis alapelemei ma• Általános alapeszköz a PC - bőséges operatív memóriával,

háttértárral, hangkártyával.• Természetes beszéd alapelemeit tárolják, módosítják,

összefűzik (concatenation).• Mik legyenek a tárolt alapelemek? Teljes közlendő,

mondatok, szavak, szótagok, hangok?• Mik legyenek az összefűzési szabályok.• Hogyan lehet olyan elemeket kialakítani, amelyek jól

összefűzhetők és a prozódiai elemek is ráépíthetők?• Mi az, amit át kell „fogalmazni”, előre le kell „fordítani”

írásból beszédre felolvastatás előtt. Ami jó írott hír, az lehet nem jó emberi felolvasásra sem!

• Tehát hogyan lehet gépileg „érteni” a szöveget.

Beszed. 2013.03.27. 20

Néhány beszédminta elmélkedésre

• Nehezen érthető beszéd

• Jól érthető beszéd, pedig énekelt…..

Beszed. 2013.03.27. 21

A beszédhangok folytonos és diszkrét természete

Beszed. 2013.03.27. 22

Összefűzéses beszédszintézis• A szintézis minősége annál jobb, minél kevesebb

vágási ponttal áll össze a végső beszédrészlet.• Ehhez nagyon nagy anyagot kel felvenni és ebből

nehéz összeválogatni a legalkalmasabb elemeket.• Ha kicsi az elemméret (pl. diád) nagyon sok az

összefűzés.• A prozódiai jellemzőket is rá kell ültetni

(intenzitás, dallam, ritmus stb.)• Nem csak a prozódiai jellemzők ráültetésének

kivitelezése nehéz, hanem a tervezés a szöveg alapján.

Beszed. 2013.03.27. 23

Prozódiai elemek ráültetése hullámformaként tárolt és összefűzött elemekre

• PSOLA módszer (Pitch Synchronous Overlap Add)

• Első lépésben a zöngehelyek (pitch mark) kijelölése

• Második lépés a periódusok fázisviszonyainak átállítása koszinuszos összetevőkre – ez egy nem hallható manipuláció

• Harmadik lépésben a periódusok összébb tolhatók vagy széthúzhatók a dallamterv szerint.

• Az időtartamok periódusok ismétlésével vagy kihagyásával módosíthatók

Beszed. 2013.03.27. 24

Technical detailsMoulines & Charpentier, 1990

original waveform

windowed waveform

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

1 4 7 10 13 16 19

shortened waveform

1 3 5 7 9 11 13 15 17 19

waveform with lower F0

Beszed. 2013.03.27. 25

Technical details 1Segmental durations

• Segment alignment & PSOLA processing of durations: Alignment can be manual or automatic (with the help of speech recognition)

k eI m i n “…came in…”native

k eI i nnon-native m

stre

tch sh

rin

k

Beszed. 2013.03.27. 26

Technical details 1+2Segmental durations + F0 contour

• PSOLA processing of F0 on duration-treated utterance

k eI m i nnative

non-native k eI m i n

native F0

non-native F0

Beszed. 2013.03.27. 27

Technical details 1+3Segmental durations + intensity contour

• Segment alignment & PSOLA processing of duations followed by intensity contour transfer

k eI m i nnative

k eI i nnon-native m

native intensity

non-native intensity

stre

tch sh

rin

k

Beszed. 2013.03.27. 28

Technical details 2+3 F0 contour + intensity contour

• “Reverse” segment alignment & PSOLA processing of F0 followed by intensity contour transfer

k eI m i nnative

k eI i nnon-native m

stretc

hshrin

k

native F0

non-native F0

native intensity

non-native intensity

Beszed. 2013.03.27. 29

Technical detailsExample

Praat script

native utterance

non-native utterance

synthetic non-native(durations+F0+intensity)

synthetic non-native(durations+intensity)

synthetic non-native(F0+intensity)

Beszed. 2013.03.27. 30

Technical detailsComparison before synthesis – duration, F0 & intensity

native utterance

non-native utterance

(blue & yellow)

Beszed. 2013.03.27. 31

Technical detailsComparison after synthesis – duration, F0 & intensity

native utterance

synthetic non-native

(blue & yellow)

Beszed. 2013.03.27. 32

Technical detailsComparison after synthesis – duration & intensity

native utterance

synthetic non-native

(blue & yellow)

Beszed. 2013.03.27. 33

PSOLA pitch-módosítás példa (időszerkezet maradt)

• Ének eredeti:

• Ének módosított:

• Ének „kiegyenesítve”:

Beszed. 2013.03.27. 34