41
Lietuviškų fonemų dinaminių modelių analizė ir sintezė Kompiuterininkų dienos 2013, Šiauliai Gražina Pyž 1 Virginija Šimonytė 2 Vytautas Slivinskas 2 1 VU Matematikos ir informatikos institutas 2 Lietuvos edukologijos universitetas

Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Embed Size (px)

DESCRIPTION

Pranešimas XVI kompiuterininkų konferencijos sekcijoje „Lietuvių kalba kompiuterinėse technologijose“, „Kompiuterininkų dienos – 2013“, Šiauliai 2013-09-21

Citation preview

Page 1: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Lietuviškų fonemų dinaminių modelių analizė ir sintezė

Kompiuterininkų dienos 2013, Šiauliai

Gražina Pyž1

Virginija Šimonytė2

Vytautas Slivinskas2

1 VU Matematikos ir informatikos institutas

2 Lietuvos edukologijos universitetas

Page 2: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Tyrimų sritis

Kalbos sintezės metodai:

• Konkatenacinė sintezė • Formantinė sintezė

Konkatenacinė sintezė remiasi į duomenų bazę įrašytais natūralios kalbos segmentais, kurie sintezės metu yra jungiami į žodžius.

Formantinėje sintezėje šnekos išėjimas yra sukuriamas naudojant adityvią sintezę ir akustinį modelį.

2

Page 3: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Aktualios problemos

Garsai, sintezuoti formantinės sintezės metodu, skamba

nenatūraliai (panašiai kaip roboto šneka). Siekiant

sumažinti sintetinį skambėjimą, būtina kurti naujus kalbos

garsų matematinius modelius, kurie gali būti naudojami

kaip sintezatoriaus bazė.

3

Page 4: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

4

Darbo tyrimo objektas

Darbo tyrimo objektas yra dinaminiai lietuviškos

šnekos balsių ir pusbalsių fonemų modeliai.

Page 5: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Tyrimo metodika

• Skaitmeninis signalų apdorojimas,

• sistemų teorija,

• optimizavimo metodai,

• matricų teorija,

• matematinė statistika,

• programavimas Matlab aplinkoje,

• programavimas C # kalba.

5

Page 6: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Praktinė darbo reikšmė

Pasiūlyti balsių ir pusbalsių fonemų dinaminiai modeliai gali

būti panaudoti kuriant formantinį kalbos sintezatorių.

Fonemų modeliai taip pat gali būti pritaikyti kitoms

problemoms spręsti, pavyzdžiui, gydant kalbos sutrikimus,

mokantis užsienio kalbų ar taisyklingo žodžių tarimo.

6

Page 7: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

7

Lietuvių kalbos fonemos

Page 8: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Balsių fonemos• Trumpas nekirčiuotas balsis (mama)

• Trumpas kirčiuotas balsis (lazda)

• Ilgas nekirčiuotas balsis (drąsa)

• Ilgas balsis kirčiuotas dešininiu kirčio ženklu (kardas)

• Ilgas balsis kirčiuotas riestiniu kirčio ženklu (ačiū)

8

Page 9: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Balsių fonemų pagrindinio tono kitimo tendencijos

9

"a" "e" "ė" "i" "o" "u"150

170

190

210

230

250

270

Trumpas nekirčiuotas balsis Trumpas kirčiuotas balsis

Ilgas nekirčiuotas balsis Ilgas balsis kirčiuotas dešininiu kirčio ženklu

Ilgas balsis kirčiuotas riestiniu kirčio ženklu

Pag

rind

inis

ton

as [

Hz]

Page 10: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Pusbalsių fonemos• Nekirčiuotas pusbalsis (valsas)

• Kirčiuotas pusbalsis (vil 0kas)

• Minkštas nekirčiuotas pusbalsis (valia)

• Minkštas kirčiuotas pusbalsis (gul 0ti)

10

Page 11: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

11

Pusbalsių fonemų pagrindinio tono kitimo tendencijos

"j" "l" "m" "n" "r" "v"150

170

190

210

Nekirčiuotas pusbalsis Kirčiuotas pusbalsis

Minkštas nekirčiuotas pusbalsis Minkštas kirčiuotas pusbalsis

Pag

rind

inis

ton

as [

Hz]

Page 12: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Balsiai ir pusbalsiai – periodiniai signalai

B a l s i s /a/

P u s b a l s i s /m/

12

Page 13: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Siūlomi sintezės metodai

• Harmoninis

Fonemos signalas išskaidomas į harmonikas

• Formantinis

Fonemos signalas išskaidomas į formantes

13

Page 14: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

14

Fonemos signalo padalinimas į harmonikas

Tuo tikslu skaičiuojama signalo Furjė transformacija ir signalas dalinamas į dažnių juostas:

Page 15: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Amplitudinės dažnuminės charakteristikos

padalinimas į dažnių juostas (1)

15

Am

plitu

dė [

vnt.]

Dažnis [Hz]

15

Page 16: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

16

16

Page 17: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Amplitudinės dažnuminės charakteristikos

padalinimas į dažnių juostas (2)

17

Am

plitu

dė [

vnt.]

Dažnis [Hz]

17

Page 18: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Pirmosios trys fonemos /a:˜/ harmonikos

18

18

Page 19: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

19

Fonemos signalo padalinimas į formantes

Formantės – spektro gaubtinės maksimumai

Am

plitu

dė [

dB]

Dažnis [Hz]

Page 20: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Pirmosios trys fonemos /a:˜/ formantės

20

20

Page 21: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Fonemos signalo modelio diagrama

21

t) – k-ojo kanalo impulsinė charakteristika

t) – k-ojo kanalo įėjimų seka

k = 1, ..., K; čia K – kanalų skaičius

Page 22: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Impulsinės charakteristikos modelis

22

Page 23: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Signalo išskaidymas į bazinių signalų matricą ir koeficientų vektorių (1)

23

Vektorius gali būti išreikštas kaip matricos ir vektoriaus sandauga:

TN Nyyyy )1(,),2(),1(),0( y fonemos signalo atskaitos

Ny Ψ α

αΨy )(N

Tkkkkkkkkkkkkk AAAAAA )cos(),sin(),cos(),sin(),cos(),sin( 333322221111 α

čiaTT

KTT ][ 21 αααα

)(Ψ bazinių signalų matrica

KK ,,,, 11 θ

....,,1,

,

,

,

,2

233

22

11

KktaA

taA

aA

t

tf

kk

kk

kk

kk

kk

koeficientų vektorius

Page 24: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

24

TM Myyyy )1(,),2(),1(),0( y vieno fonemos periodo atskaitos

eαθΦy )(M

𝚽=𝚿 (1:𝑀 , :)+𝚿 (𝑀+1: 2𝑀 ,: )+𝚿 (2𝑀+1 :3𝑀 ,: )

Prielaida: impulsinė charakteristika užgęsta po trijų periodų

Signalo išskaidymas į bazinių signalų matricą ir koeficientų vektorių (2)

Page 25: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Charakteringojo periodo išrinkimas (1)

25

Periodas, kurio amplitudė didžiausia, laikomas charakteringuoju periodu

Page 26: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

26

Charakteringojo periodo išrinkimas (2)

Laikas [s]

Am

plitu

dė [

vnt.]

Page 27: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Impulsinės charakteristikos parametrų įvertinimas

27

Ieškome tokio parametrų vektoriaus įverčio , kuris minimizuotų funkcionalą

27

,2

2MyPr θΦθ

.1 ΦΦΦΦΦΦθΦ MM ΙP

čia yra ortogonalus projektorius į matricos stulpelių erdvės ortogonalų papildinį

Page 28: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Levenbergo-Markvarto metodas (Levenberg, 1944; Marquardt, 1963)

28

,1,0,1

2

1 lc llT

Kl

llTll θbθVIθVθVθθ

D

.yPθb θΦ,001.0lc

,

,yPθV θΦ

D

Iteracinė parametrų įvertinimo lygtis:

čia

T)( BΦPBΦPP θΦθΦθΦ DDD

G. Golub, V. Pereyra parodė, kad:

čia B yra matricos apibendrinta atvirkštinė matrica

Page 29: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

29

Impulsinių charakteristikų parametrų įvertinimo algoritmas

29

Page 30: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Vieno-įėjimo ir vieno-išėjimo sistema su vienetinių impulsų įėjimais

Jei į sistemos įėjimą paduosime vienetinius impulsus

vienodais laiko tarpais, išėjime gausime signalą su

identiškais periodais

30

Page 31: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Fonemos signalo modelio diagrama

31

t) – k-ojo kanalo impulsinėcharakteristika

t) – k-ojo kanalo įėjimų seka

k=1, ..., K, čia K – kanalų skaičius

Page 32: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

1) Fonemos signalas dalinamas į periodus ir užfiksuojami padalinimo taškai

2) Fonemos signalo komponentės dalinamos į periodus

3) Perioduose surandami lokalūs maksimumo taškai

32

Sistemos įėjimų parinkimas

Laikas [s]

Am

plitu

dė [

vnt.]

Page 33: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Pirmų trijų fonemos /a:˜/ MISO sistemos kanalų įėjimai

33

Page 34: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Bendra įėjimų kreivė

34

Laikas [s]

Am

plitu

dė [

vnt.]

– maksimali įėjimo reikšmė, – maksimalios reikšmės laiko momentas, – fonemos ilgis

Page 35: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Eksperimentiniai tyrimai

Eksperimentuose naudojamos realių garsų atskaitos

Garso formato parametrai: PCM 48 kHz, 16 bitų; stereo

35

Page 36: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Balsių ir pusbalsių modeliavimas harmoniniu ir formantiniu metodais

28 balsių fonemos

36

19 pusbalsių fonemų

Page 37: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Fonemos /a/ tikro ir modelinio signalų spektrai

37

Page 38: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Balsių modeliavimo tikslumas

38

Harmoninis metodas

Formantinis metodas

Page 39: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Pusbalsių modeliavimo tikslumas

39

Harmoninis metodas

Formantinis metodas

Page 40: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

40

Rezultatai ir išvados1. Lietuvių kalboje yra devyniasdešimt dvi fonemos. Dvidešimt

aštuonios iš jų yra balsių fonemos, devyniolika – pusbalsių fonemos. Balsiai ir pusbalsiai yra periodiniai signalai.

2. Nekirčiuotų balsių ir pusbalsių fonemų pagrindiniai tonai yra didesni už tų pačių kirčiuotų balsių ir pusbalsių fonemų pagrindinius tonus.

3. Harmoninis metodas naudoja aukštesnės eilės modelius su didesniu parametrų skaičiumi palyginus su formantiniu metodu, tačiau garsai sintezuoti harmoniniu metodu skamba natūraliau. Visų vyriškų ir moteriškų balsių signalų spektrų vidutinių kvadratinių paklaidų vidurkis yra lygus 13.9 % formantinio metodo atveju ir 12.4 % harmoninio metodo atveju. Visų vyriškų ir moteriškų pusbalsių signalų spektrų vidutinių kvadratinių paklaidų vidurkis yra lygus 19.9 % formantinio metodo atveju ir 16.7 % harmoninio metodo atveju.

Page 41: Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Ačiū už dėmesį