Pyž, Gražina „Lietuviškų fonemų dinaminių modelių analizė ir sintezė“

Preview:

DESCRIPTION

Pranešimas XVI kompiuterininkų konferencijos sekcijoje „Lietuvių kalba kompiuterinėse technologijose“, „Kompiuterininkų dienos – 2013“, Šiauliai 2013-09-21

Citation preview

Lietuviškų fonemų dinaminių modelių analizė ir sintezė

Kompiuterininkų dienos 2013, Šiauliai

Gražina Pyž1

Virginija Šimonytė2

Vytautas Slivinskas2

1 VU Matematikos ir informatikos institutas

2 Lietuvos edukologijos universitetas

Tyrimų sritis

Kalbos sintezės metodai:

• Konkatenacinė sintezė • Formantinė sintezė

Konkatenacinė sintezė remiasi į duomenų bazę įrašytais natūralios kalbos segmentais, kurie sintezės metu yra jungiami į žodžius.

Formantinėje sintezėje šnekos išėjimas yra sukuriamas naudojant adityvią sintezę ir akustinį modelį.

2

Aktualios problemos

Garsai, sintezuoti formantinės sintezės metodu, skamba

nenatūraliai (panašiai kaip roboto šneka). Siekiant

sumažinti sintetinį skambėjimą, būtina kurti naujus kalbos

garsų matematinius modelius, kurie gali būti naudojami

kaip sintezatoriaus bazė.

3

4

Darbo tyrimo objektas

Darbo tyrimo objektas yra dinaminiai lietuviškos

šnekos balsių ir pusbalsių fonemų modeliai.

Tyrimo metodika

• Skaitmeninis signalų apdorojimas,

• sistemų teorija,

• optimizavimo metodai,

• matricų teorija,

• matematinė statistika,

• programavimas Matlab aplinkoje,

• programavimas C # kalba.

5

Praktinė darbo reikšmė

Pasiūlyti balsių ir pusbalsių fonemų dinaminiai modeliai gali

būti panaudoti kuriant formantinį kalbos sintezatorių.

Fonemų modeliai taip pat gali būti pritaikyti kitoms

problemoms spręsti, pavyzdžiui, gydant kalbos sutrikimus,

mokantis užsienio kalbų ar taisyklingo žodžių tarimo.

6

7

Lietuvių kalbos fonemos

Balsių fonemos• Trumpas nekirčiuotas balsis (mama)

• Trumpas kirčiuotas balsis (lazda)

• Ilgas nekirčiuotas balsis (drąsa)

• Ilgas balsis kirčiuotas dešininiu kirčio ženklu (kardas)

• Ilgas balsis kirčiuotas riestiniu kirčio ženklu (ačiū)

8

Balsių fonemų pagrindinio tono kitimo tendencijos

9

"a" "e" "ė" "i" "o" "u"150

170

190

210

230

250

270

Trumpas nekirčiuotas balsis Trumpas kirčiuotas balsis

Ilgas nekirčiuotas balsis Ilgas balsis kirčiuotas dešininiu kirčio ženklu

Ilgas balsis kirčiuotas riestiniu kirčio ženklu

Pag

rind

inis

ton

as [

Hz]

Pusbalsių fonemos• Nekirčiuotas pusbalsis (valsas)

• Kirčiuotas pusbalsis (vil 0kas)

• Minkštas nekirčiuotas pusbalsis (valia)

• Minkštas kirčiuotas pusbalsis (gul 0ti)

10

11

Pusbalsių fonemų pagrindinio tono kitimo tendencijos

"j" "l" "m" "n" "r" "v"150

170

190

210

Nekirčiuotas pusbalsis Kirčiuotas pusbalsis

Minkštas nekirčiuotas pusbalsis Minkštas kirčiuotas pusbalsis

Pag

rind

inis

ton

as [

Hz]

Balsiai ir pusbalsiai – periodiniai signalai

B a l s i s /a/

P u s b a l s i s /m/

12

Siūlomi sintezės metodai

• Harmoninis

Fonemos signalas išskaidomas į harmonikas

• Formantinis

Fonemos signalas išskaidomas į formantes

13

14

Fonemos signalo padalinimas į harmonikas

Tuo tikslu skaičiuojama signalo Furjė transformacija ir signalas dalinamas į dažnių juostas:

Amplitudinės dažnuminės charakteristikos

padalinimas į dažnių juostas (1)

15

Am

plitu

dė [

vnt.]

Dažnis [Hz]

15

16

16

Amplitudinės dažnuminės charakteristikos

padalinimas į dažnių juostas (2)

17

Am

plitu

dė [

vnt.]

Dažnis [Hz]

17

Pirmosios trys fonemos /a:˜/ harmonikos

18

18

19

Fonemos signalo padalinimas į formantes

Formantės – spektro gaubtinės maksimumai

Am

plitu

dė [

dB]

Dažnis [Hz]

Pirmosios trys fonemos /a:˜/ formantės

20

20

Fonemos signalo modelio diagrama

21

t) – k-ojo kanalo impulsinė charakteristika

t) – k-ojo kanalo įėjimų seka

k = 1, ..., K; čia K – kanalų skaičius

Impulsinės charakteristikos modelis

22

Signalo išskaidymas į bazinių signalų matricą ir koeficientų vektorių (1)

23

Vektorius gali būti išreikštas kaip matricos ir vektoriaus sandauga:

TN Nyyyy )1(,),2(),1(),0( y fonemos signalo atskaitos

Ny Ψ α

αΨy )(N

Tkkkkkkkkkkkkk AAAAAA )cos(),sin(),cos(),sin(),cos(),sin( 333322221111 α

čiaTT

KTT ][ 21 αααα

)(Ψ bazinių signalų matrica

KK ,,,, 11 θ

....,,1,

,

,

,

,2

233

22

11

KktaA

taA

aA

t

tf

kk

kk

kk

kk

kk

koeficientų vektorius

24

TM Myyyy )1(,),2(),1(),0( y vieno fonemos periodo atskaitos

eαθΦy )(M

𝚽=𝚿 (1:𝑀 , :)+𝚿 (𝑀+1: 2𝑀 ,: )+𝚿 (2𝑀+1 :3𝑀 ,: )

Prielaida: impulsinė charakteristika užgęsta po trijų periodų

Signalo išskaidymas į bazinių signalų matricą ir koeficientų vektorių (2)

Charakteringojo periodo išrinkimas (1)

25

Periodas, kurio amplitudė didžiausia, laikomas charakteringuoju periodu

26

Charakteringojo periodo išrinkimas (2)

Laikas [s]

Am

plitu

dė [

vnt.]

Impulsinės charakteristikos parametrų įvertinimas

27

Ieškome tokio parametrų vektoriaus įverčio , kuris minimizuotų funkcionalą

27

,2

2MyPr θΦθ

.1 ΦΦΦΦΦΦθΦ MM ΙP

čia yra ortogonalus projektorius į matricos stulpelių erdvės ortogonalų papildinį

Levenbergo-Markvarto metodas (Levenberg, 1944; Marquardt, 1963)

28

,1,0,1

2

1 lc llT

Kl

llTll θbθVIθVθVθθ

D

.yPθb θΦ,001.0lc

,

,yPθV θΦ

D

Iteracinė parametrų įvertinimo lygtis:

čia

T)( BΦPBΦPP θΦθΦθΦ DDD

G. Golub, V. Pereyra parodė, kad:

čia B yra matricos apibendrinta atvirkštinė matrica

29

Impulsinių charakteristikų parametrų įvertinimo algoritmas

29

Vieno-įėjimo ir vieno-išėjimo sistema su vienetinių impulsų įėjimais

Jei į sistemos įėjimą paduosime vienetinius impulsus

vienodais laiko tarpais, išėjime gausime signalą su

identiškais periodais

30

Fonemos signalo modelio diagrama

31

t) – k-ojo kanalo impulsinėcharakteristika

t) – k-ojo kanalo įėjimų seka

k=1, ..., K, čia K – kanalų skaičius

1) Fonemos signalas dalinamas į periodus ir užfiksuojami padalinimo taškai

2) Fonemos signalo komponentės dalinamos į periodus

3) Perioduose surandami lokalūs maksimumo taškai

32

Sistemos įėjimų parinkimas

Laikas [s]

Am

plitu

dė [

vnt.]

Pirmų trijų fonemos /a:˜/ MISO sistemos kanalų įėjimai

33

Bendra įėjimų kreivė

34

Laikas [s]

Am

plitu

dė [

vnt.]

– maksimali įėjimo reikšmė, – maksimalios reikšmės laiko momentas, – fonemos ilgis

Eksperimentiniai tyrimai

Eksperimentuose naudojamos realių garsų atskaitos

Garso formato parametrai: PCM 48 kHz, 16 bitų; stereo

35

Balsių ir pusbalsių modeliavimas harmoniniu ir formantiniu metodais

28 balsių fonemos

36

19 pusbalsių fonemų

Fonemos /a/ tikro ir modelinio signalų spektrai

37

Balsių modeliavimo tikslumas

38

Harmoninis metodas

Formantinis metodas

Pusbalsių modeliavimo tikslumas

39

Harmoninis metodas

Formantinis metodas

40

Rezultatai ir išvados1. Lietuvių kalboje yra devyniasdešimt dvi fonemos. Dvidešimt

aštuonios iš jų yra balsių fonemos, devyniolika – pusbalsių fonemos. Balsiai ir pusbalsiai yra periodiniai signalai.

2. Nekirčiuotų balsių ir pusbalsių fonemų pagrindiniai tonai yra didesni už tų pačių kirčiuotų balsių ir pusbalsių fonemų pagrindinius tonus.

3. Harmoninis metodas naudoja aukštesnės eilės modelius su didesniu parametrų skaičiumi palyginus su formantiniu metodu, tačiau garsai sintezuoti harmoniniu metodu skamba natūraliau. Visų vyriškų ir moteriškų balsių signalų spektrų vidutinių kvadratinių paklaidų vidurkis yra lygus 13.9 % formantinio metodo atveju ir 12.4 % harmoninio metodo atveju. Visų vyriškų ir moteriškų pusbalsių signalų spektrų vidutinių kvadratinių paklaidų vidurkis yra lygus 19.9 % formantinio metodo atveju ir 16.7 % harmoninio metodo atveju.

Ačiū už dėmesį

Recommended