Psiling Rad Final

PERCEPCIJA GOVORA- nacrt ispitnog rada iz psiholingvistike -

UVOD

Posmatrano iz istorijske perspektive, izučavanje slušne percepcije u velikoj meri kaska za

studijama u oblasti vida i vizuelne percepcije. Jedan od razloga svakako jeste taj što je vid naše

primarno čulo, dok je sluh od sekundarne važnosti. Međutim, možda važniji razlog leži u tome što

instrumenti koji se koriste za akustičke analize zahtevaju napredniju tehnologiju u poređenju sa

optičkim instrumentima. Sistematsko proučavanje percepcije govora postalo je moguće tek sa

pronalaskom prvih instrumenata za analizu i sintezu govora: zvučni spektrograf Potera i kolega,

tokom II Svetskog rata, Kuperov aparat za reprodukciju uzoraka govora. Uz pomoć ovih uređaja, kao i

uređaja koji su nastali u sledećim godinama, izučavanje govora je najzad moglo da se usredsredi na

prvi zadatak u okviru studija percepcije: definisanje stimulusa, odnosno fizičkih uslova pod kojima se

percepcija odvija.

Percepcija govora je složena kognitivna aktivnost interpretacije i razumevanja zvučnih signala

koji čine jedan jezik. Opažanje govora ne može se svesti na puko prepoznavanje celoviih auditivnih

obrazaca sastavljenih od pojedinih reči ili fraza; radi se pre o izdvajanju reči iz toka govora, kao i

segmenata iz izgovorenih reči. Stvar je u tome da slušalac prepoznaje zvučne obrasce kodirane od

strane osobe koja govori u akustički signal u skladu sa pravilim određenog jezika. Percepcija govora

je, za razliku od opšte audtivine percepcije, intrinzički intersubjektivni proces. Naša potreba, kao

slušaoca, da razumemo poruke koje dolaze od strane osobe sa kojom komuniciramo, dovodi do toga

da smo fokusirani na percepciju izgovorenih reči, a ne na sam način na koji su reči izgovorene. Kada,

sa druge strane, slušamo kako reči zvuče a ne samo šta znače, uključeni smo u proces percepcije

govora. Kod percepcije govora, pažnju usmeravamo na fonetske karkateristike govora, uočavamo

one fine fonetske detalje izgovora koji obično prolaze neprimećeno u svakodnevnoj govornoj

komunikaciji (Cole, 1973).

Sam proces percecije govora počinje na nivou detekcije zvučnog signala, koji se potom

procesuira kako bi se analizirale i sintetizovale njejgove akustičke i fonetske informacije, koje se zatim

mogu koristiti za više kognitivne procese, poput prepoznavanja reči i njihovog značenja. Govorni

signal istovremeno označava kraj procesa produkcije govora i početak procesa razumevanja

izgovorenog. Termini kao što su reč, fraza, slog, fonema, koje inače koristimo za opisivanje jezika i

jezičkih procesa, jesu samo eksplanatorni konstrukti kojima objašnjavamo ono što jeste podložno

opažanju, a to su pokreti govornog aparata i zvuk koji nastaje kao posledica tih pokreta (Sawusch,

2005).

Kognitivni procesi koji se nalaze u pozadini produkcije i razumevanja govora veoma su

kompleksni. Zapravo, govor je do te mere složen proces da, i nakon ogromnog broja istraživanja i

pokušaja, naučnici još uvek nisu uspeli da stvore mašinu ili kompjuter koji bi mogao da razume jezik,

odnosno govor, sa istom lakoćom sa kojom to čine ljudi. Percepcija govora uključuje kombinovanje

ne samo fonologije i fonetike, već i sintakse jednog jezika i semantiku izgovorene poruke. Adekvatna

govorna percepcija zahteva model koji će objediniti sve komponente govora i zatim proizvesti poruku

koja se može razumeti i shvatiti. Istraživači su u ovoj oblasti, tragajući za jednim sveobuhvatnim

objašnjenjem o tome na koji način percipirani akustički obrasci evociraju opažanje i razumevanje

poruka jednog jezika, razvili određene modele i teorije u okviru kojih se postuliraju različiti načini

odvijanja procesa percepcije govora, kao i različite praktične implikacije, pre svega u oblasti razvoja

veštačke inteligencije. Od samog početka izučavanja procesa percepcije govora, naučnici se

suočavaju sa nekim osnovnim pitanjima i problemima, oko kojih još uvek nema jedinstvenog gledišta.

Neki od bazičnih problema u ovoj oblasti jesu:

nepostojanje akustičko-fonetske invarijanse

Jedan od osnovnih problema sa kojim su se susreli istraživači u oblasti percepcije govora nakon

otkrića zvučnog spektrografa četrdesetih godina prošlog veka, a kako se ispostavilo, i dalje jedna

od centralnih tema u oblasti izučavanja govora, jeste nepostojanje akustičko-fonetske

invarijanse. Uprkos velikom broju istraživanja posvećenih ovom problemu, istraživači nisu uspeli

da identifikuju akustičke segmente i karakteristike govornog zvučnog talasa koji bi se savršeno

poklapali sa jedinicama dobijenim na osnovu perceptualne analize. Samo jedan segment

govornog signala često sadrži informacije o određenom broju susednih lingvističkih segmenata i

obrnuto, isti lingvistički segment je često akustički predstavljen na različite načine, zavisno od

prisutnog fonetskog konteksta, brzine kojom osoba govori, sintaksičkog okruženja . U poređenju

sa rečima produkovanim u izolaciji, akustičke karakteristike pojedinačnih zvuka govora, npr.

fonema, pokazuju još veću varijabilnost u povezanom, fluentnom govoru, prvenstveno zbog

uticaja postojećeg fonetičkog konteksta.

osnovne jedinice percepcije govora

U lingvističkom smislu, osnovna jedinica u govornoj komunikaciji je fonema, glas čijom se

zamenom u datoj reči menja njeno značenje. Recimo, zamenom glasa s u reči pesak glasom š,

dobijamo novu reč pešak. Većina postojećih modela razumevanja jezika polazi od pretpostavke

da se akustički signali prevode u neku vrstu posrednih jedinica koje se zatim koriste da bi se

pristupilo rečima koje čine jezički leksikon. Uprkos neslaganjima oko toga da li ulogu ovih

posrednih jedinica preuzimaju foneme, slogovi ili cele reči, veliki broj istraživača fokusiran je na

mapiranje akustičnih signala i njihovo preslikavanje u fonetske jedinice i fonetske

kategorije.Velika varijabilnost, inherentna akustičnom signalu, jeste ono što proces percepije

govora čini izuzetno kompleksnim. Slušalac se suočava sa izazovom prevođenja visoko

varijabilnog akustičnog signala u jedinice govora. Ova varijabilnost proizilazi iz više izvora.

Fluentnost kojom neka osoba govori utiče na karakteristike zvučnog signala koji dopire do

slušaoca. Ukoliko pođemo od analize govora u svakodnevnoj komunikaciji, mogli bismo zaključiti

da se prilikom produkcije govora pojedinačni glasovi javljaju sukcesivno kao diskretne jedinice,

na isti način na koji se slova sukcesivno nižu u tekstu. Pregledom spektrograma se zapravo može

utvrditi da između pojedinačnih glasova ne postoji oštra granica, već da se uticaj i trajanje jednog

glasa prostire u polje drugog glasa. U proseku, osoba izgovori 10-15 glasova u sekundi, dok se

ove vrednosti mogu udvostručiti prilikom brzog govora. Kod fluentnog govora dolazi do

preklapanja, istovremene realizacije nekoliko glasova, fenomena poznatog kao koartikulacija.

Usled koartikluacije svaki pojedinačni deo akustičkog signala sadrži informacije o više različitih

vokala i suglasnika. Drugim rečima, fizičke karakteristike glasa će u velikoj meri zavisiti od

susednih glasova, što znači da postoji varijabilnost uslovljena kontekstom. Pored koartikulacije,

ritam kojim osoba govori, njen akcenat, emocionalno stanje, akustične osobine prostora u kome

se govornik nalazi, takođe su izvori varijablinosti akustičkog signala. Jedan od najvećih izazova sa

kojim se susrećemo pri pokušaju razumevanja procesa percepcije govora jeste na koji način

identifikujemo pravo značenje onoga što govornik namerava da nam saopšti i pored toga što

mnogobrojni izvori varijabilnosti utiču na sam akustički signal. Uprkos visokoj varijabilnosti

karakteristika pojedinačnih glasova, mi i dalje čujemo određeni glas, tj. fonemu, a ne varijacije

akustičkog signala. Očigledno je da su mehanizmi odgovorni za detektovanje govornih signala

dosta složeniji od mehanizama odgovornih za obradu negovornih auditivnih stimulusa, na

osonovu čega bi se moglo zaključiti da je percepcija govora posebna vrsta percepcije. U prilog

shvatanju da je percepcija govora posebna vrsta percepcije govore i nalazi istraživanja koji

pokazuju da je diskriminacija govornog signala daleko bolja od diskriminacije sukcesivno

prikazanih šumova i tonova, materijala koji nije govorni signal. Da bismo bili u stanju da

odredimo redosled izlaganja nejezičkih stimulusa, njihovo trajanje ne sme da bude kraće od 650

ms. Sa druge strane, govor je razumljiv i kada u sekundi imamo 20 sukcesivno izloženih glasova,

50 ms po glasu (Warren, Obusek, Farmer i Warren, 1967).

problem normalizacije govora

Ovaj problem je blisko povezan sa već pomenutim nepostojanjem akustičko-fonetske

invarijanse. Jedan od aspekata ovog problema proizilazi iz fizičkih i artikulatornih razlika koje

postoje između osoba, konkretno iz opaženih razlika u dužini i obliku vokalnog trakta. Drugi

aspekt problema tiče se brzine kojom osoba govori. Istraživanja su pokazala da je trajanje

pojednih zvukova govora pod velikim uticajem brzine kojom se odvija govor. Osnovni problem

ovde jeste na koji način dolazi do konstantnosti u percepciji uprkos velikoj fizičkoj varijabilnosti

stimulusa, tj. na koji način se odvija ta perceptivna kompenzacija, zaslužna za nesmetano

procesuiranje govornog signala.

PERCEPCIJA GOVORA KAO MULTIMODALNI FENOMEN

Uprkos našem uverenju da je govor nešto što pre svega čujemo, postoji dovoljno dokaza da

naš mozak govor tretira kao nešto što istovremeno čujemo, vidimo, pa čak i kao nešto što osećamo.

Upravo se na osnovu tih dokaza može reći da je govor, tačnije percepcija govora, multimodalni

fenomen (Rosenblum, 2005).

Mapiranje akustičkog govornog signala i prevođenje u njegovu fonetsku reprezentaciju je

veoma kompleksan proces i može biti pod uticajem lingvističkih informacija višeg reda, poput

poznavanja značenja reči unutar jednog jezika. Pored toga, na proces percepcije govora može uticati i

vizualni modalitet, tačnije informacije koje dobijamo posmatrajući lice osobe koja govori. Klasičan

primer ovog uticaja jeste Mek Gurkov efekat. Mek Gurkov efekat je čulni fenomen koji podrazumeva

interakciju čula sluha i percepcije govora.Iluzija koja nastaje rezultat je uparivanja auditivne

komponente jednog glasa sa vizuelnom komponentom drugog glasa, pri čemu se najčešće čuje treći

glas. Vizuelna informacija o osbi koja govori utiče na način na koji čujemo glas. Efekat se objašnjava

kognitivnim naporom da se sve informacije obrade i analiziraju, a kako su informacije koje dolaze

oprečne, vizuelna percepcija ima jači uticaj i dobija se kombinovani rezultat u vidu trećeg glasa. Snaga

efekta je takva da se i istraživači koji se bave ovom temom, svesni ove pojave, ponekad ne mogu

otrgnuti efektu. Sinhronizovanost između vizuelne informacije koju dobijamo posmatrajući lice osobe

koja govori i akustičkog signala, od velikog je značaja prilikom percepcije govora. Govor koji se

prezentuje u uslovima buke ili pozadinskog šuma, na primer, u mnogo većoj meri je razumljiviji

ukoliko posmatramo i lice onoga koji govori. Jedno od važnih pitanja jeste na koji način perceptivni

sistem integriše vizuelne i akustičke informacije prilikom percepcije govora. Važan teorijski problem

jeste pitanje stepena u kojem je audio-vizuelna percepcija govora rezultat integracije dve vrste

informacija koje dele zajednički izvor, ili je ta percepcija posledica učenja o prirodnoj povezanosti

auditivnih i vizuelnih signala. Ova pitanja su važna kada je reč o pravljenju razlike između postojećih

teorijskih modela percepcije govora.

Informacije o govoru koje primimo vizuelnim putem automatski se integrišu sa slušnim

informacijama, što na dobar način ilustruje MekGurkov efekat (McGurk & MacDonald, 1976). Ovaj

efekat je perceptivni fenomen koji demonstrira interakciju između čula sluha i čula vida u percepciji

govora. Iluzija nastaje kada se slušna komponenta jednog zvuka upati sa vizuelnom kompnentom

drugog zvuka, što za rezultat ima to da percipiramo neki treći zvuk. Ukratko, u okviru multimodalnog

pristupa se tvrdi da prilikom percepcije govora dolazi do automatkse integracije informacija koje

dolaze iz različitih izvora – slušnih, vizuelnih, donekle i kinestetičkih.

U okviru amodalnog pristupa se, sa druge strane, tvrdi da je percepcija govora ’’slepa’’ za

specifičnosti određenog modaliteta od samog početka procesuiranja govora (Rosenblum, 2005).

Fizički pokreti do kojih dolazi prilikom produkcije govora mogu oblikovati akustičke i optičke signale

na slična način, tako da signali poprimaju istu opštu formu. Percepcija govora potom uključuje

ekstrakciju zajedničke informacije višeg reda iz oba signala, akustičkog i vizuelnog. Drugim rečima,

slušne i vizuelne informacije nikad nisu funkcionalno u potpunosti razdvojene. Dok su površni detalji

obe vrste signala izolovani, celovita forma koja sadrži infomacije ovih signala ostaje nepromenjena.

KLASIČNE TEORIJE GOVORNE PERCEPCIJE

Teorije percepcije govora mogu se podeliti u dve grupe:

Pasivne teorije, odnosno teorije koje proces percpecije govora posmatraju kao pasivan

proces; u okviru ovih teorija postulira se da postoji neka vrsta direktne povezanosti između

akustičkog signala i percipiranih fonema. Ove teorije su u osnovi teorije filtriranja koje ne

uključuju mogućnost posredovanja viših kognitivnih procesa.

Aktivne teorije, koje sugerišu da ne postoji direktna veza, već da je neki viši vid medijacije

uključen u proces percepcije, tako da se obrasci ulaznih informacija upoređuju sa interno

prisutnim, generisanim obrascima.

U praksi, međutim, većina teoretičara prihvata mogućnost da proces percepcije govora može biti

kombinacija aktivnih i pasivnih procesa.

Pasivne teorije percepcije govora

Teorija distinktivnih odlika

Jacobson, Fant i Halle (1963) predložili su postojanje seta distinktivnih odlika koje su

predstavljale kombinaciju kako akustičkih tako i artikulatornih odlika, i koje bi mogle biti

korišćene kao sastavni deo binarnog sistema da/ne odluka kako bi omogućile prepoznavanje

govora na nivou fonema. Broj i priroda ovih odlika varirali bi od jednog do drugog jezika,

uzimajući u obzir glasove specifične za svaki jezik, ali bi u svakom slučaju trebalo da

obezbede razlikovanje svih fonema jednog jezika. Takav sistem bi uključivao odlike poput

vokalnih/ne-vokalnih, konsonantnih/ne-konsonantnih, nazalnih/oralnih.

Pandemonijum model

Selfridžov pandemonijum model je prillično metaforičan (Selfridge, O.G., 1959).

Originalno zamišljen kao modela prepoznavanja karaktera prilikom čitanja, Pandemonijum je

model sastavljen od više nivoa, pri čemu se na svakom nivou odvija paralelno procesuiranje.

Obradu input infomacija preuzimaju redom četiri vrste demona s različitim zadacima. Na

najnižem nivou nalaze se demoni koji skladište egzaktnu kopiju input obrasca. Ovo je,

pretpostavlja se, kratkoročna memorija. Demoni koji se nalaze na sledećem nivou analiziraju

uskladištene informacije i izdvajaju parametre frekvencije i amplitude, i ovde je svaki demon

zadužen za po jednu osobinu. Svaki demon osobina registruje učestalost osobine za koju je

zadužen, i u zavisnosti od učestalosti reaguje jače ili slabije. Registrovani parametri potom

bivaju prosleđeni demonima na narednom nivou, a koji su zaduženi svaki za po jedan

poseban sklop osobina. Ovi kognitivni demoni osluškuju demone osobina i reaguju jače ili

slabije u zavisnoti od toga koliko se njihovih osobina tamo pominje. Poslednja instanca jeste

demon odluke, zadužen da iz mnoštva zbivanja donese jednu odluku. On prati reagovanja

kognitivnih demona i opredeljuje se za jedan određeni sklop osobina, i to onaj u kojem je

najviše tih osobina potvrđeno.

Model Absa i Susmana

Ovaj model postulira postojanje specijalizovanih grupa nerava i receptora, koji

moraju biti u stanju da na adekvatan način odgovore na spacijalno-temporalne promene u

signalu, kao i da poseduju visoku toleranciju na brojne varijacije koje postoje u samom

akustičkom signalu. Osnovna pretpostavka modela jeste da se procesuiranje signala govora

odvija po principima drugačijim od onih po kojima se odvija obrada ostalih zvučnih signala.

Ova pretpostavka podržana je nalzima da govor može biti obrađen u kraćem vremenskom

intervalu u poređenju sa drugim akustičkim stimulusima. Na primer, slušaoci mogu tačno

zapamtiti redosled izlaganja govornih signala koji traju veoma kratko, 70-80 ms, što nije

slučaj sa zapamćivanjem redosleda izlaganja ne-govornih zvučnih signala, čak i kada traju dva

ili tri puta duže (Warren, 1969).

Aktivne teorije percepcije govora

Motorna teorija percepcije govora

Početkom 50-ih godina prošlog veka, Alvin Liberman, Frenklin Kuper i drugi istraživači

Hoskinsove laboratorije izveli su seriju istraživanja na temu perpcepcije sintetizovanog govora. Njihov

rad postavio je temelje onoga što znamo o akustičkim kakteristikama lingvističkih jedinica, poput

fonema, i otkrio da je prevođenje govornih signala u jedinice jezika dosta kompleksan proces.

Liberman i njegovi saradnici su vremenom postali uvereni da percipirane foneme i funkcije imaju

jednostavniji, gotovo jedan-na-jedan, odnos prema artikulaciji nego prema akustičkim

karakteristikama signala, što predstavlja začetak motorne teorije precepcije govora.

Iako je motorna teorija pretrpela značajne izmene tokom vremena, svaka verzija je zadržala

osnovnu premisu prvobitno formlisane motorne teorije – percepcija govora se pre sastoji u percepciji

pokreta vokalnog trakta, nego u percepciji auditornog signala. Tačnije. produkcija i percepcija govora

su koimplikativni procesi – slušalac se prilikom obrade govornog signala oslanja na apstraktno i

implicitno znanje o tome kako se određeni govorni signal generiše. Liberman i saradnici su prvobitno

razvili motornu teoriju kako bi objasnili neke neočekivane rezultate eksperimenata u kojima je

korišćena mašina za čitanje, namenjena slepim osobama. Učesnici u eksperimentu nisu uspevali da

identifikuju pojedinačne zvuke u izloženom nizu, već su se ti zvuci spajali u nerazlučivu, nerazumljivu

celinu. Prema mišljenju Libermana i njegovih saradnika, problem je bio u tome što su sekvence

diskretnih zvukova premašivale moć auditornog sistema da razdvaja ove zvuke. Kako bi istražili

akustičku strukturu govora, Liberman i saradnici koristili su zvučni spektograf, koji predstavlja grafički

zapis govora. Na ovaj način, oni su otkrili da fonetske segmente odlikuje koartikulacija, tj. da postoji

preklapanje pokreta vokalnog trakta za uzastopne suglasnike i samoglasnike. Za Libermana,

koartikulacija predstavlja veoma važnu karakteristiku govora, jer ako postoji preklapanje informacija

sadržanih u fonetskom segmentu, informacija za svaki segment se može razvući na duži vremenski

interval, a uvo može razložiti i rešiti segmente postepeno.

Proces produkcije govora se prema Libermanu sastoji iz serije nekoliko međusobno

povezanih nivoa: fonema→mišićna kontrakcija→oblikovanje vokalnog trakta→akustički signal.

Budući da su Liberman i saradnici smatrali da postoji odnos jedan-prema-jedan između pokreta

vokalnog trakta i akustičkih signala, kompleksno mapiranje fonema u govorne signale onakve kakvim

ih percipiramo, smatralo se prvenstveno posledicom koartikulacije.

Najranija verzija motorne teorije pretpostavljala je da novorođenčad imitiraju govor koji čuju,

i da ta imitacija stvara asocijacije između artikulacije i njenih senzornih posledica sa jedne strane, i

akustičkih signala koje generišu pokreti vokalnog trakta, sa druge strane. Još jedna važna tvrdnja

sadržana u motornoj teoriji jeste da se sposobnost opažanja govora ne može svesti na opšte

mehanizme čuvenja i perceptualnog učenja, već da zavisi od specijalizovanog dekodera koji je

specifičan za ljude.

Tri glavne postavke motorne teorije bile su predmet mnogih provera kako bi se dokazala

njihova opravdanost. Te postavke jesu: 1. procesiranje govora je posebno, 2. opažanje govora sastoji

se u opažanju pokreta, i 3. motorni sistem je angažovan kod opažanja govora. Prva postavka

podložna je različitim tumačenjima, koja, sem ako nisu veoma usko interpretirana, opovrgavaju

postojeći nalazi istraživanja, tako da se verovatno može odbaciti. Jedno od tumačenja recimo, jeste

da procesuiranje govora podrazumeva angažovanje motornog sistema prilikom percepcije govora. U

strogom smislu, to bi značilo da je auditorni sistem jedini perceptivni sistem koji podrazumeva

angažovanje motornog sistema. Ukoliko ovu pretpostavku podvrgnemo nešto slobodnijem

tumačenju, mogli bismo reći da je percepcija govora posebna aktivnost, jer unutar nje, to je jedini

proces koji podrazumeva angažovanje motornog sistema. Postoji veliki broj dokaza koji opovrgavaju

ovo stanovište, i koji pokazuju da postoji generalno angažovanje motornog sistema prilikom

percepcije. Štaviše, neki od dokaza tiču se auditornih procesa koji nemaju nikakve veze sa govorom.

Druga postavka motorne teorije, koja je izazvala dosta kontroverzi, jeste da su glavni objekti

percepcije govora zapravo pokreti vokalnog trakta osobe koja govori, a ne akustički obrasci

generisani tim pokretima. Jedan od prvih dokaza koji govore u prilog ovoj postavci potiče od samog

Libermana, koji se zapitao u kom pravcu ide percepcija, ako se artikulacija i zvučni signal kreću

različitim pravcima. Po njegovom mišljenju, percepcija prati artikulaciju. Artikulacija proizvodi zvučni

talas, iz čega sledi da ne može doći do njihovog razdvajanja. Međutim, zahvaljujući koartikulaciji,

ponekad se čini da je to razdvajanje moguće i pruža priliku da se ispita priroda govornih percepata.

Još jedan dokaz koji potvrđuje ovu postavku motorne teorije jeste Mek Gurkov efekat – posmatranje

osobe koja izgovara jedan slog, dok slušamo neki drugi slog, može uticati na to kako je ovaj drugi slog

opažen. Pored toga, opažanje govora u bučnim uslovima je dosta tačnije ukoliko smo u mogućnosti

da posmatramo osobu koja govori.

Direktnih dokaza koji bi potvrdili treću pretpostavku na kojoj počiva motorna teorija, onu o

učešću motornog sistema ili motorne kompetencije u percepciji govora, nema previše. Indirektna

uključenost motornog sistema u proces percepcije govora može se proceniti ukoliko motornu teoriju

smestimo u jedan širi kontekst, koji obezbeđuju nalazi da perceptivno-motorne veze karakterišu

ostale prirodne sisteme komunikacije i da je motorni sistem po sebi aktivan kada se radi o

perceptivnim zadacima. Jedan od malobrojnih dokaza o motornom angažovanju prilikom percepcije

govora potiče iz studije Kupera (1979). Neke ranije studije pokazale su postojanje efekta selektivne

adaptacije. Ponovljena prezentacija nekog sloga, recimo /pa/, vodi ka manjem broju identifikacija

dvosmislenih slogova kao /pa/, duž /ba/ - /pa/ kontinuuma, na primer. Kuper je pokazao da efekat

selektivne adaptacije ne utiče samo na percepciju govora, već isto tako i na njegovu produkciju. On je

našao male, ali pouzdane redukcije onset vremena slogova /pi/ i /ti/ izgovorenih od strane subjekata

nakon adaptacije na akustički prezentovan slog /pi/, što je nalaz koji sugeriše postojanje veze izmedju

percepcije i produkcije govora. Kercel i Bekering (2000), našli su povezanost percepcije i produkcije u

zadacima koji uključuju vizuelno prezentovanje govornih gestova. Učesnicima u eksperimentu

prezentovan je video snimak osobe koja izgovara slogove /ba/ ili /da/, prilikom svakom pokušaja.

Tokom varijabilnog vremenskog intervala nakon ove vizuelne prezentacije materijala irelevantnog za

zadatak, učesnicima je prikazan jedan od dva simbola, && ili ##, koje su učesnici prehodno naučili da

povežu sa izgovaranjem slogova /ba/ i /da/. Zadatak učesnika bio je da što je moguće brže reaguju na

prikazane simbole, tako što će izgovoriti /ba/ ili /da/, uz uputstvo da ignorišu video klipove. I pored

takvog uputstva, rezultati su pokazali da postoji efekat uticaja irelevantnog materijala. Konkretno,

postojao je uticaj na vreme potrebno da se izgovori slog uparen sa odgovarajućim simbolom. Vreme

reakcije za odgovor /ba/ bilo je kraće kada je ispitaniku prikazan snimak na kome se vidi kako usta

izgovaraju /ba/, nego kada izgovaraju /da/. Isto tako, odgovori /da/ bili su brži kada je ispitaniku

prikazan snimak na kome vidi kako se izgovara /da/, nego kada mu je prikazan snimak izgovaranja

/ba/. Kercel i Bekering sugerisali su da opažanje načina izgovaranja aktivira odgovarajući motorni kod

koji stupa u interakciju sa kodovima aktiviranim od strane simultanog planiranja istovetne akcije.

Neki dokazi ukazuju da je ne samo motorna kompetencija, već i sam motorni sistem

angažovan prilikom percepcije. Otkriće tzv. neurona ogledala (mirror neurons) pruža direktne

neurološke dokaze o uključenosti motornog sistema u proces percepcije. Krajem 80-ih i početkom

90-ih godina dvadesetog veka, tim neuronaučnika sa Univerziteta iz Parme u Italiji, na čelu sa

Giacomo Rizzolatti-em otkrio je zanimljiv fenomen proučavajući majmune. Kada majmun približi

hranu ustima, u mozgu se aktiviraju određeni neuroni. Naučnici su, međutim, utvrdili da se ti isti

neuroni aktiviraju i u trenutku dok majmun posmatra nekog drugog (majmuna ili čoveka) da

približava hranu ustima, čak i ako sam subjekt (majmun) u tom trenutku ne radi ništa. To je vodilo

otkriću da jedna grupa ćelija u mozgu (neuroni ogledala- mirror neurons) biva aktivirana

posmatranjem akcije na isti način kao kada organizam sam izvodi tu akciju. Kasnije se ispostavilo da

su neuroni ogledala kod ljudi još složeniji, fleksibilniji i razvijeniji, čime se može objasniti

napredovanje socijalnih sposobnosti kod ljudi u odnosu na majmune. Drugim rečima, naučnici

smatraju da ovi neuroni direktno doprinose razumevanju među ljudima - umesto da intelektom

zaključujemo šta neko oseća, naš mozak nam dozvoljava da steknemo utisak o umu drugog putem

direktne stimulacije koja se odvija u našem sopstvenom mozgu.

Kada je reč o govornoj percepciji, sada postoje dokazi da opažanje govora uključuje i

neuralnu aktivnost motornog sistema. Studije u kojima je korišćena transkranijalna magnetska

stimulacija motornog korteksa pokazale su aktivaciju mišića povezanih sa govorom tokom same

percepcije govora. Fadiga i njegovi saradnici (2002) našli su da kada slušaoci čuju neki iskaz koji sadrži

suglasnike, oni pokazaju pojačanu mišićnu aktivnost jezika. Votkins i saradnici (2003) pronašli su da

prilikom slušanja govora, kao i prilikom gledanja pokreta usana povezanih sa govorom, ljudi pokazuju

pojačanu mišićnu aktivnost u oblasti usana. Pored toga, u dvema studijama koje su koristile fMRI

tehniku snimanja moždane aktivnosti (Pulvermuller et al., 2006; S.M. Wilson, Saygin, Sereno &

Iacoboni, 2004) demonstrirano je postojanje preklapanja između kortikalnih oblasti aktivnih tokom

produkcije govora i onih oblasti aktivnih tokom pasivnog slušanja govora.

AKUSTIČKA ANALIZA I SINTEZA GOVORA

U najširem smislu, percepcija govora odnosi se na to kako, na koji način, zapravo dolazi do

toga da razumemo ono što neka druga osoba govori, saopštava rečima. U užem smislu, percepcija

govora se posmatra kao način na koji osoba interpretira zvuk koji dolazi od strane druge osobe u vidu

sekvence diskretnih lingvističkih kategorija kao što su foneme, slogovi ili reči. U analizi govora, fokus

je na pokušajima da se odredi energija svake frekvencije u svakoj tačci tokom vremena, kao i

određivanje toga da li je signal periodičan ili aperiodičan. Ovi kvaliteti povezani su sa procesima i

strukturom artikulacije. Kada je reč o sintezi govora, naglasak je na pokušajima reprodukcije govora

na osnovu ograničenog seta parametara koji opisuju željene akustičke ili artikulatorne kvalitete

signala.

Govorni signal

Za razumevanje mentalnih procesa koji se nalaze u osnovi kako produkcije, tako i percepcije

govora, neophodno je objasniti i razumeti prirodu samog govornog signala. Sam čin produkcije

govora započinje prolaskom vazduha koji dolazi iz pluća, kroz, odnosno preko glasnih žica. Vazdušni

talas zatim biva modifikovan tokom prolaska kroz vokalni trakt, a kao krajnji efekat nastaje govorni

signal, odnosno smisleni tok različitih zvukova. Brzina vibriranja glasnica određena je njihovom

dužinom i napetošću mišića. Duže, masivnije glasnice vibriraju sporijim tempom, te tako proizvode

glas koji čujemo kao dubok. Vokalni trakt se na veoma uprošćen način može prikazati kao niz cevi. U

bilo kom trenutku, pozicija jezika, usana i vilice može biti prikazana kao niz cevi različitih dužina, od

kojih svaka poseduje sebi svojstvenu frekvenciju rezonancije. Vokalni trakt propušta određene

frekvencije, dok istovremeno zadržava druge. Pokretanje delova vokalnog trakta označava da se

frekvencijska kompozicija govora menja uporedo sa promenom oblika vokalnog trakta (Sawusch,

2005).

Akustička analiza

Početna tačka u kompjuterskoj akustičkoj analizi govora jeste Furijeova analiza, odnosno

transformacija. Furijeova analiza omogućava predstavljanje signala u frekvencijskom domenu. Signal

je u frekvencijskom domenu predstavljen preko svog spektra. Značaj pretvaranja signala iz

vremenskog u frekvencijski domen leži u činjenici da se neke važne osobine signala mogu bolje

interpretirati u frekvencijskom domenu. Ako uzmemo uzorak govora, odnosno govornog signala koji

se periodično ponavlja, i zatim taj uzorak konvertujemo iz vremenskog u frekvencijski domen,

dobićemo govorni signal predstavljen u obliku spektra, odnosno spektrogram. Spektrogram je

vizuelni prikaz spektra frekvencija u zvuku ili nekom drugom signalu koje variraju tokom vremena ili

neke druge promenljive. Na fizičkom nivou spektrogram otkriva karakteristične obrasce frekvencija i

amplituda koji čine osnovu zvučnog signala.

Zatamnjenja na spektorgramu predstavljaju intenzitet određene frekvencije u određenom

trenutku. Energetske koncentracije na određenim frekvencijskim opsezima nazivaju se formanitma.

Formanti su zapravo prirodne rezonancije vokalnog trakta. i imaju dve glavne karakteristike,

formantske tranzicije (porast ili pad frekvencije u okviru datog fomanta) i stabilno stanje formanta.

Kod

sloga /di/ frekvencija drugog formanta je oko 2,4 kHz, dok je kod sloga /du/ 1,2 kHz. Ono što je

zanimljivo jeste razlika u tranziciji drugog formanta. Dok kod sloga /di/ uočavamo porast porast

frekvencije na početku drugog formanta, kod

sloga /du/ imamo pad frekvencije na početku

drugog formanta. Iako se počeci drugog

formanta dosta razlikuju, u oba slučaja čujemo

d (Liberman, 1967). Pored jednog osnovnog

jasno izdvojenog tona , koji se obično naziva

osnovnim formantom, a koji mi uhom jedino i

primamo, javljaju se i neki sporedni akustički

efekti. Od tih sekundarnih efekata zavisi

konkretna boja jednog glasa (Subotić,

Sredojević, Bjelaković, 2012). Spektorgram,

iako pruža dosta informacija o prirodi govornog

signala, ima i neka ograničenja. Prvo,

koncentracije energije koje nazivamo

formantima ne moraju nužno biti iste kao rezonantne ferkvencije vokalnog trakta. Ovo može

predstavljati problem ukoliko se posmatra iz ugla proučavanja akustičke strukture govora i

implikacija po percepciju i produkciju govora. Pitanje koje se ovde postavlja jeste za kojom vrstom

informacije tragamo kada analiziramo govorni signal. Ako je reč o informacijama dostupnim slušaocu,

spektrogram predstavlja dobru aproksimaciju tih podataka. Međutim, ako želimo da izmerimo

rezonantne frekvencije vokalnog trakta, spektrogram ovde ne igra bitnu ulogu jer dobijeni zapis

predstavlja izvor zvuka modifikovan vokalnim traktom, pre nego što predstavlja sam vokalni trakt.

Stoga je potrebno izolovati uticaje izvora od uticaja filtera odnosno

Spektrogram slogova ’’di’’, ’’da’’ i ’’du’’; formanti su vokalnog trakta.

obeleženi crvenom bojom

Potencijalni problemi u analizi govora

Jedan od brojnih problema koji se mogu javiti prilikom pokušaja merenja formanta u govoru

jeste da ponekad formanti nisu vidljivi u zapisu govornog signala. Da bismo razumeli kako je to

moguće moramo se vratiti na prethodno opisani model produkcije govora. Kod ovog modela, izvor

govora je harmonijski spektar koji se sastoji iz osnovne frekvence i njenih harmonika. Ovaj spektar

prolazi kroz vokalni trakt koji se ponaša kao skup rezonatora. Oni delovi spektra koji se poklapaju sa

frekvencijama rezonancije prolaze dalje, dok ostali harmonici bivaju prigušeni. Pikovi u rezultirajućem

spektru predstavljaće dobru procenu rezonancije vokalnog trakta u onoj meri u kojoj harmonici

osnovne frekvence odgovaraju frekvencijama rezonancije vokalnog trakta prilikom produkcije

govora. Kada je osnovna frekvencija niska, rastojanje između harmonika je veoma malo, tako da je

razumno pretpostaviti da će bar jedan harmonik biti u blizini svakog formanta, a pikovi unutar

spektra korespondirati sa formantima. Ukoliko je osnovna frekvencija viša, kao što je slučaj kod

ženskog glasa, rastojanje između harmonika je veće. Ako rezonancija vokalnog trakta pada između

harmonika, rezultirajući zvuk možda neće imati dovoljno energije da proizvede pik unutar spektra.

Budući da signal ne sadrži spektralni pik, neće biti ni rezonatora koji bi mogao biti modelovan.

Sinteza govora

Kao što je već rečeno, sinteza govora odnosi se na pokušaje reprodukcije govora na osnovu

parametara koji poseduju odgovarajuće akustičke i artikulatorne kvalitete. Ovde ćemo se fokusirati

na Klatov pristup sintezi govora baziran na softverskom sintisajzeru, pre svega zbog njegove

fleksibilnosti. Klatov softverski sintisajzer je sastavljen iz dve dela, kaskadnog i paralelnog (Klatt,

1980). Ovo znači da F2 rezonator deluje na izvor nakon što je već modifikovan od strane F1

rezonatora. Za specifikovanje svakog formanta neophodne su središnja frekvencija, protok i

amplituda. U kaskadno dizajniranom ogranku Klatovog sintisajzera moguće je kontrolisati frekvenciju

i protok formanta, dok se amplitude podešavaju automatski. Paralelni ogranak sintisajzera koristi se

za sintetizovanje friktiva i ploziva povezanih sa konsonatima. Ovde rezonatori deluju nezavisno jedan

od drugog a njihovi efekti na izvor se sumiraju kako bi proizveli izlazni signal. Kod Klatovog

sintisajzera, izvor glasa je dizajniran tako da imitira muški glas. Modifikovana verzija ovog sintisajzera

uključuje izmene u samom izvoru zajedno sa fleksibilnijom kontrolom detalja u glotalnom talasu, što

omogućava sintetizovanje ženskog glasa relativno visokog kvaliteta (Klatt&Klatt, 1990). Međutim,

ženski glas nije prosto skaliran muški glas. Klat i Klat su, revidirajući nalaze merenja muških i ženskih

glasova, primetili da jedan parametar predstavlja konstantu, a to je koeficijent otvorenosti. Ovaj

koeficijent predstavlja procenat perioda tokom kojeg su glasnice otvorene, i iznosi 50% kod

muškaraca i 60% kod žena. Pored toga, učestalost pojave škripavog glasa, gde osnovna frekvencija

pada ispod nivoa normalne vrednosti a period otvorenosti je kraći od normalnog, izgleda da je veća

kod muškaraca (Henton, 1999).

Sintetizovanje prirodnog ženskog ili dečijeg glasa jedan je od većih izazova sa kojim se

susreću naučnici u ovoj oblasti. Prirodnost, za slušaoca, može zavisiti od sličnosti sintetizovanog glasa

sa nekim stvarnim glasom ili glasovima, budući da se ljudi svakodnevno susreću sa velikim brojem

različitih glasova. Dodatno pitanje jeste da li se akustički kvaliteti sintetičkih stimulusa obrađuju na

isti način na koji se obrađuje i prirodni govor.

PERCEPTIVNA ORGANIZACIJA GOVORA

Perceptivna organizacija odnosi se na sposobnost nametanja strukture ili reda podacima koje

dobijamo putem naših čula. Kod perceptivne organizacije govora, auditivni korelati govora razlažu se

u jedan koherentan, celovit niz pogodan za analizu njegovih lingvističkih karakteristika.

Kada je reč o osnovama auditivne, slušne percepcije, danas dominantan pristup predstavljen

je modelom analize auditivne scene (Bergman, 1990). Sam model mogao bi se razumeti kao proces

putem kog ljudski auditivni sitem organizuje zvuk u smislene elemente. U osnovi ovog modela nalazi

se određen broj grupišućih principa koji su povezani sa principima perceptivne čulne organizacije, tj.

sa konstelacionim faktorima opažanja (blizina, sličnost, zajednička sudbina, dobra forma), kako ih je

formulisao Verthajmer unutar geštalt pristupa u psihologiji (Wertheimer, 1923). Ovi kriterijumi

grupisanja se mogu svesti na dve funkcije: sastavljanje inventara senzornih elemenata i kreiranje

grupa na osnovu principa sličnosti. Grupa sastavljena u skladu sa ovim funkcijama formira perceptivni

tok. Ovo je mala ali neophodna ekstrapolacija tvrdnje da se auditivni tok sastoji iz elemenata koji

potiču iz samo jednog zvučnog izvora (Bregman&Pinker, 1978). U jednom eksperimentu, Bregman i

Kempbel su pokazali da se auditivni tok formira prilikom izlaganja sekvence tonova u trajanju od

100ms koji su se razlikovali u frekvenciji (Bregman, Campbell, 1971). Serija kratkih tonova koji su se

ponavljali izložena je slušaocima, čiji je zadatak bio da ponove redosled tonova u seriji. Umesto da

čuju sekvence niskih i visokih tonova, slušaoci su grupisali tonove u dva toka, svaki sastavljen od

sličnih elemenata, jedan od visokih, drugi od niskih tonova. Studije auditivne perceptivne organizacije

pokazuju da su slušaoci veoma osetljivi na fine, jedva primetne promene u formiranju auditivnih

grupa. Denenbring i Bregman su u jednom istraživanju pokazali da raskorak od samo 35ms, bilo da je

ton kasnio ili žurio, može biti sasvim dovoljan da izazove ometanje stvaranja jedne koherentne čulne

celine, i da dovede do podele izloženih tonova u dva zasebna toka. (Dannenbring, Bregman, 1978).

Slična stvar se dešava i kada postoje suptilne promene u frekvenciji, osnovnoj frekvenciji, ili melodji.

Tri ključna aspekta Bergmanovog modela jesu segmentacija, integracija i segregacija. Kada

zvuk dopre do našeg uha i izazove vibriranje bubne opne, on mora biti analiziran na neki način.

Model predviđa da ćemo percipirani zvuk čuti ili kao integrisan, celovit, ili kao izdeljen na pojedinalne

komponente. Na primer, zvuk zvona možemo čuti kao jedinstven ton koji poseduje određene

kvalitete, poput visine, zvonkosti, trajanja itd. Isti taj zvuk neko će razložiti na njegove sastavne

delove. Ovi delovi mogu biti potom povezani u vremenu, dajući kao konačan produkt jedan auditivni

tok. Ova sposobnost auditivnog strimovanja može biti demonstrirana putem tzv. koktel efekta

(Cherry & Taylor,1954). Kada smo izloženi većem broju glasova koji govore istovremeno, ili u

prisustvu pozadinskog šuma, u stanju smo da, makar do određene mere, čujemo i pratimo jedan

određeni glas. Naš slušni aparat u stanju je da iz mora drugih glasova, koji su integrisani i

predstavljaju pozadinu, izdvoji jedan glas, koji u ovom slučaju predstavlja figuru (segregacija).

Kada veći broj zvučnih signala dopire do nas, sve komponente simultano aktivnih signala

primamo istovremeno ili između njih postoji određeno preklapanje. Naš slušni aparat se u takvim

slučajevima nalazi pred kompleksnim izazovom – koji su to delovi zvučnog stimulusa koje treba

grupisati zajedno i tretirati kao proizvod istog izvora zvuka. Ukoliko ih naš sistem grupiše pogrešno

možemo čuti zvuk koji zapravo ne postoji (slušne halucinacije). Principe po kojima se odvija

grupisanje možemo podeliti u dve grupe:

principe sekvencijalnog grupisanja, i

principe simultanog grupisanja.

Pogreške u simultanom grupisanju mogu dovesti do stapanja u jedan zvuk onih stimulusa

koje bismo inače trebali čuti kao odvojene, pri čemu taj rezultujući zvuk poprima kvalitete drugačije

od onih koje poseduju izvorni stimulusi. Greške u sekvencijalnom grupisanju mogu dovesti do toga da

čujemo reč sastavljenu od slogova koji potiču iz dva različita izvora. Funkcija predloženog modela

perceptivne organizacije jeste da grupiše dolazeće senzorne informacije tako da formiramo tačnu,

preciznu mentalnu predstavu pojedinačnih zvučnih stimulusa.

Rezultati većeg broja istraživanja pokazuju da je perceptivna organizacija govora brza,

nenaučena, indiferentna prema auditivnim kvalitetima i da zahteva fokusiranost pažnje.

Dokaz da je perceptivna organizacija govora brza počiva na davno utvrđenoj činjenici da

slušni trag govora bledi, odnosno nestaje iz kratkoročne memorije veoma brzo. Malo je verovatno da

trag govora ostaje u ehoičkoj memoriji duže od desetog dela sekunde, i potpuno je nedostupan

nakon 400ms. (Pisoni, tash, 1974).

Činjenica da u prvim danima korišćenja telefona kao sredstva komunikacije, kada je glas koji

se prenosio preko telefonske žice zvučao poprilično čudno i sam signal bio prilično lošeg kvaliteta,

ukazuje na to da funkcije perceptivne organizacije nisu usmerene na prikupljanje stimulusa koji

poseduju istovetne auditivne kvalitete koje poseduje prirodni govor. Drugim rečima, sposobnost

slušaoca da pronađe i prati govorni signal indiferentna je prema samim auditivnim kvalitetima

signala. Perceptivna organizacija govora takođe zahteva svesno usmerenu pažnju. Neuspeh slušaoca

da razloži fonetske kvalitete sinusoida reči i rečenica ukoliko ne dobije konkretne instrukcije da obrati

pažnju na govor, pokazuje da zvučna forma sama po sebi ne dovodi do percepcije govora (Remez,

1981).

FONETSKA OBRADA GOVORA

Dva centralna teoretska pitanja koja se tiču problema fonetskog procesuiranja percipiranog

govora jesu:

da li se fonetske karakteristike govornog stimulusa obrađuju u kortikalnim centrima

specijalozovanim isključivo za obradu govornog signala

da li se audiovizuelna obrada govora oslanja na ranu konvergenciju fonetskih informacija.

Prvo pitanje, da li je za obradu govora zadužen specijalizovan neuralni sistem, ili opšti

auditivni sistem, predmat je debate koja traje od smaih početaka izučavanja procesa govorne

percepcije. S tim u vezi, Liberman i Velen su formulisali horizontalni i vertikalni model percepcije

govora (Liberman, Whalen, 2000). Horizontalni pristup polazi od pretpostavke da se govor obrađuje

najpre unutar okvira opšteg auditivnog sistema, pre nego što bude prosleđen na dalju obradu

specijalizovanon lingvističkom sistemu. Vertikalni pristup, s druge strane, tvrdi da je govor integralni

deo jednog vertikalno organizovanog sistema, specijalizovanog isključivo za jezičku komunikaciju.

Kada govorimo u čulima sluha i vida, bez kojih percepcija govora ne bi bila moguća, i jedno i

drugo čulo imaju svoje primarne ulaze i primarne zone u moždanom korteksu. Te primarne oblasti se

računaju kao prvi kortikalni sinaptički nivoi. Za čulo sluha to je primarni slušni korteks (Kaas &

Hackett, 2000), poznat i kao Brodmanova oblast (Brodmann, 1909). Za čulo vida primarni vizuelni

korteks je V1 (Felleman & Van Essen, 1991). Ranim nivoima kortikalne obrade smatraju se prva tri

nivoa kortikalne sinaptičke hijerarhije. Primarne senzorne oblasti sačinjene su od fino podešenih

neurona koji obrađuju osnovne karakteristike stimulusa. Kada je čulo sluha u pitanju, u primarnim

oblastima procesuiraju se karakteristike poput visine, intenziteta ili trajanja tona (Eggermont &

Ponton, 2002). Rezultati većeg broja istraživanja koja su se bavila ovom tematikom pokazuju da, iako

je govor očigledno deo vertikalno organizovanog sistema, taj sistem nije specijalizovan za govor u

svim svojim nivoima. Nalazi neuroloških proučavanja sugerišu da percepcija govora zahteva

mehanizme opšte namene, kako auditivne tako i vizuelne, i da periferni čulni organi moraju biti

dovoljno osetljivi za informacije sadržane u stimulusu kako bi se te informacije održale dovoljno dugo

pre nego što budu prosleđene na obradu višim kortikalnim centrima. Dok je rana obrada stimulusa

zadužena za osnovne, elementarne atribute, obrada koja dolazi kasnije tokom tog procesa i koja se

odvija na višim nivoima u toj hijerarhiji, izgleda da je u većoj meri osetljiva na fonetske informacije

(Mesulam, 1998). Rezultati istraživanja u kojima su korišćene fMRI i PET tehnike snimanja moždane

aktivnosti konzistentni su sa gledištem da prva tri nivoa slušnog korteksa nisu specijalizovana za

obradu fonetskih atributa stimulusa (Benson, 2001;,Scott, 2000).

Najuverljiviji dokaz o postojanju govor-specifične obrade stimulusa dobijen je za kortikalne

oblasti koje se nalaze iza prva tri sinaptička nivoa. Na primer, pokazano je da superiorni temporalni

sulkus na četvrtom sinaptičkom nivou preferira govorni signal u poređenju sa FM šumom (Binder,

2000). Ovaj deo mozga takođe selektino reaguje na zvuk ljudskog glasa, u odnosu na ne-glasovne

stimuluse, čak i onda kada sam glas ne sadrži tragove smislenog govora (Belin, 2000).

I dok bi se moglo reći da je govor očigledno deo jednog vertikalno organizovanog sistema,

izgleda da taj sistem nije specijalizovan za obradu govora na svim nivoima. Nalazi neuroloških studija

sugerišu da percepcija govora zahteva mehanizme opšte namene, kako auditivne tako i vizuelne, i da

periferni čulni organi (uši i oči), kao isubkortikalne strukture, moraju biti dovoljno osetljivi za

informacije sadržane u govoru i sposobni da te informacije očuvaju dovoljno dugo pre nego što budu

prosleđene na obradu višim kortikalnim nivoima.

Drugo važno pitanje jeste da li se audiovizuelna fonetksa obrada oslanja na ranu

konvergenciju informacija koje primamo putem čula sluha i vida. Audiovizuelna percepcija govora

nije razmatrana kao posebno pitanje sve do objave rada MekGurka i MekDonalda (1976). Tipično

objašnjenje MekGurkovog efekta konzistentno je sa teoretski postuliranim ranim mehanizmima

konvergencije (Fowler, 2004; Green, 1998; Massaro, 1989; Schwartz, Robert-Ribes, & Escudier, 1998;

Braida, 1991). Ovaj efekat izgleda da izranja iz procesa u kojem se iz fonetske informacije eliminiše

izvorno sadržana oznaka, što za posledicu ima transformisani slušni doživljaj. Možemo navesti

nekoliko dokaza koji su u skladu sa pretpostavkom o ranoj audiovizuelnoj integraciji informacija: (1)

selektivno usmeravanje pažnje na jedan ili drugi modalitet ne poništava MekGurkov efekat (Massaro,

1987); (2) eksplicitno znanje o nepostojanju kongruetnosti između auditivnih i vizuelnih informacija

ne poništava ovaj efekat (Summerfield & McGrath, 1984). Ovo govori u prilog tome da audiovizuelna

obrada nije pod uticajem kognitivnih procesa viših nivoa, i da je, prema tome, proces koji se odvija na

ranim nivoima obrade. Kalvert, Kempbel i Bramer su koristeći fMRI tehniku snimanja moždane

aktivnosti prikupili obrsce reagovanja kortikalnih oblasti prilikom izlaganja AV govora nasuprot samo

auditivnih i samo vizuelnih stimulusa. Kongruentan AV govor doveo je do povećane aktivnosti

superiornog temporalnog sulkusa, pri čemu je nivo te aktivnosti bio veći od sume odgovora na samo

auditivni i samo samo vizuelni govorni signal. Ovaj obrazac aktivnosti je interpretiran kao dokaz

postojanja rane konvergencije (Calvert, Campbell & Brammer, 2000). Međutim, ova oblast mozga je

veoma složena i reaguje ne samo na govor veći na pokrete očiju i usta koji nisu povezani sa

produkcijom govora (Puce, 1998). Takođe je aktiviraju izgovorene i napisane reči (Binder, 2000), kao i

znakovni govor kod odraslih gluvih osoba (Auer, Bernstein&Singh, 2001).

Neuroanatomske studije nisu pružile jak dokaz u prilog postojanja rane konvergencije audio i

vizuelnih stimulusa, tj. konvergencije informacija prikupljenih putem čula sluha i čula vida. Jedan od

najbitnijih principa u organizaciji cerebralnog korteksa kod primata jeste odsustvo konekcija koje bi

povezivale unimodalne oblasti koje imaju različite senzorne funkcije (Mesulam, 1998). Mezulam je

istakao da, ako postoji kortikalna oblast u kojoj se odvija konvergencija, onda bi mozak morao da reši

složen problem usmeravanja svih potrebnih informacija ka toj određenoj oblasti. Konvergencija ovog

tipa bi stoga za rezultat imala kontaminaciju originalnog percepta. Čak i na višim sinpatičkim

nivoima, on dovodi u pitanje mogućnost konvergencije različitih informacija u jedan standardni

format.

ODLIKE GOVORNE PERCEPCIJE I LEKSIČKI PRISTUP

Kada je reč o procesu koji nam omogućava da ektrahujemo nizove reči iz govora koji čujemo,

jedna od osnovnih pretpostavki jeste da se taj proces odvija zahvaljujući postojanju mentalnog

leksikona koji sadrži predstave reči jednog jezika. Inicijalna obrada govora od strane perifernog

slušnog sistema odvija se na isti način bez obzira da li je u pitanju govorni ili zvučni stimulus nekog

drugog tipa. Ova inicijalna obrada praćena je obradom specifičnom za govor i za sam jezik. Za govor

specifična obrada daje potrebne informacije o fonetskim karakteristikama percipiranog stimulusa i

tako obezbeđuje pristup pretpostavljenom mentalnom leksikonu.

Pretpostavlja se da su reči u memoriji reprezentovane u vidu sekvenci segmenata, pri čemu

se svaki segment sastoji od skupa distinktivnih odlika (Jakobson, 1928). U bilo kom jeziku postoji

podskup ovakvih odlika distinkstivnih u smislu da promena vrednosti jedne takve odlike u delu reči

može potencijalno dovesti do nastanka drugačije reči. Par reči koje se razlikuju u samo jednoj odlici u

bilo kom segmentu naziva se minimalni par. Na primer, pod/vod, mat/rat, itd. mentalna predstava

reči se takođe sastoji iz specifikacije njene slogovne strukture, kao i akcentovanja slogova.

Prilikom razmatranja dokaza o postojanju ovih ditinktivnih odlika polazi se od stanovišta da

univerzalna svojstva reči koje su reprezentovane u memoriji imaju svoje poreklo u fizičkim svojstvima

samog artikulatornog aparata kao generatora zvuka, kao i svojstvima perceptivnog sistema kao

primaoca proizvedenog zvuka (Stevens, 1972). Iz različitih razloga, akustički i perceptivni ishodi

pokreta govornog aparata mogu ispoljiti kategoričke efekte. U okviru jedne određene regije

artikulatornog prostora, akustička svojstva će biti relativno nezavisna od promena položaja govornog

aparata, dok sa druge strane, kada artikulacija izađe van tog okvira, dolazi do naglih promena

akustičkih svojstava. U skladu sa ovim akustičkim promenama dolazi i do distinktivnih promena u

samoj percepciji zvuka. Na primer, kada artikulator u oralnoj šupljini dovede do veoma uskog suženja

kanala kojim protiče vazduh koji se potiskuje iz pluća, dolazi do značajnog porasta pritiska na voklani

trakt iza ovog suženja. Kao rezultat ove akcije javlja se naglo smanjenje amplitude vibriranja glasnih

žica, kao i generisanje šuma blizu nastalog suženja. Ova artikulatorna akcija definiše kvalitet

sonornosti, odnosno zvonksoti, zvučnosti konsonanata. Takođe, kada je reč o konsonatima, može se

načiniti jasna razlika, kako akustička tako i perceptivna, između konsonanata koji su nastali usled

naglih promena amplituda, i onih gde postoji kontinuirano suženje trakta i kontinuirano generisan

šum. Vokali, odnosno samoglasnici, nastaju tako što vazduh koji se potiskuje iz pluća nesmetano

prolazi od glotisa do usana. Vokali se ne mogu određivati prema mestu artikulacije, jer su sami po

sebi nelokalizovanji glasovi pošto u njihovom izgovoru artikulatori ne dolaze u međusobni kontakt.

Različiti vokali generišu se pomoću pomeranja jezika napred-nazad ili gore-dole u usnoj šupljini, i u

suštini se i klasifikuju na osnovu položaja jezika u usnoj duplji. Visina jezika i njegovo pomeranje

prema zadnjem nepcu pojavljuju se u svim jezicima sveta kao diferencijalni momenti kod vokala.

Prirodne frekvencije voklanog trakta, naročito F1 i F2, menjaju se u skladu sa pomeranjem jezika. Kod

pomeranja napred-nazad, na primer, F2 je viši kada se jezik nalazi napred, a niži kada je jezik pozadi

(Stevens, 1998).

Distinktivne odlike se mogu svrstati u grupu odlika nezavisnih od artikulatora, odnosno od

dela govornog aparata koji učestvuje u proizvodnji glasa, ili u grupu odlika zavisnih od artikulatora

(Halle, 1992). Odlike iz obe grupe imaju svoje korene u određenim artikulatornim akcijama koje

dovode do nastanka osnovnih akustičkih i perceptivnih atributa. U slučaju odlika nezavisnih od

artikulatora, artikulatorne akcije se klasifikuju prema tipu suženja voklanog trakta, bez određivanja

koji od artikulatora dovodi do tog suženja. Primeri za ove odlike su zvonkost i piskavost u slučaju

konsonanata. Odlike zavisne od artikulatora specifkuju koji artikulator formira suženja, kako je

artikulator oblikovan ili pozicioniran, kao i akcije drugih artikulatora koji sami po sebi ne dovode do

suženja, ali koji utiču na akustički obrazac koji se formira usled nekog suženja.

Artikulaciona fonetika razvrstava sve glasove prema pokretu i položaju

pojedinih (pokretnih) delova govornog aparata na vokale, sonante, plozive, frikative i afrikate.

Parametri za ovakvu klasifikaciju glasova zapravo su stepen strikture (sužavanja), odnosno

aperture (otvaranja) glasovnog trakta i način na koji se to sužavanje događa tokom produkcije

određenog glasa, što određuje i hijerarhiju njihove sonornosti. Skala strikture sastoji se od tri

stepena: potpunog zatvaranja, konstrikcije, tj. sužavanja prolaza ili samo približavanja

artikulatora (otvorene aproksimacije), što se dešava kod izgovora svih vokala i nekih sonanata,

koji se zato i zovu aproksimantima (Subotić, Sredojević, Bjelaković, 2012).

Model percepcije govora zasnovan na fonetskim odlikama ukazuje na to kako slušalac

ekstrahuje informacije sadržane u govornom stimulusu i potom koristi te informacije kako bi

pristupio rečima sadržanim u mentalnom leksikonu (Stevens, Hale, 1967). Na osnovu akustičkih

informacija u govornom signalu, slušalac mora biti u stanju da identifikuje sekvencu reči koja čini

osnovu datog akustičkog obrasca upskros potencijalno značajnoj varijabilnosti koja se moe naći u

akustičkim obrascima reči. Zadatak koji je postavljen pred slušaocem može se opisati kao niz koraka,

koji se mogu shematizovati na sledeći način.

Akustički input

Nameravana sekvenca reči

Dijagram modela pristupa leksikonu. Na vrhu je input u vidu akustičkog govornog signala za izjavu produkovanu od strane osobe koja govori. Autput, ili izlaz, je sekvenca reči koju govornik namerava da izgovori. Model se sastoji iz dve vrste operacija ili putanja – putanje direktne analize kojom se skupovi karakteristika procenjuju i uparuju sa leksikonom kako bi se

PPeriferna auditivna obrada

Detekcija obeležja

Izdvajanje akustičkih parametara i oznaka iz

okoline obeležja

Procena skupova karakteristika i strukture

slogova

Uparivanje sa leksikonom

Pretpostavljena sekvenca reči

Leksikon

Sinteza obeležja i parametara

došlo do hipotezirane sekvence reči, i putanje kojom se vrši sinteza, a koja odlučuje da li hipotezirana sekvenca može proizvesti akustički obrazac koji se poklapa sa obrascem izvedenim iz akustičkog signala.

Prvi korak sastoji se iz obrade koju obavlja periferni auditivni sistem. Osnovna pretpostavka

jeste da se u ovoj fazi odvija jedan uopšteni proces transformacije zvučnog signala koji je isti bez

obzira da li je reč o govoru ili ne. Neki aspekti ove periferne obrade naglašavaju akustičke atribute

važne za identifikovanje distinktivnih odlika na kasnijim nivoima obrade.

Drugi korak jeste identifikovanje onih akustičkih obeležja koja pružaju dokaze o prisustvu

segmenata vokala i konsonanata. Ova obeležja mogu biti raznovrsna, i izvlače se na osnovu

posmatranja promene amplituda na različtim frekvencijama. Vrh amplitude niske frekvencije u

oblasti prvog formanta označava da je izgovoren vokal (Howitt, 2000). U slučajevima kada postoji

sužavanje ili popuštanje konstrikcije u usnoj duplji, nastaje određena vrsta naglih promena amplituda

koje obuhvataju čitav opseg frekvencija. Ove promene jesu akustička obeležja konsonanata.

Akustička obeležja predstavljaju početnu tačku akustičke analize koja se odigrava u okviru

trećeg nivoa predloženog modela. Određen broj akustičkih parametara najpre biva ekstrahovan iz

oblasti koje okružuju data obeležja. Selekcija parametara motivisana je potrebom da se dođe do

informacija o artikulatornim pokretima koji su generisali uzorak govora, i, naročito, o pokretima koji

su proizveli postojeća akustička obeležja. Na koji način se ove informacije ekstrahuju iz parametara, u

velikoj meri zavisi od datog jezika, posebno od odlika karakterističnih za taj jezik.

U poslednjoj fazi ovog procesa dolazi do aktiviranja samog mentalnog leksikona, tako što se

pronalaze sekvence reči koje se poklapaju sa pretpostavljenom strukturom slogova. Prilikom

percepcije normalnog govora, slušaocu na raspolaganju mogu biti i neke dodatne informacije pored

onih koje su dobijene na osnovu analize zvučnog signala. Te informacije uključuju vizuelne znake

dobijene iz posmatranja lica osobe koja govori, kao i sintaksičke i semantičke dokaze izvučene iz

samog konteksta u kojem se odvija komunikacija. Znaci ove vrste mogu u velikoj meri da

potpomognu pretragu mentalnog leksikona, naročito u prisustvu buke. Postoji nekoliko načina za

pristup leksikonu na osnovu informacija izvučenih iz zvučnog signala. Jedna od strategija jeste da se

najpre utvrdi grupa reči čiji se inicijalni segment poklapa sa inicijalnim karakteristikama

ekstrahovanim iz zvučnog signala, zatim da se ova grupa redukuje na osnovu skupa osobina drugog

segmenta, i tako redom, sve dok se ne utvrdi grupa reči iz samog leksikona. Druga mogućnost jeste

da se započne sa segmentom čije su karakteristike ekstrahovane sa najvećom pouzdanošću i da se

zatim postepeno ide ka onim segmentima kod kojih je tačnost procene karakteristika znatno niža.

JASAN GOVOR

Način govora, odnosno način na koji osoba komunicira sa drugima, može značajno da varira

tokom jednog dana. Koliko uopšteno ili detaljno ćemo govoriti o nečemu zavisi od okruženja u kome

se nalazimo, našeg fizičkog i emocionalnog stanja, kao i od toga kome se obraćamo. Detetu se

obraćamo posebnim tonom i koristeći značajno pojednostavljen vokabular, u poređenju sa

obraćanjem širem auditorijumu na nekom naučnom skupu.

Posmatrano iz ugla praktične primene, jasan govor jeste način produkcije govora

karakterističan za situacije u kojima je komunikacija otežana, npr. kada se komunikacija odvija u

veoma bučnim uslovima, ili kada se govori osobama sa oštećenim sluhom. Ideja o načinu izražavanja

na poseban način svakako nije nova, i ova tema je često razmatrana kada je reč o govornoj

komunikaciji u pozorištu, putem radija ili u vojsci. U nekim prošlim istraživanjima primarni cilj bio je

obučiti ljude da govore na jasniji, razumljiviji način, dok je sekundarni cilj bio povezan sa

identifikacijom onih faktora koji su posebno uticali na jasnije izražavanje. Neka istraživanja su bila

fokusirana ne na obučavanje ljudi da se jasno izražavaju, već na pronalaženje osoba koje su posebno

uspešne u ovakvom načinu izražavanja među velikim brojem drugih ispitanika.

Prednosti jasnog govora

Upotreba jasnog govora ima neke očigledne perceptivne i fiziološke prednosti, kako je to već

pokazano u istraživanjima koja se se bavila ovim fenomenom. Jasno izražavanje pre svega dovodi do

većeg stepena razumljivosti onoga što se saopštava, u poređenju sa uobičajenim, konverzacijskim

načinom pričanja, iako ta prednost ne važi u istoj meri za sve kategorije slušalaca, niti za sve situacije,

modalitete ili sadržaj samih poruka (Uchanski, 2005). Poruke izrečene jasnim govorom biće lakše za

razumevanje osobama sa oštećenim sluhom, u poređenju sa porukama saopštenim normalnim,

konverzacijskim govorm. Međutim, sve do 1985. godine nije bilo dokaza koji bi podržali ovu hipotezu.

Studija koja je načinila proboj u ovoj oblasti, sprovedena od strane Pičenija i kolega (Picheny, 1985),

dala je vrlo robustne rezultate koji su pokazivali da je razumljivost poruka izrečenih jasnim govorom

17% veća u poređenju sa konverzacijskim govorom. U ovom istraživanju tri subjekta muškog pola

dobili su instrukcije da izgovore stotine sintaksički koretknih, ali besmislenih rečenica, koristeći i

konverzacijski i jasan govor. Rečenice su potom prezentovane u tišini petorici osoba sa različitim

stepenom oštećenja sluha, uzrasta od 24 do 64 godina. Rezultati su bili uglavnom nezavisni od

slušaoca i nivoa jačine kojom su rečenice bile izlagane.

Prednosti jasnog govora potvrđene su i u nekim kasnijim istraživanjima kod osoba sa težim

oštećenjem sluha, i u okruženjima u kojima je postojala pozadinska buka, vibracije, ili kombinacija

buke i vibracija (Payton 1994; Uchanski, 1996).

Prethodno pomenuti eksperimenti uključivali su prezentovanje govora samo putem

auditivnog kanala. U nekim drugim istraživanjima ispitivana je prednost upotrebe jasnog govora kada

je prezentovan audio-vizuelnim kanalima, ili samo vizuelno. U istraživanju Helfera, grupi od 30

ispitanika bez oštećenja sluha prezentovane su rečenice u uslovima pozadinske buke konverzacijskim

i jasnim govorom, kako samo auditivnim (A) tako i audio-vizuelnim (AV) putem. Za oba modaliteta (A i

AV), rečenice su bile razumljivije kada su bile izrečene jasnim govorom (Helfer, 1997).

Kao što postoji značajna varijabilnost među ljudima u razumljivosti poruka izrečenim

konverzacijskim govorom, moglo bi se očekivati da postoji i značajna razlika u njihovoj sposobnosti da

se izražavaju na jasan način. Takođe bi se moglo očekivati da vežba ili instrukcije kako se jasnije

izražavati ima uticaja na ovu sposobnost. Rezultati većeg broja istraživanja pokazali su da dolazi do

značajnog poboljšanja u razumljivosti poruka izrečenih jasnim govorom čak i kada postoji minimum

treninga u formi dosta jednostavnih instrukcija. Neke od instrukcija bile bi ’pričaj kao da govoriš osobi

sa oštećenjem sluha’, ’ zamisli da se nalaziš u bučnom okruženju’, ’pazi da naglasiš svaku izgovorenu

reč’ itd.

Fizičke karakteristike jasnog govora

Neke osnovne ideje i smernice kada je reč o produkciji govora na jasan način mogle bi biti:

sve foneme odnosno glasove treba artikulisati precizno,

praviti kraće pauze između fraza i misli,

govoriti nešto glasnije u poređenju sa konverzacijskim načinom produkcije govora

Ukoliko se ograničimo na neke opšte karakteristike jasnog govora, mogli bismo izdvojiti

sledeće podatke, dobijene na osnovu sprovedenih istraživanja.

Intenzitet

Jasan govor je 5 do 8 dB glasniji od konverzacijskog govora (Picheny, 1986);

Brzina izgovora

U jasnom govoru prosečan broj izgovorenih reči varira od 90 do 100 tokom minuta, za razliku

od konverzacijskog govora gde imamo 160 do 205 reči u minuti (Picheny, 1986). Sporiji izgovor može

se pripisati povećanju učestalosti i prosečnog trajanja pauza između reči.

Pauze

Pičeni je na osnovu istraživanja koje je sproveo sa saradnicima došao do podataka da dolazi

do veće učestalosti i dužeg trajanja pauza kada se upotrebljava jasan govor. U ovom istraživanju,

pauza je bila definisana kao bilo koji interval između reči duži od 10ms, pri čemu u obzir nisu uzimani

oni intervali koji su prethodili izgovaranju reči koje počinju plozivima (Picheny, 1986). Međutim, veza

između povećane učestalosti pauza i povećane razumljivosti govora nije pouzdano utvrđena.

Veštački umetnute pauze u konverzacijskom govoru ne dovode do povećane razumljivosti govora

(Uchanski, 1996).

Kod jasnog govora, frekvencije formanata vokala generalno se prostiru duže većeg prostora,

u poređenju sa formantima vokala konverzacijskog govora. Ova pojava se takođe može uočiti i kod

govora upućenog novorođenoj deci (Kuhl, 1997).

Jasan govor poseduje i određene fonološke i fonetske karakteristike po kojima se razlikuje od

normalnog govora. Međutim, iako se razlikuje od konverzacijskog govora, još uvek nije potpuno

jasno koje su to karakteristike jasnog govora koje doprinose njegovoj većoj razumljivosti. Uprkos

tome, jasan govor ima značajnu primenu u oblasti auditivne, tj. slušne rehabilitacije, u obrazovanju,

kao i u istraživanjima fenomena produkcije i percepcije govora.

NORMALIZACIJA U PERCEPCIJI GOVORA

Jedna od prvih stvari koja se može uočiti prilikom analize spektrograma jeste da je govor

visoko varijabilni fenomen, ne samo kada se porede zapisi govora različitih osoba, već i kada se

upoređuju zapisi govora jedne iste osobe. Normalizacija u percepciji govora odnosi se na jednu

posebnu liniju istraživanja koja su bila fokusirana na činjenicu da fonološki identične izjave pokazuju

značajne akustičke varijacije kada su izgovorene od strane različitih ljudi, a da smo mi kao slušaoci u

stanju da prepoznamo i razumemo izgovorene reči uprkos toj velikoj varijabilnosti. Na primer, ista

reč, izgovorena od strane osoba različitog pola, biće ispravno prepoznata bez obzira što će

spektrogram pokazati dosta velike varijacije u frekvecnijama formanta.

Da su formanti samoglasnika (frekvecnije rezonancije vokalnog trakta) veoma važni za

prepoznavanje vokala, činjenica je koja je poznata više od jednog veka. Još je Helmholc u 19. veku

uspeo da sintetizuje vokale koristeći rezonatore čije su se frekvencije poklapale sa frekvencijama

formanata samoglasnika (Helmoltz, 1885). Miler je u svom istraživanju udvostručio osnovnu

frekvenciju vibiriranja glasnih žica kod dvoformantnih vokala, sa 120 Hz na 240 Hz, i zapazio da dolazi

do pomeranja granica vokala za većinu vokala u Engleskom jeziku (Miller, 1953). Osnovni ton, F0, ima

veoma veliki uticaj na percipiranje samoglasnika. Promena osnovne frekvencije vibriranja glasnih žica

može u priličnoj meri da samnji tačnost percepcije vokala (Milelr, 1953). Granice između kategorija

samoglasnika osetljive su i na promenu viših formanta, F3-F5, mada je ovaj efekat dosta slabiji u

poređenju sa promenom F0.

Svi vokali imaju osnovni ton F0, i bar dve trake frekvencija sa pojačanim intenzitetom glasa,

tj. Imaju dva formanta, F1 i F2. Obeležja vokala sadržana su u vrednostima prva tri formanta, dok su

za potpuno prepoznavanje vokala standradnog srpskog jezika, ali i velikog broja drugih jezika,

dovoljne vrednosti prva dva formanta. Kada vrednosti prvog i drugog formanta predstavimo grafički,

tako što F1 označimo na vertikalnoj, a F2 na horizontalnoj osi, s tim da se početna vrednost nalazi u

gornjem desnom uglu grafika, dobijamo vokalski prostor jednog jezika (Subotić, Sredojević,

Bjelaković, 2012).

Teorija razmere između formanta

Poter i Stajnberg su izneli pretpostavku da, kada je reč o percepciji vokala, određeni spacijalni

uzorak stimulacije bazilarne membrane može biti identifikovan kao dati zvuk nezavisno od položaja

stimulacije duž membrane. Ovo je ujedno i osnovna ideja teorije razmere između formanta – vokali

su relativni uzorci odnosno obrasci, a ne apsolutne frekvencije formanta (Potter, Steinberg, 1950).

Ovaj pristup podržan je dokazima o značaju uticaja F0 i F3 formanta na percepciju vokala. Kao

analogiju, Poter i Stajnberg daju primer sa muzičkim akordima koji se prepoznaju upravo na ovaj

način. Istrenirano uho može identifikovati kao dursku trijadu na primer, bez obzira na njegovu visinu.

Prema principima Geštalta , postoji konstantnost u opažanju objekta bez obzira na poziciju slike tog

objekta na retini, tako da isti principi moraju važiti i u oblasti auditivne percepcije.

Iako su frekvencije formanata važne u percepciji vokala, rezulatati nekih drugih istraživanja

pokazali su da se slušaoci prilikom percepcije oslanjaju i na neke sekundarne dokaze, poput trajanja

vokala, ili putanja frekvencija formanta. Lehist i Melcer su pokazali da tačnost prepoznavanja vokala

značajno opada kada vokali imaju fiksirano trajanje i sintetizovani su uz pomoć

PREPOZNAVANJE IZGOVORENIH REČI

Jedan od dominantnih modela koji pokušava da objasni kako dolazi do prepoznavanja reči

koje čujemo jeste model traganja, prvi put predtsvljen 1986. godine od strane MekLilanda i Elmana

(McClelland&Elman, 1986). Model traganja je konekcionistički model, sastavljen iz tri nivoa jedinica

primitivne obrade koje korespondiraju sa odlikama, fonemama i rečima. Ove jedinice obrade

poseduju ekscitatorne veze između nivoa, i inhibitorne veze unutar samih nivoa, pri čemu ove veze

pojačavaju i snižavaju nivoe aktivacije jednicia u zavisnosti od ulaznog stimulusa i aktivnosti

celokupnog sistema.

Norisov model kratke liste je takođe konekcionistički model prepoznavanja izgovorenih reči

(Norris, 1994). U prvoj fazi ovog modela aktivira se kraća lista reči kandidata, koja se inače sastoji iz

leksičkih stavki koje se poklapaju sa govornim stimulusom. U drugoj fazi, ova lista leksičkih stavki

ulazi u mrežu sasstavljenu od reči, gde dolazi do kompeticije pojedinih reči kandidata putem procesa

interaktivne aktivacije, pri čemu ona reč kandidat koja je aktivna u većoj meri može dovesti do većeg

stepena inhibicije aktivnosti drugih reči kandidata.

Model traganja, Norisov model, kao i još neki danas uticajni modeli prepoznavanja reči polaze

od pretpostavke da percepcia reči uključuje dva fundamentalna procesa – aktivaciju i kompeticiju

(Gaskell&Marslen-Wilson, 2002; Luce&Pisoni, 1998). Ovi modeli predlažu da predstave bazirane na

formi, a koje su konzistentne sa inputom, odnosno sa ulaznim stimulusom, mogu biti aktivirane u

bilo kom trenutko tokom procesa percepcije govora. Pojam radikalne aktivacije, koji se inače vezuje

za ove modele, razlikuje se od nekih ranijih predloga po kojima je inicijalna aktivacija leksičkih stavki

ograničena samo na početak reči. Ulazni stimulus aktivira skup akustičko-fonetskih uzoraka u

memoriji; ovi uzorci su aktivirani u onoj meri u kojoj odgovaraju inputu. Prema NAM modelu,

izgovorene reči se preoznaju u kontekstu fonološki sličnih reči aktiviranih u memoriji (Luce&Pisoni,

1998). Ulazni stimulus, tj. reč, aktivira skup međusobno blisko povezanih reči koje zvuče slično, a

koje potom ulaze u proces međusobne kompeticije kako bi bile prepoznate. Pretpostavka modela

jeste da veća ili jača leskička komepticija za rezultat ima sporiju i manje preciznu obradu. Posledično,

na one reči između kojih postoji veoma gusta i bliska fonološka povezanost biće odgovoreno sporije i

manje precizno.

PROBABILISTIČKA FONOTAKTIKA U PREPOZNAVANJU IZGOVORENIH REČI

U oblasti lingvistike, pojam fonotaktike se odnosi na sistem pravila i ograničenja

kombinovanja glasova i slogova u nekom jeziku. Fonotaktika definiše dozvoljene slogovne strukture,

klastere suglasnik, kao i dozvoljene sekvence samoglasnika. Termin probabilistička fonotaktika koristi

se kako bi se ukazalo na distribuciju relativne učestalosti segemenata i sekvenci segmenata u

jezičkom okruženju osobe (Auer&Luce, 2005).

Od samog rođenja, probabilistička fonotaktika igra odlučujuću ulogu u obradi i usvajanju

govornog jezika. U periodu između šestog i devetog meseca života, deca počinju da usvajaju znanje o

glasovima i njihovim sekvencama karakterističnim za njihov maternji jezik (Jusczyk, 1993).

Sposobnost male dece da jako brzo usvajaju nove reči pod jakim je utiacajem povećane osetljivosti

na probabilističku fonotaktiku (Storkel, 2001; Storkler &Rogers, 2000). Efekti probabilističke

fonotaktike nisu ograničeni samo na period ranog detinjstva. Kod odraslih osoba, probabilsitička

fonotaktika utiče na prepoznavanje izgovorenih reči tako što služi kao oznaka za segmentaciju reči i

kao izvor informacija koje utiču na brzinu i efikasnost prepoznavanja izgovorenih reči.

ODNOS PERCEPCIJE I PRODUKCIJE GOVORA

Do nedavno, istraživanja u oblasti percepcije i produkcije govora bila su u velikoje meri

fokusirana na potragu za psihološkim i fonetskim dokazima o postojanju diskretnih, od konteksta

nezavisnih simboličkih jedinica koje bi korespondirale sa fonološkim segmentima, odnosno

glasovima (Casserly&Pisoni, 2010). Uprkos postojanju zajedničkog cilja i tesno povezanim

predmetima istraživanja, istraživanja u ove dve oblasti govorne komunikacije odvijala su se manje-

više nezavisnim linijama. Iako su istraživanja koja su bila usmerena ili na jedan ili na drugi domen u

velikoj meri doprinela našem boljem razumevanju procesa obrade govora, ljudski kapacitet za

komunikaciju putem govora je toliko kompleksan da njegovo potpuno razumevanje neće biti moguće

sve dok ne dođe do konceptualnog sjedinjenja percepciije i produkcije govora u jedan udruženi

pristup izučavanju problema zajedničkih za obe oblasti.

Do razdvajanja ove dve oblasti je, bar delom, došlo iz praktičnih razloga. Metodologija i

modeli analize su nužno različiti kada je reč o direktnoj opservaciji otvorenog ponašanja, kao kod

produkcije govora, u poređenju sa ispitivanjem skrivenih kognitivnih i neuroloških funkcija, kod

percepcije govora.

Dva centralna domena u kojima je svrsishodno istraživati povezanost procesa percepcije i

produkcije govora jesu javni i privatni domen (Fowler&Galantucci, 2005). U javnom domenu mora

postojati veliko slaganje između aktivnosti pričanja i slušanja. U privatnom domenu, fokus je na

mehanizmima koji se nalaze u osnovi pričanja i slušanja, a koji su postulirani u okviru motorne teorije

Librmana i saradnika.

Veze koje postoje između procesa percepcije i produkcije govora neodvojiv su deo govornog

jezika. Iza ideje da se percepcija i produkcija mogu posmatrati kao delovi jednog ujedinjenog procesa

komunikacije nalazi se pretpostavka da govor ne čine samo akustički obrasci i sa njima podudarajući

pokreti artikularnog aparata. Razumevanje procesa kako percepcije, tako i produkcije govora zahteva

da se ti procesi posmatraju kao sastavni, neodvojivi delovi smislenog ekološkog konteksta i kao

delovi živog sistema akcije i percepcije. Dosadašnji napori istraživača jesu doprineli rasvetljavanju

pojedinih aspekata oba fenomena, ali su istovremeno otvorena i mnoga druga pitanja, na koja će

buduća istraživanja, nadamo se, dati pouzdane odgovore.

Literatura:

1. Casserly, E.D., Pisoni, D.B., (2010) Speech perception and production, Wiley Interdiscip Rev Cogn Sci. September/October; 1(5): 629–647

2. Diehl, L.R., Lotto, J.A., Holt, L.L. (2004) Speech perception, Annual Review of Psychology, 55:149-79.

3. Luce, P., Goldinger, S.D., Auer, E.T. JR., Vitevitch, M.S., (2000) Phonetic priming, neighborhood activation, and PARSYN, Perception&Psychophysics, 62(3), 615-625

4. Pisoni, D.B., Remez, R.E. (2005) The Handbook of Speech Perception, Blackwell Publishing

5. Subotić, Lj., Sredojević, D., Bjelaković, I., (2012) Fonetika i fonologija: ortoepska i ortogorafska norma standardnog srpskog jezika, Filozofski fakultet Novi Sad

Documents

Psiling Rad Final