Upload
skribovanje
View
233
Download
4
Embed Size (px)
DESCRIPTION
Psiling Rad Final
Citation preview
PERCEPCIJA GOVORA- nacrt ispitnog rada iz psiholingvistike -
UVOD
Posmatrano iz istorijske perspektive, izučavanje slušne percepcije u velikoj meri kaska za
studijama u oblasti vida i vizuelne percepcije. Jedan od razloga svakako jeste taj što je vid naše
primarno čulo, dok je sluh od sekundarne važnosti. Međutim, možda važniji razlog leži u tome što
instrumenti koji se koriste za akustičke analize zahtevaju napredniju tehnologiju u poređenju sa
optičkim instrumentima. Sistematsko proučavanje percepcije govora postalo je moguće tek sa
pronalaskom prvih instrumenata za analizu i sintezu govora: zvučni spektrograf Potera i kolega,
tokom II Svetskog rata, Kuperov aparat za reprodukciju uzoraka govora. Uz pomoć ovih uređaja, kao i
uređaja koji su nastali u sledećim godinama, izučavanje govora je najzad moglo da se usredsredi na
prvi zadatak u okviru studija percepcije: definisanje stimulusa, odnosno fizičkih uslova pod kojima se
percepcija odvija.
Percepcija govora je složena kognitivna aktivnost interpretacije i razumevanja zvučnih signala
koji čine jedan jezik. Opažanje govora ne može se svesti na puko prepoznavanje celoviih auditivnih
obrazaca sastavljenih od pojedinih reči ili fraza; radi se pre o izdvajanju reči iz toka govora, kao i
segmenata iz izgovorenih reči. Stvar je u tome da slušalac prepoznaje zvučne obrasce kodirane od
strane osobe koja govori u akustički signal u skladu sa pravilim određenog jezika. Percepcija govora
je, za razliku od opšte audtivine percepcije, intrinzički intersubjektivni proces. Naša potreba, kao
slušaoca, da razumemo poruke koje dolaze od strane osobe sa kojom komuniciramo, dovodi do toga
da smo fokusirani na percepciju izgovorenih reči, a ne na sam način na koji su reči izgovorene. Kada,
sa druge strane, slušamo kako reči zvuče a ne samo šta znače, uključeni smo u proces percepcije
govora. Kod percepcije govora, pažnju usmeravamo na fonetske karkateristike govora, uočavamo
one fine fonetske detalje izgovora koji obično prolaze neprimećeno u svakodnevnoj govornoj
komunikaciji (Cole, 1973).
Sam proces percecije govora počinje na nivou detekcije zvučnog signala, koji se potom
procesuira kako bi se analizirale i sintetizovale njejgove akustičke i fonetske informacije, koje se zatim
mogu koristiti za više kognitivne procese, poput prepoznavanja reči i njihovog značenja. Govorni
signal istovremeno označava kraj procesa produkcije govora i početak procesa razumevanja
izgovorenog. Termini kao što su reč, fraza, slog, fonema, koje inače koristimo za opisivanje jezika i
jezičkih procesa, jesu samo eksplanatorni konstrukti kojima objašnjavamo ono što jeste podložno
opažanju, a to su pokreti govornog aparata i zvuk koji nastaje kao posledica tih pokreta (Sawusch,
2005).
Kognitivni procesi koji se nalaze u pozadini produkcije i razumevanja govora veoma su
kompleksni. Zapravo, govor je do te mere složen proces da, i nakon ogromnog broja istraživanja i
pokušaja, naučnici još uvek nisu uspeli da stvore mašinu ili kompjuter koji bi mogao da razume jezik,
odnosno govor, sa istom lakoćom sa kojom to čine ljudi. Percepcija govora uključuje kombinovanje
ne samo fonologije i fonetike, već i sintakse jednog jezika i semantiku izgovorene poruke. Adekvatna
govorna percepcija zahteva model koji će objediniti sve komponente govora i zatim proizvesti poruku
koja se može razumeti i shvatiti. Istraživači su u ovoj oblasti, tragajući za jednim sveobuhvatnim
objašnjenjem o tome na koji način percipirani akustički obrasci evociraju opažanje i razumevanje
poruka jednog jezika, razvili određene modele i teorije u okviru kojih se postuliraju različiti načini
odvijanja procesa percepcije govora, kao i različite praktične implikacije, pre svega u oblasti razvoja
veštačke inteligencije. Od samog početka izučavanja procesa percepcije govora, naučnici se
suočavaju sa nekim osnovnim pitanjima i problemima, oko kojih još uvek nema jedinstvenog gledišta.
Neki od bazičnih problema u ovoj oblasti jesu:
nepostojanje akustičko-fonetske invarijanse
Jedan od osnovnih problema sa kojim su se susreli istraživači u oblasti percepcije govora nakon
otkrića zvučnog spektrografa četrdesetih godina prošlog veka, a kako se ispostavilo, i dalje jedna
od centralnih tema u oblasti izučavanja govora, jeste nepostojanje akustičko-fonetske
invarijanse. Uprkos velikom broju istraživanja posvećenih ovom problemu, istraživači nisu uspeli
da identifikuju akustičke segmente i karakteristike govornog zvučnog talasa koji bi se savršeno
poklapali sa jedinicama dobijenim na osnovu perceptualne analize. Samo jedan segment
govornog signala često sadrži informacije o određenom broju susednih lingvističkih segmenata i
obrnuto, isti lingvistički segment je često akustički predstavljen na različite načine, zavisno od
prisutnog fonetskog konteksta, brzine kojom osoba govori, sintaksičkog okruženja . U poređenju
sa rečima produkovanim u izolaciji, akustičke karakteristike pojedinačnih zvuka govora, npr.
fonema, pokazuju još veću varijabilnost u povezanom, fluentnom govoru, prvenstveno zbog
uticaja postojećeg fonetičkog konteksta.
osnovne jedinice percepcije govora
U lingvističkom smislu, osnovna jedinica u govornoj komunikaciji je fonema, glas čijom se
zamenom u datoj reči menja njeno značenje. Recimo, zamenom glasa s u reči pesak glasom š,
dobijamo novu reč pešak. Većina postojećih modela razumevanja jezika polazi od pretpostavke
da se akustički signali prevode u neku vrstu posrednih jedinica koje se zatim koriste da bi se
pristupilo rečima koje čine jezički leksikon. Uprkos neslaganjima oko toga da li ulogu ovih
posrednih jedinica preuzimaju foneme, slogovi ili cele reči, veliki broj istraživača fokusiran je na
mapiranje akustičnih signala i njihovo preslikavanje u fonetske jedinice i fonetske
kategorije.Velika varijabilnost, inherentna akustičnom signalu, jeste ono što proces percepije
govora čini izuzetno kompleksnim. Slušalac se suočava sa izazovom prevođenja visoko
varijabilnog akustičnog signala u jedinice govora. Ova varijabilnost proizilazi iz više izvora.
Fluentnost kojom neka osoba govori utiče na karakteristike zvučnog signala koji dopire do
slušaoca. Ukoliko pođemo od analize govora u svakodnevnoj komunikaciji, mogli bismo zaključiti
da se prilikom produkcije govora pojedinačni glasovi javljaju sukcesivno kao diskretne jedinice,
na isti način na koji se slova sukcesivno nižu u tekstu. Pregledom spektrograma se zapravo može
utvrditi da između pojedinačnih glasova ne postoji oštra granica, već da se uticaj i trajanje jednog
glasa prostire u polje drugog glasa. U proseku, osoba izgovori 10-15 glasova u sekundi, dok se
ove vrednosti mogu udvostručiti prilikom brzog govora. Kod fluentnog govora dolazi do
preklapanja, istovremene realizacije nekoliko glasova, fenomena poznatog kao koartikulacija.
Usled koartikluacije svaki pojedinačni deo akustičkog signala sadrži informacije o više različitih
vokala i suglasnika. Drugim rečima, fizičke karakteristike glasa će u velikoj meri zavisiti od
susednih glasova, što znači da postoji varijabilnost uslovljena kontekstom. Pored koartikulacije,
ritam kojim osoba govori, njen akcenat, emocionalno stanje, akustične osobine prostora u kome
se govornik nalazi, takođe su izvori varijablinosti akustičkog signala. Jedan od najvećih izazova sa
kojim se susrećemo pri pokušaju razumevanja procesa percepcije govora jeste na koji način
identifikujemo pravo značenje onoga što govornik namerava da nam saopšti i pored toga što
mnogobrojni izvori varijabilnosti utiču na sam akustički signal. Uprkos visokoj varijabilnosti
karakteristika pojedinačnih glasova, mi i dalje čujemo određeni glas, tj. fonemu, a ne varijacije
akustičkog signala. Očigledno je da su mehanizmi odgovorni za detektovanje govornih signala
dosta složeniji od mehanizama odgovornih za obradu negovornih auditivnih stimulusa, na
osonovu čega bi se moglo zaključiti da je percepcija govora posebna vrsta percepcije. U prilog
shvatanju da je percepcija govora posebna vrsta percepcije govore i nalazi istraživanja koji
pokazuju da je diskriminacija govornog signala daleko bolja od diskriminacije sukcesivno
prikazanih šumova i tonova, materijala koji nije govorni signal. Da bismo bili u stanju da
odredimo redosled izlaganja nejezičkih stimulusa, njihovo trajanje ne sme da bude kraće od 650
ms. Sa druge strane, govor je razumljiv i kada u sekundi imamo 20 sukcesivno izloženih glasova,
50 ms po glasu (Warren, Obusek, Farmer i Warren, 1967).
problem normalizacije govora
Ovaj problem je blisko povezan sa već pomenutim nepostojanjem akustičko-fonetske
invarijanse. Jedan od aspekata ovog problema proizilazi iz fizičkih i artikulatornih razlika koje
postoje između osoba, konkretno iz opaženih razlika u dužini i obliku vokalnog trakta. Drugi
aspekt problema tiče se brzine kojom osoba govori. Istraživanja su pokazala da je trajanje
pojednih zvukova govora pod velikim uticajem brzine kojom se odvija govor. Osnovni problem
ovde jeste na koji način dolazi do konstantnosti u percepciji uprkos velikoj fizičkoj varijabilnosti
stimulusa, tj. na koji način se odvija ta perceptivna kompenzacija, zaslužna za nesmetano
procesuiranje govornog signala.
PERCEPCIJA GOVORA KAO MULTIMODALNI FENOMEN
Uprkos našem uverenju da je govor nešto što pre svega čujemo, postoji dovoljno dokaza da
naš mozak govor tretira kao nešto što istovremeno čujemo, vidimo, pa čak i kao nešto što osećamo.
Upravo se na osnovu tih dokaza može reći da je govor, tačnije percepcija govora, multimodalni
fenomen (Rosenblum, 2005).
Mapiranje akustičkog govornog signala i prevođenje u njegovu fonetsku reprezentaciju je
veoma kompleksan proces i može biti pod uticajem lingvističkih informacija višeg reda, poput
poznavanja značenja reči unutar jednog jezika. Pored toga, na proces percepcije govora može uticati i
vizualni modalitet, tačnije informacije koje dobijamo posmatrajući lice osobe koja govori. Klasičan
primer ovog uticaja jeste Mek Gurkov efekat. Mek Gurkov efekat je čulni fenomen koji podrazumeva
interakciju čula sluha i percepcije govora.Iluzija koja nastaje rezultat je uparivanja auditivne
komponente jednog glasa sa vizuelnom komponentom drugog glasa, pri čemu se najčešće čuje treći
glas. Vizuelna informacija o osbi koja govori utiče na način na koji čujemo glas. Efekat se objašnjava
kognitivnim naporom da se sve informacije obrade i analiziraju, a kako su informacije koje dolaze
oprečne, vizuelna percepcija ima jači uticaj i dobija se kombinovani rezultat u vidu trećeg glasa. Snaga
efekta je takva da se i istraživači koji se bave ovom temom, svesni ove pojave, ponekad ne mogu
otrgnuti efektu. Sinhronizovanost između vizuelne informacije koju dobijamo posmatrajući lice osobe
koja govori i akustičkog signala, od velikog je značaja prilikom percepcije govora. Govor koji se
prezentuje u uslovima buke ili pozadinskog šuma, na primer, u mnogo većoj meri je razumljiviji
ukoliko posmatramo i lice onoga koji govori. Jedno od važnih pitanja jeste na koji način perceptivni
sistem integriše vizuelne i akustičke informacije prilikom percepcije govora. Važan teorijski problem
jeste pitanje stepena u kojem je audio-vizuelna percepcija govora rezultat integracije dve vrste
informacija koje dele zajednički izvor, ili je ta percepcija posledica učenja o prirodnoj povezanosti
auditivnih i vizuelnih signala. Ova pitanja su važna kada je reč o pravljenju razlike između postojećih
teorijskih modela percepcije govora.
Informacije o govoru koje primimo vizuelnim putem automatski se integrišu sa slušnim
informacijama, što na dobar način ilustruje MekGurkov efekat (McGurk & MacDonald, 1976). Ovaj
efekat je perceptivni fenomen koji demonstrira interakciju između čula sluha i čula vida u percepciji
govora. Iluzija nastaje kada se slušna komponenta jednog zvuka upati sa vizuelnom kompnentom
drugog zvuka, što za rezultat ima to da percipiramo neki treći zvuk. Ukratko, u okviru multimodalnog
pristupa se tvrdi da prilikom percepcije govora dolazi do automatkse integracije informacija koje
dolaze iz različitih izvora – slušnih, vizuelnih, donekle i kinestetičkih.
U okviru amodalnog pristupa se, sa druge strane, tvrdi da je percepcija govora ’’slepa’’ za
specifičnosti određenog modaliteta od samog početka procesuiranja govora (Rosenblum, 2005).
Fizički pokreti do kojih dolazi prilikom produkcije govora mogu oblikovati akustičke i optičke signale
na slična način, tako da signali poprimaju istu opštu formu. Percepcija govora potom uključuje
ekstrakciju zajedničke informacije višeg reda iz oba signala, akustičkog i vizuelnog. Drugim rečima,
slušne i vizuelne informacije nikad nisu funkcionalno u potpunosti razdvojene. Dok su površni detalji
obe vrste signala izolovani, celovita forma koja sadrži infomacije ovih signala ostaje nepromenjena.
KLASIČNE TEORIJE GOVORNE PERCEPCIJE
Teorije percepcije govora mogu se podeliti u dve grupe:
Pasivne teorije, odnosno teorije koje proces percpecije govora posmatraju kao pasivan
proces; u okviru ovih teorija postulira se da postoji neka vrsta direktne povezanosti između
akustičkog signala i percipiranih fonema. Ove teorije su u osnovi teorije filtriranja koje ne
uključuju mogućnost posredovanja viših kognitivnih procesa.
Aktivne teorije, koje sugerišu da ne postoji direktna veza, već da je neki viši vid medijacije
uključen u proces percepcije, tako da se obrasci ulaznih informacija upoređuju sa interno
prisutnim, generisanim obrascima.
U praksi, međutim, većina teoretičara prihvata mogućnost da proces percepcije govora može biti
kombinacija aktivnih i pasivnih procesa.
Pasivne teorije percepcije govora
Teorija distinktivnih odlika
Jacobson, Fant i Halle (1963) predložili su postojanje seta distinktivnih odlika koje su
predstavljale kombinaciju kako akustičkih tako i artikulatornih odlika, i koje bi mogle biti
korišćene kao sastavni deo binarnog sistema da/ne odluka kako bi omogućile prepoznavanje
govora na nivou fonema. Broj i priroda ovih odlika varirali bi od jednog do drugog jezika,
uzimajući u obzir glasove specifične za svaki jezik, ali bi u svakom slučaju trebalo da
obezbede razlikovanje svih fonema jednog jezika. Takav sistem bi uključivao odlike poput
vokalnih/ne-vokalnih, konsonantnih/ne-konsonantnih, nazalnih/oralnih.
Pandemonijum model
Selfridžov pandemonijum model je prillično metaforičan (Selfridge, O.G., 1959).
Originalno zamišljen kao modela prepoznavanja karaktera prilikom čitanja, Pandemonijum je
model sastavljen od više nivoa, pri čemu se na svakom nivou odvija paralelno procesuiranje.
Obradu input infomacija preuzimaju redom četiri vrste demona s različitim zadacima. Na
najnižem nivou nalaze se demoni koji skladište egzaktnu kopiju input obrasca. Ovo je,
pretpostavlja se, kratkoročna memorija. Demoni koji se nalaze na sledećem nivou analiziraju
uskladištene informacije i izdvajaju parametre frekvencije i amplitude, i ovde je svaki demon
zadužen za po jednu osobinu. Svaki demon osobina registruje učestalost osobine za koju je
zadužen, i u zavisnosti od učestalosti reaguje jače ili slabije. Registrovani parametri potom
bivaju prosleđeni demonima na narednom nivou, a koji su zaduženi svaki za po jedan
poseban sklop osobina. Ovi kognitivni demoni osluškuju demone osobina i reaguju jače ili
slabije u zavisnoti od toga koliko se njihovih osobina tamo pominje. Poslednja instanca jeste
demon odluke, zadužen da iz mnoštva zbivanja donese jednu odluku. On prati reagovanja
kognitivnih demona i opredeljuje se za jedan određeni sklop osobina, i to onaj u kojem je
najviše tih osobina potvrđeno.
Model Absa i Susmana
Ovaj model postulira postojanje specijalizovanih grupa nerava i receptora, koji
moraju biti u stanju da na adekvatan način odgovore na spacijalno-temporalne promene u
signalu, kao i da poseduju visoku toleranciju na brojne varijacije koje postoje u samom
akustičkom signalu. Osnovna pretpostavka modela jeste da se procesuiranje signala govora
odvija po principima drugačijim od onih po kojima se odvija obrada ostalih zvučnih signala.
Ova pretpostavka podržana je nalzima da govor može biti obrađen u kraćem vremenskom
intervalu u poređenju sa drugim akustičkim stimulusima. Na primer, slušaoci mogu tačno
zapamtiti redosled izlaganja govornih signala koji traju veoma kratko, 70-80 ms, što nije
slučaj sa zapamćivanjem redosleda izlaganja ne-govornih zvučnih signala, čak i kada traju dva
ili tri puta duže (Warren, 1969).
Aktivne teorije percepcije govora
Motorna teorija percepcije govora
Početkom 50-ih godina prošlog veka, Alvin Liberman, Frenklin Kuper i drugi istraživači
Hoskinsove laboratorije izveli su seriju istraživanja na temu perpcepcije sintetizovanog govora. Njihov
rad postavio je temelje onoga što znamo o akustičkim kakteristikama lingvističkih jedinica, poput
fonema, i otkrio da je prevođenje govornih signala u jedinice jezika dosta kompleksan proces.
Liberman i njegovi saradnici su vremenom postali uvereni da percipirane foneme i funkcije imaju
jednostavniji, gotovo jedan-na-jedan, odnos prema artikulaciji nego prema akustičkim
karakteristikama signala, što predstavlja začetak motorne teorije precepcije govora.
Iako je motorna teorija pretrpela značajne izmene tokom vremena, svaka verzija je zadržala
osnovnu premisu prvobitno formlisane motorne teorije – percepcija govora se pre sastoji u percepciji
pokreta vokalnog trakta, nego u percepciji auditornog signala. Tačnije. produkcija i percepcija govora
su koimplikativni procesi – slušalac se prilikom obrade govornog signala oslanja na apstraktno i
implicitno znanje o tome kako se određeni govorni signal generiše. Liberman i saradnici su prvobitno
razvili motornu teoriju kako bi objasnili neke neočekivane rezultate eksperimenata u kojima je
korišćena mašina za čitanje, namenjena slepim osobama. Učesnici u eksperimentu nisu uspevali da
identifikuju pojedinačne zvuke u izloženom nizu, već su se ti zvuci spajali u nerazlučivu, nerazumljivu
celinu. Prema mišljenju Libermana i njegovih saradnika, problem je bio u tome što su sekvence
diskretnih zvukova premašivale moć auditornog sistema da razdvaja ove zvuke. Kako bi istražili
akustičku strukturu govora, Liberman i saradnici koristili su zvučni spektograf, koji predstavlja grafički
zapis govora. Na ovaj način, oni su otkrili da fonetske segmente odlikuje koartikulacija, tj. da postoji
preklapanje pokreta vokalnog trakta za uzastopne suglasnike i samoglasnike. Za Libermana,
koartikulacija predstavlja veoma važnu karakteristiku govora, jer ako postoji preklapanje informacija
sadržanih u fonetskom segmentu, informacija za svaki segment se može razvući na duži vremenski
interval, a uvo može razložiti i rešiti segmente postepeno.
Proces produkcije govora se prema Libermanu sastoji iz serije nekoliko međusobno
povezanih nivoa: fonema→mišićna kontrakcija→oblikovanje vokalnog trakta→akustički signal.
Budući da su Liberman i saradnici smatrali da postoji odnos jedan-prema-jedan između pokreta
vokalnog trakta i akustičkih signala, kompleksno mapiranje fonema u govorne signale onakve kakvim
ih percipiramo, smatralo se prvenstveno posledicom koartikulacije.
Najranija verzija motorne teorije pretpostavljala je da novorođenčad imitiraju govor koji čuju,
i da ta imitacija stvara asocijacije između artikulacije i njenih senzornih posledica sa jedne strane, i
akustičkih signala koje generišu pokreti vokalnog trakta, sa druge strane. Još jedna važna tvrdnja
sadržana u motornoj teoriji jeste da se sposobnost opažanja govora ne može svesti na opšte
mehanizme čuvenja i perceptualnog učenja, već da zavisi od specijalizovanog dekodera koji je
specifičan za ljude.
Tri glavne postavke motorne teorije bile su predmet mnogih provera kako bi se dokazala
njihova opravdanost. Te postavke jesu: 1. procesiranje govora je posebno, 2. opažanje govora sastoji
se u opažanju pokreta, i 3. motorni sistem je angažovan kod opažanja govora. Prva postavka
podložna je različitim tumačenjima, koja, sem ako nisu veoma usko interpretirana, opovrgavaju
postojeći nalazi istraživanja, tako da se verovatno može odbaciti. Jedno od tumačenja recimo, jeste
da procesuiranje govora podrazumeva angažovanje motornog sistema prilikom percepcije govora. U
strogom smislu, to bi značilo da je auditorni sistem jedini perceptivni sistem koji podrazumeva
angažovanje motornog sistema. Ukoliko ovu pretpostavku podvrgnemo nešto slobodnijem
tumačenju, mogli bismo reći da je percepcija govora posebna aktivnost, jer unutar nje, to je jedini
proces koji podrazumeva angažovanje motornog sistema. Postoji veliki broj dokaza koji opovrgavaju
ovo stanovište, i koji pokazuju da postoji generalno angažovanje motornog sistema prilikom
percepcije. Štaviše, neki od dokaza tiču se auditornih procesa koji nemaju nikakve veze sa govorom.
Druga postavka motorne teorije, koja je izazvala dosta kontroverzi, jeste da su glavni objekti
percepcije govora zapravo pokreti vokalnog trakta osobe koja govori, a ne akustički obrasci
generisani tim pokretima. Jedan od prvih dokaza koji govore u prilog ovoj postavci potiče od samog
Libermana, koji se zapitao u kom pravcu ide percepcija, ako se artikulacija i zvučni signal kreću
različitim pravcima. Po njegovom mišljenju, percepcija prati artikulaciju. Artikulacija proizvodi zvučni
talas, iz čega sledi da ne može doći do njihovog razdvajanja. Međutim, zahvaljujući koartikulaciji,
ponekad se čini da je to razdvajanje moguće i pruža priliku da se ispita priroda govornih percepata.
Još jedan dokaz koji potvrđuje ovu postavku motorne teorije jeste Mek Gurkov efekat – posmatranje
osobe koja izgovara jedan slog, dok slušamo neki drugi slog, može uticati na to kako je ovaj drugi slog
opažen. Pored toga, opažanje govora u bučnim uslovima je dosta tačnije ukoliko smo u mogućnosti
da posmatramo osobu koja govori.
Direktnih dokaza koji bi potvrdili treću pretpostavku na kojoj počiva motorna teorija, onu o
učešću motornog sistema ili motorne kompetencije u percepciji govora, nema previše. Indirektna
uključenost motornog sistema u proces percepcije govora može se proceniti ukoliko motornu teoriju
smestimo u jedan širi kontekst, koji obezbeđuju nalazi da perceptivno-motorne veze karakterišu
ostale prirodne sisteme komunikacije i da je motorni sistem po sebi aktivan kada se radi o
perceptivnim zadacima. Jedan od malobrojnih dokaza o motornom angažovanju prilikom percepcije
govora potiče iz studije Kupera (1979). Neke ranije studije pokazale su postojanje efekta selektivne
adaptacije. Ponovljena prezentacija nekog sloga, recimo /pa/, vodi ka manjem broju identifikacija
dvosmislenih slogova kao /pa/, duž /ba/ - /pa/ kontinuuma, na primer. Kuper je pokazao da efekat
selektivne adaptacije ne utiče samo na percepciju govora, već isto tako i na njegovu produkciju. On je
našao male, ali pouzdane redukcije onset vremena slogova /pi/ i /ti/ izgovorenih od strane subjekata
nakon adaptacije na akustički prezentovan slog /pi/, što je nalaz koji sugeriše postojanje veze izmedju
percepcije i produkcije govora. Kercel i Bekering (2000), našli su povezanost percepcije i produkcije u
zadacima koji uključuju vizuelno prezentovanje govornih gestova. Učesnicima u eksperimentu
prezentovan je video snimak osobe koja izgovara slogove /ba/ ili /da/, prilikom svakom pokušaja.
Tokom varijabilnog vremenskog intervala nakon ove vizuelne prezentacije materijala irelevantnog za
zadatak, učesnicima je prikazan jedan od dva simbola, && ili ##, koje su učesnici prehodno naučili da
povežu sa izgovaranjem slogova /ba/ i /da/. Zadatak učesnika bio je da što je moguće brže reaguju na
prikazane simbole, tako što će izgovoriti /ba/ ili /da/, uz uputstvo da ignorišu video klipove. I pored
takvog uputstva, rezultati su pokazali da postoji efekat uticaja irelevantnog materijala. Konkretno,
postojao je uticaj na vreme potrebno da se izgovori slog uparen sa odgovarajućim simbolom. Vreme
reakcije za odgovor /ba/ bilo je kraće kada je ispitaniku prikazan snimak na kome se vidi kako usta
izgovaraju /ba/, nego kada izgovaraju /da/. Isto tako, odgovori /da/ bili su brži kada je ispitaniku
prikazan snimak na kome vidi kako se izgovara /da/, nego kada mu je prikazan snimak izgovaranja
/ba/. Kercel i Bekering sugerisali su da opažanje načina izgovaranja aktivira odgovarajući motorni kod
koji stupa u interakciju sa kodovima aktiviranim od strane simultanog planiranja istovetne akcije.
Neki dokazi ukazuju da je ne samo motorna kompetencija, već i sam motorni sistem
angažovan prilikom percepcije. Otkriće tzv. neurona ogledala (mirror neurons) pruža direktne
neurološke dokaze o uključenosti motornog sistema u proces percepcije. Krajem 80-ih i početkom
90-ih godina dvadesetog veka, tim neuronaučnika sa Univerziteta iz Parme u Italiji, na čelu sa
Giacomo Rizzolatti-em otkrio je zanimljiv fenomen proučavajući majmune. Kada majmun približi
hranu ustima, u mozgu se aktiviraju određeni neuroni. Naučnici su, međutim, utvrdili da se ti isti
neuroni aktiviraju i u trenutku dok majmun posmatra nekog drugog (majmuna ili čoveka) da
približava hranu ustima, čak i ako sam subjekt (majmun) u tom trenutku ne radi ništa. To je vodilo
otkriću da jedna grupa ćelija u mozgu (neuroni ogledala- mirror neurons) biva aktivirana
posmatranjem akcije na isti način kao kada organizam sam izvodi tu akciju. Kasnije se ispostavilo da
su neuroni ogledala kod ljudi još složeniji, fleksibilniji i razvijeniji, čime se može objasniti
napredovanje socijalnih sposobnosti kod ljudi u odnosu na majmune. Drugim rečima, naučnici
smatraju da ovi neuroni direktno doprinose razumevanju među ljudima - umesto da intelektom
zaključujemo šta neko oseća, naš mozak nam dozvoljava da steknemo utisak o umu drugog putem
direktne stimulacije koja se odvija u našem sopstvenom mozgu.
Kada je reč o govornoj percepciji, sada postoje dokazi da opažanje govora uključuje i
neuralnu aktivnost motornog sistema. Studije u kojima je korišćena transkranijalna magnetska
stimulacija motornog korteksa pokazale su aktivaciju mišića povezanih sa govorom tokom same
percepcije govora. Fadiga i njegovi saradnici (2002) našli su da kada slušaoci čuju neki iskaz koji sadrži
suglasnike, oni pokazaju pojačanu mišićnu aktivnost jezika. Votkins i saradnici (2003) pronašli su da
prilikom slušanja govora, kao i prilikom gledanja pokreta usana povezanih sa govorom, ljudi pokazuju
pojačanu mišićnu aktivnost u oblasti usana. Pored toga, u dvema studijama koje su koristile fMRI
tehniku snimanja moždane aktivnosti (Pulvermuller et al., 2006; S.M. Wilson, Saygin, Sereno &
Iacoboni, 2004) demonstrirano je postojanje preklapanja između kortikalnih oblasti aktivnih tokom
produkcije govora i onih oblasti aktivnih tokom pasivnog slušanja govora.
AKUSTIČKA ANALIZA I SINTEZA GOVORA
U najširem smislu, percepcija govora odnosi se na to kako, na koji način, zapravo dolazi do
toga da razumemo ono što neka druga osoba govori, saopštava rečima. U užem smislu, percepcija
govora se posmatra kao način na koji osoba interpretira zvuk koji dolazi od strane druge osobe u vidu
sekvence diskretnih lingvističkih kategorija kao što su foneme, slogovi ili reči. U analizi govora, fokus
je na pokušajima da se odredi energija svake frekvencije u svakoj tačci tokom vremena, kao i
određivanje toga da li je signal periodičan ili aperiodičan. Ovi kvaliteti povezani su sa procesima i
strukturom artikulacije. Kada je reč o sintezi govora, naglasak je na pokušajima reprodukcije govora
na osnovu ograničenog seta parametara koji opisuju željene akustičke ili artikulatorne kvalitete
signala.
Govorni signal
Za razumevanje mentalnih procesa koji se nalaze u osnovi kako produkcije, tako i percepcije
govora, neophodno je objasniti i razumeti prirodu samog govornog signala. Sam čin produkcije
govora započinje prolaskom vazduha koji dolazi iz pluća, kroz, odnosno preko glasnih žica. Vazdušni
talas zatim biva modifikovan tokom prolaska kroz vokalni trakt, a kao krajnji efekat nastaje govorni
signal, odnosno smisleni tok različitih zvukova. Brzina vibriranja glasnica određena je njihovom
dužinom i napetošću mišića. Duže, masivnije glasnice vibriraju sporijim tempom, te tako proizvode
glas koji čujemo kao dubok. Vokalni trakt se na veoma uprošćen način može prikazati kao niz cevi. U
bilo kom trenutku, pozicija jezika, usana i vilice može biti prikazana kao niz cevi različitih dužina, od
kojih svaka poseduje sebi svojstvenu frekvenciju rezonancije. Vokalni trakt propušta određene
frekvencije, dok istovremeno zadržava druge. Pokretanje delova vokalnog trakta označava da se
frekvencijska kompozicija govora menja uporedo sa promenom oblika vokalnog trakta (Sawusch,
2005).
Akustička analiza
Početna tačka u kompjuterskoj akustičkoj analizi govora jeste Furijeova analiza, odnosno
transformacija. Furijeova analiza omogućava predstavljanje signala u frekvencijskom domenu. Signal
je u frekvencijskom domenu predstavljen preko svog spektra. Značaj pretvaranja signala iz
vremenskog u frekvencijski domen leži u činjenici da se neke važne osobine signala mogu bolje
interpretirati u frekvencijskom domenu. Ako uzmemo uzorak govora, odnosno govornog signala koji
se periodično ponavlja, i zatim taj uzorak konvertujemo iz vremenskog u frekvencijski domen,
dobićemo govorni signal predstavljen u obliku spektra, odnosno spektrogram. Spektrogram je
vizuelni prikaz spektra frekvencija u zvuku ili nekom drugom signalu koje variraju tokom vremena ili
neke druge promenljive. Na fizičkom nivou spektrogram otkriva karakteristične obrasce frekvencija i
amplituda koji čine osnovu zvučnog signala.
Zatamnjenja na spektorgramu predstavljaju intenzitet određene frekvencije u određenom
trenutku. Energetske koncentracije na određenim frekvencijskim opsezima nazivaju se formanitma.
Formanti su zapravo prirodne rezonancije vokalnog trakta. i imaju dve glavne karakteristike,
formantske tranzicije (porast ili pad frekvencije u okviru datog fomanta) i stabilno stanje formanta.
Kod
sloga /di/ frekvencija drugog formanta je oko 2,4 kHz, dok je kod sloga /du/ 1,2 kHz. Ono što je
zanimljivo jeste razlika u tranziciji drugog formanta. Dok kod sloga /di/ uočavamo porast porast
frekvencije na početku drugog formanta, kod
sloga /du/ imamo pad frekvencije na početku
drugog formanta. Iako se počeci drugog
formanta dosta razlikuju, u oba slučaja čujemo
d (Liberman, 1967). Pored jednog osnovnog
jasno izdvojenog tona , koji se obično naziva
osnovnim formantom, a koji mi uhom jedino i
primamo, javljaju se i neki sporedni akustički
efekti. Od tih sekundarnih efekata zavisi
konkretna boja jednog glasa (Subotić,
Sredojević, Bjelaković, 2012). Spektorgram,
iako pruža dosta informacija o prirodi govornog
signala, ima i neka ograničenja. Prvo,
koncentracije energije koje nazivamo
formantima ne moraju nužno biti iste kao rezonantne ferkvencije vokalnog trakta. Ovo može
predstavljati problem ukoliko se posmatra iz ugla proučavanja akustičke strukture govora i
implikacija po percepciju i produkciju govora. Pitanje koje se ovde postavlja jeste za kojom vrstom
informacije tragamo kada analiziramo govorni signal. Ako je reč o informacijama dostupnim slušaocu,
spektrogram predstavlja dobru aproksimaciju tih podataka. Međutim, ako želimo da izmerimo
rezonantne frekvencije vokalnog trakta, spektrogram ovde ne igra bitnu ulogu jer dobijeni zapis
predstavlja izvor zvuka modifikovan vokalnim traktom, pre nego što predstavlja sam vokalni trakt.
Stoga je potrebno izolovati uticaje izvora od uticaja filtera odnosno
Spektrogram slogova ’’di’’, ’’da’’ i ’’du’’; formanti su vokalnog trakta.
obeleženi crvenom bojom
Potencijalni problemi u analizi govora
Jedan od brojnih problema koji se mogu javiti prilikom pokušaja merenja formanta u govoru
jeste da ponekad formanti nisu vidljivi u zapisu govornog signala. Da bismo razumeli kako je to
moguće moramo se vratiti na prethodno opisani model produkcije govora. Kod ovog modela, izvor
govora je harmonijski spektar koji se sastoji iz osnovne frekvence i njenih harmonika. Ovaj spektar
prolazi kroz vokalni trakt koji se ponaša kao skup rezonatora. Oni delovi spektra koji se poklapaju sa
frekvencijama rezonancije prolaze dalje, dok ostali harmonici bivaju prigušeni. Pikovi u rezultirajućem
spektru predstavljaće dobru procenu rezonancije vokalnog trakta u onoj meri u kojoj harmonici
osnovne frekvence odgovaraju frekvencijama rezonancije vokalnog trakta prilikom produkcije
govora. Kada je osnovna frekvencija niska, rastojanje između harmonika je veoma malo, tako da je
razumno pretpostaviti da će bar jedan harmonik biti u blizini svakog formanta, a pikovi unutar
spektra korespondirati sa formantima. Ukoliko je osnovna frekvencija viša, kao što je slučaj kod
ženskog glasa, rastojanje između harmonika je veće. Ako rezonancija vokalnog trakta pada između
harmonika, rezultirajući zvuk možda neće imati dovoljno energije da proizvede pik unutar spektra.
Budući da signal ne sadrži spektralni pik, neće biti ni rezonatora koji bi mogao biti modelovan.
Sinteza govora
Kao što je već rečeno, sinteza govora odnosi se na pokušaje reprodukcije govora na osnovu
parametara koji poseduju odgovarajuće akustičke i artikulatorne kvalitete. Ovde ćemo se fokusirati
na Klatov pristup sintezi govora baziran na softverskom sintisajzeru, pre svega zbog njegove
fleksibilnosti. Klatov softverski sintisajzer je sastavljen iz dve dela, kaskadnog i paralelnog (Klatt,
1980). Ovo znači da F2 rezonator deluje na izvor nakon što je već modifikovan od strane F1
rezonatora. Za specifikovanje svakog formanta neophodne su središnja frekvencija, protok i
amplituda. U kaskadno dizajniranom ogranku Klatovog sintisajzera moguće je kontrolisati frekvenciju
i protok formanta, dok se amplitude podešavaju automatski. Paralelni ogranak sintisajzera koristi se
za sintetizovanje friktiva i ploziva povezanih sa konsonatima. Ovde rezonatori deluju nezavisno jedan
od drugog a njihovi efekti na izvor se sumiraju kako bi proizveli izlazni signal. Kod Klatovog
sintisajzera, izvor glasa je dizajniran tako da imitira muški glas. Modifikovana verzija ovog sintisajzera
uključuje izmene u samom izvoru zajedno sa fleksibilnijom kontrolom detalja u glotalnom talasu, što
omogućava sintetizovanje ženskog glasa relativno visokog kvaliteta (Klatt&Klatt, 1990). Međutim,
ženski glas nije prosto skaliran muški glas. Klat i Klat su, revidirajući nalaze merenja muških i ženskih
glasova, primetili da jedan parametar predstavlja konstantu, a to je koeficijent otvorenosti. Ovaj
koeficijent predstavlja procenat perioda tokom kojeg su glasnice otvorene, i iznosi 50% kod
muškaraca i 60% kod žena. Pored toga, učestalost pojave škripavog glasa, gde osnovna frekvencija
pada ispod nivoa normalne vrednosti a period otvorenosti je kraći od normalnog, izgleda da je veća
kod muškaraca (Henton, 1999).
Sintetizovanje prirodnog ženskog ili dečijeg glasa jedan je od većih izazova sa kojim se
susreću naučnici u ovoj oblasti. Prirodnost, za slušaoca, može zavisiti od sličnosti sintetizovanog glasa
sa nekim stvarnim glasom ili glasovima, budući da se ljudi svakodnevno susreću sa velikim brojem
različitih glasova. Dodatno pitanje jeste da li se akustički kvaliteti sintetičkih stimulusa obrađuju na
isti način na koji se obrađuje i prirodni govor.
PERCEPTIVNA ORGANIZACIJA GOVORA
Perceptivna organizacija odnosi se na sposobnost nametanja strukture ili reda podacima koje
dobijamo putem naših čula. Kod perceptivne organizacije govora, auditivni korelati govora razlažu se
u jedan koherentan, celovit niz pogodan za analizu njegovih lingvističkih karakteristika.
Kada je reč o osnovama auditivne, slušne percepcije, danas dominantan pristup predstavljen
je modelom analize auditivne scene (Bergman, 1990). Sam model mogao bi se razumeti kao proces
putem kog ljudski auditivni sitem organizuje zvuk u smislene elemente. U osnovi ovog modela nalazi
se određen broj grupišućih principa koji su povezani sa principima perceptivne čulne organizacije, tj.
sa konstelacionim faktorima opažanja (blizina, sličnost, zajednička sudbina, dobra forma), kako ih je
formulisao Verthajmer unutar geštalt pristupa u psihologiji (Wertheimer, 1923). Ovi kriterijumi
grupisanja se mogu svesti na dve funkcije: sastavljanje inventara senzornih elemenata i kreiranje
grupa na osnovu principa sličnosti. Grupa sastavljena u skladu sa ovim funkcijama formira perceptivni
tok. Ovo je mala ali neophodna ekstrapolacija tvrdnje da se auditivni tok sastoji iz elemenata koji
potiču iz samo jednog zvučnog izvora (Bregman&Pinker, 1978). U jednom eksperimentu, Bregman i
Kempbel su pokazali da se auditivni tok formira prilikom izlaganja sekvence tonova u trajanju od
100ms koji su se razlikovali u frekvenciji (Bregman, Campbell, 1971). Serija kratkih tonova koji su se
ponavljali izložena je slušaocima, čiji je zadatak bio da ponove redosled tonova u seriji. Umesto da
čuju sekvence niskih i visokih tonova, slušaoci su grupisali tonove u dva toka, svaki sastavljen od
sličnih elemenata, jedan od visokih, drugi od niskih tonova. Studije auditivne perceptivne organizacije
pokazuju da su slušaoci veoma osetljivi na fine, jedva primetne promene u formiranju auditivnih
grupa. Denenbring i Bregman su u jednom istraživanju pokazali da raskorak od samo 35ms, bilo da je
ton kasnio ili žurio, može biti sasvim dovoljan da izazove ometanje stvaranja jedne koherentne čulne
celine, i da dovede do podele izloženih tonova u dva zasebna toka. (Dannenbring, Bregman, 1978).
Slična stvar se dešava i kada postoje suptilne promene u frekvenciji, osnovnoj frekvenciji, ili melodji.
Tri ključna aspekta Bergmanovog modela jesu segmentacija, integracija i segregacija. Kada
zvuk dopre do našeg uha i izazove vibriranje bubne opne, on mora biti analiziran na neki način.
Model predviđa da ćemo percipirani zvuk čuti ili kao integrisan, celovit, ili kao izdeljen na pojedinalne
komponente. Na primer, zvuk zvona možemo čuti kao jedinstven ton koji poseduje određene
kvalitete, poput visine, zvonkosti, trajanja itd. Isti taj zvuk neko će razložiti na njegove sastavne
delove. Ovi delovi mogu biti potom povezani u vremenu, dajući kao konačan produkt jedan auditivni
tok. Ova sposobnost auditivnog strimovanja može biti demonstrirana putem tzv. koktel efekta
(Cherry & Taylor,1954). Kada smo izloženi većem broju glasova koji govore istovremeno, ili u
prisustvu pozadinskog šuma, u stanju smo da, makar do određene mere, čujemo i pratimo jedan
određeni glas. Naš slušni aparat u stanju je da iz mora drugih glasova, koji su integrisani i
predstavljaju pozadinu, izdvoji jedan glas, koji u ovom slučaju predstavlja figuru (segregacija).
Kada veći broj zvučnih signala dopire do nas, sve komponente simultano aktivnih signala
primamo istovremeno ili između njih postoji određeno preklapanje. Naš slušni aparat se u takvim
slučajevima nalazi pred kompleksnim izazovom – koji su to delovi zvučnog stimulusa koje treba
grupisati zajedno i tretirati kao proizvod istog izvora zvuka. Ukoliko ih naš sistem grupiše pogrešno
možemo čuti zvuk koji zapravo ne postoji (slušne halucinacije). Principe po kojima se odvija
grupisanje možemo podeliti u dve grupe:
principe sekvencijalnog grupisanja, i
principe simultanog grupisanja.
Pogreške u simultanom grupisanju mogu dovesti do stapanja u jedan zvuk onih stimulusa
koje bismo inače trebali čuti kao odvojene, pri čemu taj rezultujući zvuk poprima kvalitete drugačije
od onih koje poseduju izvorni stimulusi. Greške u sekvencijalnom grupisanju mogu dovesti do toga da
čujemo reč sastavljenu od slogova koji potiču iz dva različita izvora. Funkcija predloženog modela
perceptivne organizacije jeste da grupiše dolazeće senzorne informacije tako da formiramo tačnu,
preciznu mentalnu predstavu pojedinačnih zvučnih stimulusa.
Rezultati većeg broja istraživanja pokazuju da je perceptivna organizacija govora brza,
nenaučena, indiferentna prema auditivnim kvalitetima i da zahteva fokusiranost pažnje.
Dokaz da je perceptivna organizacija govora brza počiva na davno utvrđenoj činjenici da
slušni trag govora bledi, odnosno nestaje iz kratkoročne memorije veoma brzo. Malo je verovatno da
trag govora ostaje u ehoičkoj memoriji duže od desetog dela sekunde, i potpuno je nedostupan
nakon 400ms. (Pisoni, tash, 1974).
Činjenica da u prvim danima korišćenja telefona kao sredstva komunikacije, kada je glas koji
se prenosio preko telefonske žice zvučao poprilično čudno i sam signal bio prilično lošeg kvaliteta,
ukazuje na to da funkcije perceptivne organizacije nisu usmerene na prikupljanje stimulusa koji
poseduju istovetne auditivne kvalitete koje poseduje prirodni govor. Drugim rečima, sposobnost
slušaoca da pronađe i prati govorni signal indiferentna je prema samim auditivnim kvalitetima
signala. Perceptivna organizacija govora takođe zahteva svesno usmerenu pažnju. Neuspeh slušaoca
da razloži fonetske kvalitete sinusoida reči i rečenica ukoliko ne dobije konkretne instrukcije da obrati
pažnju na govor, pokazuje da zvučna forma sama po sebi ne dovodi do percepcije govora (Remez,
1981).
FONETSKA OBRADA GOVORA
Dva centralna teoretska pitanja koja se tiču problema fonetskog procesuiranja percipiranog
govora jesu:
da li se fonetske karakteristike govornog stimulusa obrađuju u kortikalnim centrima
specijalozovanim isključivo za obradu govornog signala
da li se audiovizuelna obrada govora oslanja na ranu konvergenciju fonetskih informacija.
Prvo pitanje, da li je za obradu govora zadužen specijalizovan neuralni sistem, ili opšti
auditivni sistem, predmat je debate koja traje od smaih početaka izučavanja procesa govorne
percepcije. S tim u vezi, Liberman i Velen su formulisali horizontalni i vertikalni model percepcije
govora (Liberman, Whalen, 2000). Horizontalni pristup polazi od pretpostavke da se govor obrađuje
najpre unutar okvira opšteg auditivnog sistema, pre nego što bude prosleđen na dalju obradu
specijalizovanon lingvističkom sistemu. Vertikalni pristup, s druge strane, tvrdi da je govor integralni
deo jednog vertikalno organizovanog sistema, specijalizovanog isključivo za jezičku komunikaciju.
Kada govorimo u čulima sluha i vida, bez kojih percepcija govora ne bi bila moguća, i jedno i
drugo čulo imaju svoje primarne ulaze i primarne zone u moždanom korteksu. Te primarne oblasti se
računaju kao prvi kortikalni sinaptički nivoi. Za čulo sluha to je primarni slušni korteks (Kaas &
Hackett, 2000), poznat i kao Brodmanova oblast (Brodmann, 1909). Za čulo vida primarni vizuelni
korteks je V1 (Felleman & Van Essen, 1991). Ranim nivoima kortikalne obrade smatraju se prva tri
nivoa kortikalne sinaptičke hijerarhije. Primarne senzorne oblasti sačinjene su od fino podešenih
neurona koji obrađuju osnovne karakteristike stimulusa. Kada je čulo sluha u pitanju, u primarnim
oblastima procesuiraju se karakteristike poput visine, intenziteta ili trajanja tona (Eggermont &
Ponton, 2002). Rezultati većeg broja istraživanja koja su se bavila ovom tematikom pokazuju da, iako
je govor očigledno deo vertikalno organizovanog sistema, taj sistem nije specijalizovan za govor u
svim svojim nivoima. Nalazi neuroloških proučavanja sugerišu da percepcija govora zahteva
mehanizme opšte namene, kako auditivne tako i vizuelne, i da periferni čulni organi moraju biti
dovoljno osetljivi za informacije sadržane u stimulusu kako bi se te informacije održale dovoljno dugo
pre nego što budu prosleđene na obradu višim kortikalnim centrima. Dok je rana obrada stimulusa
zadužena za osnovne, elementarne atribute, obrada koja dolazi kasnije tokom tog procesa i koja se
odvija na višim nivoima u toj hijerarhiji, izgleda da je u većoj meri osetljiva na fonetske informacije
(Mesulam, 1998). Rezultati istraživanja u kojima su korišćene fMRI i PET tehnike snimanja moždane
aktivnosti konzistentni su sa gledištem da prva tri nivoa slušnog korteksa nisu specijalizovana za
obradu fonetskih atributa stimulusa (Benson, 2001;,Scott, 2000).
Najuverljiviji dokaz o postojanju govor-specifične obrade stimulusa dobijen je za kortikalne
oblasti koje se nalaze iza prva tri sinaptička nivoa. Na primer, pokazano je da superiorni temporalni
sulkus na četvrtom sinaptičkom nivou preferira govorni signal u poređenju sa FM šumom (Binder,
2000). Ovaj deo mozga takođe selektino reaguje na zvuk ljudskog glasa, u odnosu na ne-glasovne
stimuluse, čak i onda kada sam glas ne sadrži tragove smislenog govora (Belin, 2000).
I dok bi se moglo reći da je govor očigledno deo jednog vertikalno organizovanog sistema,
izgleda da taj sistem nije specijalizovan za obradu govora na svim nivoima. Nalazi neuroloških studija
sugerišu da percepcija govora zahteva mehanizme opšte namene, kako auditivne tako i vizuelne, i da
periferni čulni organi (uši i oči), kao isubkortikalne strukture, moraju biti dovoljno osetljivi za
informacije sadržane u govoru i sposobni da te informacije očuvaju dovoljno dugo pre nego što budu
prosleđene na obradu višim kortikalnim nivoima.
Drugo važno pitanje jeste da li se audiovizuelna fonetksa obrada oslanja na ranu
konvergenciju informacija koje primamo putem čula sluha i vida. Audiovizuelna percepcija govora
nije razmatrana kao posebno pitanje sve do objave rada MekGurka i MekDonalda (1976). Tipično
objašnjenje MekGurkovog efekta konzistentno je sa teoretski postuliranim ranim mehanizmima
konvergencije (Fowler, 2004; Green, 1998; Massaro, 1989; Schwartz, Robert-Ribes, & Escudier, 1998;
Braida, 1991). Ovaj efekat izgleda da izranja iz procesa u kojem se iz fonetske informacije eliminiše
izvorno sadržana oznaka, što za posledicu ima transformisani slušni doživljaj. Možemo navesti
nekoliko dokaza koji su u skladu sa pretpostavkom o ranoj audiovizuelnoj integraciji informacija: (1)
selektivno usmeravanje pažnje na jedan ili drugi modalitet ne poništava MekGurkov efekat (Massaro,
1987); (2) eksplicitno znanje o nepostojanju kongruetnosti između auditivnih i vizuelnih informacija
ne poništava ovaj efekat (Summerfield & McGrath, 1984). Ovo govori u prilog tome da audiovizuelna
obrada nije pod uticajem kognitivnih procesa viših nivoa, i da je, prema tome, proces koji se odvija na
ranim nivoima obrade. Kalvert, Kempbel i Bramer su koristeći fMRI tehniku snimanja moždane
aktivnosti prikupili obrsce reagovanja kortikalnih oblasti prilikom izlaganja AV govora nasuprot samo
auditivnih i samo vizuelnih stimulusa. Kongruentan AV govor doveo je do povećane aktivnosti
superiornog temporalnog sulkusa, pri čemu je nivo te aktivnosti bio veći od sume odgovora na samo
auditivni i samo samo vizuelni govorni signal. Ovaj obrazac aktivnosti je interpretiran kao dokaz
postojanja rane konvergencije (Calvert, Campbell & Brammer, 2000). Međutim, ova oblast mozga je
veoma složena i reaguje ne samo na govor veći na pokrete očiju i usta koji nisu povezani sa
produkcijom govora (Puce, 1998). Takođe je aktiviraju izgovorene i napisane reči (Binder, 2000), kao i
znakovni govor kod odraslih gluvih osoba (Auer, Bernstein&Singh, 2001).
Neuroanatomske studije nisu pružile jak dokaz u prilog postojanja rane konvergencije audio i
vizuelnih stimulusa, tj. konvergencije informacija prikupljenih putem čula sluha i čula vida. Jedan od
najbitnijih principa u organizaciji cerebralnog korteksa kod primata jeste odsustvo konekcija koje bi
povezivale unimodalne oblasti koje imaju različite senzorne funkcije (Mesulam, 1998). Mezulam je
istakao da, ako postoji kortikalna oblast u kojoj se odvija konvergencija, onda bi mozak morao da reši
složen problem usmeravanja svih potrebnih informacija ka toj određenoj oblasti. Konvergencija ovog
tipa bi stoga za rezultat imala kontaminaciju originalnog percepta. Čak i na višim sinpatičkim
nivoima, on dovodi u pitanje mogućnost konvergencije različitih informacija u jedan standardni
format.
ODLIKE GOVORNE PERCEPCIJE I LEKSIČKI PRISTUP
Kada je reč o procesu koji nam omogućava da ektrahujemo nizove reči iz govora koji čujemo,
jedna od osnovnih pretpostavki jeste da se taj proces odvija zahvaljujući postojanju mentalnog
leksikona koji sadrži predstave reči jednog jezika. Inicijalna obrada govora od strane perifernog
slušnog sistema odvija se na isti način bez obzira da li je u pitanju govorni ili zvučni stimulus nekog
drugog tipa. Ova inicijalna obrada praćena je obradom specifičnom za govor i za sam jezik. Za govor
specifična obrada daje potrebne informacije o fonetskim karakteristikama percipiranog stimulusa i
tako obezbeđuje pristup pretpostavljenom mentalnom leksikonu.
Pretpostavlja se da su reči u memoriji reprezentovane u vidu sekvenci segmenata, pri čemu
se svaki segment sastoji od skupa distinktivnih odlika (Jakobson, 1928). U bilo kom jeziku postoji
podskup ovakvih odlika distinkstivnih u smislu da promena vrednosti jedne takve odlike u delu reči
može potencijalno dovesti do nastanka drugačije reči. Par reči koje se razlikuju u samo jednoj odlici u
bilo kom segmentu naziva se minimalni par. Na primer, pod/vod, mat/rat, itd. mentalna predstava
reči se takođe sastoji iz specifikacije njene slogovne strukture, kao i akcentovanja slogova.
Prilikom razmatranja dokaza o postojanju ovih ditinktivnih odlika polazi se od stanovišta da
univerzalna svojstva reči koje su reprezentovane u memoriji imaju svoje poreklo u fizičkim svojstvima
samog artikulatornog aparata kao generatora zvuka, kao i svojstvima perceptivnog sistema kao
primaoca proizvedenog zvuka (Stevens, 1972). Iz različitih razloga, akustički i perceptivni ishodi
pokreta govornog aparata mogu ispoljiti kategoričke efekte. U okviru jedne određene regije
artikulatornog prostora, akustička svojstva će biti relativno nezavisna od promena položaja govornog
aparata, dok sa druge strane, kada artikulacija izađe van tog okvira, dolazi do naglih promena
akustičkih svojstava. U skladu sa ovim akustičkim promenama dolazi i do distinktivnih promena u
samoj percepciji zvuka. Na primer, kada artikulator u oralnoj šupljini dovede do veoma uskog suženja
kanala kojim protiče vazduh koji se potiskuje iz pluća, dolazi do značajnog porasta pritiska na voklani
trakt iza ovog suženja. Kao rezultat ove akcije javlja se naglo smanjenje amplitude vibriranja glasnih
žica, kao i generisanje šuma blizu nastalog suženja. Ova artikulatorna akcija definiše kvalitet
sonornosti, odnosno zvonksoti, zvučnosti konsonanata. Takođe, kada je reč o konsonatima, može se
načiniti jasna razlika, kako akustička tako i perceptivna, između konsonanata koji su nastali usled
naglih promena amplituda, i onih gde postoji kontinuirano suženje trakta i kontinuirano generisan
šum. Vokali, odnosno samoglasnici, nastaju tako što vazduh koji se potiskuje iz pluća nesmetano
prolazi od glotisa do usana. Vokali se ne mogu određivati prema mestu artikulacije, jer su sami po
sebi nelokalizovanji glasovi pošto u njihovom izgovoru artikulatori ne dolaze u međusobni kontakt.
Različiti vokali generišu se pomoću pomeranja jezika napred-nazad ili gore-dole u usnoj šupljini, i u
suštini se i klasifikuju na osnovu položaja jezika u usnoj duplji. Visina jezika i njegovo pomeranje
prema zadnjem nepcu pojavljuju se u svim jezicima sveta kao diferencijalni momenti kod vokala.
Prirodne frekvencije voklanog trakta, naročito F1 i F2, menjaju se u skladu sa pomeranjem jezika. Kod
pomeranja napred-nazad, na primer, F2 je viši kada se jezik nalazi napred, a niži kada je jezik pozadi
(Stevens, 1998).
Distinktivne odlike se mogu svrstati u grupu odlika nezavisnih od artikulatora, odnosno od
dela govornog aparata koji učestvuje u proizvodnji glasa, ili u grupu odlika zavisnih od artikulatora
(Halle, 1992). Odlike iz obe grupe imaju svoje korene u određenim artikulatornim akcijama koje
dovode do nastanka osnovnih akustičkih i perceptivnih atributa. U slučaju odlika nezavisnih od
artikulatora, artikulatorne akcije se klasifikuju prema tipu suženja voklanog trakta, bez određivanja
koji od artikulatora dovodi do tog suženja. Primeri za ove odlike su zvonkost i piskavost u slučaju
konsonanata. Odlike zavisne od artikulatora specifkuju koji artikulator formira suženja, kako je
artikulator oblikovan ili pozicioniran, kao i akcije drugih artikulatora koji sami po sebi ne dovode do
suženja, ali koji utiču na akustički obrazac koji se formira usled nekog suženja.
Artikulaciona fonetika razvrstava sve glasove prema pokretu i položaju
pojedinih (pokretnih) delova govornog aparata na vokale, sonante, plozive, frikative i afrikate.
Parametri za ovakvu klasifikaciju glasova zapravo su stepen strikture (sužavanja), odnosno
aperture (otvaranja) glasovnog trakta i način na koji se to sužavanje događa tokom produkcije
određenog glasa, što određuje i hijerarhiju njihove sonornosti. Skala strikture sastoji se od tri
stepena: potpunog zatvaranja, konstrikcije, tj. sužavanja prolaza ili samo približavanja
artikulatora (otvorene aproksimacije), što se dešava kod izgovora svih vokala i nekih sonanata,
koji se zato i zovu aproksimantima (Subotić, Sredojević, Bjelaković, 2012).
Model percepcije govora zasnovan na fonetskim odlikama ukazuje na to kako slušalac
ekstrahuje informacije sadržane u govornom stimulusu i potom koristi te informacije kako bi
pristupio rečima sadržanim u mentalnom leksikonu (Stevens, Hale, 1967). Na osnovu akustičkih
informacija u govornom signalu, slušalac mora biti u stanju da identifikuje sekvencu reči koja čini
osnovu datog akustičkog obrasca upskros potencijalno značajnoj varijabilnosti koja se moe naći u
akustičkim obrascima reči. Zadatak koji je postavljen pred slušaocem može se opisati kao niz koraka,
koji se mogu shematizovati na sledeći način.
Akustički input
Nameravana sekvenca reči
Dijagram modela pristupa leksikonu. Na vrhu je input u vidu akustičkog govornog signala za izjavu produkovanu od strane osobe koja govori. Autput, ili izlaz, je sekvenca reči koju govornik namerava da izgovori. Model se sastoji iz dve vrste operacija ili putanja – putanje direktne analize kojom se skupovi karakteristika procenjuju i uparuju sa leksikonom kako bi se
PPeriferna auditivna obrada
Detekcija obeležja
Izdvajanje akustičkih parametara i oznaka iz
okoline obeležja
Procena skupova karakteristika i strukture
slogova
Uparivanje sa leksikonom
Pretpostavljena sekvenca reči
Leksikon
Sinteza obeležja i parametara
došlo do hipotezirane sekvence reči, i putanje kojom se vrši sinteza, a koja odlučuje da li hipotezirana sekvenca može proizvesti akustički obrazac koji se poklapa sa obrascem izvedenim iz akustičkog signala.
Prvi korak sastoji se iz obrade koju obavlja periferni auditivni sistem. Osnovna pretpostavka
jeste da se u ovoj fazi odvija jedan uopšteni proces transformacije zvučnog signala koji je isti bez
obzira da li je reč o govoru ili ne. Neki aspekti ove periferne obrade naglašavaju akustičke atribute
važne za identifikovanje distinktivnih odlika na kasnijim nivoima obrade.
Drugi korak jeste identifikovanje onih akustičkih obeležja koja pružaju dokaze o prisustvu
segmenata vokala i konsonanata. Ova obeležja mogu biti raznovrsna, i izvlače se na osnovu
posmatranja promene amplituda na različtim frekvencijama. Vrh amplitude niske frekvencije u
oblasti prvog formanta označava da je izgovoren vokal (Howitt, 2000). U slučajevima kada postoji
sužavanje ili popuštanje konstrikcije u usnoj duplji, nastaje određena vrsta naglih promena amplituda
koje obuhvataju čitav opseg frekvencija. Ove promene jesu akustička obeležja konsonanata.
Akustička obeležja predstavljaju početnu tačku akustičke analize koja se odigrava u okviru
trećeg nivoa predloženog modela. Određen broj akustičkih parametara najpre biva ekstrahovan iz
oblasti koje okružuju data obeležja. Selekcija parametara motivisana je potrebom da se dođe do
informacija o artikulatornim pokretima koji su generisali uzorak govora, i, naročito, o pokretima koji
su proizveli postojeća akustička obeležja. Na koji način se ove informacije ekstrahuju iz parametara, u
velikoj meri zavisi od datog jezika, posebno od odlika karakterističnih za taj jezik.
U poslednjoj fazi ovog procesa dolazi do aktiviranja samog mentalnog leksikona, tako što se
pronalaze sekvence reči koje se poklapaju sa pretpostavljenom strukturom slogova. Prilikom
percepcije normalnog govora, slušaocu na raspolaganju mogu biti i neke dodatne informacije pored
onih koje su dobijene na osnovu analize zvučnog signala. Te informacije uključuju vizuelne znake
dobijene iz posmatranja lica osobe koja govori, kao i sintaksičke i semantičke dokaze izvučene iz
samog konteksta u kojem se odvija komunikacija. Znaci ove vrste mogu u velikoj meri da
potpomognu pretragu mentalnog leksikona, naročito u prisustvu buke. Postoji nekoliko načina za
pristup leksikonu na osnovu informacija izvučenih iz zvučnog signala. Jedna od strategija jeste da se
najpre utvrdi grupa reči čiji se inicijalni segment poklapa sa inicijalnim karakteristikama
ekstrahovanim iz zvučnog signala, zatim da se ova grupa redukuje na osnovu skupa osobina drugog
segmenta, i tako redom, sve dok se ne utvrdi grupa reči iz samog leksikona. Druga mogućnost jeste
da se započne sa segmentom čije su karakteristike ekstrahovane sa najvećom pouzdanošću i da se
zatim postepeno ide ka onim segmentima kod kojih je tačnost procene karakteristika znatno niža.
JASAN GOVOR
Način govora, odnosno način na koji osoba komunicira sa drugima, može značajno da varira
tokom jednog dana. Koliko uopšteno ili detaljno ćemo govoriti o nečemu zavisi od okruženja u kome
se nalazimo, našeg fizičkog i emocionalnog stanja, kao i od toga kome se obraćamo. Detetu se
obraćamo posebnim tonom i koristeći značajno pojednostavljen vokabular, u poređenju sa
obraćanjem širem auditorijumu na nekom naučnom skupu.
Posmatrano iz ugla praktične primene, jasan govor jeste način produkcije govora
karakterističan za situacije u kojima je komunikacija otežana, npr. kada se komunikacija odvija u
veoma bučnim uslovima, ili kada se govori osobama sa oštećenim sluhom. Ideja o načinu izražavanja
na poseban način svakako nije nova, i ova tema je često razmatrana kada je reč o govornoj
komunikaciji u pozorištu, putem radija ili u vojsci. U nekim prošlim istraživanjima primarni cilj bio je
obučiti ljude da govore na jasniji, razumljiviji način, dok je sekundarni cilj bio povezan sa
identifikacijom onih faktora koji su posebno uticali na jasnije izražavanje. Neka istraživanja su bila
fokusirana ne na obučavanje ljudi da se jasno izražavaju, već na pronalaženje osoba koje su posebno
uspešne u ovakvom načinu izražavanja među velikim brojem drugih ispitanika.
Prednosti jasnog govora
Upotreba jasnog govora ima neke očigledne perceptivne i fiziološke prednosti, kako je to već
pokazano u istraživanjima koja se se bavila ovim fenomenom. Jasno izražavanje pre svega dovodi do
većeg stepena razumljivosti onoga što se saopštava, u poređenju sa uobičajenim, konverzacijskim
načinom pričanja, iako ta prednost ne važi u istoj meri za sve kategorije slušalaca, niti za sve situacije,
modalitete ili sadržaj samih poruka (Uchanski, 2005). Poruke izrečene jasnim govorom biće lakše za
razumevanje osobama sa oštećenim sluhom, u poređenju sa porukama saopštenim normalnim,
konverzacijskim govorm. Međutim, sve do 1985. godine nije bilo dokaza koji bi podržali ovu hipotezu.
Studija koja je načinila proboj u ovoj oblasti, sprovedena od strane Pičenija i kolega (Picheny, 1985),
dala je vrlo robustne rezultate koji su pokazivali da je razumljivost poruka izrečenih jasnim govorom
17% veća u poređenju sa konverzacijskim govorom. U ovom istraživanju tri subjekta muškog pola
dobili su instrukcije da izgovore stotine sintaksički koretknih, ali besmislenih rečenica, koristeći i
konverzacijski i jasan govor. Rečenice su potom prezentovane u tišini petorici osoba sa različitim
stepenom oštećenja sluha, uzrasta od 24 do 64 godina. Rezultati su bili uglavnom nezavisni od
slušaoca i nivoa jačine kojom su rečenice bile izlagane.
Prednosti jasnog govora potvrđene su i u nekim kasnijim istraživanjima kod osoba sa težim
oštećenjem sluha, i u okruženjima u kojima je postojala pozadinska buka, vibracije, ili kombinacija
buke i vibracija (Payton 1994; Uchanski, 1996).
Prethodno pomenuti eksperimenti uključivali su prezentovanje govora samo putem
auditivnog kanala. U nekim drugim istraživanjima ispitivana je prednost upotrebe jasnog govora kada
je prezentovan audio-vizuelnim kanalima, ili samo vizuelno. U istraživanju Helfera, grupi od 30
ispitanika bez oštećenja sluha prezentovane su rečenice u uslovima pozadinske buke konverzacijskim
i jasnim govorom, kako samo auditivnim (A) tako i audio-vizuelnim (AV) putem. Za oba modaliteta (A i
AV), rečenice su bile razumljivije kada su bile izrečene jasnim govorom (Helfer, 1997).
Kao što postoji značajna varijabilnost među ljudima u razumljivosti poruka izrečenim
konverzacijskim govorom, moglo bi se očekivati da postoji i značajna razlika u njihovoj sposobnosti da
se izražavaju na jasan način. Takođe bi se moglo očekivati da vežba ili instrukcije kako se jasnije
izražavati ima uticaja na ovu sposobnost. Rezultati većeg broja istraživanja pokazali su da dolazi do
značajnog poboljšanja u razumljivosti poruka izrečenih jasnim govorom čak i kada postoji minimum
treninga u formi dosta jednostavnih instrukcija. Neke od instrukcija bile bi ’pričaj kao da govoriš osobi
sa oštećenjem sluha’, ’ zamisli da se nalaziš u bučnom okruženju’, ’pazi da naglasiš svaku izgovorenu
reč’ itd.
Fizičke karakteristike jasnog govora
Neke osnovne ideje i smernice kada je reč o produkciji govora na jasan način mogle bi biti:
sve foneme odnosno glasove treba artikulisati precizno,
praviti kraće pauze između fraza i misli,
govoriti nešto glasnije u poređenju sa konverzacijskim načinom produkcije govora
Ukoliko se ograničimo na neke opšte karakteristike jasnog govora, mogli bismo izdvojiti
sledeće podatke, dobijene na osnovu sprovedenih istraživanja.
Intenzitet
Jasan govor je 5 do 8 dB glasniji od konverzacijskog govora (Picheny, 1986);
Brzina izgovora
U jasnom govoru prosečan broj izgovorenih reči varira od 90 do 100 tokom minuta, za razliku
od konverzacijskog govora gde imamo 160 do 205 reči u minuti (Picheny, 1986). Sporiji izgovor može
se pripisati povećanju učestalosti i prosečnog trajanja pauza između reči.
Pauze
Pičeni je na osnovu istraživanja koje je sproveo sa saradnicima došao do podataka da dolazi
do veće učestalosti i dužeg trajanja pauza kada se upotrebljava jasan govor. U ovom istraživanju,
pauza je bila definisana kao bilo koji interval između reči duži od 10ms, pri čemu u obzir nisu uzimani
oni intervali koji su prethodili izgovaranju reči koje počinju plozivima (Picheny, 1986). Međutim, veza
između povećane učestalosti pauza i povećane razumljivosti govora nije pouzdano utvrđena.
Veštački umetnute pauze u konverzacijskom govoru ne dovode do povećane razumljivosti govora
(Uchanski, 1996).
Kod jasnog govora, frekvencije formanata vokala generalno se prostiru duže većeg prostora,
u poređenju sa formantima vokala konverzacijskog govora. Ova pojava se takođe može uočiti i kod
govora upućenog novorođenoj deci (Kuhl, 1997).
Jasan govor poseduje i određene fonološke i fonetske karakteristike po kojima se razlikuje od
normalnog govora. Međutim, iako se razlikuje od konverzacijskog govora, još uvek nije potpuno
jasno koje su to karakteristike jasnog govora koje doprinose njegovoj većoj razumljivosti. Uprkos
tome, jasan govor ima značajnu primenu u oblasti auditivne, tj. slušne rehabilitacije, u obrazovanju,
kao i u istraživanjima fenomena produkcije i percepcije govora.
NORMALIZACIJA U PERCEPCIJI GOVORA
Jedna od prvih stvari koja se može uočiti prilikom analize spektrograma jeste da je govor
visoko varijabilni fenomen, ne samo kada se porede zapisi govora različitih osoba, već i kada se
upoređuju zapisi govora jedne iste osobe. Normalizacija u percepciji govora odnosi se na jednu
posebnu liniju istraživanja koja su bila fokusirana na činjenicu da fonološki identične izjave pokazuju
značajne akustičke varijacije kada su izgovorene od strane različitih ljudi, a da smo mi kao slušaoci u
stanju da prepoznamo i razumemo izgovorene reči uprkos toj velikoj varijabilnosti. Na primer, ista
reč, izgovorena od strane osoba različitog pola, biće ispravno prepoznata bez obzira što će
spektrogram pokazati dosta velike varijacije u frekvecnijama formanta.
Da su formanti samoglasnika (frekvecnije rezonancije vokalnog trakta) veoma važni za
prepoznavanje vokala, činjenica je koja je poznata više od jednog veka. Još je Helmholc u 19. veku
uspeo da sintetizuje vokale koristeći rezonatore čije su se frekvencije poklapale sa frekvencijama
formanata samoglasnika (Helmoltz, 1885). Miler je u svom istraživanju udvostručio osnovnu
frekvenciju vibiriranja glasnih žica kod dvoformantnih vokala, sa 120 Hz na 240 Hz, i zapazio da dolazi
do pomeranja granica vokala za većinu vokala u Engleskom jeziku (Miller, 1953). Osnovni ton, F0, ima
veoma veliki uticaj na percipiranje samoglasnika. Promena osnovne frekvencije vibriranja glasnih žica
može u priličnoj meri da samnji tačnost percepcije vokala (Milelr, 1953). Granice između kategorija
samoglasnika osetljive su i na promenu viših formanta, F3-F5, mada je ovaj efekat dosta slabiji u
poređenju sa promenom F0.
Svi vokali imaju osnovni ton F0, i bar dve trake frekvencija sa pojačanim intenzitetom glasa,
tj. Imaju dva formanta, F1 i F2. Obeležja vokala sadržana su u vrednostima prva tri formanta, dok su
za potpuno prepoznavanje vokala standradnog srpskog jezika, ali i velikog broja drugih jezika,
dovoljne vrednosti prva dva formanta. Kada vrednosti prvog i drugog formanta predstavimo grafički,
tako što F1 označimo na vertikalnoj, a F2 na horizontalnoj osi, s tim da se početna vrednost nalazi u
gornjem desnom uglu grafika, dobijamo vokalski prostor jednog jezika (Subotić, Sredojević,
Bjelaković, 2012).
Teorija razmere između formanta
Poter i Stajnberg su izneli pretpostavku da, kada je reč o percepciji vokala, određeni spacijalni
uzorak stimulacije bazilarne membrane može biti identifikovan kao dati zvuk nezavisno od položaja
stimulacije duž membrane. Ovo je ujedno i osnovna ideja teorije razmere između formanta – vokali
su relativni uzorci odnosno obrasci, a ne apsolutne frekvencije formanta (Potter, Steinberg, 1950).
Ovaj pristup podržan je dokazima o značaju uticaja F0 i F3 formanta na percepciju vokala. Kao
analogiju, Poter i Stajnberg daju primer sa muzičkim akordima koji se prepoznaju upravo na ovaj
način. Istrenirano uho može identifikovati kao dursku trijadu na primer, bez obzira na njegovu visinu.
Prema principima Geštalta , postoji konstantnost u opažanju objekta bez obzira na poziciju slike tog
objekta na retini, tako da isti principi moraju važiti i u oblasti auditivne percepcije.
Iako su frekvencije formanata važne u percepciji vokala, rezulatati nekih drugih istraživanja
pokazali su da se slušaoci prilikom percepcije oslanjaju i na neke sekundarne dokaze, poput trajanja
vokala, ili putanja frekvencija formanta. Lehist i Melcer su pokazali da tačnost prepoznavanja vokala
značajno opada kada vokali imaju fiksirano trajanje i sintetizovani su uz pomoć
PREPOZNAVANJE IZGOVORENIH REČI
Jedan od dominantnih modela koji pokušava da objasni kako dolazi do prepoznavanja reči
koje čujemo jeste model traganja, prvi put predtsvljen 1986. godine od strane MekLilanda i Elmana
(McClelland&Elman, 1986). Model traganja je konekcionistički model, sastavljen iz tri nivoa jedinica
primitivne obrade koje korespondiraju sa odlikama, fonemama i rečima. Ove jedinice obrade
poseduju ekscitatorne veze između nivoa, i inhibitorne veze unutar samih nivoa, pri čemu ove veze
pojačavaju i snižavaju nivoe aktivacije jednicia u zavisnosti od ulaznog stimulusa i aktivnosti
celokupnog sistema.
Norisov model kratke liste je takođe konekcionistički model prepoznavanja izgovorenih reči
(Norris, 1994). U prvoj fazi ovog modela aktivira se kraća lista reči kandidata, koja se inače sastoji iz
leksičkih stavki koje se poklapaju sa govornim stimulusom. U drugoj fazi, ova lista leksičkih stavki
ulazi u mrežu sasstavljenu od reči, gde dolazi do kompeticije pojedinih reči kandidata putem procesa
interaktivne aktivacije, pri čemu ona reč kandidat koja je aktivna u većoj meri može dovesti do većeg
stepena inhibicije aktivnosti drugih reči kandidata.
Model traganja, Norisov model, kao i još neki danas uticajni modeli prepoznavanja reči polaze
od pretpostavke da percepcia reči uključuje dva fundamentalna procesa – aktivaciju i kompeticiju
(Gaskell&Marslen-Wilson, 2002; Luce&Pisoni, 1998). Ovi modeli predlažu da predstave bazirane na
formi, a koje su konzistentne sa inputom, odnosno sa ulaznim stimulusom, mogu biti aktivirane u
bilo kom trenutko tokom procesa percepcije govora. Pojam radikalne aktivacije, koji se inače vezuje
za ove modele, razlikuje se od nekih ranijih predloga po kojima je inicijalna aktivacija leksičkih stavki
ograničena samo na početak reči. Ulazni stimulus aktivira skup akustičko-fonetskih uzoraka u
memoriji; ovi uzorci su aktivirani u onoj meri u kojoj odgovaraju inputu. Prema NAM modelu,
izgovorene reči se preoznaju u kontekstu fonološki sličnih reči aktiviranih u memoriji (Luce&Pisoni,
1998). Ulazni stimulus, tj. reč, aktivira skup međusobno blisko povezanih reči koje zvuče slično, a
koje potom ulaze u proces međusobne kompeticije kako bi bile prepoznate. Pretpostavka modela
jeste da veća ili jača leskička komepticija za rezultat ima sporiju i manje preciznu obradu. Posledično,
na one reči između kojih postoji veoma gusta i bliska fonološka povezanost biće odgovoreno sporije i
manje precizno.
PROBABILISTIČKA FONOTAKTIKA U PREPOZNAVANJU IZGOVORENIH REČI
U oblasti lingvistike, pojam fonotaktike se odnosi na sistem pravila i ograničenja
kombinovanja glasova i slogova u nekom jeziku. Fonotaktika definiše dozvoljene slogovne strukture,
klastere suglasnik, kao i dozvoljene sekvence samoglasnika. Termin probabilistička fonotaktika koristi
se kako bi se ukazalo na distribuciju relativne učestalosti segemenata i sekvenci segmenata u
jezičkom okruženju osobe (Auer&Luce, 2005).
Od samog rođenja, probabilistička fonotaktika igra odlučujuću ulogu u obradi i usvajanju
govornog jezika. U periodu između šestog i devetog meseca života, deca počinju da usvajaju znanje o
glasovima i njihovim sekvencama karakterističnim za njihov maternji jezik (Jusczyk, 1993).
Sposobnost male dece da jako brzo usvajaju nove reči pod jakim je utiacajem povećane osetljivosti
na probabilističku fonotaktiku (Storkel, 2001; Storkler &Rogers, 2000). Efekti probabilističke
fonotaktike nisu ograničeni samo na period ranog detinjstva. Kod odraslih osoba, probabilsitička
fonotaktika utiče na prepoznavanje izgovorenih reči tako što služi kao oznaka za segmentaciju reči i
kao izvor informacija koje utiču na brzinu i efikasnost prepoznavanja izgovorenih reči.
ODNOS PERCEPCIJE I PRODUKCIJE GOVORA
Do nedavno, istraživanja u oblasti percepcije i produkcije govora bila su u velikoje meri
fokusirana na potragu za psihološkim i fonetskim dokazima o postojanju diskretnih, od konteksta
nezavisnih simboličkih jedinica koje bi korespondirale sa fonološkim segmentima, odnosno
glasovima (Casserly&Pisoni, 2010). Uprkos postojanju zajedničkog cilja i tesno povezanim
predmetima istraživanja, istraživanja u ove dve oblasti govorne komunikacije odvijala su se manje-
više nezavisnim linijama. Iako su istraživanja koja su bila usmerena ili na jedan ili na drugi domen u
velikoj meri doprinela našem boljem razumevanju procesa obrade govora, ljudski kapacitet za
komunikaciju putem govora je toliko kompleksan da njegovo potpuno razumevanje neće biti moguće
sve dok ne dođe do konceptualnog sjedinjenja percepciije i produkcije govora u jedan udruženi
pristup izučavanju problema zajedničkih za obe oblasti.
Do razdvajanja ove dve oblasti je, bar delom, došlo iz praktičnih razloga. Metodologija i
modeli analize su nužno različiti kada je reč o direktnoj opservaciji otvorenog ponašanja, kao kod
produkcije govora, u poređenju sa ispitivanjem skrivenih kognitivnih i neuroloških funkcija, kod
percepcije govora.
Dva centralna domena u kojima je svrsishodno istraživati povezanost procesa percepcije i
produkcije govora jesu javni i privatni domen (Fowler&Galantucci, 2005). U javnom domenu mora
postojati veliko slaganje između aktivnosti pričanja i slušanja. U privatnom domenu, fokus je na
mehanizmima koji se nalaze u osnovi pričanja i slušanja, a koji su postulirani u okviru motorne teorije
Librmana i saradnika.
Veze koje postoje između procesa percepcije i produkcije govora neodvojiv su deo govornog
jezika. Iza ideje da se percepcija i produkcija mogu posmatrati kao delovi jednog ujedinjenog procesa
komunikacije nalazi se pretpostavka da govor ne čine samo akustički obrasci i sa njima podudarajući
pokreti artikularnog aparata. Razumevanje procesa kako percepcije, tako i produkcije govora zahteva
da se ti procesi posmatraju kao sastavni, neodvojivi delovi smislenog ekološkog konteksta i kao
delovi živog sistema akcije i percepcije. Dosadašnji napori istraživača jesu doprineli rasvetljavanju
pojedinih aspekata oba fenomena, ali su istovremeno otvorena i mnoga druga pitanja, na koja će
buduća istraživanja, nadamo se, dati pouzdane odgovore.
Literatura:
1. Casserly, E.D., Pisoni, D.B., (2010) Speech perception and production, Wiley Interdiscip Rev Cogn Sci. September/October; 1(5): 629–647
2. Diehl, L.R., Lotto, J.A., Holt, L.L. (2004) Speech perception, Annual Review of Psychology, 55:149-79.
3. Luce, P., Goldinger, S.D., Auer, E.T. JR., Vitevitch, M.S., (2000) Phonetic priming, neighborhood activation, and PARSYN, Perception&Psychophysics, 62(3), 615-625
4. Pisoni, D.B., Remez, R.E. (2005) The Handbook of Speech Perception, Blackwell Publishing
5. Subotić, Lj., Sredojević, D., Bjelaković, I., (2012) Fonetika i fonologija: ortoepska i ortogorafska norma standardnog srpskog jezika, Filozofski fakultet Novi Sad