73

Click here to load reader

Lieberman & Blumstein Phonetic theories

Embed Size (px)

DESCRIPTION

Lieberman & Blumstein Phonetic theories. Muskler (Lieberman & Blumstein). T ex sväljmusklerna används också i talproduktion. Att lära sig tala innebär att sätta upp nya mönster för programmerade aktiviteter. Ej helt klart exakt vilka muskler används i olika funktioner. - PowerPoint PPT Presentation

Citation preview

Page 1: Lieberman & Blumstein Phonetic theories

Lieberman & BlumsteinPhonetic theories

Page 2: Lieberman & Blumstein Phonetic theories

Muskler(Lieberman & Blumstein)

T ex sväljmusklerna används också i talproduktion.

Att lära sig tala innebär att sätta upp nya mönster för programmerade aktiviteter.

Ej helt klart exakt vilka muskler används i olika funktioner.

Olika talare använder också olika muskler för att producera samma ljud (t ex [s], velumstängning)

Table 6.1 De vanligaste musklerna i artiklar om talproduktion

Page 3: Lieberman & Blumstein Phonetic theories

EMG supralaryngala muskler

• Den vanligast muskeln vid velumstängning är levator palatini

• Men, som sagt, Olika talare använder också olika muskler för att producera samma ljud

• Det blir problem för motorteorin för talperception som säger att ”invarianta artikulatoriska gester eller motorkommandon ligger bakom talljuden …

Page 4: Lieberman & Blumstein Phonetic theories

• Det verkar snarare som om gesterna strävar att bevara samma akustiska skillnader genom att använda olika artikulationsmönster i olika situationer?

Page 5: Lieberman & Blumstein Phonetic theories

Två olika fonetiska teorier

• Artikulatorisk, eller motor-, invarians– eller

• Akustisk invarians

• Båda teorierna vill beskriva talproduktionens fysiologi på ett psykologiskt och lingvistiskt meningsfullt sätt

Page 6: Lieberman & Blumstein Phonetic theories

Röntgenstudier

• Visar att tungans läge inte är det enda som ändras, t ex är farynxpassagen trängre för [a] än för [i] och [u]

Page 7: Lieberman & Blumstein Phonetic theories

Särdrag

• Minsta betydelseskiljande• Fonologiska, vanligen binära• Chomsky Halle

+–nasal, +–voiced,

• Jakobson+–compact, +–diffuse, +–abrupt(kontinuerlig), +–nasal,

• Fonetiska särdrag, kontinuerliga• Ladefoged

Page 8: Lieberman & Blumstein Phonetic theories

Särdrag - artikulation

• Fonologiska– Binära (t ex +–nasal)Men, levator palatini kan spännas mer eller mindre; gradvis[i] och [u] kräver en starkare stängning med levator palatiniEMG studier visar att det är omöjligt att binda någon viss

muskel till en unik ljudkontrast, levator palatini kontrollerar också fonation och klusiler, t ex [b]

• Fonetiska särdrag

Page 9: Lieberman & Blumstein Phonetic theories

Koartikulation

• Man kan se talprocessen som bestående av individuella segment som samartikuleras

• OM det bara var ”tröghet” vore inte föregripande samartikulation vanligast

• Eftersom samartikulation alltid finns, kan man se talapparatens rörelser som ”kodade sekvenser som omfattar minst en stavelse”

Page 10: Lieberman & Blumstein Phonetic theories

Automatisering, koartikulation och planering

• Tal kan vara automatiserade rörelsemönster, för att utföra komplexa målrelaterade mönster av motor aktivitet. Involverar flera muskler

• Talaren är kreativ på en högre nivå, t ex att tänka ut vad han ska säga

• EMG-signaler från automatiserade rörelser är snabbare

• Målet kan vara att producera ett visst formantmönster (bite-block studies)

Page 11: Lieberman & Blumstein Phonetic theories

Biteblock-experiment

• Fp producerar t ex [pe], [pi] med biteblock på 5 mm och 15 mm

• Anpassar omedelbart artikulationen så att stavelserna låter normalt

• De automatiserade muskelkommandona kompletterades omedelbart av tung- och läpprörelser

• Detta gjordes inom ett par millisekunder vilket betyder att talaren inte kunde använt auditiv feedback

Page 12: Lieberman & Blumstein Phonetic theories

forts. Biteblock-experiment

• Har talaren ett slags mental representation av talapparaten?

• Målet är att producera en acceptabel akustisk signal (och detta kan ju göras på flera sätt, det viktiga är talrörets längd och areafunktionen)

• Vad är medfött av automatiserade motorkontroll-mönster?

Page 13: Lieberman & Blumstein Phonetic theories

forts. Automatiserade rörelsemönster

• Vad är medfött av automatiserade motorkontroll-mönster?

• Olika temporala mönster i svensk och amerikansk antecipatorisk läpprundning, amerikanska timelocked till 100 msek innan, svenska upp till 500 msek innan om föregående ljud är omarkerade för läpprundning

Page 14: Lieberman & Blumstein Phonetic theories

forts. Automatiserade rörelsemönster

• Barn lär sig att uttrycka kön med automatiserade rörelsemönster

• Även om f0 inte skiljer sig mellan könen kan 5-åriga pojkar (eller män med hög f0) identifieras genom att de använder liknande formantmönster som män

• Formanterna sänks genom läpprundning och larynxsänkning trots att de har samma längd på talröret som flickorna (jfr sångformanter)

• (jfr normaliseringsdia)• Det är svårare att sänka sin f0 utan att få problem

med rösten

Page 15: Lieberman & Blumstein Phonetic theories

Supralaryngal talrörsmodellering

• Analoga modeller har gjorts för att kunna studera effekten av manipulering av olika varirabler. Man kan få kvantitativa mått.

• Vi kan ju inte röntgenfilma allt i talproduktionen, vanligen bara från sidan

• Vi vill hitta tvärsnittsarean längs talröret• Det finns också mekaniska modeller

Page 16: Lieberman & Blumstein Phonetic theories

Supralaryngal talrörsmodellering

• Några parametrar:– Talrörsläng– Läppöppning– Platsen för förtränging i avstånd från glottis– Tvärsnittsarean för förträngningen

Page 17: Lieberman & Blumstein Phonetic theories

Supralaryngal talrörsmodellering

• Resultat av talgenerering med analoga modeller:• De flesta vokaler går att generera med mycket

olika areafunktioner. Vissa av dessa stämmer med traditionell artikulatorisk fonetik, andra inte.

• Alltså kan de artikuleras med olika tungpositioner, läppöppning och läpprundning - artikulationens mål kan inte vara artikulatoriska utan är akustiska

• De enda vokaler som kräver vissa areafunktioner är [i], [u] och till viss del [a]

Page 18: Lieberman & Blumstein Phonetic theories

Felsägningar

• Evidens för olika enheter: särdrag, fonem, stavelser

• Strykning, tillägg, omkastning

Page 19: Lieberman & Blumstein Phonetic theories

Talproduktionsteorier

• Invariansproblemet

• Talarorienterade produktionsteorier

• Lyssnarorienterade produktionsteorier

Page 20: Lieberman & Blumstein Phonetic theories

Målet för fonetisk teori

• Förklara:• Hur vi producerar språkljud• Hur dessa struktureras i lingvistiskt relevanta

enheter• Hur dessa avspeglar biologin i det mänskliga

tal/språk-systemet• Relatera till fonemsystemen i världens språk• Barns språkutveckling• Historiska ljudförändringar

Page 21: Lieberman & Blumstein Phonetic theories

Libermans & Blumsteins programförklaring

”Vi skulle kunna skaffa ’exakta’ inspelningar av talljuden i ett språk genom att göra en serie bandinspelningar som skulle bevara alla akustiska egenskaper som de signaler har som tjänar som tjänar som medel för talkommunikationen. Vi skulle, emellertid, inte ha isolerat de lingvistiskt relevanta fonetiska elementen i det språket. Vi skulle tex. inte kunna säga vad som utgör ett möjligt ord i språket ifråga”

Page 22: Lieberman & Blumstein Phonetic theories

Libermans & Blumsteins programförklaring

”Fonetiska teorier som predicerar vilka ljud som är möjliga i mänskligas språk, den relativa förekomsten av olika språkljud, hur barn tillägnar sig språk, vilka ljudförändringar som är mest sannolika eller effekten av olika fysiska anomalier på talet är alltså ”bättre” teorier än sådana som inte gör dessa prediktioner. Fonetiska teorier måste vara i stånd att förse oss med en förklaringsgrund för verkliga fysiska data.”

Känns Lindbloms anda igen?

Page 23: Lieberman & Blumstein Phonetic theories

Traditionell artikulatorisk teori

• Bell´s vokalfyrsiding • Behölls av Chomsky Halle särdragsteori• Gjorde inga röntgenstudier• Missade farynxkaviteten

Page 24: Lieberman & Blumstein Phonetic theories

rubrik

IPAs vokalfyrsiding som är tänkt att avbilda vokalrymden som en funktion av olika tungpositioner.

Page 25: Lieberman & Blumstein Phonetic theories

Tungposition som funktion av vokalkvalitet. Talare 1.

Bild som visar tungpositionen för en talare av amerikansk engelska som uttalar vokalerna [i], [I], [e], [E] och []. Bilden bygger på röntgenfotografier.

Page 26: Lieberman & Blumstein Phonetic theories

Bild som visar tungpositionen för annan talare av amerikansk engelska som uttalar samma vokaler ([i], [I], [e], [E] och []).

Tungposition som funktion av vokalkvalitet. Talare 2.

Page 27: Lieberman & Blumstein Phonetic theories

En tredje talare som gör samma sak

Tungposition som funktion av vokalkvalitet. Talare 3.

Page 28: Lieberman & Blumstein Phonetic theories

Symbolerna i bilden visar vokalerna ordnade efter ”tungans högsta punkt”. Notera skillnaderna både med avseende på ordning och öppningsgrad.

Talare 1 2 3

En jämförelse mellan de tre talarna.

[i][e][I][E]

[]

[i][e][I][E][]

[i][I][e][E]

[]

Page 29: Lieberman & Blumstein Phonetic theories

Röntgenbilderna

• Eftersom det är små skillnader i tungläget måste de akustiska skillnaderna nås genom modifikation av hela talapparaten läpprundning och larynxsänkning, för att uppnå önskvärd areafunktion som genererar den akustiska signalen för vokalerna

• Enbart tungkonturen är inte en invariant specifikation av talrörets areafunktion

• Detta stämmer med resultaten av de analoga modellerna!

Page 30: Lieberman & Blumstein Phonetic theories

• Och - samma akustiska resultat kan uppnås med olika artikulationer. (Buktalare!)

• Talare artikulerar alltså INTE exakt enligt de traditionella modellerna

• Olika för olika talare

Page 31: Lieberman & Blumstein Phonetic theories

artikulationsställning - akustiskt/perceptuellt resultat

Vad detta enkla exempel illustrerar är att samma akustiska och perceptuella resultat kan åstadkommas med mer än en artikulationsställning för en given vokal.

Vi kan i det sammanhanget påminna oss om Lindbloms APEX-modell som visar samma sak för konsonanter.

Page 32: Lieberman & Blumstein Phonetic theories

Ytterligare ett exempel

Prevokalt [r] i amerikansk engelska kan artikuleras som antingen retroflext (streckad linje) eller ’bunched’ (heldragen linje). Samma fonem – olika artikulationssätt.

Men inte nog med det, bunched [r] kan i sin tur artikuleras med (minst!) två olika tungställningar.

Page 33: Lieberman & Blumstein Phonetic theories

En unifierad teori

• Artikulation- perception

• Kommer till stor del från Jakobson-Fant-Halle – särdrag som har akustiska korrelat (närmare lyssnaren)

• De akustiska korrelaten ska vara baserade på fysiologiska begränsningar i talproduktionen

Page 34: Lieberman & Blumstein Phonetic theories

En unifierad teori

• En fråga var: varför är vokaler som [i] och [u] vanligast i världens språk?

• Quantal vowels …

• Vocal tract normalisation (men, women, adolescents) Peterson and Barney

Page 35: Lieberman & Blumstein Phonetic theories

En unifierad teori

• Vocal tract normalisation (män, kvinnor, ungdomar) Peterson and Barney

• Överlapp mellan fonemen• Men, när grupperna delas upp uppstår 3

vokalfyrsidingar• Om vokaler från olika grupper blandas uppstår

feltolkningar, annars inte

Page 36: Lieberman & Blumstein Phonetic theories

En fysiologisk teori för vokaler

Den traditionella vokalteorins tillkortakommande beror på att den utgår från invarianta artikulatoriska rörelser vilket som vi sett långt ifrån alltid är fallet.

Det har gjort många försök att komma till rätta med detta problem som ju helt uppenbart har sin grund i att man måste förena både produktion och perception i samma teori, eventuellt med akustiken som förmedlande länk.

Ett tidigt sådant försök trepresenteras av Jacobson, Fant och Halles (1963) Preliminaries to Speech Analysis, där de presenterar tre parallella särdragssystem för den artikulatoriska, akustiska och perceptoriska domänen.

Men flera försök har följt. Vi ska titta på ett.

Page 37: Lieberman & Blumstein Phonetic theories

Kvantala vokaler

Som vi vet bestäms talljudens kvalitet i första hand av artikulationsapparatens inställning. Om varje talare kunde producera talrörsinställningen med absolut precision och vi alla dessutom gjorde det på samma sätt så skulle den akustiska signal som är förbunden med ett visst språkljud alltid se likadan ut.

Talproduktionen skulle avsevärt förenklas om det vore möjligt att producera invarianta akustiska signaler utan att behöva ancända mycket precisa artikulatoriska inställningar.

Talperceptionen skulle också, förenklas om de talsignaler som används vore maximalt distinkta.

Dessa förutsättningar är hörnstenarna i Stevens kvantalteori.

Vi ska börja med att titta på en enkel modell av talröret.

Page 38: Lieberman & Blumstein Phonetic theories

Tvårörsmodell av talröret

A. En tvårörsmodell av talröret som ska simulera vokalen [a]

B. Areafunktion för den tänkta vokalen

Som en första approximation kan man betrakta kvartsvågs-resonansen i de båda rören. Är de av samma längd blir resonansfrekvenserna desamma.

Page 39: Lieberman & Blumstein Phonetic theories

Formanfrekvenserna för F1 och F2 i en tvårörsmodell där man tagit hänsyn till kopplingen mellan rören

Förstaformanten (F1) och andraformanten (F2) uträknade för den föregående tvårörsmodellen. Den horisontella skalan avser diskontinuitetspnktens (X) läge.

I verkligheten blir det lite mer komplicerat eftersom det uppstår en akustisk koppling mellan de båda rören. Diagrammet till höger visar frekvenserna för F1 och F2 som funktion av delningspunktens (X) position. Vad vi kan se är att förändringar av delningspunktens läge omkring mittpunkten på skalan ger väldigt små förändringar av formantvärdena.

Page 40: Lieberman & Blumstein Phonetic theories

Kvantala vokaler

Mer utgångspunkt från resonemang av denna typ undersökte Stevens om det kunde finnas stabila områden inom vokalrymden där förändringar i artikulationsställning fick endast minimala effekter på de resulterande formantfrekvenserna. Detta skulle ju innebära mycket gynnsamma ställen att artikulera talljud eftersom produktionen av ett sådant ljud inte skulle kräva så stor artikulatorisk precision som andra ljud.

Stevens fann att det mycket riktigt fanns sådana ställen och att de dessutom motsvarade vokalljud som vi faktiskt använder.

Stevens kallar sin teori för kvantalteorin för att markera artikulationsställningarnas diskreta karaktär.

Page 41: Lieberman & Blumstein Phonetic theories

Kvantala vokaler

Andra akustiska faktorer som är viktiga för perceptionen är om det förekommer tydliga toppar i spektrum t.ex. för att två formanter ligger så nära varandra att de ’smälter samman’ perceptuellt. Vokalerna [i], [a], [u] är sådana exempel.

I psykoakustiska test där uppgiften är vokalidentifiering har det regelbundet visat sig att vokalerna [i] och [u] är de som är lättast att identifiera.

[a] klarar sig däremot inte lika bra. Mer om det senare.

Page 42: Lieberman & Blumstein Phonetic theories

Kvantala vokaler

Midsagitala snitt, areafunktioner och överföringsfunktioner för vokalerna [i], [a], [u].

Page 43: Lieberman & Blumstein Phonetic theories

Kvantala vokaler

Det är här värt att notera att vokalerna [i], [a], [u] är ett slags fonologiska grundvokaler som återfinns i alla världens språk.

Det finns språk som endast har dessa tre (t.ex. Garawa, ett australiskt språk, och Inuit, ett grönländskt) och de som har fler inkluderar alla [i], [a], [u].

Page 44: Lieberman & Blumstein Phonetic theories

Talrörsnormalisering

Två amerikanska forskare, Peterson och Barney, publicerade 1952 en vetenskaplig artikel som fått stor betydelse och som ofta citeras i sådana här sammanhang. Vi ska strax titta lite närmare på deras resultat men först lite om utgångspunkterna.

Page 45: Lieberman & Blumstein Phonetic theories

Talrörsnormalisering

Undersökningen består av två delar – produktionsstudie och en perceptionsstudie.

I produktionsstudien spelade de in alla amerikanska vokaler i kontexten h_d.

(De ord de spelade in var: heed, hid, head, had, hod, hawed, hood, who’d, hud, och heard.)

Totalt 76 talare spelades in, 33 män, 28 kvinnor och 15 barn

Page 46: Lieberman & Blumstein Phonetic theories

Talrörsnormalisering

Här är Peterson och Barneys resultat presenterade i diagramform. Som man kan förvänta sig är spridningen betydande, men man kan också se att de olika vokalerna samlar sig i områden som inte i alltför hög grad överlappar med varandra. De inringade områdena representerar områden som omsluter 90% av en given vokaltyp.

De felsvar som förekom i perceptionstestet förklaras f.ö. i hög grad av det överlapp som förekommer.

Page 47: Lieberman & Blumstein Phonetic theories

Fotnot

Om man på koordinataxlarna som bilden visar så kommer vokalerna att placera ut sig ungefär som vi ar vana att se dem i ett vokalfyrsidings-diagram. Detta är därför ett vanligt sätt att rita diagram av den här typen.

[i]

[a]

[u]

Page 48: Lieberman & Blumstein Phonetic theories

Talrörsnormalisering

Finns det då något lingvistiskt/fonetiskt rimligt sätt att bringa den stora variationen under bättre kontroll?

Vi vet ju att en stor del av variationen beror på att talarna består av både män och kvinnor och av barn och skillnaderna att talrörsstorlek mellan dessa kategorier såväl som mellan enskilda talare kan vara betydande. Om man tänker sig att talare inte försöker sikta in sig på exakta formantvärden - lika för alla talare, utan likartad talrörsinställning skulle det gå att rekonstruera denna ur kunskap om talarens storlek. Ett första, grovt sätt, att göra en sådan normalisering vore att utgå från gruppmedelvärden på storlek. Neary har gjort ett sådant försök baserat på Peterson & Barneys data.

Page 49: Lieberman & Blumstein Phonetic theories

Talrörsnormalisering

Medelvärden för formantfrekvenserna i Peterson & Barneys undersökning för vuxna män, vuxna kvinnor och barn ’normaliserade’ med hänsyn till talargruppernas beräknade talrörsstorlekar.

Page 50: Lieberman & Blumstein Phonetic theories

Talrörsnormalisering

Resultat som de i föregående diagram och det faktum att i Peterson och Barneys lyssningstest förväxlingar endast förekom när lyssnarna inte visste vilken typ av talare de lyssnade till (när de gjorde det förekom nästan inga fel) antyder att vi som lyssnare på något sätt kan rekonstruera talarens storlek ur talet.

Senare experiment har gett resultat som stödjer den hypotesen. Om man t.ex. klipper in ett [i] producerat av en talare med relativt låga formantvärden i en bärfras producerad av en talare med högre formantvärden kommer vokalen att höras som [e] om detta stämmer bättre överens med hur man föreställer sig att den mindre talaren skulle uttala den vokalen.

Page 51: Lieberman & Blumstein Phonetic theories

Fotnot: Alternativ till normalisering

En annan teori, modulationsteorin, gör samma prediktion som normaliseringsteorin men från andra utgångspunkter. Här betraktas talarens röst istället som en ’bärvåg’ gentemot vilken lyssnare ’kalibrerar’ sin avkodning av det lingvistiska innehållet.

Page 52: Lieberman & Blumstein Phonetic theories

Fotnot: Alternativ till normalisering

Olika typer av information som förmedlas av talsignalen enligt modulationsteorin

Linguistic phonetic qualitySocial, conventional

Expressive qualityPsychological, within speaker variation

Organic qualityPhysiological, anatomical, between speaker variation

Perspectival qualityPhysical, spatial

Page 53: Lieberman & Blumstein Phonetic theories

The linguistic categorization of vowels

De svenska vokalerna i presenterade i ett diagram där skalan på axlarna är mel och andraformanten representeras av F’2.

Den vertikala axeln representerar F’2, vilket är en teoretisk konstruktion föreslagen av Fant i ett system där alla vokaler representeras som 2-formantvokaler. Frekvensskalan på bägge axlarna är mel, en psykologisk frekvensskala som liknar halvtonsskalan men inte är identisk med den. Den är härledd ut perceptuell halvering eller fördubbling av givna frekvenser.

Page 54: Lieberman & Blumstein Phonetic theories

The linguistic categorization of vowels

De amerikanska vokalerna med värden hämtade från Peterson och Barney presenterade på samma sätt.

Page 55: Lieberman & Blumstein Phonetic theories

Fotnot: F2’

F2’ är en teoretisk konstruktion som bygger på perceptionsexperiment med tvåformantvokaler

Page 56: Lieberman & Blumstein Phonetic theories

The linguistic categorization of vowels

En jämförelse av representationerna för svenska resp. amerikanska vokaler. Medan [i] - [a] axeln ser ungefär likadan ut skiljer sig placeringen av [u] markant. Lärdomen här är förstås att medan vokalsymbolerna är lingvistiskt härledda representerar diagrammen de akustiska värdena och vi kan inte utan vidare utgå ifrån att ett svenskt [u] och ett amerikansk är identiskt eller ens ska vara det.

Page 57: Lieberman & Blumstein Phonetic theories

FotnotMel-skalan som ett tag var populär har idag mest ett historiskt intresse. Den är framtagen ur lyssningsexperiment med rena, enkla toner (sinustoner) och dessa representera inte särskilt väl vår perception av komplexa ljud.

den skal som idag används i sådana här sammanhang är Bark-skalan som på ett betydligt bättre sätt speglar perception av komplexa ljud.

Page 58: Lieberman & Blumstein Phonetic theories

Hz - Bark

HZ

80006000400020000

0

-20

-40

-60

-80

-100

BARK

2520151050

0

-20

-40

-60

-80

-100

Vokalen [A] representerad på en Hertz-skala (A) och en Barkskala (B)

A B

Page 59: Lieberman & Blumstein Phonetic theories

Fysiologiska randvillkor

Medan vi i princip kan tänka oss oändligt många artikulationsställen för konsonanter verkar det inte förekomma mer än sju och inget språk använder alla sju.

Stevens kvantalteori erbjuder en möjlig förklaring till detta.

Page 60: Lieberman & Blumstein Phonetic theories

Fysiologiska randvillkor

En idealiserad modell av talröret vid produktion av en frikativa. Förträngningens position kan flytas genom att ändra på värdena för lb (bakre kavitetens längd) och lf (bakre kavitetens längd)

Page 61: Lieberman & Blumstein Phonetic theories

Fysiologiska randvillkor

(A) Resultatet av en datorsimulering av talrörsmodellen

(B) konfigurationerna för ([p], [t] och [k]) i amerikansk engelska.

Om vi använder talrörsmodellen för att simulera alla möjliga lägen på förträngningen uppstår återigen områden där formanterna bara ändras obetydligt när förträngningens läge ändras. Dessa lägen motsvara dessutom ganska bra de artikulationsställen vi finner hos frikativor. Man skulle alltså kunna tänka sig att detta förklarar varför dessa artikulationsställen är de som verkar föredras i världens språk.

Page 62: Lieberman & Blumstein Phonetic theories

Fysiologiska randvillkor, en invändning

Stevens modell förutsätter att förträngningens längd är 3 cm. Då uppstår de ’kvantala’ regioner han föreslår och som motsvarar de olika artikulationsställena.

Engstrand och Lindblom har emellertid visat att även förträngningens längd har en avgörande betydelse. Ändras denna till 1, 2 eller 4 cm istället för 3 cm får vi andra stabila områden eller inga alls. Det vi vinner i den kvantala modellen ifråga om mindre precisionskrav på artikulationsställe verkar vi få betala med ökad precision ifråga om kontroll av förträngningens precisa längd. Det är på inget sätt självklart att det ena är att föredra framför det andra.

Page 63: Lieberman & Blumstein Phonetic theories

Akustisk invarians i talet

Sökandet efter akustisk invarians har vägletts av två överväganden

1. Vilka artikulatoriska tillstånd är minst benägna att påverkas av den akustiska variation som orsakas av fonetisk kontext eller koartikulationseffekter

2. Hur processar hörselsystemet talljud

Med andra ord, vilka akustiska egenskaper har störst sannolikhet för att vara rimligt konstanta i såväl artikulation som perception?

Page 64: Lieberman & Blumstein Phonetic theories

Akustisk invarians i talet

En plats i den akustiska signalen där man försökt hitta sådana stabila egenskaper är där det förekommer snabba spektrala eller ljudstyrkeförändringar under relativt kort tidsrymd (någon eller några tiondels millisekunder).

Ett sådant område är explosionsfasen i klusiler. Man har ansett att dessa områden borde vara minst utsatta för kontextberoende variation.

Page 65: Lieberman & Blumstein Phonetic theories

Akustisk invarians i talet

Exempel på vågformer och spektra i explosionen för tre klusiler [b], [d] och [g] som följs av vokalen [A].

Diagrammen till höger om vågformen visar spektra för explosionen i resp. konsonant. Som framgår skiljer de sig åt med avseende på var tyngdpunkten i spektrum ligger. Om variationen i produktion av dessa konsonanter inte skiljer sig åt mer än att dessa skillnader i tyngdpunkt bibehålls skulle detta kunna vara ett exempel på akustisk invarians.

Diffuse falling

Diffuse rising

Compact

Page 66: Lieberman & Blumstein Phonetic theories

Akustisk invarians i talet, kommentar

Stevens och Blumsteins modell har inte gett så övertygande resultat när den använts för automatisk taligenkänning. För initiala konsonanter fungerade den hyggligt, för finala ’sådär’ och för mediala inte alls.

Page 67: Lieberman & Blumstein Phonetic theories

Akustisk invarians i talet

Visst stöd för modellen finns dock i som följande perceptionsexperiment visar.

Page 68: Lieberman & Blumstein Phonetic theories

Ett perceptionsexperiment

Stiliserat spektrogram som representerar ett stimulus med formanttrajektorier anpassade för stavelsen [da].

Stimuli konstruerades ur syntetiska CV-stavelser där bitar av olika längd räknat från explosionens början klippts ut.Dessa presenterades sedan för lyssnare vars uppgift det var att identifiera antingen konsonanten eller vokalen.Det visade sig möjligt att korrekt identifiera konsonantens artikulationsställe.Men också vokalen kunde iden-tifieras även när ingen information om vokalens ’steady-state’ formanter fanns med.

Page 69: Lieberman & Blumstein Phonetic theories

Ett perceptionsexperiment, en kommentar

Jag är dock inte så säker på att detta verkligen utgör evidens för invarians. Om vi antar att tillräcklig talarspecifik information finns kvar även i mycket korta stimuli blir perceptionen av dessa inte principiellt annorlunda än för längre stimuli.

Page 70: Lieberman & Blumstein Phonetic theories

Andra möjliga kandidater för invarians

Tredimensionellt frekvens, amplitud och tidsdiagram (kallas ofta för vattenfallsdiagram) för [bi] och [wi]. Konsonantens explosion ligger för bägge yttrandena vid 50 ms.

Abrupt-kontinuerlig

Klusiler har mycket snabba amplitudförändringar medan de i frikativor och halvvokaler är långsammare. Lyssnare kan utnyttja detta.

Page 71: Lieberman & Blumstein Phonetic theories

Abrupt-kontinuerlig, kommentar

I själva verket är vår förmåga att skilja på abrupt och kontinuerlig mycket mer sofistikerad än vad Liebermans exempel antyder. Längst ner visas exempel på affrikatan [tS] och frikativan [S] uttalade av två talare. Om man utgående från dessa inspelningar skapar nya stimuli där stigtiden för bruset i konsonanten systematiskt varieras från den som gäller för [S] till den som gäller för [tS] och presenterar dessa för lyssnare så klassificerar de konsonanten som [S] eller [tS] beroende på hur abrupt den börjar och området inom vilket de ’ändrar uppfattning’ är ganska kort som framgår av diagrammet

Page 72: Lieberman & Blumstein Phonetic theories

Andra möjliga kandidater för invarians

Ett alternativt och diametralt motsatt synsätt till enstaka invarianta ledtrådar för perceptionen är det Lieberman kallar ”many-to-one-mapping” i samband med tonande-tonlös-kontrasten.

I olika perceptionsstudier har åtminstone följande 19 ledtrådar var för sig visat sig kunna användas av lyssnare för att avgöra distinktionen tonande-tonlös.

Vad detta tyder på är att vi i talperceptionen integrerar all tillgänglig information snarare är letar efter enstaka invarianta ledtrådar.

Page 73: Lieberman & Blumstein Phonetic theories

19 Ledtrådar för kontrasten tonande-tonlös

1. VOT2. Duration of preceding vowel3. Duration of the following vowel4. Duration of closure5. Duration of aspiration6. Duration of voiced-formant

transition7. First-formant offset frequency

before closure8. First-formant onset frequency

following closure9. First-formant offset transition

duration10.First -formant onset transition

duration11.First-formant cutback before

closure

12.First-formant cutback after closure13.Onset frequencies and directions

of second- and third-formant transitions

14.Amplitude of the following vowel relative to the preceding vowel

15.Spectral characteristics of the following vowel

16.Fundamental frequency at voicing onset

17.Presence or absence of low-frequency buzz during the closure interval

18.Decay time of glottal signal preceding closure

19.Burst intensity following closure