22
1 Talteknologi (vt04): Sannolikhetslära och markovmodeller Leif Grönqvist GSLT, MSI@VxU, Ling@GU

Talteknologi (vt04): Sannolikhetslära och markovmodeller

  • Upload
    adanne

  • View
    40

  • Download
    0

Embed Size (px)

DESCRIPTION

Talteknologi (vt04): Sannolikhetslära och markovmodeller. Leif Grönqvist GSLT, MSI@VxU, Ling@GU. Sannolikhetsteori. Vad är sannolikhetsteori? Teori för att hantera osäkerhet Beräkna värden på hur troligt det är att något inträffar Definition genom relativ frekvens Vad behöver vi det till? - PowerPoint PPT Presentation

Citation preview

Page 1: Talteknologi (vt04): Sannolikhetslära och markovmodeller

1

Talteknologi (vt04): Sannolikhetslära och markovmodeller

Leif Grönqvist

GSLT, MSI@VxU, Ling@GU

Page 2: Talteknologi (vt04): Sannolikhetslära och markovmodeller

2

Sannolikhetsteori

• Vad är sannolikhetsteori?– Teori för att hantera osäkerhet– Beräkna värden på hur troligt det är att något inträffar– Definition genom relativ frekvens

• Vad behöver vi det till?– Bra för att modellera allt för komplexa proceser:

språk!– Eller för att bli bättre på Roulette, Black Jack, Poker…

Page 3: Talteknologi (vt04): Sannolikhetslära och markovmodeller

3

Viktiga begrepp

• Experiment/Försök (experiment/trial): processen med vilken en observation görs. Exempel:– Kasta tärning och se vad det blev– Titta ut genom fönstret varje dag klockan 12 tills den dag det

regnar och se hur många dagar det tog

• Utfall (basic outcome): ett resultat av ett försök. Exempel:– ”femma”, ”trea”– 8 dagar, 0 dagar

• Utfallrum (sample space): mängden av alla utfall (Ω). Exempel:– {”etta”, ”tvåa”, ”trea”, ”fyra”, ”femma”, ”sexa”}– {0, 1, 2, …}

Page 4: Talteknologi (vt04): Sannolikhetslära och markovmodeller

4

Utfallsrummet

• Egenskaper hos utfallsrummet:– Diskret / kontinuerlig– Ändligt / oändligt

Diskret Kontinuerlig

Ändligt Tärning -

Oändligt Regnexemplet Kasta spjut

Page 5: Talteknologi (vt04): Sannolikhetslära och markovmodeller

5

Fler begrepp

• Händelse (event): en delmängd av utfallsrummet. Exempel:– {“femma”, “sexa”}– {1, 2, 3}

• Händelserum (event space): mängden av alla delmängder av utfallsrummet (potensmängden av Ω), benämns 2Ω

– Hur stort är händelserummet för tärningsexemplet?

Page 6: Talteknologi (vt04): Sannolikhetslära och markovmodeller

6

Fler begrepp

• Frekvensfunktion (probability function): P(x) = P(X=x), exempel:– P({“femma”, “sexa”}) = 1/3

• Täthetsfunktion (för kontinuerliga sannolikheter), exempel:– P(20<X<40) = ytan under kurvan från 20 till 40

• Några axiom:– P(Ω) = 1– P(x) = 0 omm “x inträffar aldrig”– P(x) = 1 omm “x inträffar alltid”– 0≤P(x)≤1 för alla händelser x

Page 7: Talteknologi (vt04): Sannolikhetslära och markovmodeller

7

Räkneregler

• AB = P(A B) = P(A)+P(B)– Exempel: A={“etta”, tvåa”}, B={“fyra”, “femma”}

• Exempel från boken– Kasta ett mynt tre gånger. Hur stor chans är det

att vi får exakt två “klavar” [på tavlan]

Page 8: Talteknologi (vt04): Sannolikhetslära och markovmodeller

8

Betingade sannolikheter

• Kallas också beroende sannolikheter eller a posteriori-sannolikheter (att jämföra med a priori-sannolikheter

• Definition:

• Kallas multiplikationsregeln

)(

),()|(

)(

),()|(

AP

BAPABP

BP

BAPBAP

Page 9: Talteknologi (vt04): Sannolikhetslära och markovmodeller

9

Bayes regel

• Ur multiplikationsregeln följer Bayes regel:

• Bra att ha om P(A|B) är lättare än P(B|A) att beräkna

)(

)()|()|(

),()()|(

),()()|(

AP

BPBAPABP

BAPAPABP

BAPBPBAP

Page 10: Talteknologi (vt04): Sannolikhetslära och markovmodeller

10

Exempel med Bayes regel

• S: Har stel nacke

• M: Har Meningitis (farlig sjukdom)

P(S|M) = ½, P(M) = 1/50000, P(S) = 1/20

• Bör man vara orolig om man är stel i nacken?

Page 11: Talteknologi (vt04): Sannolikhetslära och markovmodeller

11

Bayes regel i datalingvistiken

• Ofta vill man beräkna P(A|B) men P(B|A) är mycket lättare att beräkna:

• Vi kanske vill hitta B så att P(A|B) maximeras:

)(

)()|()|(

AP

BPBAPABP

)(

)()|(max

AP

BPBAPArg

B

Page 12: Talteknologi (vt04): Sannolikhetslära och markovmodeller

12

Bayes regel i datalingvistiken, forts.

• Eftersom A är konstant under maximeringen kan vi förenkla:

• Denna formel är grunden för en vanlig form av ordklasstaggning, taligenkänning, maskinöversättning

)()|(max)(

)()|(max BPBAPArg

AP

BPBAPArg

BB

Page 13: Talteknologi (vt04): Sannolikhetslära och markovmodeller

13

Stokastiska variabler

• Lite förvillande benämning eftersom de faktiskt är funktioner:– X : Ω R (R är de reella talen)

• En diskret stokastisk variabel:– Y : Ω S (S är en uppräknerlig delmängd av R)

• Exempel: kasta två tärningar och summera:– Ω={”11”, ”12”, ”21”, …, ”66”}– S={2, 3, …, 12}

• pmf: en funktion som ger sannolikheten för elementen i S, benämns ofta p(x)– Exempel: två tärningar [på tavlan]

Page 14: Talteknologi (vt04): Sannolikhetslära och markovmodeller

14

Väntevärde

• Definieras:

• Skrivs ofta µ

• Exempel: en tärning [på tavlan]

• Vad är det egentligen? Jo ett medelvärde!

x

xxpXE )(][

Page 15: Talteknologi (vt04): Sannolikhetslära och markovmodeller

15

Varians

• Var(X) = E((X- µ)2) eller:

• µ, dvs E(X) är medelvärdet

• Var(X) är ett mått på hur mycket X varierar

• Ett ofta använt mått är standaravvikelse:

• Var(X) skrivs ofta 2

– Exempel: två klassers tentaresultat [på tavlan]

2))(()(

x

xxpXVar

)(XVar

Page 16: Talteknologi (vt04): Sannolikhetslära och markovmodeller

16

Fördelningar

• Sättet “sannolikhetsmassan” är fördelad över Ω• Likformig fördelning (uniform distribution)

– Alla element i Ω har samma sannolikhet– P(x)=1/| Ω|– Exempel: en tärning.

• Normalfördelning (normal distribution)– Gauss ”Klockkurva” – resultatet av många små

avvikelser– Exempel: släpp en boll från ett flygplan– Beräknas med parametrarna: µ och

Page 17: Talteknologi (vt04): Sannolikhetslära och markovmodeller

17

Kombinatorik

• Sannolikhetsteori för likformiga fördelningar• Enkelt att beräkna sannolikhet som antalet

gynnsamma utfall delat med totala antalet utfall• En vanlig modell:

– En urna med kulor (eventuellt numrerade, olikfärgade)– Tag upp ett antal kulor och notera deras nummer/färg

• Lägg tillbaka kulan eller inte• Notera ordningen de dras i eller inte• Resulterar i fyra kombinationer

Page 18: Talteknologi (vt04): Sannolikhetslära och markovmodeller

18

Kombinatorik, fyra fall

• Med återläggning, notera ordningen– Stryktips

• Utan återläggning, notera inte ordningen– Lotto

• Med återläggning, notera inte ordningen

• Utan återläggning, notera ordningen

Page 19: Talteknologi (vt04): Sannolikhetslära och markovmodeller

19

De fyra fallen

• Räkna antalet sätt att välja k kulor ur en urna med n

Page 20: Talteknologi (vt04): Sannolikhetslära och markovmodeller

20

En Markovmodell

• En tillståndsmaskin– S={s1, s2, …, sN}: en mängd tillstånd ={S1, S2, …, SN}: initialsannolikheter– A={aij}, i,j tas från S: transitionssannolikheter– X är en tillståndssekvens

• Man kan beräkna– Sannolikheten för en tillståndssekvens X– Troligaste tillstånd i tidpunkt t– …

• Ett exempel [på tavlan]

Page 21: Talteknologi (vt04): Sannolikhetslära och markovmodeller

21

En dold Markovmodell (HMM)

• Vi lägger till observerade symboler tagna ur ett alfabet K = {k1, k2, …, kM}

• Sannolikheter för att emittera en given symbol: B={bijk}, i,j tas från S, k från K

• O är en sekvens av symboler• Samt tänker oss att tillståndssekvensen är osynlig• Tre viktiga uppgifter kan urskiljas:

– Beräkna sannolikheten för en symbolsekvens O givet en modell– Beräkna den troligaste tillståndssekvensen givet en

symbolsekvens O (Viterbi-algoritmen!)– Givet en symbolsekvens O, ta fram sannolikheter som bäst

förklarar O

Page 22: Talteknologi (vt04): Sannolikhetslära och markovmodeller

22

HMM-exempel

• En observationssekvens:

• Alfabetet: K={får, man, tacka, “.”}• Tillstånd: S={nn, vb, pn, dl}

• Transitionssannolikheter: anndl=0,29, … [OH]

• Emmisionssannolikheter: annfår=1.2e-4, … [OH]

får man får får man tacka .