40
O statystycznym modelowaniu języka z elementami teorii informacji Lukasz Dębowski [email protected] Instytut Podstaw Informatyki Polskiej Akademii Nauk Seminarium „Teoria informacji” Wydzial Psychologii UW, Warszawa, 17.01.2018

O statystycznym modelowaniu jezyka z elementami teorii

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: O statystycznym modelowaniu jezyka z elementami teorii

O statystycznym modelowaniu językaz elementami teorii informacji

Łukasz Dę[email protected]

iInstytut Podstaw InformatykiPolskiej Akademii Nauk

Seminarium „Teoria informacji”Wydział Psychologii UW, Warszawa, 17.01.2018

Page 2: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Moje zainteresowania

1 Statystyczne modelowanie języka:Problem teoretyczny:Jakie przypisać prawdopodobieństwo dowolnym wypowiedziomw danym języku naturalnym (angielskim, polskim, ...)?Zastosowania praktyczne:— automatyczne rozpoznawanie mowy, klawiatury telefonówkomórkowych, maszynowe tłumaczenie, sztuczna inteligencja.

2 Teoria informacji:Problem teoretyczny:Jak określić ilość informacji w zmiennej losowej bądź wustalonym napisie? −→ entropia, informacja wzajemna,

złożoność Kołmogorowa...Zastosowania praktyczne:— przesyłanie danych przez zaszumione kanały, kompresjadanych, automatyczna korekcja błędów.

Page 3: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

1 Historia wcześniejsza

2 Teoria informacji

3 Inżynieria lingwistyczna

4 Moje obserwacje

5 Wyzwania teoretyczne

Page 4: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Jonathan Swift (1667–1745)

Podróże Guliwera (1726):

Zapewnił mnie, że ten wynalazekbył owocem wszystkich jego my-śli od wczesnej młodości, że użyłcałego dykcjonarza do tych ram iobliczył ściśle proporcje, jakie sąw księgach między rodzajnikami,imionami, czasownikami i innymirodzajami mowy.

Page 5: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Andriej Andriejewicz Markow (1856–1922)

Matematyk rosyjski. Autor poję-cia łańcucha Markowa. W wykła-dzie wygłoszonym w 1913 w Pe-tersburgu przedstawił zastosowa-nie pojęcia łańcucha Markowa doanalizy poematu Eugeniusz Onie-gin Aleksandra Puszkina. Szaco-wał w nim prawdopodobieństwowarunkowe występowania po so-bie spółgłosek i samogłosek wanalizowanym tekście.

Page 6: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Procesy Markowa

Proces stochastyczny (Xi )∞i=1 na przestrzeni (Ω,J ,P).

Bloki zmiennych losowych X kj := (Xj ,Xj+1, ...,Xk).

(notacja z teorii informacji)

P-stwo warunkowe zależy tylko od ostatniej zmiennej:

P(Xi |X i−11 ) = P(Xi |Xi−1)

Estymacja największej wiarogodności:

PMLE (Xi |Xi−1) :=N(X i

i−1|xn1 )

N(Xi−1|xn−11 ),

gdzie— N(w |z) to liczba wystąpień podsłowa w w słowie z ,— ciąg xN1 = (x1, x2, ..., xN) to próba ucząca.

Page 7: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

G. Udny Yule (1871–1951), Herbert A. Simon (1916–2001)

Statystyk brytyjski i polimat amerykański.Twórcy rozkładu Yule’a-Simona i procesuYule’a (1925,1955), współcześnie znanychjako preferential attachment czy też efektśw. Mateusza, zaproponowanych w kontek-ście modelowania danych ekologicznych i lin-gwistycznych. Rozkład Yule’a jest przykła-dem procesu o potęgowym ogonie. G. U.Yule jest także autorem książki The Stati-stical Study of Literary Vocabulary (1944),w której wprowadził stałą K jako narzędziew atrybucji autorstwa tekstów.

Page 8: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

George Kingsley Zipf (1902–1950)

Lingwista amerykański. Autorksiążki The Psycho-Biologyof Language: An Introductionto Dynamic Philology (1935).Przedstawił w niej empiryczneprawo zwane później prawemZipfa. Prawo to głosi, że częstośćdowolnego słowa w tekście jest zgrubsza odwrotnie proporcjonalnado rangi tego słowa.

Gwoli ścisłości odkrywcą prawa Zipfa był Jean-Baptiste Estoup(1868–1950), stenograf francuski, autor książki Gammesstenographiques (1912).

Page 9: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Przykład listy rangowej

Korpus Słownika Frekwencyjnego Polszczyzny Współczesnej

ranga r(w) częstość f (w) słowo w r(w) · f (w)1 14767 w 147672 12473 i 249463 11093 się 33279

... ... ... ...210 214 ciągu 44940211 213 jeśli 44943212 212 czas 44944213 210 ludzie 44730

... ... ... ...38420 2 Aaa 7684038421 1 żyznej 38421

... ... ... ...92963 1 aa 92963

Page 10: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Benoıt B. Mandelbrot (1924–2010)

Matematyk polsko-żydowskiegopochodzenia. Twórca geometriifraktalnej i autor słowa „fraktal”.Próbował zastosować pojęciefraktali do modelowania językanaturalnego i zaobserwował w ro-ku 1953, że prawo Zipfa spełnionejest przez teksty otrzymane przezniezależne losowanie kolejnychliter i odstępów w tekście.

Page 11: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

George Armitage Miller (1920-2012)

Psycholog amerykański. Przyczy-nił się do narodzin psycholingwi-styki i kognitywistyki. Niezależnieod B. B. Mandelbrota także zaob-serwował w roku 1957, że prawoZipfa spełnione jest przez tekstyotrzymane przez niezależne loso-wanie kolejnych liter i odstępów wtekście.

Page 12: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Prawo Zipfa (ranga-częstość)

1

10

100

1000

10000

100000

1 10 100 1000 10000 100000 1x106

wor

d fr

eque

ncy

f(w

)

word rank r(w)

Shakespearerandom permutation

Estoup 1916; Zipf 1935; Mandelbrot 1953, Miller 1957:

f (w) ∝[

1

B + r(w)

]α, α > 1

Page 13: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Prawo Heapsa (liczba różnych słów)

1

10

100

1000

10000

100000

1x106

1 10 100 1000 10000 100000 1x106

num

ber

of w

ord

type

s V

number of word tokens N

Shakespearerandom permutation

Kuraszkiewicz i Łukaszewicz 1951; Herdan 1964; Heaps 1978:

V ∝ Nβ, β < 1, β ≈ 1/α

V — liczba różnych słów w tekście (typów/types)N — liczba wszystkich słów tekście (okazów/tokens)

Page 14: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

1 Historia wcześniejsza

2 Teoria informacji

3 Inżynieria lingwistyczna

4 Moje obserwacje

5 Wyzwania teoretyczne

Page 15: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Claude Elwood Shannon (1902–2001)

Inżynier amerykański. Twórca teo-rii informacji, autor pojęcia en-tropii zmiennej losowej i mode-lu n-gramowego (1948). Moty-wujące założenie teorii informacjistanowi, że teksty w języku na-turalnym można modelować jakoproces stochastyczny. Modele n-gramowe, czyli modele Markowan-tego rzędu, są pewną próbą es-tymacji rozkładu p-stwa tego pro-cesu.

Page 16: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Entropia i intensywność entropii

Entropia zmiennej losowej:

H(X ) = −∑x

P(X = x) logP(X = x)

Entropia warunkowa:

H(X |Y ) = −∑x

P(X = x,Y = y) logP(X = x|Y = y)

Intensywność entropii procesu stacjonarnego (Xi )∞i=1:

h = limn→∞

H(X n1 )

n= lim

n→∞H(Xn|X n−1

1 )

Page 17: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Intensywność entropii dla języka angielskiego

Shannon (1951), Prediction and entropy of printed English.

Intensywność entropii języka naturalnego jest rzędu 1 bita na literę.

Page 18: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Hipoteza Hilberga (1990)

H(Xn|X n−11 ) ≈ Bnβ−1 + h, β ≈ 1/2, n ≤ 100

Page 19: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Model n-gramowy

Proces stochastyczny (Xi )∞i=1 na przestrzeni (Ω,J ,P).

Bloki zmiennych losowych X kj := (Xj ,Xj+1, ...,Xk).

P-stwo warunkowe zależy tylko od n− 1 ostatnich zmiennych:

P(Xi |X i−11 ) = P(Xi |X i−1

i−n+1)

Estymacja największej wiarogodności

PMLE (Xi |X i−1i−n+1) =

N(X ii−n+1|xN1 )

N(X i−1i−n+1|x

N−11 )

,

gdzie— N(w |z) to liczba wystąpień podsłowa w w słowie z ,— ciąg xN1 = (x1, x2, ..., xN) to próba ucząca.

Page 20: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Modele n-gramowe — przykłady generowanych tekstów

model 2-gramowy:oć sśwatw wsz sta paku wo pojz ktćda bi iańcychy

model 3-gramowy:kłobez odzie na w swarza z le czenie niasną drały

model 4-gramowy:rykomadzie jużbie, w rancza Rzeciwsze z nie

model 5-gramowy:yk Siedziesiąt tysię, na pan Muszając; przysia

model 6-gramowy:k Sieniu oka mgnieniu, męstwę i rzuciła ślady

model 10-gramowy:enkiewicz, Pan Wołodyjowski wyjechać na objazd.

model 20-gramowy:Pan Wołodyjowski zaniepokoił się tym bardzo

Page 21: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Noam Chomsky (1928–)

Lingwista amerykański. Twórcahierarchii Chomsky’ego, czyli hie-rarchii języków formalnych, i for-malnych teorii składni języka na-turalnego (1957). Znany jest zbardzo wpływowego sceptycznegostosunku do statystycznego mode-lowania języka naturalnego.

Wpływowa w lingwistyce była też praca E. Marka Golda (1967)Language identification in the limit pokazująca, że w pewnymujęciu niestatystycznym niemożliwe jest nauczenie się z wyłączniedanych pozytywnych nieskończonych języków formalnych.

Page 22: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Andriej Nikołajewicz Kołmogorow (1903–1987)

Matematyk rosyjski. Twórcawspółczesnej teorii prawdopodo-bieństwa. Miał także wątpliwości,czy prawdopodobieństwo zdańi dłuższych tekstów w językunaturalnym ma sensowną inter-pretację częstościową, ale z tegopunktu widzenia zaproponowałalgorytmiczne podejście do defi-nicji ilości informacji zawartej wdowolnym napisie (1965). Współ-cześnie wielkość ta nazywana jestzłożonością Kołmogorowa.

Page 23: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Algorytmiczna teoria informacji

Złożoność Kołmogorowa:

K(w) = min |p| : U(p) = w

gdzie U(p) to wynik programu p.

(Złożoność Kołmogorowa nie jest efektywnie obliczalna.)

Napis w jest nazywany algorytmicznie losowym, gdy:

K(w) ≈ |w |

Zachodzi to, gdy najkrótszy program ma postać print w ;

Dla efektywnie obliczalnego rozkładu p-stwa:

0 ≤ EK(X n1 )− H(X n

1 ) ≤ K(P) + C

Zachodzi też podobna relacja prawie na pewno.

Page 24: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

1 Historia wcześniejsza

2 Teoria informacji

3 Inżynieria lingwistyczna

4 Moje obserwacje

5 Wyzwania teoretyczne

Page 25: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Frederick Jelinek (1932–2010)

Amerykański inżynier czeskiegopochodzenia. Twórca systemówautomatycznego rozpoznawaniamowy opartych na statystycznymmodelowaniu języka naturalnego,ukrytych modelach Markowa imodelach n-gramowych. Częstocytowane jest jego powiedzenie:Every time I fire a linguist,the performance of the speechrecognizer goes up.

Page 26: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Automatyczne rozpoznawanie mowy

Reguła Bayesa:

P(tekst|mowa) =P(mowa|tekst)P(tekst)

P(mowa)

Wybieramy tekst o najwyższym p-stwie a posteriori.

Model języka P(tekst) szacuje się jako model n-gramowy,najczęściej używając n = 3 dla słów (trigramy).

Page 27: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Problem rzadkości danych

Przeciętne czynne słownictwo człowieka ≈ 104 słów.

Liczba różnych trigramów ≈ 1012.Współczesne korpusy tekstów ≈ 109 słów.

Nie jesteśmy w stanie sensownie wyestymować p-stw woparciu o estymację największej wiarogodności

PMLE (Xi |X i−1i−n+1) =

N(X ii−n+1|xN1 )

N(X i−1i−n+1|x

N−11 )

,

gdzie— N(w |z) to liczba wystąpień podsłowa w w słowie z ,— ciąg xN1 = (x1, x2, ..., xN) to próba ucząca.

Page 28: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Jak uniknąć zerowych i nieokreślonych p-stw warunkowych?

Przykładowe wygładzanie prawdopodobieństw:

Pn(Xi |X i−1i−n+1) =

N(X ii−n+1|xN1 ) + λnPn−1(Xi |X i−1

i−n+2)

N(X i−1i−n+1|x

N−11 ) + λn

,

gdzie λn to wolne parametry.

Parametry λn dobiera się minimalizując entropię krzyżową

−M∑i=3

logP3(Xi = yi |X i−1i−2 = y i−1i−2 )

na danych walidacyjnych yM1 = (y1, y2, ..., yM).

Zaproponowano wiele innych technik wygładzania(np. estymator Gooda-Turinga).

Entropia krzyżowa takich modeli jest rzędu 1,5 bita na literę.

Page 29: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

1 Historia wcześniejsza

2 Teoria informacji

3 Inżynieria lingwistyczna

4 Moje obserwacje

5 Wyzwania teoretyczne

Page 30: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Maksymalne powtórzenie

Maksymalne powtórzenie (maximal repetition) L(xn1 ) w tekściexn1 = (x1, x2, ..., xn) to maksymalna długość powtarzającego siępodsłowa.

Formalnie,

L(xn1 ) := maxk : x i+k

i+1 = xj+kj+1 dla pewnych 0 ≤ i < j ≤ n − k

.

Przykład:

xn1 = “O szyby deszcz dzwoni, deszcz dzwoni jesienny.”

L(xn1 ) = |“ deszcz dzwoni”| = 14.

Maksymalne powtórzenie L(xn1 ) można policzyć w czasie O(n)sortując drzewo sufiksów (Kolpakov & Kucherov, 1999).

Page 31: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Z punktu widzenia probabilistów... (Erdos & Renyi, 1970)

Niech (Xi )∞i=1 będzie procesem IID, tzn. nieskończonym ciągiem

niezależnych zmiennych losowych o identycznym rozkładzie,

P(X n1 = xn1 ) =

n∏i=1

p(xi ).

Można wówczas udowodnić, że istnieje taka stała A > 0, że

L(X n1 ) ≤ A log n

dla dostatecznie dużych n z prawdopodobieństwem 1.

Inaczej pisząc,

P

(lim supn→∞

L(X n1 )

log n≤ A

)= 1.

Page 32: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

A w odniesieniu do języka... (Dębowski, 2015)

0.1

1

10

100

1000

1 10 100 1000 10000 100000 1x106 1x107

max

imal

rep

etiti

on L

(w)

string length |w|

Shakespearerandom permutation

L(xn1 ) ≈ 0.02498 (log n)3.136 dla tekstu w języku angielskim.L(xn1 ) ≈ 0.4936 (log n)1.150 dla losowej permutacji znaków.

Page 33: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Kod PPM (Prediction by Partial Matching)

Definiujemy

PPMk(xi |x i−11 ) :=

1

D, i ≤ k,

N(x ii−k |xi−11 ) + 1

N(x i−1i−k |xi−21 ) + D

, i > k,

PPMk(xn1 ) :=n∏i=1

PPMk(xi |x i−11 ),

PPM(xn1 ) :=6

π2

∞∑k=−1

PPMk(xn1 )

(k + 2)2.

Wielkość PPM(xn1 ) nazywa się p-stwem PPM napisu xn1 .

Zauważmy, że PPMk(xn1 ) = D−n dla k > L(xn1 ).

Page 34: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Uniwersalność p-stwa PPM

Entropia bloku: H(X n1 ) = E

[− logP(X n

1 )]

Intensywność entropii: h = limn→∞

1

nE[− logP(X n

1 )]

Twierdzenie

P-stwo PPM jest p-stwem uniwersalnym, tzn. zachodzi

E[− log PPM(X n

1 )]≥ H(X n

1 )

limn→∞

1

nE[− log PPM(X n

1 )]

= h

dla dowolnego procesu stacjonarnego (Xi )∞i=1 o skończ. alfabecie.

Page 35: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Rząd PPM i słownik PPM

Rząd PPM GPPM(xn1 ) to najmniejsza liczba G taka, że

− log PPMG (xn1 ) ≤ − log PPMk(xn1 ) dla każdego k ≥ −1.

Zbiór wszystkich podsłów długości m w napisie xn1 to

V (m|xn1 ) :=ym1 : x t+m

t+1 = ym1 dla pewnego 0 ≤ t ≤ n −m.

Zbiór różnych słów PPM w napisie X n1 to

VPPM(xn1 ) := V (GPPM(xn1 )|xn1 ).

Ogólnie zachodzi nierówność

cardVPPM(xn1 ) ≤ minDGPPM(xn1 ), n − GPPM(xn1 ) + 1

.

Page 36: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Rząd PPM na wykresie

-2

-1

0

1

2

3

1 10 100 1000 10000 100000 1x106 1x107

PP

M o

rder

input length [characters]

Shakespeare"unigram_ppm.txt"

Page 37: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Moc słownika PPM na wykresie

1

10

100

1000

10000

100000

1 10 100 1000 10000 100000 1x106 1x107

card

inal

ity o

f the

PP

M v

ocab

ular

y

input length [characters]

Shakespearerandom permutation

Page 38: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

1 Historia wcześniejsza

2 Teoria informacji

3 Inżynieria lingwistyczna

4 Moje obserwacje

5 Wyzwania teoretyczne

Page 39: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Statystyczne prawa językowe

Teksty w języku naturalnym spełniają przybliżone prawa ilościowe:1 Prawo Zipfa: częstość słowa jest odwrotnie proporcjonalna

do rangi słowa.2 Prawo Heapsa: liczba różnych słów w tekście rośnie

potęgowo z długością tekstu.3 Intensywność entropii Shannona: jest rzędu 1 bita na literę.4 Hipoteza Hilberga: entropia warunkowa litery maleje

potęgowo z długością kontekstu.5 Prawo kodu PPM: liczba różnych „słów” wykrywanych przez

algorytm PPM w tekście rośnie potęgowo z długością tekstu.6 Prawo maksymalnego powtórzenia: długość maksymalnego

powtórzenia rośnie jak sześcian logarytmu długości tekstu.

Czy można coś wywnioskować o języku jako procesiestochastycznym na podstawie tych obserwacji/hipotez?

Page 40: O statystycznym modelowaniu jezyka z elementami teorii

Tytuł Historia wcześniejsza Teoria informacji Inżynieria lingwistyczna Moje obserwacje Wyzwania teoretyczne

Pytania matematyka

1 Czy istnieje idealny probabilistyczny model języka?2 Czy model ten może być modelem Markowa?3 Czy model ten może być ukrytym modelem Markowa?4 Czy model ten jest ergodyczny?5 Czy model ten jest stacjonarny?6 Czy model ten jest asymptotycznie średnio stacjonarny?7 Czy model ten jest kodem uniwersalnym?8 Czy model ten jest efektywnie obliczalny?