allegro.tech Data Science Meetup #2: Akka i word2vec, czyli jak nauczyć sieć neuronową polskiego internetu

word2Vec dla Polskiego Internetu

24 listopada 2015

Wojciech [email protected]://opi-lil.github.io/

Ośrodek Przetwarzania Informacji - Państwowy Instytut Badawczy

mailto:[email protected]

http://opi-lil.github.io/

1Agenda

word2VecCBOWSkip-GramOptymalizacje

Hierarchical SoftmaxNegative Sampling

InternetyCommon CrawlAkka

PrzykładyCommon CrawlWiki

Wojciech Stokowiec [email protected] http://opi-lil.github.io/ | word2Vec dla Polskiego Internetu



2Przykład motywujący




















3word2vec + Google News

Korzystając z gotowego modelu ze stronyhttps://code.google.com/p/word2vec/:

from gensim.models.word2vec import Word2Vec

model = Word2Vec.load_word2vec_format(’GoogleNews-vectors-negative300.bin’,binary=True)

model.most_similar(positive=[’woman’, ’king’],negative=[’man’], topn=5)

[(u’queen’, 0.711819589138031),(u’monarch’, 0.618967592716217),(u’princess’, 0.5902432799339294),(u’crown_prince’, 0.5499461889266968),(u’prince’, 0.5377323031425476)]


https://code.google.com/p/word2vec/



4word2vec + Google News

Co ciekawe, poza semantycznymi relacjami, word2vec jest w stanie"wyłapać"podstawy gramatyki, takie jak stopniowanieprzymiotników:

model.most_similar(positive=[’biggest’,’small’],negative=[’big’], topn=5)

[(u’smallest’, 0.6086569428443909),(u’largest’, 0.6007465720176697),(u’tiny’, 0.5387299656867981),(u’large’, 0.456944078207016),(u’minuscule’, 0.43401968479156494)]




5Word2vec

Należy pamiętać, że:I Word2vec to nie jeden model!I Word2vec to nie deep learning !

Rysunek: CBOW oraz Skip-gram




6Continuous Bag of Words

Rysunek: CBOW z jednym słowem w kontekście




7CBOW

Dla danego kontekstu x, zakładając kodowanie 1 z N , tj xk = 1 orazxk′ = 0 dla xk 6= xk′ możemy obliczyć wartości warstwy ukrytej:

h = xTW = W(k,·) := vwI(1)

Następnie wyliczamy wartość funkcji oceny uj dla każdego słowa wj wsłowniku:

uj = v′wj

T · h. (2)

Aby wyznaczyć prawdopodobieństwo wyemitowania słowa wj podwarunkiem zaobserwowania danego kontekstu korzystamy z funkcjisoftmax:

p(wO | wI) =exp(uO)∑Vi=1 exp(ui)

=exp

(v′wO

T · vwI

)∑V

i=1 exp(v′wi

T · vwI

) . (3)




8CBOW

Rysunek: CBOW z dłuższym kontekstem




9CBOW

Analogicznie, tylko że warstwa ukryta wygląda w sposób następujący:

h =1

CW · (x1 + x2 + . . .+ xC)

=1

C· (vw1

+ vw2+ . . .+ vwC

).

(4)




10Skip-Gram

Rysunek: Skig-gram




11Skip-Gram

Skip-gram jest lustrzanym odbiciem architektury CBOW, tj. napodstawie słowa staramy się przewidzieć jego kontekst.Niech dany będzie ciąg słów: w1, w2, . . . , wT oraz długość kontekstu c,wtedy staramy się maksymalizować następującą funkcję:

1

T

T∑t=1

∑−c≤j≤c, j 6=0

log p(wt+j|wt), (5)

a prawdopodobieństwa p(wt+j|wt) zdefinowane są w sposób

następujący:

p(wO|wI) =exp

(v′wO

TvwI

)∑Ww=1 exp

(v′w

T vwI,) (6)

gdzie vw oraz v′w oznaczają "wejściowe"i "wyjścioweżeprezentacjewektorowe słowa "w", a W jest liczbą słów w słowniku.




12Optymalizacje

Przypomnijmy, że w wzorze 7 w mianowniku znajduje się czynniknormalizujący:

p(wO|wI) =exp

(v′wO

TvwI

)∑Ww=1 exp

(v′w

T vwI,) (7)

I Przy dużym słowniku (a takie występują w przyrodzie) metodyoptymalizacyjne oparte na prostym gradiencie są co najmniejnieefektywne.

I Można sobie z tym radzić na parę sposobów!




13Hierarchical Softmax

I Jest to efektywny sposób na znalezienie szukanegoprawdopodobieństwa

I Model używa drzewa binarnego do reprezentacji słów ze słownika





Rysunek: Przykład drzewa binarnego dla hierarchicznego sofmax’u

Prawdopodobieństwo, że dane słowo w jest słowem wyjściowymzadane jest następującym wzorem:

p(w = wO) =

L(w)−1∏j=1

σ(Jn(w, j + 1) = ch(n(w, j))K · v′n(w,j)

Th)

(8)





Skąd wziąć to drzewo?I Użyć losowo wygenerowanego

I Rozwiązanie w najlepszym przypadku nieoptymalne

I Można użyć zewnętrznych źródeł, np. WordNetI Można użyć metod klastrowania hierarchicznego:

I Mikolov w swojej implementacji Word2vec’a używa drzewHuffmana






I Rozwiązanie w najlepszym przypadku nieoptymalneI Można użyć zewnętrznych źródeł, np. WordNet

I Można użyć metod klastrowania hierarchicznego:







I Rozwiązanie w najlepszym przypadku nieoptymalneI Można użyć zewnętrznych źródeł, np. WordNetI Można użyć metod klastrowania hierarchicznego:








































16Negative Sampling

W swojej pracy Mikolov2013b, używają następującej funkcji celu:

log σ(v′wO

TvwI

)+

k∑i=1

Ewi∼Pn(W )

[log σ

(− v′wi

TvwI

)], (9)

Gdzie k, to liczba próbek z rozkładu śzumu"Pn(W ). Równanie 9można zapisać w trochę czytelniejszy sposób:

Prawidłowy rozkład︷︸︸︷log σ

(v′wO

TvwI

)+

Rozkład szumu︷︸︸︷∑i∼Pn(W )

log σ(− v′wi

TvwI

)(10)

I maksymalizujemy prawdopodbieństwo wystąpienia rzeczywistegokontekstu

I minimalizujemy prawdopodobieństwo wystąpienia losowych słóww kontekście

I Pn(w) ∼ U(w)3/4/Z




16Negative Sampling


log σ(v′wO

TvwI

)+

k∑i=1

Ewi∼Pn(W )

[log σ

(− v′wi

TvwI

)], (9)



(v′wO

TvwI

)+


log σ(− v′wi

TvwI

)(10)



I Pn(w) ∼ U(w)3/4/Z




16Negative Sampling


log σ(v′wO

TvwI

)+

k∑i=1

Ewi∼Pn(W )

[log σ

(− v′wi

TvwI

)], (9)



(v′wO

TvwI

)+


log σ(− v′wi

TvwI

)(10)



I Pn(w) ∼ U(w)3/4/Z




16Negative Sampling


log σ(v′wO

TvwI

)+

k∑i=1

Ewi∼Pn(W )

[log σ

(− v′wi

TvwI

)], (9)



(v′wO

TvwI

)+


log σ(− v′wi

TvwI

)(10)



I Pn(w) ∼ U(w)3/4/Z




17Common Crawl

“Fundacja Common Crawl to organizacja non-profit którejcelem jest demokratyzacja dostępu do informacji zawartejw internecie poprzez stworzenie i utrzymanie otwartegorepozytorium tekstowych danych internetowych, które sąpowszechnie dostępne i łatwe do analizy.”

— strona fundacji Common Crawl




18Common Crawl

I Mnóstwo danych!I Jeden dump "ważyókoło 140TB danych i zawiera 1.80 mld stron

internetowychI Około 17 dumpów, zrobionych na przestrzeni lat 2013-2015I Każdy dump składa się z plików:

I WARC - zawierających nieobrobione daneI WAT - zawierających meta-dane opisujące dany rekordI WET - zawierających wyłuskany ze strony tekst

I Jeden dump zawiera około 10TB danych w formacie WETI Do tej pory przetworzyliśmy 9 dumpów, co daje około 90TB

danych tekstowych, ale ...

I ... około 0.3% jest w języku polskim.




18Common Crawl

I Mnóstwo danych!I Jeden dump "ważyókoło 140TB danych i zawiera 1.80 mld stron

internetowychI Około 17 dumpów, zrobionych na przestrzeni lat 2013-2015I Każdy dump składa się z plików:

I WARC - zawierających nieobrobione daneI WAT - zawierających meta-dane opisujące dany rekordI WET - zawierających wyłuskany ze strony tekst

I Jeden dump zawiera około 10TB danych w formacie WETI Do tej pory przetworzyliśmy 9 dumpów, co daje około 90TB

danych tekstowych, ale ...I ... około 0.3% jest w języku polskim.




19WET

Format WET zawiera minimalną ilość meta-danych, główną jegozawartością jest czysty tekst ze strony.

Rysunek: Przykład pliku w formacie WET




20Narzędzia

I

I

I




21Akka

Obowiązkowe Hello World (cz. 1):

// definiujemy protokol rozmowycase class Hello(who: String)

// minimalny aktorclass Greeter extends Actor {

def receive = {case Hello(who) => println(s"It’s a you, a $who!")case _ => println("Name, please!")

}}




22Akka

Obowiązkowe Hello World (cz. 2):

object Main extends App {

// inicjalizacja systemu aktorowval system = ActorSystem("HelloWorldSystem")

// stworzenie aktoraval greeter = system.actorOf(Props[Greeter],

name = "helloactor")

// przeslanie wiadomoscigreeter ! "Mario!"

}




23Nasi aktorzy

I System aktorów do zarządzania aplikacjąI 1 File Master tworzący File Workerów oraz rozdzielający im praceI 1 Terminator monitorujący cykl życia aktorów, oraz zamykający

systemI 24 File Workerów do przetwarzania sturumienia danych oraz

wysyłania kawałków tekstu reprezentujących stronę doidentyfikacji języka

I 36 BouncerówI filtrują teksy z języka polskiego przy pomocy biblioteki CLD2I zapis do Cassandry




24Nasi aktorzy

M wR

w1

w2

...

wN

Workers

DbbR ...

b1

bM

Bouncers

Rysunek: Architektura crawlera




25word2vec na zbiorze Common Crawl

Tablica: Najbliższe słowa

Słowo Najbliższy Wektor Dystans

Król Cesarz 0.7349Tusk Donald 0.7382Kobieta Dziewczyna 0.7998Mężczyzna Chłopak 0.84556Sushi Pizza 0.75798Apple Tablety 0.78932

Dziewczyna Rozochocona :-) 0.81743Kaczyński Palikot :-) 0.83625




26word2vec na zbiorze Common Crawl

Tablica: Algebra wektorów

Wyrażenie Najbliższy wektor

Król – Mężczyzna + Kobieta Edyp :-)Większy – Duży + Mały MniejszyWłochy – Rzym + Francja Paryż

Dżungla + Król tarzantarzanlewkról




27word2vec na polskiej Wikipedii

Tablica: Najbliższe słowa

Słowo Najbliższy Wektor Dystans

Król Władca 0.61166Tusk Ramotar :-) 0.54940Kobieta Dziewczyna 0.74277Mężczyzna Chłopak 0.70107Sushi Chowder 0.52896Apple Iphone 0.6675Dziewczyna Kobieta 0.7428

Kaczyński Wałęsa | Kwaśnieswki | Komorowski 0.83625




28word2vec na polskiej

Tablica: Algebra wektorów

Wyrażenie Najbliższy wektor

Król – Mężczyzna + Kobieta KrólowaWiększy – Duży + Mały MniejszyWłochy – Rzym + Francja Szwajcaria :-(




29Podsumowanie

I Udało się stworzyć największy korpus języka polskiego filtrujączbiory fundacji Commmon Crawl, ale ...

I ... to straszny śmietnik.I Pracujemy nad deduplikacją, korekcją błędów i odśmiecaniem.I Wektorowe reprezentacje słów uzyskane poprzez uczenie

word2veca na naszym korpusie są przesycone seksem :-)I Wektorowe reprezentacje słów na polskiej wiki są nieznacznie

lepsze.I Zastosowanie word2veca do uzupełniania leksykonów sentymentu

w zagadnieniu analizy wydźwiękuI Polska język, trudna język.




29Podsumowanie


I ... to straszny śmietnik.

I Pracujemy nad deduplikacją, korekcją błędów i odśmiecaniem.I Wektorowe reprezentacje słów uzyskane poprzez uczenie







29Podsumowanie


I ... to straszny śmietnik.I Pracujemy nad deduplikacją, korekcją błędów i odśmiecaniem.

I Wektorowe reprezentacje słów uzyskane poprzez uczenieword2veca na naszym korpusie są przesycone seksem :-)

I Wektorowe reprezentacje słów na polskiej wiki są nieznacznielepsze.

I Zastosowanie word2veca do uzupełniania leksykonów sentymentuw zagadnieniu analizy wydźwięku

I Polska język, trudna język.




29Podsumowanie



word2veca na naszym korpusie są przesycone seksem :-)

I Wektorowe reprezentacje słów na polskiej wiki są nieznacznielepsze.






29Podsumowanie




lepsze.






29Podsumowanie





w zagadnieniu analizy wydźwięku





29Podsumowanie









30

UwagiInformacje kontaktowe

W razie jakichkolwiek uwag, komentarzy lub wątpliwości proszę okontakt:

Wojciech [email protected]://opi-lil.github.io/






Dziękuje za uwagę!