Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
1/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q
Przetwarzanie językanaturalnego
Natural language processing (NLP)
Tematyka prac. Propozycje badawcze.
Agnieszka Mykowiecka, Alina Wróblewska
jINSTITUTE OF COMPUTER SCIENCEPOLISH ACADEMY OF SCIENCESul. Jana Kazimierza 5, 01-248 Warszawa
Warszawa, listopad 2018
2/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jCo to jest NLP – nieformalne definicje
giving computers the ability to process human languageNLP aims at making computers talk and communicate, ormore precisely, at endowing them with the linguisticability of humansNLP encompasses anything a computer needs tounderstand natural language (text or speech) and alsogenerate the natural languagereproduce the natural transmission of information bymodelling the speaker’s production and the hearer’sinterpretation on a suitable type of computer
⇓NLP obejmuje badania z wielu dziedzin: lingwistyki,informatyki, matematyki, statystyki, psychologii,kogniwistyki ...
3/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jArtificial Intelligence (AI)
Źródło: https://www.upwork.com/hiring/for-clients/artificial-intelligence-and-natural-language-processing-in-big-data/
4/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jZainteresowanie biznesowe NLP
Źródło: The comercial NLP landscape. Robert Dale. RANLP 2017.
5/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jZainteresowanie NLP
Sponsorzy konferencji ACL 2017
Platynowi Złoci
http://acl2017.org/sponsors/overview/
6/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jTypy aplikacji NLP
Źródło: The comercial NLP landscape. Robert Dale. RANLP 2017.
7/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jTypy aplikacji NLP
Źródło: The comercial NLP landscape. Robert Dale. RANLP 2017.
8/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jEtapy analizy tekstu
segmentacja – jak poprawnie podzielić tekst?analiza morfologiczna – jakie słowa możemy rozpoznać wtekście?analiza składniowa – jaka jest struktura tekstu?analiza semantyczna – jaki jest sens/znaczenie danegotekstu?analiza pragmatyczna – jakie jest znaczenie tekstu wszerszym kontekście?
9/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jMetody
metody formalnegramatyki formalne opisujące składnię i/lub semantykęlogiki, zasady wnioskowania
metody statystyczne/maszynowe uczenie siępraktycznie każda metoda, w szczególności metodyetykietowania sekwencyjnego
sieci neuronowemetody hybrydowe, np.
gramatyki formalne+statystykasieci neuronowe+statystyka
10/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jKlasyczne/formalne NLP
segmentacja, analiza morfologiczna
analiza składniowa
11/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jStatystyczne NLPPrzykład danych, rozpoznawanie nazw własnych
List [ Europejskiej Akademii Filmowej ]ORG do ministra [Glińskiego ]PER
12/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jSieci neuronoweSemantyka dystrybucyjna, neuronowe modele słów, zdań
13/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jNeuronowe modele słów
14/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jStatystyczne i neuronowe NLP (wielojęzyczne)
Źródło: analyticks.wordpress.com/2016/08/14/leveraging-deep-learning-for-multilingual-sentiment-analysis
15/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jRodzaje prac/zadań
zasobygromadzenie, opracowywanie, ujednolicanie, oznaczanie,weryfikacja
narzędzia podstawowe:segmentacja, oznaczanie częsci mowy, identyfikacja nazwwłasnych ...
aplikacje realizujące konkretne zadania, np.system odpowiedzi na pytania,streszczanie wielodokumentowe,upraszczanie tekstuanaliza dyskursu (wykrywanie relacji między zdaniamipojedynczymi)
16/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jKorpusy ogólne
17/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jPotencjalne tematyw szczególności niekóre z listy to będą zadania PolEval 2019
Lemmatization of proper names and multi-word phrasesTemporal expressionsWord sense disambiguation/identificationSentiment analysisCoreference resolutionEntity linkingCyberbullying Detection... http://clip.ipipan.waw.pl/benchmarks
18/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jLematyzacja wyrażeń wielowyrazowych
wąskich dróg leśnych → wąski droga leśnywąska droga leśna
dróg oddechowych → drogi oddechoweulicy Białej → ulica BiałaBibliotece Wyższej Szkoły Zarządzania →Biblioteka Wyższej Szkoły ZarządzaniaBibliotece Głównej Politechniki Warszawskiej →Biblioteka Główna Politechniki Warszawskiej
19/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jWyrażenia temporalne
20/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jWyrażenia temporalne – zadania
identyfikacja fraz odnoszących się do czasu i ich typudata, godzina, ...
identyfikacja relacjiprzed, po, w trakcie, ...
ustalenie bezwzględnego określenia punktu/okresu czasurok temu → listopad 2017
21/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jRozpoznawanie nazw własnychhttp://multiservice.nlp.ipipan.waw.pl/
22/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jRozpoznawanie znaczeń słów
23/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jPrzykład – Sounding Boardzwycięzcy konkursu Amazona na aplikację dla Alexy, 2017
24/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jDane kontaktowe
Instytut Podstaw Informatyki PAN, ul. Jana Kazimierza 5Strona IPI PAN https://ipipan.waw.plStrona ZIL http://zil.ipipan.waw.pl
Agnieszka Mykowiecka – [email protected] Wróblewska – [email protected]
24/24
q q qt
tqt
ttq
ttq
tt
qtt
qt
qt
ttqt
tt
qt
tqt
tttqt
tttt
qtt
tttqt
tttq
tttt
qtttt
qtt
tttqt
ttqt
tt
qtt
tqttt
ttqtt
tq
tqt
ttt
tqttt
tttqt
tttt
qttt
qtt
tttqt
ttqt
tttt
qtt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tqtt
ttq
tttqt
tttt
tqttt
tqt
tttqt
ttt
tq tq
tq
ttt
qtt
ttq
ttt
qttt
qtt
tttqt
tttt
tqt
tq
tttqt
tttt
qttt
qtt
qtt
ttqt
ttt
tqt
ttqt
ttt
tqtt
ttqt
ttt
qtt
tttqt
ttqt
ttt
qttt
qt
tq
ttqt
ttttt
qttt
qttt
tqttt
tttqt
ttt
qt
tq
ttqt
tttt
qtttt
qttt
qtt tqtt
ttq
ttq
ttt
qtt
ttqt
ttqt
ttt
qttt
tq
ttqtt
ttt
qt
tttqt
tttqt
ttt
qt
tttqtt
tt
qtt
qtt
tqttt
tttqt
ttq
ttt
tqtt
ttqt tqt
ttt
qttt
qtt
ttq
ttt
tqtt
ttqt
tttt
qt tqtt
tqt qt q q q jDane kontaktowe
Instytut Podstaw Informatyki PAN, ul. Jana Kazimierza 5Strona IPI PAN https://ipipan.waw.plStrona ZIL http://zil.ipipan.waw.pl
Agnieszka Mykowiecka – [email protected] Wróblewska – [email protected]
Dziękuję za uwagę!