View
55
Download
6
Embed Size (px)
Citation preview
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Automatyczna analizajakosci dokumentów
na przykładzie Wikipedii
Maciej Rubikowskiopiekun pracy: dr inz. Jerzy Chrzaszcz
Wydział Elektroniki i Technik InformacyjnychPolitechnika Warszawska
29 maja 2014
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Plan prezentacji
1 Wprowadzenie
2 Przeglad dziedziny
3 Cel i załozenia
4 Projekt
5 Weryfikacja rozwiazania
6 Kierunki rozwoju
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
O Wikipedii
Slogan reklamowy polskiej Wikipedii:
Definicja
Wolna encyklopedia, która kazdy moze redagowac
Kazdy moze, nie kazdy powinien
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Pojecie jakosci tekstu
Nie jest zdefiniowane jednoznacznie. W literaturze problemuzazwyczaj przyjmuje sie, ze jakosc to stopien spełnienia wymaganredakcyjnych Wikipedii. Oceny dokonuje społecznosc wikipedystów.Najwazniejsze wyróznienia przyznawane artykułom w polskimwydaniu:
artykuł na medal, ANM;
dobry artykuł, DA.
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Dlaczego warto sie tym zajmowac?
Wikipedia to darmowy materiał do badan – istotne z punktuwidzenia dyplomanta zajmujacego sie przetwarzaniem jezykanaturalnego;
wyglada na to, ze dla polskiej edycji nikt tego jeszcze nie robił;
wciaz rosnacy rozmiar encyklopedii powoduje, ze wartoposzukiwac automatycznych metod oceny jakosci.
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Dotychczasowe podejscia
Z grubsza wymienic mozna dwa:
klasyfikacja (binarna lub wieloklasowa);
regresja (jakosc na skali ciagłej, mapowanie z klas na liczbyrzeczywiste).
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Cel pracy
Trzy główne kierunki prac:
zbadanie opisanych w literaturze algorytmów na danychpolskojezycznych;
dyskusja sposobów konstruowania zbiorów testowych;
sprawdzenie, czy sumaryczny wydzwiek artykułu wpływa na jegoklasyfikacje.
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Podejscie
Nadzorowane uczenie maszynowe – klasyfikacja binarna, klasy:
P – wszystkie ANM i DA;
N – pewna próbka pozostałych.
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
SENTFREQ
Prosty autorski algorytm obliczania wartosci sumarycznegowydzwieku artykułu na podstawie dostarczonego słownika.Wymagana lematyzacja (sprowadzenie do form podstawowych). Przyuzyciu Poliqarpa proces łatwy, ale czasochłonny.
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Budowa zbiorów
Blumenstock proponuje, zeby jako jedynego wskaznika opisujacegojakosc artykułu wykorzystac jego długosc. Uzywajac reguły decyzyjnej„dłuzszy niz 2000 słów → dobry artykuł” uzyskuje na losowozbudowanym zbiorze dokładnosc 0,96.Warto zatem zastanowic sie nad innymi sposobami konstruowaniazbiorów.
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Rozkład długosci artykułów wyróznionych
0
100
200
300
400
500
600
10
0
20
0
30
0
40
0
50
0
60
0
70
0
80
0
90
0
10
00
20
00
30
00
40
00
50
00
60
00
70
00
80
00
90
00
10
00
0
20
00
0
30
00
0
40
00
0
50
00
0
60
00
0
70
00
0
80
00
0
90
00
0
10
00
00
11
00
00
12
00
00
13
00
00
14
00
00
15
00
00
16
00
00
17
00
00
18
00
00
19
00
00
20
00
00
Wię
cej
LIC
ZBA
AR
TYK
UŁÓ
W
PRZEDZIAŁ DŁUGOŚCI(KOSZYK)
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Rozkład długosci artykułów niewyróznionych
0
50000
100000
150000
200000
250000
300000
350000
400000
4500001
00
20
0
30
0
40
0
50
0
60
0
70
0
80
0
90
0
10
00
20
00
30
00
40
00
50
00
60
00
70
00
80
00
90
00
10
00
0
20
00
0
30
00
0
40
00
0
50
00
0
60
00
0
70
00
0
80
00
0
90
00
0
10
00
00
11
00
00
12
00
00
13
00
00
14
00
00
15
00
00
16
00
00
17
00
00
18
00
00
19
00
00
20
00
00
Wię
cej
LIC
ZBA
AR
TYK
UŁÓ
W
PRZEDZIAŁ DŁUGOŚCI (KOSZYK)
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
BALANCEDPERARTICLEDATASET
Koncepcja: budujac zbiory, doprowadzic do sytuacji, w którejhistogramy w obu klasach beda zblizone (a najlepiej identyczne).
Badania wykazały, ze dla polskiej Wikipedii da sie to zrobic.
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Narzedzia programistyczne
Zewnetrzne zródła danych:
Korpus IPI PAN;
słownik wydzwieku stworzony przez Zespół InzynieriiLingwistycznej IPI PAN.
Srodowisko projektowe:
jezyk programowania: Python;
wykorzystane biblioteki: scikit-learn, dewiki;
oprogramowanie: Poliqarp (interfejs do Korpusu), Notepad++ iExcel.
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Weryfikacja
Weryfikacja przy uzyciu standardowych technik:
miary: dokładnosc, precyzja, czułosc, specyficznosc, F-miara;
dziesieciokrotna kroswalidacja bez równowazenia.
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Rezultaty
Zbiór losowy, cechy z literatury: dokładnosc 0,966;
zbiór równowazony, cechy z literatury: 0,836;
zbiór losowy, tylko SENTFREQ: 0,861;
zbiór losowy, SENTFREQ + pozostałe: 0,969;
zbiór równowazony, tylko SENTFREQ: 0,682;
zbiór równowazony, SENTFREQ + pozostałe: 0,831.
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Komentarz
Da sie klasyfikowac artykuły z polskiej Wikipedii z wysokadokładnoscia;
sposób tworzenia zbioru ma bardzo wazny wpływ na wyniki – gdydługosc przestaje miec znaczenie, liczyc zaczyna sie technika;
SENTFREQ jest metoda niewystarczajaca – nic nie wnosi.
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Mozliwosci dalszych badan
Inne cechy w kontekscie danych polskojezycznych;
głebsza analiza tekstu: czesci mowy, informacje syntaktyczne,gramatyki bezkontekstowe;
inne sposoby równowazenia zbiorów;
próba uruchomienia na całej Wikipedii – „ile jest artykułówwartych wyróznienia?”
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii
WprowadzeniePrzeglad dziedziny
Cel i załozeniaProjekt
Weryfikacja rozwiazaniaKierunki rozwoju
Dziekuje za uwage.
Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii