19
Wprowadzenie Przegl ˛ ad dziedziny Cel i zalo˙ zenia Projekt Weryfikacja rozwi ˛ azania Kierunki rozwoju Automatyczna analiza jako´ sci dokumentów na przykladzie Wikipedii Maciej Rubikowski opiekun pracy: dr in˙ z. Jerzy Chrz ˛ aszcz Wydzial Elektroniki i Technik Informacyjnych Politechnika Warszawska 29 maja 2014 Maciej Rubikowski Automatyczna analiza jako´ sci dokumentów na przykladzie Wikipedii

Automatyczna analiza jakości dokumentów

Embed Size (px)

Citation preview

Page 1: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Automatyczna analizajakosci dokumentów

na przykładzie Wikipedii

Maciej Rubikowskiopiekun pracy: dr inz. Jerzy Chrzaszcz

Wydział Elektroniki i Technik InformacyjnychPolitechnika Warszawska

29 maja 2014

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 2: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Plan prezentacji

1 Wprowadzenie

2 Przeglad dziedziny

3 Cel i załozenia

4 Projekt

5 Weryfikacja rozwiazania

6 Kierunki rozwoju

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 3: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

O Wikipedii

Slogan reklamowy polskiej Wikipedii:

Definicja

Wolna encyklopedia, która kazdy moze redagowac

Kazdy moze, nie kazdy powinien

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 4: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Pojecie jakosci tekstu

Nie jest zdefiniowane jednoznacznie. W literaturze problemuzazwyczaj przyjmuje sie, ze jakosc to stopien spełnienia wymaganredakcyjnych Wikipedii. Oceny dokonuje społecznosc wikipedystów.Najwazniejsze wyróznienia przyznawane artykułom w polskimwydaniu:

artykuł na medal, ANM;

dobry artykuł, DA.

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 5: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Dlaczego warto sie tym zajmowac?

Wikipedia to darmowy materiał do badan – istotne z punktuwidzenia dyplomanta zajmujacego sie przetwarzaniem jezykanaturalnego;

wyglada na to, ze dla polskiej edycji nikt tego jeszcze nie robił;

wciaz rosnacy rozmiar encyklopedii powoduje, ze wartoposzukiwac automatycznych metod oceny jakosci.

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 6: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Dotychczasowe podejscia

Z grubsza wymienic mozna dwa:

klasyfikacja (binarna lub wieloklasowa);

regresja (jakosc na skali ciagłej, mapowanie z klas na liczbyrzeczywiste).

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 7: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Cel pracy

Trzy główne kierunki prac:

zbadanie opisanych w literaturze algorytmów na danychpolskojezycznych;

dyskusja sposobów konstruowania zbiorów testowych;

sprawdzenie, czy sumaryczny wydzwiek artykułu wpływa na jegoklasyfikacje.

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 8: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Podejscie

Nadzorowane uczenie maszynowe – klasyfikacja binarna, klasy:

P – wszystkie ANM i DA;

N – pewna próbka pozostałych.

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 9: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

SENTFREQ

Prosty autorski algorytm obliczania wartosci sumarycznegowydzwieku artykułu na podstawie dostarczonego słownika.Wymagana lematyzacja (sprowadzenie do form podstawowych). Przyuzyciu Poliqarpa proces łatwy, ale czasochłonny.

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 10: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Budowa zbiorów

Blumenstock proponuje, zeby jako jedynego wskaznika opisujacegojakosc artykułu wykorzystac jego długosc. Uzywajac reguły decyzyjnej„dłuzszy niz 2000 słów → dobry artykuł” uzyskuje na losowozbudowanym zbiorze dokładnosc 0,96.Warto zatem zastanowic sie nad innymi sposobami konstruowaniazbiorów.

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 11: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Rozkład długosci artykułów wyróznionych

0

100

200

300

400

500

600

10

0

20

0

30

0

40

0

50

0

60

0

70

0

80

0

90

0

10

00

20

00

30

00

40

00

50

00

60

00

70

00

80

00

90

00

10

00

0

20

00

0

30

00

0

40

00

0

50

00

0

60

00

0

70

00

0

80

00

0

90

00

0

10

00

00

11

00

00

12

00

00

13

00

00

14

00

00

15

00

00

16

00

00

17

00

00

18

00

00

19

00

00

20

00

00

Wię

cej

LIC

ZBA

AR

TYK

UŁÓ

W

PRZEDZIAŁ DŁUGOŚCI(KOSZYK)

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 12: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Rozkład długosci artykułów niewyróznionych

0

50000

100000

150000

200000

250000

300000

350000

400000

4500001

00

20

0

30

0

40

0

50

0

60

0

70

0

80

0

90

0

10

00

20

00

30

00

40

00

50

00

60

00

70

00

80

00

90

00

10

00

0

20

00

0

30

00

0

40

00

0

50

00

0

60

00

0

70

00

0

80

00

0

90

00

0

10

00

00

11

00

00

12

00

00

13

00

00

14

00

00

15

00

00

16

00

00

17

00

00

18

00

00

19

00

00

20

00

00

Wię

cej

LIC

ZBA

AR

TYK

UŁÓ

W

PRZEDZIAŁ DŁUGOŚCI (KOSZYK)

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 13: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

BALANCEDPERARTICLEDATASET

Koncepcja: budujac zbiory, doprowadzic do sytuacji, w którejhistogramy w obu klasach beda zblizone (a najlepiej identyczne).

Badania wykazały, ze dla polskiej Wikipedii da sie to zrobic.

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 14: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Narzedzia programistyczne

Zewnetrzne zródła danych:

Korpus IPI PAN;

słownik wydzwieku stworzony przez Zespół InzynieriiLingwistycznej IPI PAN.

Srodowisko projektowe:

jezyk programowania: Python;

wykorzystane biblioteki: scikit-learn, dewiki;

oprogramowanie: Poliqarp (interfejs do Korpusu), Notepad++ iExcel.

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 15: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Weryfikacja

Weryfikacja przy uzyciu standardowych technik:

miary: dokładnosc, precyzja, czułosc, specyficznosc, F-miara;

dziesieciokrotna kroswalidacja bez równowazenia.

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 16: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Rezultaty

Zbiór losowy, cechy z literatury: dokładnosc 0,966;

zbiór równowazony, cechy z literatury: 0,836;

zbiór losowy, tylko SENTFREQ: 0,861;

zbiór losowy, SENTFREQ + pozostałe: 0,969;

zbiór równowazony, tylko SENTFREQ: 0,682;

zbiór równowazony, SENTFREQ + pozostałe: 0,831.

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 17: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Komentarz

Da sie klasyfikowac artykuły z polskiej Wikipedii z wysokadokładnoscia;

sposób tworzenia zbioru ma bardzo wazny wpływ na wyniki – gdydługosc przestaje miec znaczenie, liczyc zaczyna sie technika;

SENTFREQ jest metoda niewystarczajaca – nic nie wnosi.

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 18: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Mozliwosci dalszych badan

Inne cechy w kontekscie danych polskojezycznych;

głebsza analiza tekstu: czesci mowy, informacje syntaktyczne,gramatyki bezkontekstowe;

inne sposoby równowazenia zbiorów;

próba uruchomienia na całej Wikipedii – „ile jest artykułówwartych wyróznienia?”

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii

Page 19: Automatyczna analiza jakości dokumentów

WprowadzeniePrzeglad dziedziny

Cel i załozeniaProjekt

Weryfikacja rozwiazaniaKierunki rozwoju

Dziekuje za uwage.

Maciej Rubikowski Automatyczna analiza jakosci dokumentów na przykładzie Wikipedii