10

Jakość DBpedii na podstawie oceny Wikipedii

Embed Size (px)

Citation preview

Page 1: Jakość DBpedii na podstawie oceny Wikipedii
Page 2: Jakość DBpedii na podstawie oceny Wikipedii

Ekstrakcja atrybutów do DBpedii w różnych językach

Page 3: Jakość DBpedii na podstawie oceny Wikipedii

Jakość atrybutów vs. jakość artykułu

Page 4: Jakość DBpedii na podstawie oceny Wikipedii

Liczba haseł w Wikipedii

Ponad 290 wersji językowych mają łącznie42 581 327 haseł

Skrót Język Liczba haseł

EN Angielski 5 290 717

DE Niemiecki 2 001 246

FR Francuzki 1 816 256

RU Rosyjski 1 355 055

PL Polski 1 193 601

UK Ukraiński 662 713

BE Białoruski 123 016

Źródło: https://meta.wikimedia.org/wiki/List_of_Wikipedias (dostęp 22.11.2016)

Page 5: Jakość DBpedii na podstawie oceny Wikipedii

Klasyfikacja jakości w poszczególnych językach

Nazwa/JęzykBE

114 365

DE1 929 003

EN5 125 754

FR1 744 491

PL1 162 622

RU1 303 277

UK628 758

Featured Article (FA) 0,06% 0,13% 0,09% 0,09% 0,06% 0,07% 0,03%

Good Article (GA) 0,10% 0,20% 0,47% 0,14% 0,18% 0,18% 0,09%

Solidny artykuł 0,22%

A-klasa 0,02% 0,09%

B-klasa (Czwórka) 1,75% 1,66% 0,01% 0,37% 0,06%

C-klasa 4,19% 1,38% 0,31%

Start 25,09% 14,03% 0,11% 5,66% 1,40%

Zalążek (stub) 0,50% 50,09% 44,68% 0,14% 7,11% 1,06%

Bez oceny 99,34% 99,68% 18,30% 39,30% 99,50% 85,01% 97,04%

Kolorami zaznaczone grupy klas z różną nazwą, ale podobnymi cechami

Wniosek: dużo artykułów jest nieocenionych

Page 6: Jakość DBpedii na podstawie oceny Wikipedii

Klasyfikacja jakości w polskiej WikipediiNazwa Dla czytelnika Dla edytora

Artykuł na medal(FA)

Ukończony. Wyróżniający się artykuł, dogłębnietraktujący temat. Świetne źródłoencyklopedycznej wiedzy…

Brak konieczności dalszej rozbudowy,chyba że ukażą się nowe informacje nadany temat. Dopuszczalne są dalszepoprawki w tekście…

Dobry Artykuł(GA)

Przydatne dla prawie wszystkich czytelników.Dobre potraktowanie tematu. Brak oczywistychproblemów, niedociągnięć, nadmiaruinformacji…

Artykuł wymaga jeszcze trochę pracy, alenie jest to konieczne dla pozytywnegoodbioru artykuł…

CzwórkaPrzydatny wielu czytelnikom, lecz niewszystkim…

Konieczne jest poświęcenie jeszcze sporowysiłku na prace nad artykułem…

Start

Przydatny dla niektórych, zapewniaumiarkowaną ilość informacji, ale wieluczytelników będzie potrzebowało dodatkowychźródeł informacji…

Niezbędna jest znacząca ilość edycji;większość materiału…

ZalążekMożliwa przydatność dla osoby, która nie mażadnego pojęcia co oznacza dany termin…

Każda edycja lub dodatek materiału możebyć przydatny…

Page 7: Jakość DBpedii na podstawie oceny Wikipedii

Automatyczna ocena jakości artykułów Wikipedii

• Kompletność:• Generalnie artykuły wysokiej jakości są dłuższe [Blumenstock et al. 2008; Stvilia et al. 2005]

• Styl:• Posiadanie infoboksu, stosunek obrazki/długość [Dang 2016]• Szablony wskazujące na luki jakości [Anderka, 2013]• Posiadanie infoboksów [Warncke-Wang. 2015]

• Czytelność:• Indeks czytelności FOG [Dalip et al., 2009]• Lepszy artykuł będzie miał więcej informacji faktycznych [Lex et al., 2012]• Styl i różnorodność używanych słów również wpływa na jakość artykułu [Lipka et al., 2010; Xu et

al., 2011]• Odpowiednie (fachowe) słownictwo [Cozza 2015]

• Relewancja:• Popularność artykułu [Lewoniewski et al., 2015]: Liczba odwiedzin, liczba obserwujących

użytkowników etc.• Grafy powiązań artykułów [Dalip 2016]

• Weryfikowalność:• Dobre artykuły używają referencji w sposób spójny

Page 8: Jakość DBpedii na podstawie oceny Wikipedii

0

10

20

30

40

50

60

70

80

90

100

Dlugosc strony (w bajtach)Informatywnosc1

Informatywnosc2Liczba edycji za caly czas

Liczba linkow na artykul (wszystkie)

Liczba linkow na artykul ns1

Liczba linkow na artykul ns100

Liczba linkow na artykul ns2

Liczba linkow na artykul ns3

Liczba linkow na artykul ns4

Liczba linkow na artykul ns5

Liczba linkow wewn. (wszystkie)

Liczba linkow wewn. dobrych

Liczba linkow zewn.

Liczba liter

Liczba liter bez szumu 1

Liczba liter bez szumu 2

Liczba obrazkow (wszystkie)

Liczba obrazkow unikatowych 1p

Liczba obrazkow unikatowych 2pLiczba obrazkow unikatowych 3p

Liczba obrazkow unikatowych 4pLiczba obrazkow unikatowych 5p

Liczba szablonow (wszystkie)Liczba szablonow ns10

Liczba szablonow ns828

Liczba unikatowyh anonimowych…

Mediana niezerowych 30 ost dni

Mediana odwiedzin za 30 dni

Mediana odwiedzin za 90 dni

Naglowek 1

Naglowek 2

Odwiedzenia za ost dzien

Ref/Dlugosc

Ref/LiczbaLiter

Referencje unikatowe

Referencje wszystkie

Srednia odwiedzin za 30 dni

Srednia odwiedzin za 90 dni

Suma odwiedzin za 30 dni

Suma odwiedzin za 90 dni

Szum1Szum2

Unikatowe autorzy za zaly czas

BE DE EN FR PL RU UK

Istotność parametrów

Istotność parametrów w metodzie Random Forestartykułów w różnych językach Wikipedii przybinarnej zmiennej zależnej. Źródło: Opracowanie własne

Page 9: Jakość DBpedii na podstawie oceny Wikipedii

WikiRank.net – ocena jakości artykułów Wikipedii

Źródłó: http://wikirank.net/pl/Ratusz_w_Poznaniu

Page 10: Jakość DBpedii na podstawie oceny Wikipedii

Pytania?

[email protected]

www.Lewoniewski.info