Upload
wlodzimierz-lewoniewski
View
717
Download
0
Embed Size (px)
Citation preview
Ekstrakcja atrybutów do DBpedii w różnych językach
Jakość atrybutów vs. jakość artykułu
Liczba haseł w Wikipedii
Ponad 290 wersji językowych mają łącznie42 581 327 haseł
Skrót Język Liczba haseł
EN Angielski 5 290 717
DE Niemiecki 2 001 246
FR Francuzki 1 816 256
RU Rosyjski 1 355 055
PL Polski 1 193 601
UK Ukraiński 662 713
BE Białoruski 123 016
Źródło: https://meta.wikimedia.org/wiki/List_of_Wikipedias (dostęp 22.11.2016)
Klasyfikacja jakości w poszczególnych językach
Nazwa/JęzykBE
114 365
DE1 929 003
EN5 125 754
FR1 744 491
PL1 162 622
RU1 303 277
UK628 758
Featured Article (FA) 0,06% 0,13% 0,09% 0,09% 0,06% 0,07% 0,03%
Good Article (GA) 0,10% 0,20% 0,47% 0,14% 0,18% 0,18% 0,09%
Solidny artykuł 0,22%
A-klasa 0,02% 0,09%
B-klasa (Czwórka) 1,75% 1,66% 0,01% 0,37% 0,06%
C-klasa 4,19% 1,38% 0,31%
Start 25,09% 14,03% 0,11% 5,66% 1,40%
Zalążek (stub) 0,50% 50,09% 44,68% 0,14% 7,11% 1,06%
Bez oceny 99,34% 99,68% 18,30% 39,30% 99,50% 85,01% 97,04%
Kolorami zaznaczone grupy klas z różną nazwą, ale podobnymi cechami
Wniosek: dużo artykułów jest nieocenionych
Klasyfikacja jakości w polskiej WikipediiNazwa Dla czytelnika Dla edytora
Artykuł na medal(FA)
Ukończony. Wyróżniający się artykuł, dogłębnietraktujący temat. Świetne źródłoencyklopedycznej wiedzy…
Brak konieczności dalszej rozbudowy,chyba że ukażą się nowe informacje nadany temat. Dopuszczalne są dalszepoprawki w tekście…
Dobry Artykuł(GA)
Przydatne dla prawie wszystkich czytelników.Dobre potraktowanie tematu. Brak oczywistychproblemów, niedociągnięć, nadmiaruinformacji…
Artykuł wymaga jeszcze trochę pracy, alenie jest to konieczne dla pozytywnegoodbioru artykuł…
CzwórkaPrzydatny wielu czytelnikom, lecz niewszystkim…
Konieczne jest poświęcenie jeszcze sporowysiłku na prace nad artykułem…
Start
Przydatny dla niektórych, zapewniaumiarkowaną ilość informacji, ale wieluczytelników będzie potrzebowało dodatkowychźródeł informacji…
Niezbędna jest znacząca ilość edycji;większość materiału…
ZalążekMożliwa przydatność dla osoby, która nie mażadnego pojęcia co oznacza dany termin…
Każda edycja lub dodatek materiału możebyć przydatny…
Automatyczna ocena jakości artykułów Wikipedii
• Kompletność:• Generalnie artykuły wysokiej jakości są dłuższe [Blumenstock et al. 2008; Stvilia et al. 2005]
• Styl:• Posiadanie infoboksu, stosunek obrazki/długość [Dang 2016]• Szablony wskazujące na luki jakości [Anderka, 2013]• Posiadanie infoboksów [Warncke-Wang. 2015]
• Czytelność:• Indeks czytelności FOG [Dalip et al., 2009]• Lepszy artykuł będzie miał więcej informacji faktycznych [Lex et al., 2012]• Styl i różnorodność używanych słów również wpływa na jakość artykułu [Lipka et al., 2010; Xu et
al., 2011]• Odpowiednie (fachowe) słownictwo [Cozza 2015]
• Relewancja:• Popularność artykułu [Lewoniewski et al., 2015]: Liczba odwiedzin, liczba obserwujących
użytkowników etc.• Grafy powiązań artykułów [Dalip 2016]
• Weryfikowalność:• Dobre artykuły używają referencji w sposób spójny
0
10
20
30
40
50
60
70
80
90
100
Dlugosc strony (w bajtach)Informatywnosc1
Informatywnosc2Liczba edycji za caly czas
Liczba linkow na artykul (wszystkie)
Liczba linkow na artykul ns1
Liczba linkow na artykul ns100
Liczba linkow na artykul ns2
Liczba linkow na artykul ns3
Liczba linkow na artykul ns4
Liczba linkow na artykul ns5
Liczba linkow wewn. (wszystkie)
Liczba linkow wewn. dobrych
Liczba linkow zewn.
Liczba liter
Liczba liter bez szumu 1
Liczba liter bez szumu 2
Liczba obrazkow (wszystkie)
Liczba obrazkow unikatowych 1p
Liczba obrazkow unikatowych 2pLiczba obrazkow unikatowych 3p
Liczba obrazkow unikatowych 4pLiczba obrazkow unikatowych 5p
Liczba szablonow (wszystkie)Liczba szablonow ns10
Liczba szablonow ns828
Liczba unikatowyh anonimowych…
Mediana niezerowych 30 ost dni
Mediana odwiedzin za 30 dni
Mediana odwiedzin za 90 dni
Naglowek 1
Naglowek 2
Odwiedzenia za ost dzien
Ref/Dlugosc
Ref/LiczbaLiter
Referencje unikatowe
Referencje wszystkie
Srednia odwiedzin za 30 dni
Srednia odwiedzin za 90 dni
Suma odwiedzin za 30 dni
Suma odwiedzin za 90 dni
Szum1Szum2
Unikatowe autorzy za zaly czas
BE DE EN FR PL RU UK
Istotność parametrów
Istotność parametrów w metodzie Random Forestartykułów w różnych językach Wikipedii przybinarnej zmiennej zależnej. Źródło: Opracowanie własne
WikiRank.net – ocena jakości artykułów Wikipedii
Źródłó: http://wikirank.net/pl/Ratusz_w_Poznaniu