Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
.
Wydział Informatyki i Zarządzania
kierunek studiów: Informatyka specjalność: Systemy informacyjne
Praca dyplomowa - magisterska
Agregator wyników zapytań w wyszukiwarkach
internetowych Agregator of results gathered from Internet search engines
Maksim Buben
słowa kluczowe:
search engines
quality raters
agregator
Krótkie streszczenie:
Ta praca ma na celu zbadanie dziedziny zastosowania agregatorów wyników
wyszukiwania, w których jakość uzyskanych wyników będzie wyższa niż jakość
poszczególnych wyszukiwarek, wyniki wyszukiwania, których zostaną
wykorzystane w tworzeniu zagregowanych wyników.
opiekun pracy
dyplomowej
Dr inż. Marek Kopel ....................... ....................... Tytuł/stopień naukowy/imię i nazwisko ocena podpis
Do celów archiwalnych pracę dyplomową zakwalifikowano do:*
a) kategorii A (akta wieczyste)
b) kategorii BE 50 (po 50 latach podlegające ekspertyzie) * niepotrzebne skreślić
pieczątka wydziałowa
Wrocław 2018
1
Streszczenie Tematem niniejszej pracy magisterskiej jest agregator wyników zapytań w
wyszukiwarkach internetowych. Opisano zarówno istniejące systemy meta-wyszukiwania, jak
i meta-wyszukiwarki, które przestały i obecnie nie są wykorzystywane przez użytkowników
Internetu. Przeanalizowano przyczyny tego zjawiska oraz zaproponowano sposoby rozwoju
systemów informacyjnych typu metasearch search engine.
W pierwszej części niniejszej pracy przybliżono podstawowe pojęcia niezbędne do
zrozumienia zasad funkcjonowania takiego rodzaju systemów: SERP (Search engine results
page), Snippet, Search query (Zapytanie), Rodzaje zapytań, Organic results (Wyniki
organiczne).
Zaprezentowano również pojęcia konieczne do oceny jakości zagregowanych wyników
wyszukiwań: Relewantność, Pertynentność, Assesor (Ассесор), Quality Rater, Discounted
Cumulated Gain – DCG, Normalized Discounted Cumulated Gain - nDCG.
Podano przykłady wykorzystania agregacji wyników wyszukiwania.
W drugiej części niniejszej pracy opisano i zaimplementowano agregator wyników
wyszukiwania na podstawie pozycji w wynikach wyszukiwania, których wyniki zostały
wykorzystane w utworzeniu wyników agregacji.
W trzeciej części pracy zbadano jakość wyników wyszukiwania agregatora na
podstawie preferencji użytkownika. Przygotowano dokumentację do oceny jakości, korzystając
z dwóch przewodników oceny jakości wyszukiwania: Google Przewodnik oceny jakości
wyszukiwania (Search Quality Evaluator Guidelines), Yandex Przewodnik dla Asesora
(Руководство для Ассесора).
Zespół badawczy składał się z 15 osób: specjalistów SEO, specjalistów PPC,
programistów oraz specjalistów ds. marketingu internetowego.
Oceny przyznawane przez użytkowników składały się na analizę jakości zarówno
poszczególnych wyszukiwarek (Google, Bing, Yandex), jak i agregatora, wykorzystującego
dane z wyszukiwarek w tworzeniu własnych wyników. Zapytania do wyszukiwarek wysyłano
w trzech językach. Miały one charakter zapytań o stan faktyczny.
W podsumowaniu przedstawiono wnioski na temat uzyskanych wyników. Na ich
podstawie można stwierdzić, że korzystanie z agregatorа wyników zapytań dla zapytań o
aktualnym stanie jest uzasadnione i może poprawić jakość wyników wyszukiwania,
zwiększając zadowolenie użytkownika.
2
Abstract The subject of my master's thesis is: “The aggregator of results gathered from Internet
search engines.
In my master's thesis, I have described existing meta-search systems and also meta-
search engines, have stopped working in the recent past. The reasons for this phenomenon are
analyzed. The methods of development of this type of information systems have been proposed.
The first part of my work describes the basic concepts necessary to understand the
principles of functioning of such systems, such as: SERP (Search engine results page),
Snippet, Search query, Types of queries, Organic results.
The concepts necessary to evaluate the quality of aggregated search results have also
been described: Relevance, Pertinence, Assessor, Quality Rater, Discounted Cumulated Gain
– DCG, Normalized Discounted Cumulated Gain - nDCG.
Examples are provided of the use of aggregation of search results.
In the second part of my work, a search results aggregator was described and implemented
based on positions in search results, the results of which were used to create aggregation results.
In the third part of my, the quality of the aggregator search results was tested based on
the user's preferences. Prepared documentation for this evaluation based on two search quality
evaluator guides from Google and Yandex: Search Quality Evaluator Guidelines, Guide for
Assessor from Yandex.
As a research team, there were 15 people involved: SEO specialists, PPC specialists,
programmers and internet marketing specialists.
On the basis of user ratings, a quality evaluation was made, like individual search
engines (Google, Bing, Yandex), as well as an aggregator that used data from search engines
to create its own results. Inquiries for search engines were in three languages and had the
character of inquiries about the actual state.
In summary, I presented conclusions on the obtained results. Based on these results, it
can be concluded that using an aggregator of query results for queries about the current state is
justified and can improve the quality of search results, which in turn increases user satisfaction.
3
Spis treści
Wstęp ............................................................................................................................... 5 Przegląd stanu wiedzy w dziedzinie agregacji wyników zapytań ................................................ 9
Meta-wyszukiwanie standardowe ................................................................................................ 11
Meta-wyszukiwanie zaawansowane ............................................................................................ 13
Meta-wyszukiwarka Nigma .......................................................................................................... 15
Duckduckgo.com .......................................................................................................................... 16
Podsumowanie ............................................................................................................................. 17
Obszary wykorzystania agregacji wyników zapytań ................................................................ 19 Wyniki wyszukiwania (SERP)......................................................................................................... 20
Snippet .......................................................................................................................................... 20
Search query (Zapytanie) .............................................................................................................. 21
Organic results (Wyniki organiczne) ............................................................................................. 21
Rodzaje zapytań ............................................................................................................................ 22
Przykłady narzędzi wykorzystujących agregację wyników wyszukiwania ................................. 23 Ahrefs ............................................................................................................................................ 23
Webpozycja .................................................................................................................................. 25
Serp.watch .................................................................................................................................... 25
Senuto ........................................................................................................................................... 26
Google Search Console ................................................................................................................. 26
Podsumowanie ............................................................................................................................. 27
Faza konceptualna .......................................................................................................... 31 Zdefiniowanie podstawowych pojęć do oceny jakości systemu wyszukiwania informacji .......... 31
Dokładność (precision) ................................................................................................................. 33
Kompletność (recall) ..................................................................................................................... 33
Fall-out .......................................................................................................................................... 34
F-miara (F-measure, miara Van Riesbergena) .............................................................................. 34
Discounted Cumulative Gain ........................................................................................................ 37
Normalized Discounted Cumulative Gain ..................................................................................... 37
Cel pracy ................................................................................................................................ 39 Koncepcja realizacji agregacji ................................................................................................. 40
Opis algorytmu agregacji .............................................................................................................. 40
Algorytm rankingowania .............................................................................................................. 40
Wybór wyszukiwarek .................................................................................................................... 41
Wybór rodzaju zapytań ................................................................................................................. 47
Podsumowanie ............................................................................................................................. 49
Wybór zapytań dla agregacji wyników.................................................................................... 50
Faza Implementacyjna .................................................................................................... 52 Omówienie szczegółów implementacji agregatora na podstawie pozycji w poszczególnych wyszukiwarkach ..................................................................................................................... 52
Faza Badawcza ................................................................................................................ 56 Opis grupy i procedury badawczej ........................................................................................... 56 Opracowanie dokumentacji oceny jakości wyników zapytań na podstawie ocen użytkowników (raterów) ............................................................................................................................... 56 Przeprowadzenie oceny jakości agregowanych wyników na podstawie NDCG .......................... 58
4
Zapytania w języku polskim .......................................................................................................... 58
Zapytania w języku angielskim ..................................................................................................... 60
Zapytania w języku rosyjskim ....................................................................................................... 62
Opracowanie wyników badań ................................................................................................ 65 Testy statystyczne .................................................................................................................. 66 Podsumowanie ...................................................................................................................... 70
Wnioski wynikające z realizacji badań .......................................................................................... 70
Potrzeba kontynuacji prac ............................................................................................................ 70
Spis ilustracji:.................................................................................................................. 71
Spis tabel: ....................................................................................................................... 73
Literatura ....................................................................................................................... 74
5
Wstęp
Obecnie mamy do czynienia z dynamicznie zmieniającą się liczbą danych w Internecie.
Globalna sieć to rosnący organizm, który wymaga narzędzi usprawniających sprawny przepływ
informacji. Należą do nich przede wszystkim aplikacje i systemy służące do wyszukiwania.
Dlatego rozwój i ciągłe doskonalenie jakości wyszukiwarek powinno być jednym z głównych
zadań znajdujących się w obszarze badań.
Według danych z czerwca 2017 r. 51% światowej populacji ma dostęp do Internetu
[1]. Około 2 miliardy użytkowników pochodziło z krajów rozwijających się, а 89 milionów z
krajów mniej rozwiniętych. [2]
Rys.1 “Użytkownicy Internetu na 100 mieszkańców” [źródło [3][4]]
Na podstawie informacji z tabeli 1 można założyć, że w przyszłości główny wzrost
liczby użytkowników Internetu będzie wynikał ze wzrostu wskaźników krajów rozwijających
się, dla których potencjał szybkiego wzrostu nie został jeszcze do końca wyczerpany.
Tabela 1: Internauci na całym świecie [4]
2005 2010 2016
Populacja świata 6.5
miliarda
6.9
miliarda
7.3
miliarda
Użytkownicy na całym świecie 16% 30% 47%
Użytkownicy z krajów rozwijających się 8% 21% 40%
Użytkownicy z krajów rozwiniętych 51% 67% 81%
6
Zgodnie z danymi „Internet Live Stats” – projektem, którego celem jest udostępnienie
statystyk o Internecie w dynamicznym formacie dla szerokiego grona odbiorców na całym
świecie [5] na dzień 26.02.2018 o godzinie 14.00 otrzymujemy następujące wyniki: [6]
Całkowita liczba stron internetowych 1 341 180 889 [7]
Użytkownicy Internetu na świecie: 3 857 089 345 [8]
Wyszukiwania Google na sekundę: 65 529 [9]
Liczba filmów z YouTube oglądanych na sekundę: 72 845 [6]
Liczba e-maili wysyłanych na sekundę: 2 669 778 [6]
Interesująca jest także tendencja wzrostu wielkości Internetu w ciągu ostatnich 20 lat,
jeśli porównamy ten wzrost z wejściem na rynek firm, które później stały się znaczącymi
graczami w branży internetowej. [7]
Tendencja jest pokazana w tabeli 2.
Rys. 2 “Łączna liczba witryn” [źródło [7]]
7
Tabela 2 ”Wzrost łącznej liczby witryn w ciągu ostatnich 20 lat” [7]
Powyższe dane są z pewnością imponujące, ale nie pozwalają w pełni przedstawić
prawdziwej, łącznej liczby witryn w Internecie. Niestety, żadna z wyszukiwarek, a tym bardziej
Rok Witryny Zmiana Użytkownicy
internetu
Użytkowników na
stronę
Uruchomiono witryny
internetowe
2015 863 105
652 -11% 3 185 996 155* 3.7
2014 968 882
453 44% 2 925 249 355 3.0
2013 672 985
183 -3% 2 756 198 420 4.1
2012 697 089
489 101% 2 518 453 530 3.6
2011 346 004
403 67% 2 282 955 130 6.6
2010 206 956
723 -13% 2 045 865 660 9.9 Pinterest
2009 238 027
855 38% 1 766 206 240 7.4
2008 172 338
726 41% 1 571 601 630 9.1 Dropbox
2007 121 892
559 43% 1 373 327 790 11.3 Tumblr
2006 85 507 314 32% 1 160 335 280 13.6 Twttr
2005 64 780 617 26% 1 027 580 990 16 YouTube, Reddit
2004 51 611 646 26% 910 060 180 18 Thefacebook, Flickr
2003 40 912 332 6% 778 555 680 19 WordPress, LinkedIn
2002 38 760 373 32% 662 663 600 17
2001 29 254 370 71% 500 609 240 17 Wikipedia
2000 17 087 182 438% 413 425 190 24 Baidu
1999 3 177 453 32% 280 866 670 88 PayPal
1998 2 410 067 116% 188 023 930 78 Google
1997 1 117 255 334% 120 758 310 108 Yandex
1996 257 601 996% 77 433 860 301
1995 23 500 758% 44 838 900 1,908 Altavista, Amazon,
AuctionWeb
1994 2 738 2006% 25 454 590 9,297 Yahoo
1993 130 1200% 14 161 570 108,935
1992 10 900%
Aug.
1991 1 World Wide Web Project
8
algorytmy wyszukiwania nie są w stanie samodzielnie objąć wszystkich niekończących się
zasobów Internetu. Dlatego liczba i rodzaj zaindeksowanych dokumentów różni się w
poszczególnych wyszukiwarkach. [10]
By zrozumieć specyfikę procesu wyszukiwania, poniżej przedstawiono definicję
indeksowania.
Indeksowanie w wyszukiwarkach (indeksowanie stron) - proces dodawania
informacji za pomocą robotów wyszukiwarek do bazy danych, a następnie wykorzystywania
tej zaindeksowanej informacji do wyszukiwania na zaindeksowanych stronach. [11]
Zaindeksowana informacja o stronie internetowej często zawiera słowa kluczowe
(algorytm wyznaczania słów kluczowych zależy od wyszukiwarki), artykuły, linki, dokumenty.
Również obrazy lub pliki audio mogą być indeksowane.
Aby kontrolować indeksowanie własnych witryn przez wyszukiwarki internetowe,
webmasterzy posługują się plikiem robots.txt i dyrektywami: Disallow, Allow, User-agent,
crawl-delay itp. Do dyspozycji pozostaje również tag <noindex> i atrybut <nofollow>. [12]
Algorytmy i czas indeksowania poszczególnych wyszukiwarek znacznie się różnią.
Na przykład szybkość indeksowania nowych stron w systemie wyszukiwania Yandex trwa od
tygodnia do czterech tygodni, a w Google - od kilku minut do jednego tygodnia. [11]
Aby poszerzyć możliwości wyszukiwania poprzez agregowanie wyników
wyszukiwania poszczególnych wyszukiwarek, zostały stworzone systemy wyszukiwania,
zwane agregatorami wyników zapytań, czyli meta-wyszukiwarkami.
Meta-wyszukiwarka to wyszukiwarka, która po wpisaniu zapytania wysyła
równolegle kilka niezależnych od siebie zapytań do tradycyjnych wyszukiwarek i zwraca
wyniki w ujednoliconej liście wyników, działając jako pośrednik między użytkownikiem oraz
kilkoma wyszukiwarkami internetowymi. [10]
Temat rozwoju tego typu systemów informatycznych oraz aktualny stan wiedzy w
dziedzinie agregacji wyników zapytań zostanie szczegółowo opisany w następnej części
niniejszej pracy magisterskiej.
9
Przegląd stanu wiedzy w dziedzinie agregacji wyników zapytań
W literaturze przedmiotu istnieje kilka definicji systemów agregacji wyników zapytań,
które chociaż różnią się od siebie, posiadają kilka cech wspólnych. Zwracając uwagę na istotne
elementy tego typu systemu informacyjnego, otrzymujemy następującą definicję:
Agregator wyników zapytań w wyszukiwarkach internetowych (także agregator lub
meta-wyszukiwarka) to narzędzie wyszukiwania, które wykorzystuje dane z innych
wyszukiwarek do generowania własnych wyników z Internetu. Agregator pobiera dane
wejściowe od użytkownika i jednocześnie wysyła zapytania do zewnętrznych wyszukiwarek w
celu uzyskania wyników. Zebrane informacje zostają sformatowane według indywidualnego
rankingu agregatora i przedstawione użytkownikom. [13]
Agregator wyników wyszukiwania - to system informacyjny, który w przeciwieństwie
do klasycznych wyszukiwarek nie posiada własnej bazy danych i własnego indeksu
wyszukiwania, ale generuje wyniki wyszukiwania poprzez mieszanie i przerankowanie
wyników wyszukiwania innych wyszukiwarek. [14]
Zagregowane wyniki są wyświetlane użytkownikowi bez powielania linków i jeśli to
możliwe poprawiane są wyniki wyjściowe za pomocą rozwiązań informatycznych agregatora,
działając jako pośrednik między użytkownikiem i wyszukiwarkami. [10]
Dostępność kilku indeksowych baz danych dokumentów sieciowych gromadzonych za
pomocą różnych metod i algorytmów generuje niszę dla całej klasy systemów meta-
wyszukiwania.
Takie systemy nie zbierają informacji niezależnie, ale wysyłają zapytanie użytkownika
do kilku innych wyszukiwarek, łączą wyniki wyszukiwania, wykonują dodatkowe
przetwarzanie i wydają uogólnioną odpowiedź. Powoduje to zwiększenie zasięgu
wyszukiwania poprzez przetwarzanie danych z różnych baz indeksu. [74]
Ponadto meta-wyszukiwarka oszczędza czas użytkownika, który musiałby posiadać
osobisty dostęp do wszystkich niezbędnych serwerów, aby dotrzeć do podobnych danych
zagregowanych ręcznie z różnych wyszukiwarek. Jest to schemat w pełni rozwiniętego systemu
meta-wyszukiwania. [74]
Istnieje również szereg serwisów meta-wyszukiwania, które nie przeprowadzają
własnej analizy wyników. W skrajnym przypadku można po prostu uzyskać kilka oddzielnych
stron z wynikami różnych wyszukiwarek. Zasadniczo takie podejście może funkcjonować
jedynie w początkowej fazie rozwoju meta-wyszukiwarki. Bardziej dotkliwy staje się problem
przetwarzania wyników meta-search w przypadku oddzielnej wyszukiwarki. Z tego względu
wiele ciekawych, eksperymentalnych rozwiązań można zobaczyć właśnie w takim rodzaju
systemów informacyjnych. [74]
Główną zaletą meta-wyszukiwania jest możliwość szybkiego i wygodnego generowania
zapytania za pomocą jednej linii wyszukiwania do wielu wiodących wyszukiwarek
internetowych, co oszczędza czas, a analiza pojedynczego zestawienia wyników staje się
znacznie łatwiejsza niż przetwarzanie wielu różnych wyników przy dużym powielaniu
wyników. [10]
Każda wyszukiwarka to unikalny system z unikatowymi narzędziami do indeksowania,
wyszukiwania i udostępniania informacji. Nie każda wyszukiwarka, nawet ta najbardziej
popularna w danym kraju, nie posiada pełnych danych. Dlatego warto wziąć pod uwagę inne
meta-wyszukiwarki. Za pomocą agregowania wyników wyszukiwania możemy korzystać z
zalet kilku wyszukiwarek jednocześnie. Używając agregatora wyników zapytań, dostęp do
informacji w Internecie zawsze będzie znacznie szerszy niż uzyskiwanie informacji za pomocą
poszczególnych wyszukiwarek. [10]
Arbitralnie systemy meta-wyszukiwania można podzielić na dwie grupy:
Meta-wyszukiwanie standardowe
10
Meta-wyszukiwanie zaawansowane.
Szczegółowy opis każdego rodzaju meta-wyszukiwania zaprezentowano w następnej
części niniejszej pracy.
11
Meta-wyszukiwanie standardowe
Rozpatrując tego rodzaju agregację, warto zauważyć, że ze względu na prostą strukturę
standardowe agregatory praktycznie nie wymagają dużych początkowych nakładów na
realizację projektu. Większość z tych systemów informatycznych posiada długą historię i jest
dobrze znana doświadczonym internautom, ale ze względu na ich zasadniczo identyczną
strukturę nie zostaną one przeanalizowane w niniejszej pracy indywidualnie. [10]
Na rysunku 3 zaprezentowana została architektura klasycznego agregatora wyników
zapytań (meta-wyszukiwarki).
Rys. 3 “Architektura silnika meta-wyszukiwarki” [źródło [13]]
Agregator wyników zapytań przyjmuje jedno zapytanie wyszukiwania od użytkownika,
które jest następnie przekazywane do innej bazy danych wyszukiwarki. Mechanizm meta-
wyszukiwarek nie tworzy własnych bazy danych stron internetowych, ale generuje wirtualną
bazę danych w celu integracji danych z wielu źródeł. [15] [16]
Ponieważ każda wyszukiwarka jest unikalna i ma indywidualne algorytmy generowania
danych rankingowych, duplikaty również zostaną wygenerowane. Aby usunąć kopie, silnik
meta-wyszukiwarki przetwarza dane i stosuje własne algorytmy. Ujednolicona lista zostaje
stworzona jako wynik dla użytkownika. [13]
Rys. 4 „Wizualizacja agregacji wyników wyszukiwania” [źródło [20]]
Poniżej przedstawiono kilka przykładów agregatorów wyników zapytań (meta-
wyszukiwarek):
12
IxQuick
Ixquick zwraca dziesięć pierwszych wyników z wielu wyszukiwarek. Agregator
wyników wyszukiwania używa "Systemu Star", aby uszeregować wyniki, przyznając jedną
gwiazdkę za każdy wynik, który został zwrócony z wyszukiwarki. Tym samym najlepsze
wyniki wyszukiwania to te, które zostały zwrócone przez większość wyszukiwarek. [18]
System meta-wyszukiwania Ixquick współpracuje z dziesięcioma zewnętrznymi
bazami danych. Są to wyszukiwarki Bing, Yahoo! Ask, All the Web, Cuil, Entire Web,
Gigablast, katalogi Open Directory i Wikipedia. Zasięg systemów powinien zostać uznany za
wystarczająco szeroki, co czyni ten meta-finder bardzo cennym zasobem. [74]
Ixquick może wyszukiwać dane w 17 językach: uproszczonym i tradycyjnym chińskim,
duńskim, holenderskim, angielskim, fińskim, francuskim, niemieckim, włoskim, japońskim,
koreańskim, norweskim, polskim, portugalskim, hiszpańskim, szwedzkim i tureckim. Każda
wersja językowa obejmuje lokalne wyniki wyszukiwarki. [18]
Ixquick oferuje standardowe narzędzia do pracy z operatorami logicznymi:
wyszukiwanie z obowiązkowym włączeniem lub wyłączeniem określonych słów kluczowych,
wyszukiwanie z użyciem dokładnej frazy. Do funkcji agregatora należy również obsługiwanie
wyszukiwania w tytułach stron i adresach tekstowych, ograniczając wyszukiwanie do
określonej domeny. Ixquick umożliwia także znalezienie linków do witryn na stronie
internetowej zdefiniowanej przez użytkownika. [74]
MetaCrawler
MetaCrawler to meta-wyszukiwarka, która łączy wyniki m.in. z takich wyszukiwarek
internetowych jak: Google, Yahoo!, Bing (dawniej Live Search), Ask.com, About.com, MIVA,
LookSmart. MetaCrawler udostępnia użytkownikom opcję wyszukiwania zdjęć, filmów,
wiadomości, katalogów telefonicznych firmowych i osobistych, a nawet dźwięku. [19]
Ponadto do meta-wyszukiwarek korzystających z meta-wyszukiwania standardowego
należą:
ZapMeta
Draze
MetaSearch
MetaEureka
Search.com
Rys. 5 “Meta-wyszukiwarka Quick” [źródło [18]]
Rys. 6 “Meta-wyszukiwarka MetaCrawler” [źródło [19]]
13
Różnice między poszczególnymi systemami meta-wyszukiwania standardowego
polegają jedynie na zastosowaniu różnych interfejsów podczas projektowania danych
systemów meta-wyszukiwania.
Meta-wyszukiwanie zaawansowane
Istnieje kilka podstawowych cech charakterystycznych dla zaawansowanego meta-
wyszukiwania:
Silne przetwarzanie wyników wyszukiwania otrzymanych z klasycznych
wyszukiwarek.
Zazwyczaj w pierwszym etapie zaraz po otrzymaniu wyników od wyszukiwarek
następuje niezależne rankowanie wszystkich opisów otrzymanych dokumentów. Następnie
wyniki są dodatkowo analizowane oraz korelowane z uwzględnieniem miejsca, które
zajmowały w poszczególnych wynikach wyszukiwania, i łączną liczbą podobnych
dokumentów znalezionych w poszczególnych wyszukiwarkach (tj. wyniki poszczególnych
wyszukiwarek stają się przedmiotem rankingu, a także aktywnej analizy przeprowadzanej przez
silnik meta-wyszukiwarki). Skuteczność rankowania zależy od poziomu zaawansowania
agregatora wyników wyszukiwania. [22]
Obecność klastrowania
Metody klastrowania mogą być używane do automatycznego grupowania pobranych
dokumentów w listy znaczących kategorii. [22]
Rys. 7 “Przykład klastrowania przy wykorzystaniu meta-wyszukiwarki Yippy” [źródło [76]]
Rys. 8 “Przykład klastrowania przy wykorzystaniu meta-wyszukiwarki Izito” [źródło [77]]
14
Klastry technicznie mogą zostać zaimplementowane w różnej postaci, jednak
najczęściej automatycznie podświetlają kluczowe tematy lub słowa wyszukiwania, a także
kategorię wyników, jak pokazano na rysunku 7. Dodatkowo może powstać chmura tagów
tematycznych albo gotowy zestaw kluczowych zapytań nawiązujących do tematu
interesującego użytkownika, jak to jest pokazane na rysunku 8. Takie funkcjonalności
udoskonalają kolejne wyszukiwania.
Rysunek 7 pokazuje typowy schemat zaawansowanych systemów meta-wyszukiwania:
Rys. 9 “Zaawansowane systemy meta-wyszukiwania” [źródło [10]]
Do najpopularniejszych zaawansowanych systemów meta-wyszukiwania należą:
Dogpile
Dogpile jest silnikiem meta-wyszukiwania informacji w sieci WWW, pobierającym
wyniki z Google, Yahoo!, Yandex oraz kilku innych popularnych wyszukiwarek, w tym kilku
dostawców treści audio oraz wideo. [17]
Rys. 10 “Meta-wyszukiwarka Dogpile” [źródło [17]]
15
WebCrawler
WebCrawler to silnik meta-wyszukiwania, który łączy najlepsze wyniki wyszukiwania
z wyszukiwarek Google i Yahoo!. WebCrawler zapewnia użytkownikom opcję wyszukiwania
obrazów, audio, wideo, wiadomości. Został opublikowany 20 kwietnia 1994 r. i stworzony
przez Briana Pinkertona na University of Washington. [21]
Ponadto wśród zaawansowanych meta-wyszukiwarek można także wymienić:
Yippy
Izito
Warto zauważyć, że podział na meta-wyszukiwanie standardowe i zaawansowane jest
raczej arbitralny.
W procesie rozwoju standardowej meta-wyszukiwarki, a mianowicie implementacji
własnych autorskich mechanizmów służących poprawie jakości wyszukiwania zaawansowanie
systemu rośnie, dlatego system może zostać sklasyfikowany jako zaawansowany.
Meta-wyszukiwarka Nigma Zdaniem autora pracy jednym z najciekawszych projektów ostatnich lat w tym obszarze
był projekt Nigma.
Rys. 12 “Meta-wyszukiwarka Nigma” [źródło [23]]
Nigma - rosyjski system meta-wyszukiwania inteligentnego z akcentem akademickim.
Projekt powstał przy wsparciu wydziałów IUM i psychologii Moskiewskiego Uniwersytetu
Państwowego, a także Uniwersytetu Stanford. [23].
Pierwsza wersja usługi została uruchomiona na początku 2005 r. Nigma sprawdzała
wszystkie duże bazy zawierające dokumenty w języku rosyjskim, w tym Google, Yahoo!
AltaVista, MSN, Yandex i Rambler, zapewniające szeroki zakres źródeł wyników
wyszukiwania. Następnie stopniowo generowany jest indeks własny Nigmy.
System Nigma pozwolił dostrzec mocne strony meta-wyszukiwania. Twórcy
oprogramowania skoncentrowali się na poszukiwaniu innowacji w stworzeniu programu
wyszukującego informacje w Internecie. [74]
Rys. 11 “Meta-wyszukiwarka WebCrawler” [źródło [78]]
16
Wyszukiwarka Nigma działała od ok. 14 lat i posiadała zarówno właściwości meta-
wyszukiwania, jak i własne narzędzia rankingujące. Należała do najpopularniejszych
wyszukiwarek w Rosji.
Nigma korzystała z indeksów Google, Bing, Yandex itd., których łączny stan indeksu
na dzień 28 lutego 2009 r. wyniósł ponad 7,16 miliarda dokumentów. [23]
Rys. 13 “Możliwości meta-wyszukiwarki Nigma” [źródło [23]]
W 2018 r. strona wyszukiwarki Nigma przestała działać. [23]
Ten przypadek jest przykładem ostrej konkurencji w dziedzinie wyszukiwania w
Internecie. Na rynku meta-wyszukiwarek można także znaleźć aplikacje, które potrafią oprzeć
się rosnącej rywalizacji. Należy do nich wyszukiwarka DuckDuckGo.
Duckduckgo.com
Dzięki kompetentnej polityce dostrzegania słabych punktów
światowych liderów wyszukiwania (Google, Bing) - np. wycieku
danych użytkownika – DuckDuckGo zdążyła nie tylko wytrzymać
konkurencję, ale także zyskała dużą popularność wśród użytkowników,
którzy obawiają się o bezpieczeństwo danych osobowych.
DuckDuckGo (DDG) to internetowa wyszukiwarka, która
preferuje ochronę prywatności użytkowników. Aplikacja nie śledzi
internautów, nie przechowuje adresów IP, plików cookies (o ile nie jest
to niezbędne) i nie jest zaśmiecona reklamami. Tez ma funkcjonalność,
która pozwala przeszukiwać sieć anonimowo.
DuckDuckGo analizuje wyniki z ponad 400 pojedynczych
źródeł, takich jak Yahoo! Search BOSS, Wikipedia, Bing, a także
własny DuckDuckBot.
Rys. 14 “Wyszukiwarka
DuckDuckGo” [źródło [24]]
17
Tempo wzrostu użycia tej wyszukiwarki pokazano na rysunku 16.
DuckDuckGo jest pozytywnym przykładem tego, jak standardowa meta-wyszukiwarka
na początkowym etapie rozwoju stała się jedną z najpopularniejszych wyszukiwarek na
świecie.
Podsumowanie Agregacja wyników nie jest ograniczona do meta-wyszukiwarek. Meta-wyszukiwanie
jest najbardziej oczywistym, ale nadal szczególnym przypadkiem agregowania wyników
wyszukiwania. W oparciu o przetwarzanie wyników SERP pojawiło się wiele systemów
informatycznych, które można porównać do popularności meta-wyszukiwarek.
Wartością meta-wyszukiwania jest szeroki zasięg zasobów. Pozwalają one
zaobserwować, że odwołując się do jednej, nawet najlepszej "normalnej" wyszukiwarki,
ryzykuje się przekazanie zasobów w alternatywnych bazach danych. Szczególnie interesujące
stają się meta-wyszukiwarki, które wspierają technologię klastrowania, czyli grupowania
znalezionych wyników. [74]
Rus. 15 “Anonimowość użytkownika przy korzystaniu DuckDuckGo” [źródło [79]]
Rys. 16 “Wzrost użycia DuckDuckGo” [źródło [24]]
18
Wykorzystanie agregatorów wyników wyszukiwania szczegółowo zostanie omówione
w następnej części niniejszej pracy.
19
Obszary wykorzystania agregacji wyników zapytań
Oprócz klasycznego przetwarzania jako źródła danych dla systemów meta-
wyszukiwania dane wyników wyszukiwania wykorzystują wiele różnych typów systemów
informatycznych.
Zasadniczo te systemy informacyjne mają na celu zdobycie dodatkowych informacji,
by uzyskać przewagę nad konkurentami. Informacje te są kluczowe dla optymalizacji stron
internetowych (zarówno wewnętrznej optymalizacji, jak i zewnętrznej optymalizacji) do
wyszukiwarek.
Autor pracy używa tych narzędzi w pracy zawodowej na stanowisku Specjalisty SEO.
Po pierwsze, trzeba podać przykłady rodzajów danych, które otrzymujemy przy zapytaniu do
wyszukiwarki i zdefiniować pojęcia dla zrozumienia procesów zachodzących podczas
wyszukiwania.
Lista głównych pojęć związanych z procesem wyszukiwania informacji w Internecie
obejmuje:
Wyniki wyszukiwania (Search engine results page – SERP)
Snippet
Search query (Zapytanie)
Organic results (Wyniki organiczne)
Sponsored results (Wyniki sponsorowane)
Rodzaje zapytań.
20
Wyniki wyszukiwania (SERP)
Wyniki wyszukiwania (SERP - ang. Search Engine Resultant Page) - jest to strona, na
której prezentowane są wyniki wyszukiwania dla określonego zapytania użytkownika jak to
jest pokazane na rysunku 17. Znajdują się na niej linki do serwisów posiadających treści
odpowiadające zapytaniu wraz z krótkim opisem strony, który się nazywa snippet. [26]
Linki zostają ustawione w formie listy rankingowej stworzonej na podstawie zgodności
z zadanym zapytaniem. Po wprowadzeniu zapytania przez użytkownika wyszukiwarka
analizuje je na podstawie różnych właściwości (lingwistycznych, morfologicznych,
geograficznych itd.) i zgodnie z określonymi algorytmami wyszukiwania buduje wyniki,
wyświetlające się na stronie w formie listy stron w porządku odpowiadającym ich zgodności z
zapytaniem - w pierwszej kolejności pojawiają się te najbardziej odpowiadające zapytaniu. [26]
Wyniki wyszukiwania w odpowiedzi na to samo zapytanie mogą różnić się w
poszczególnych wyszukiwarkach, co spowodowane jest zastosowaniem odmiennych
algorytmów wyszukiwania. Każdy system posiada swój unikalny sposób doboru najbardziej
odpowiednich odpowiedzi na podstawie określonych czynników. [26]
Snippet Snippet (z ang. snippet - fragment) - niewielki fragment tekstu, wyświetlający się obok
linku w wynikach wyszukiwania. Inaczej mówiąc, jest to krótki opis strony internetowej
odpowiadający zapytaniu wpisanemu do wyszukiwarki. [28]
W snippecie wyróżnione są słowa kluczowe z zapytania wpisanego w wyszukiwarce.
Treść zawarta w snippecie często pozwala na uzyskanie poszukiwanej informacji bez
konieczności przechodzenia do strony. [28]
Rola snippetu jest często niedoceniana, jednakże aby zmotywować użytkownika do
wejścia na stronę, warto zatroszczyć się, by przyciągał on uwagę. Konkurencja, nawet
Rys. 17 “Wyniki wyszukiwania Google” [źródło [27]]
21
znajdując się o kilka pozycji niżej, dzięki optymalnemu snippetowi, może cieszyć się większą
popularnością niż strona na pierwszej pozycji bez dopracowanego snippetu. [28]
Im dokładniejszą i bardziej treściwą odpowiedź na zapytanie daje snippet, tym większą
liczbę przejść zanotuje dana strona, co ma znaczący wpływ na pozycję strony w wynikach
wyszukiwania. [28]
Search query (Zapytanie) Zapytanie wyszukiwarki internetowej to wyrażenie, które użytkownik wprowadza do
wyszukiwarki internetowej. Wyszukiwane hasła mają charakter odróżniający, ponieważ często
jest to zwykły tekst lub hipertekst z opcjonalnymi dyrektywami wyszukiwania (takimi jak "and"
/ "or" z "-" do wykluczenia). [29]
Organic results (Wyniki organiczne) Wyniki organiczne – to ta część wyników wyszukiwania (SERP-ów), która nie
obejmuje wyników płatnych, czyli linków sponsorowanych. [31]
Organiczne wyniki wyszukiwania SERP są naturalnymi wynikami generowanymi przez
silnik wyszukiwarki w oparciu o szereg wskaźników, które określają ich relewantność i
pertynentność dla podanego zapytania. Strony internetowe, które osiągają dobre wyniki na
podstawie algorytmu wyszukiwania, są pokazywane wysoko na liście organicznych wyników.
Algorytmy wyszukiwarki są najczęściej oparte na takich czynnikach jak zawartość i
wiarygodność strony internetowej, linki zewnętrzne, media społecznościowe, wiadomości,
reklama itp. [30]
Każda wyszukiwarka ma nieco inny układ wyników wyszukiwania. W przypadku
Google pod paskiem wyszukiwania mogą pojawić się maksymalnie 4 linki sponsorowane,
następnie wyświetlonych zostaje przeważnie 10 wyników organicznych (chociaż w niektórych
przypadkach ich może być nawet 13), a pod nimi znajduje się jeszcze miejsce dla 3-4 reklam
AdWords. [33]
Nigdy nie został udowodniony związek między organicznymi i płatnymi wynikami
zapytań.
Rys. 18 “Wyniki płatne i organiczne” [źródło [37]]
22
Kolejność SERP ustalają złożone algorytmy wyszukiwarki. Za układ linków
sponsorowanych odpowiada aukcyjny mechanizm platformy AdWords – analizie podlega
jakość tekstu reklamowego (obecność fraz) oraz stawka CPC, którą jest gotowy zapłacić
reklamodawca za kliknięcie w link. [33]
Na kolejność wyników organicznych ma wpływ pozycjonowanie i optymalizacja strony
internetowej. Dobrze zoptymalizowane serwisy, nasycone słowami kluczowymi, na których
generowany jest duży ruch, są oceniane wyżej przez algorytmy Google i zajmują wysokie
pozycje w SERP. [33]
Rodzaje zapytań Istnieją trzy szerokie kategorie obejmujące większość zapytań internetowych:
informacyjne, nawigacyjne, transakcyjne, ogólne. [35]
Zapytania informacyjne.
Zapytania nawigacyjne.
Zapytania transakcyjne.
Ogólne. [36] [68]
Więcej szczegółów na temat typów zapytań zostanie opisane w rozdziale „Wybór
rodzaju zapytań” niniejszej pracy.
23
Przykłady narzędzi wykorzystujących agregację wyników wyszukiwania
Ahrefs
Rys. 19 “Ahrefs” [źródło [38]]
Analizuje wyniki wyszukiwania, porównuje lokalne SERP-y, określa potencjał ruchu i
pokazuje sposoby ulepszania rankingów analizowanych witryn. Screen narzędzia Ahrefs
pokazany jest na rysunku 19.
Analiza organicznego ruchu w wyszukiwarce
Sprawdzając SERP Ahrefs pokazuje, jak dużo ruchu organicznego z wyszukiwarki najlepsze
wyniki uzyskują ze wszystkich słów kluczowych na które się wyświetlają (pokazane jest na
rysunku 20).
Rys. 20 „Analiza organicznego ruchu w wyszukiwarce w Ahrefs” [źródło [38]]
24
Historia pozycji w wynikach wyszukiwania
Rys. 21 “Historia pozycji w wynikach wyszukiwania” [źródło [38]]
Narzędzie Ahrefs posiada funkcję "pozycja historyczna SERP", która pozwala
sprawdzić historyczne rankingi dla stron obecnie znajdujących się w TOP5. W oparciu o ich
historyczne wzorce rankingowe, można dostrzec, kiedy wyszukiwarka uznaje strony w TOP10
za odpowiadające zapytaniu albo czy będzie skłonna wprowadzić inne wartościowe serwisy.
[38]
25
Webpozycja
Rys. 22 “Webpozycja” [źródło [39]]
Webpozycja.pl to profesjonalna platforma do sprawdzania pozycji stron WWW w
Google i innych wyszukiwarkach w polskim segmencie Internetu. Szeroki zakres możliwości
systemu, m.in. badanie konkurencji, analiza SERP, zaawansowana obsługa płatności dla firm
pozycjonujących, czy sprawdzanie mobilnych wyników wyszukiwania sprawia, że
Webpozycja jest jednym z liderów w polskim Internecie w zakresie agregowania pozycji
wyników zapytań do wyszukiwarek internetowych. [39] [40]
Serp.watch Serp.watch to narzędzie do ogólnego monitorowania zmian w wynikach wyszukiwania
w Internecie według kraju, obszaru wyszukiwania, typu urządzenia.
Rys. 23 “Serp.watch” [źródło [80]]
26
Senuto Jedno z najlepszych narzędzi do analizy widoczności strony w polskim segmencie
Internetu. Na postawie analizy zagregowanych SERP prezentuje, ile słów kluczowych w
konkretnych przedziałach pozycji TOP 50/10/3 ma dana witryna. [41]
Rys. 24 “Zakres widoczności witryny” [źródło [42]]
Wykres widoczności zawiera 3 linie jak to jest pokazane na rysunku 24:
TOP 3: Informuje o liczbie słów kluczowych w TOP 3 wyników wyszukiwania (na
miejscach 1-3) – kolor jasnoniebieski
TOP 10: Informuje o liczbie słów kluczowych w TOP 10 wyników wyszukiwania (na
miejscach 1-10) – kolor niebieski
TOP 50: Informuje o liczbie słów kluczowych w TOP 50 wyników wyszukiwania (na
miejscach 1-50) – kolor ciemnoniebieski [42]
Google Search Console Warto wspomnieć również o natywnym narzędziu Google, które zawiera wiele
informacji analitycznych uzyskiwanych na podstawie wyników wyszukiwania. Screen tego
narzędzia jest pokazany na rysunku 25.
Rys. 25 „Google Search Console” [źródło [43]]
27
Google Search Console (wcześniej się nazywał Google Webmaster Tools) to
darmowa platforma internetowa stworzona przez Google dla administratorów stron
internetowych. Pozwala na sprawdzenie statusu indeksowania witryny przez wyszukiwarkę
Google oraz zoptymalizowanie widoczności strony. [44]
Google Search Console posiada m.in. następujące narzędzia:
Wysłanie i sprawdzenie statusu mapy witryny,
Przegląd statystyk indeksowania strony przez roboty Google,
Wygenerowanie i sprawdzanie pliku robots.txt,
Analiza wewnętrznych i zewnętrznych linków do strony,
Lista wadliwych linków na stronie,
Analiza widoczności strony w naturalnych wynikach wyszukiwarki Google według
różnych słów kluczowych,
Ustawienie preferowanej domeny (np. z www lub bez www),
Otrzymywanie powiadomień od Google w przypadku zawirusowania strony, kar za
nieuczciwe pozycjonowanie. [44]
Podsumowanie Zakres zastosowania tego typu systemów informatycznych jest dość szeroki - należą
one do głównych narzędzi pracy specjalistów SEO. Warto również zauważyć, że wyszukiwarki
stale walczą z robotami danych systemów, dlatego że marketingowa wartość tych danych jest
bardzo duża.
28
Wprowadzenie do problemu wykorzystania agregacji wyników zapytań
Głównym problemem w korzystaniu z systemów meta-wyszukiwania jest wybór
techniki agregacji, która pozwala polepszyć wyniki wyszukiwania w porównaniu z
klasycznymi wyszukiwarkami. Staje się to coraz trudniejsze ze względu na stale rosnące
wskaźniki jakości światowych liderów wyszukiwania w Internecie.
Jednym z potencjalnie przydatnych obszarów zastosowania agregatorów wyników
wyszukiwania jest ich wykorzystanie w przypadku niektórych typów zapytań oraz w tych
państwach, w których nie dominuje jedna z wyszukiwarek.
W Polsce dominacja Googla nie podlega wątpliwości jak to jest pokazane na rysunku
26 i rysunku 27.
Rys. 26 “Popularność wyszukiwarek w Polsce” [źródło [45]]
Rys. 27 “Popularność wyszukiwarki Google w Polsce” [źródło [45]]
29
Wykorzystanie wyszukiwarek internetowych na świecie nie jest tak jednoznaczne jak
w Polsce jak to jest pokazane na rysunku 28.
Rys. 28 “Popularność wyszukiwarek w państwach świata” [źródło [46]]
W opinii autora niniejszej pracy najciekawsze wyniki agregacji można uzyskać w
krajach, w których nie ma dominacji jednej z wyszukiwarek. Przykładem takich państw mogą
być: Chiny, Rosja, Czechy. Rynki tych krajów reprezentują największy potencjał w zakresie
zwiększania jakości wyszukiwania w przypadku korzystania z agregatorów wyników
wyszukiwania.
Nie dla każdego kraju i typu zapytania wykorzystanie agregatora wyników
wyszukiwania ma sens. Wydaje się oczywiste, że w przypadku 90% zapytań wystarczy jedna
wyszukiwarka. Jakość wyników dla tak zwanych prostych typów zapytań jest w tej chwili
bardzo wysoka. W większości przypadków użytkownik jest zadowolony z pierwszych
wyników (TOP1, TOP2, TOP3).
Problemy z jakością wyników zapytań w wyszukiwarkach zaczynają się od
niestandardowych zapytań.
Przykłady skomplikowanych zapytań:
wskaźniki makroekonomiczne kanada 2000 2010
albert einstein nagroda nobla za co
bmw x6 m50d ile koni
elon musk wiek
30
Aby pomóc użytkownikowi uzyskać systemy meta-wyszukiwania, które rozszerzą
zakres danych w porównaniu z jedną, nawet najbardziej zaawansowaną wyszukiwarką i będą
przydatne dla użytkownika podczas wyszukiwania niezbędnych informacji.
W niniejszej pracy zweryfikowana zostanie prawdziwość tezy postawionej przez
autora:
„Jakość wyników wyszukiwania na podstawie preferencji użytkownika jest związana z
popularnością tej wyszukiwarki w danym kraju.”
Ciekawym obiektem do takiego sprawdzenia może być Polska. Według danych
gs.statcounter.com za styczeń 2018 roku z wyszukiwarki Google'a korzysta 97-98%
użytkowników.
Czy żaden z konkurentów Google nie może zaoferować akceptowalnych wyników dla
zapytań w języku polskim? W niniejszej pracy jakość wyników wyszukiwania sprawdzono na
podstawie ocen dla polskiego segmentu internetowego dla następujących wyszukiwarek:
Yandex
Bing
Badania prowadzono dla powyższych systemów wyszukiwania w języku angielskim i
rosyjskim. Dodatkowym problemem stał się wybór typu zapytania i faktycznych zapytań
służących do weryfikacji postawionej tezy.
Więcej na ten temat opiszę w następnej części niniejszej pracy magisterskiej.
31
Faza konceptualna
Zdefiniowanie podstawowych pojęć do oceny jakości systemu wyszukiwania
informacji
Poznanie mechanizmu wyszukiwania wymaga zrozumienia problemu, w jaki sposób
wyszukiwarki rozumieją działania użytkownika. Na podstawie oficjalnych raportów od
przedstawicieli Google i Yandex obraz interakcji między użytkownikiem a wyszukiwarką
wygląda tak, jak pokazano na rysunku 29.
Rys. 29 "Interakcja między wyszukiwarką a użytkownikiem" [źródło [20]]
Każdy użytkownik ma cel, który próbuje osiągnąć za pomocą wyszukiwarki. To zadanie
może być skomplikowane lub proste i pochłaniać więcej albo mniej czasu. W ramach tego
zadania użytkownik rozwiązuje podzadania, a dla każdego z nich potrzebuje informacji
(odpowiedzi na zapytania). Jednocześnie użytkownik nie zawsze w pełni rozumie, czego
naprawdę potrzebuje.
Przykładem takiego celu może być zadanie planowania wakacji. Aby rozwiązać ten
problem, należy zrealizować kilka potrzeb informacyjnych - dowiedzieć się o atrakcjach
miasta, do którego użytkownik zamierza się udać, poznać ceny miejsc noclegowych, sprawdzić
prognozy pogody dla terminu w okresie wakacyjnym itd. Po określeniu potrzeb informacyjnych
użytkownik zaczyna komunikować się z wyszukiwarką za pomocą zapytań.
Przykłady takich zapytań podane zostały poniżej w tabeli 1:
Tabela 3 „Poziomy interakcji między użytkownikiem a wyszukiwarką”
Zadanie Planowanie wakacji
Wymagania informacyjne poznać zabytki miasta
znaleźć ceny miejsc noclegowych
sprawdzić prognozę pogody w okresie
wakacyjnym Zapytania warszawa syrena
32
warszawa syren
warszawa atrakcje
hotel warszawa
ceny nocleg w warszawie
warszawa prognoza pogody na 30 dni
pogoda 17.09 Warszawa
Na każdym etapie rozwiązywania problemu występuje utrata informacji na temat
intencji użytkownika, ponieważ każdy inaczej formułuje zapytania do systemu wyszukiwania.
Jak twierdzą niektórzy eksperci w dziedzinie wyszukiwania, jeśli kiedykolwiek uda się odstąpić
od procedury komunikacji między użytkownikiem a wyszukiwarkami za pomocą zapytań,
będzie to ogromny skok w rozwoju wyszukiwarek. [20]
Istnieje wiele sposobów oceny czy dokumenty znalezione przez wyszukiwarkę dobrze
odpowiadają na zapytanie użytkownika. Niestety, pojęcie stopnia relewantności wyników
zapytania (jego znaczenia) jest pojęciem subiektywnym, które zależy od osoby oceniającej
wyniki zapytania.
Relewantność stanowi zgodność odpowiedzi wyszukiwarki na zapytanie wyszukiwane,
które otrzymano od użytkownika. Odpowiedź najbardziej odpowiednia dla żądania
użytkownika jest uważana za relewantną. Relewantność to najważniejszy wskaźnik w pracy
wyszukiwarek internetowych.
Sortowanie listy wyników zapytań według relewantności jest merytoryczną funkcją w
przeważającej większości systemów wyszukiwania. Jednak występują pewnie nieścisłości przy
ustalaniu trafności i jakości wyników wyszukiwania.
Ścisłe przestrzeganie warunków zapytania nie gwarantuje jakościowego wyniku
wyszukiwania. Relewantne odpowiedzi mogą być nierelewantnymi, mimo że idealnie pasują
do zapytania. Użytkownik może sformułować nieudane lub zbyt ogólne zapytanie.
Dlatego w celu określenia jakości wyszukiwania, często używa się pojęcia
pertynentności, które wskazuje stopień, w jakim wyszukiwarka reaguje na rzeczywiste
potrzeby informacyjne użytkownika.
Odpowiedź jest pertynentną, jeżeli oferuje użytkownikowi niezbędne informacje,
nawet jeśli żądanie nie zostało sformułowane przez użytkownika w najbardziej skuteczny
sposób.
Na polepszenie pertynentności wyników wyszukiwania skierowano szereg nowych
technologii wyszukiwania w Internecie. Obecnie jednym z głównych mechanizmów oceny
jakości wyszukiwarek stanowi ocena ekspercka. [20]
W Yandeks osoby te nazywane są Asesorami, w Google - Quality Raters. Pomimo
różnicy w nazewnictwie specjaliści wykonują identyczną pracę - przekazują do wyszukiwarki
zwrotną informację o jakości wyników wyszukiwania na podstawie przyznanych ocen.
Otrzymując oceny wyników wyszukiwania z tych wyszukiwarek, w kolejnym zadanie
jest przekonwertowanie tych danych na liczbę w celu późniejszej analizy wyników.
Ocena jakości wyszukiwarek liczy ponad 50 lat. W 1957 r. bibliotekarz z Wyższej
Szkoły Aeronautycznej Cyril Cleverdon zaproponował dość prosty system oceny wyników
wyszukiwania. Za jego pomocą rozwiązany został problem poszukiwania artykułów na dany
temat. Bibliotekarz stworzył testową kolekcję dokumentów (1100 sztuk) i porównywał
dokładność oraz kompletność algorytmów wyszukiwania za pomocą tabeli pokazanej na
rysunku 30: [75]
33
Rys. 30 “Kompletność i dokładność przy ocenie efektywności wyszukiwania” [źródło [20]]
Poniżej znajdują się miary efektywności wyników wyszukiwania:
Dokładność (precision)
Dokładność jest zdefiniowana jako stosunek liczby relewantnych dokumentów
znalezionych przez system wyszukiwania do łącznej liczby znalezionych dokumentów.
Rys. 31 “Dokładność jako miara skuteczności wyników wyszukiwania” [źródło [50]]
gdzie D r e l jest zbiorem relewantnych dokumentów w bazie, a D r e t r to zestaw dokumentów
znalezionych przez system. [50]
Kompletność (recall)
Stosunek liczby znalezionych relewantnych dokumentów do całkowitej liczby
odpowiednich dokumentów w bazie:
Rys. 32 “Kompletność jako miara skuteczności wyników wyszukiwania” [źródło [50]]
gdzie D r e l — jest zbiorem odpowiednich dokumentów w bazie danych, a D r e t r to zestaw
dokumentów znalezionych przez system. [50]
34
Rys. 33 “Dokładność i kompletność” [źródło [51]]
Fall-out
Fall-out charakteryzuje prawdopodobieństwo znalezienia nierelewantnego wyniku i
jest zdefiniowany jako stosunek liczby nierelewantnych dokumentów znalezionych do
całkowitej liczby nierelewantnych dokumentów w bazie danych:
Rys. 34 „Fall-out, jako miara skuteczności wyników wyszukiwania” [źródło [50]]
gdzie D n r e l — to zbiór nierelewantnych dokumentów w bazie danych, а D r e t r — zbiór
dokumentów znalezionych przez system. [50]
F-miara (F-measure, miara Van Riesbergena)
Aby wspólnie ocenić dokładność i kompletność, stosuje się F-miarę, która jest
zdefiniowana jako ważona średnia harmoniczna dokładności P i kompletności R: [50]
35
Rys. 35 “F-miara, jako miara efektywności wyszukiwania” [źródło [50]]
Rys. 36 “F-miara, jako miara efektywności wyszukiwania - 2” [źródło [50]]
α – waga dokładności z przedziału [0, 1]
β2– określa, ile razy ważniejsza jest kompletność niż dokładność; wartość z przedziału [0, ∞].
[48]
Te miary są skuteczne przy wyszukiwaniu określonej liczby dokumentów, ale w
Internecie wszystko dzieje się trochę inaczej niż w tym klasycznym przypadku: [20]
1. Liczba dokumentów jest bardzo duża.
2. Liczba zapytań jest również duża.
3. Użytkownik nie przegląda wszystkich znalezionych przez wyszukiwarkę elementów.
Największą wartość uzyskuje pierwsza strona wyników wyszukiwania. Wprowadza
się także pojęcie tak zwanego modelu użytkownika, który ma następujące cechy zachowania:
1. Przegląda wyniki wyszukiwania od góry do dołu
2. Otwiera każdy dokument
3. Wstrzymuje wyszukiwanie, gdy znajdzie odpowiedź na zapytanie lub
jest zmęczony wyszukiwaniem. [20]
Poniżej na rysunku 37 przedstawiono przykład pierwszej strony wyszukiwarki z 10 wynikami
wyszukiwania.
Rys. 37 “Przykład pierwszej strony wyników wyszukiwania” [źródło [20]]
36
Dokładność w tym przypadku będzie proporcją relewantnych dokumentów do
całkowitej liczby dokumentów na pierwszej stronie wyszukiwarki. Na podstawie wzoru z
rysunku 31 otrzymujemy następujący wynik:
Dokładność = 6/10 = 0.6
W obu przypadkach dokładność będzie taka sama. Ten parametr pokazuje, że oba SERP
mają te same oceny jakości, ale intuicyjnie użytkownik rozumie, że wyniki wyszukiwania,
które na wyższych pozycjach mają relewantne wyniki, są lepsze niż SERP, który w pierwszych
wynikach nie ma relewantnych wyników.
Konieczne jest uwzględnienie pozycji dokumentów w SERP.
W tym celu stosują się wskaźniki: Discounting Cumulative Gain (DCG) i Normalized
Discounting Cumulative Gain (nDCG).
37
Discounted Cumulative Gain
Założeniem DCG jest to, że sytuacja, gdy wysoce istotne dokumenty znajdujące się
niżej na liście wyników wyszukiwania, nie powinna mieć miejsca, ponieważ stopniowana
wartość relewantności jest zmniejszona logarytmicznie proporcjonalnie do pozycji wyniku.
DCG na określonej pozycji rangowej określa się jak to jest pokazane niżej na rysunku
38:
Rys. 38 “Discounting Cumulative Gain” [źródło [50]]
DCG używa stopniowanej skali relewantności dokumentów z wyników zapytania, aby
ocenić użyteczność dokumentu na podstawie jego pozycji na liście wyników.
Wysoko relewantne dokumenty występujące na niskich pozycjach na liście wyników
otrzymają gorszą ocenę (będzie ona maleć logarytmicznie). Wysoko relewantne dokumenty są
istotniejsze niż dokument o marginalnym znaczeniu. [48]
DCG jest popularną miarą oceny wyszukiwania jakości wyszukiwania w sieci i
powiązanych zadań.Im niższa pozycja w rankingu danej pozycji dokumentu, tym mniej przydatny staje się
on dla użytkownika, ponieważ jest mniej prawdopodobne, że zostanie obejrzany. [49] [53]
Normalized Discounted Cumulative Gain
Listy wyników wyszukiwania różnią się długością w zależności od zapytania.
Dla poprawnego porównania DCG różnych zapytań należy znormalizować DCG
różnych zapytań. Odbywa się to poprzez uporządkowanie wszystkich istotnych dokumentów
w wynikach zapytań przez ich względną relewantność jak to jest pokazane na rysunku 39,
generując maksymalny możliwy DCG przez pozycję, zwany również idealnym DCG (Ideal
DCG). [54]
Rys. 39 “Discounted Cumulative Gain i Ideal Discounted Cumulative Gain” [źródło: własne]
Dla zapytania, Normalized Discounted Cumulative Gain lub nDCG, jest obliczany jak
to jest pokazane na rysunku 40:
Rys. 40 “Normalized discounted cumulative gain - 2” [źródło [54] [55]]
38
Dzięki NDCG wyszukiwarka może nadać większą wagę złożonym zapytaniom, dla
których nie ma tak wielu relewantnych dokumentów w Internecie.
W obliczeniach Gain stron internetowych zaangażowane są inne czynniki:
Popularność strony
Obecność reklam
Tematyczność strony
Mechanizm oceny jakości wyników wyszukiwania za pomocą Normalized DCG jest
obecnie szeroko stosowany przez wiodące wyszukiwarki.
Rys. 41 “Google Quality Rater” [źródło [56]]
Oprócz automatycznych algorytmów oceny trafności dane dotyczące jakości strony
można uzyskać od ekspertów - specjalnie wyszkolonych osób zwanych "Quality Raters" w
Google i „Asesory” w Yandeksie.
Każda taka osoba otrzymuje zadanie dla oceny - Page Quality (PQ) rating task.
Zadanie oceny jakości strony Page Quality (PQ) składa się z adresu URL i siatki do
zapisania obserwacji w celu przeprowadzenia eksploracji strony docelowej i strony
internetowej związanej z adresem URL. [56]
Ostatecznie celem oceny jakości strony jest określenie, jak dobrze strona osiąga swoją
cel. Ponieważ różne typy witryn i stron internetowych mogą mieć różne cele, oczekiwania i
standardy dla poszczególnych rodzajów stron są inne. [56]
Rys. 42 “Google Quality Rater 2” [źródło [56]]
Temat eksperckiej oceny wyników wyszukiwania zostanie dokładnie opisany w części
badawczej niniejszej pracy.
39
Cel pracy
Na podstawie powyższych rozważań cel niniejszej pracy został sformułowany w
następujący sposób: zbadanie dziedziny zastosowania (typów zapytań) agregatorów wyników
wyszukiwania, w których jakość uzyskanych wyników będzie wyższa niż jakość
poszczególnych wyszukiwarek, wyniki wyszukiwania, których zostaną wykorzystane w
tworzeniu zagregowanych wyników.
Jakość wyników wyszukiwania została wyliczona na podstawie preferencji
użytkowników, tj. na podstawie eksperckiej oceny jakości wyników wyszukiwania.
W badaniu wykorzystano zapytania o rzeczywisty stan.
40
Koncepcja realizacji agregacji
Opis algorytmu agregacji
Jako algorytm agregacji wybrano klasyczny algorytm oparty na pozycjach w poszczególnych
wyszukiwarkach.
Algorytm rankingowania
W meta-wyszukiwarce rankingowanie może być wykonane na podstawie pozycji w
poszczególnych wynikach wyszukiwania.
Na przykład dla meta-wyszukiwarki, która korzysta z trzech oddzielnych
wyszukiwarek, na potrzeby niniejszej pracy przyjęto założenie, że pierwsza strona każdej
wyszukiwarki TOP10 to (A, B, C, D, E, F, G, H, I, J), dla których wyniki mogą być wspólne.
Dla poszczególnych wyszukiwarek jest przypisana pewna wartość całkowita dla
konkretnej pozycji wyszukiwania. Jeśli wynik wyszukiwania A znajduje się na pierwszej
pozycji, to należy nadać mu 10 punktów, gdy znajduje się on na drugim miejscu, to 9 punktów
itd. aż do ostatniej pozycji, dla której nadaje się 1 punkt.
Jak w przykładzie poniżej pozycja w meta-wyszukiwaniu zostanie wyliczona na
podstawie sumy punktów, obliczonej na postawie pozycji w wynikach wszystkich trzech
oddzielnych wyszukiwarek. [16]
Jeśli strona jako wynik wyszukiwania znajduje się w jednej wyszukiwarce na pierwszej
pozycji, w drugiej wyszukiwarce na drugim miejscu, a w trzeciej na pierwszej pozycji, to jej
sumaryczna ocena zostanie obliczona na podstawie punktów (10+9+10=29). [16]
Zgodność punktów i pozycji została pokazana na rysunku 50.
41
Wybór wyszukiwarek
Zapytania do wyszukiwarki były wpisywane w trzech językach: polskim, angielskim,
rosyjskim.
Jako źródła danych dla agregatora wyników wyszukiwania w niniejszej pracy użyto 3
wyszukiwarek jak to jest pokazane na rysunku 43:
Rys. 43 “Wyszukiwarki Google, Bing, Yandex jako źródła danych dla agregatora” [źródło: własne]
Google Search, zazwyczaj określane jako wyszukiwarka Google lub po prostu Google
to wyszukiwarka opracowana przez firmę Google. Jest to najpopularniejszy silnik
wyszukiwania w sieci www, przetwarzający ponad trzy miliardy zapytań każdego dnia. [57]
Rys. 44 “Logo Google” [źródło [57]]
Rys. 45 “https://google.pl” [źródło [57]]
42
Według danych z 2017 roku ponad 70% zapytań od mieszkańców ze wszystkich
zakątków Ziemi jest wpisywanych do wyszukiwarki Google, przy czym jedna trzecia całego
ruchu google.com przypada na obywateli USA. Ponadto Google to najczęściej odwiedzana
strona internetowa na świecie. Średni czas korzystania z wyszukiwarki Google wynosi 9 minut.
[59]
Wyszukiwarka Google obsługuje wyszukiwanie w dokumentach w formatach PDF,
RTF, PostScript, Microsoft Word, Microsoft Excel, Microsoft PowerPoint i innych. [58]
Bing
Bing to wyszukiwarka, która jest własnością firmy Microsoft. Usługa powstała na
podstawie wyszukiwarek: MSN Search, Windows Live Search i Live Search.
Bing oferuje różne usługi wyszukiwania, w tym liku web, wideo, zdjęcia i mapy,
wyszukiwanie produktów. Wyszukiwarka została zaprojektowana z wykorzystaniem
ASP.NET. [60]
Obecnie strona internetowa Bing zajmuje 2 miejsce na liście najbardziej popularnych
wyszukiwarek internetowych. [61]
Bing - wyszukiwarka firmy Microsoft, powstała w 2009 roku stała się obowiązkowym
atrybutem smartfonów opartych na systemie operacyjnym Windows. Najbardziej popularny
Bing jest w USA (31%), Chinach (18%) i Niemczech (6%). [59]
Yandex
"Yandex" — wyszukiwarka należąca do rosyjskiej firmy Yandex, będąca głównym
produktem tego przedsiębiorstwa. [62]
Jest najbardziej popularną wyszukiwarką w Rosji, a około 3% oglądalności zawdzięcza
mieszkańcom Niemiec. Strona wyróżnia się dużą ilością usług (muzyka, radio, rozkład jazdy
komunikacji miejskiej, nieruchomości, tłumacz itp.) [59]
Rys. 46 “Logo Bing” [źródło [60]]
Rys. 47 „https://bing.com” [źródło [60]]
Rys. 48 “Logo Yandex” [źródło [62]]
43
Główną cechą systemu Yandex, wpływającą na jego wysoką popularność wśród
rosyjskojęzycznych użytkowników, stanowi możliwość zdefiniowania różnych odmian słów z
uwzględnieniem cech morfologicznych języka rosyjskiego.
Wartość zapytania za pomocą geolokalizacji i formuły wyszukiwania przekształca się
w maksymalnie możliwie precyzyjne sformułowanie. Również do atutów można zaliczyć
wysoką szybkość reakcji na zapytania i stabilną, bez przeciążeń, pracę serwera. [63]
Po wysłaniu zapytania do agregatora wysyła on zapytania do Google, Bing, Yandex.
Uzyskane wyniki są rankingowane w liście wyników na podstawie pozycji.
Żadna z wyszukiwarek nie jest dyskryminowana. Przyjmuje się, że trzy wyszukiwarki
mają równą wartość.
Każdy z wyników z pierwszej dziesiątki (tzw. TOP10) otrzymuje punkty na podstawie
poniższej tabeli pokazanej na rysunku 50:
Rys. 50 „Tabela agregacji na podstawie poszczególnych pozycji” [źródło: własne]
W tym momencie należy zadać pytanie, dlaczego jedynie pierwszych 10 wyników
wyszukiwania z każdej wyszukiwarki posłuży do tworzenia zagregowanych wyników.
Rys. 49 https://yandex.com [źródło [62]]
44
Rys. 51 “Agregacja na postawie wyników z Google, Bing, Yandex” [źródło: własne]
Według badań tylko około 5% użytkowników korzysta z wyników z drugiej strony
wyników wyszukiwania.
Rys. 52 “Procent ruchu odnośnie pozycji w wynikach wyszukiwarki Google” [źródło: [64]]
Podobne badania przeprowadzone przez „Chitika team” w 2010 roku wykazały
porównywalne wyniki.
45
Rys. 53 “Rozkład ruchu odnośnie strony wyszukiwania” [źródło: [64]]
Rys. 54 “Rozkład ruchu odnośnie pozycji wyszukiwania” [źródło: [64]]
Strona 1 (TOP10) uzyskuje 92% całego ruchu. Na drugą stronę przechodzi już tylko
4,8% użytkowników. [65]
46
Rys. 55 “Rozkład ruchu odnośnie pozycji w pierwszej dziesiątce wyników wyszukiwania” [źródło: [66]]
W branży SEO funkcjonuje popularne wyrażenie odnoszące się do drugiej strony
wyników wyszukiwania: „The best place to hide a dead body is page 2 of Google search
results”, co w tłumaczeniu na język polski brzmi to: Najlepsze miejsce, by ukryć zwłoki, to
druga strona wyników wyszukiwania.
Rys. 56 «Druga strona wyników wyszukiwania» [źródło: [67]]
W związku z powyższym podczas badania wyników użyto tylko pierwszych dziesięć
wyników uzyskanych z wyszukiwarek internetowych.
47
Wybór rodzaju zapytań
Obecnie wyróżnia się cztery podstawowe rodzaje zapytań:
Informacyjne
Nawigacyjne
Operacyjne (komercyjne)
Ogólne.
Zapytanie informacyjne – zapytanie użytkownika, który chce znaleźć satysfakcjonujące
go informacje na dany temat. [68]
Nawigacyjne zapytania
Nawigacyjne zapytanie – zapytanie wprowadzone przez użytkownika, który chce
znaleźć konkretne miejsce. [68]
Transakcyjne i komercyjne zapytania
Transakcyjne zapytanie – zapytanie użytkownika, który chce popełnić jakiekolwiek
działanie (transakcję). Komercyjne zapytanie – zapytanie użytkownika wyrażającego potrzebę
zakupu towaru lub zamówienia usługi. Często ogólne zapytanie składa się tylko z jednego
słowa i w konsekwencji intencje użytkownika nie są jasne. [68]
Ponadto każdy z podstawowych rodzajów zapytań może posiadać następujące cechy:
Multimedialność
Geozależność
Sezonowość
Częstotliwość
Witalność
Konkurencyjność [68]
Multimedialność zapytania – celem użytkownika jest uzyskanie treści multimedialnych
(zdjęcia, wideo, audio lub ich zbiór).
Treści multimedialne mogą być zarówno informacyjne, jak i transakcyjne.
Geozależność
Geozależne zapytania (regionalne) – to zapytania, dla których wyniki są różne dla
poszczególnych regionów. W większości przypadków geozależne zapytania przedstawione
komercyjnymi zapytaniami. [68]
Sezonowość
Sezonowe zapytania – to zapytania, dla których liczba zgłoszeń ma wyraźnie sezonowy
charakter; wyniki zmieniają się według daty, miesiąca lub pory roku. Przeciwne sezonowym są
całoroczne, niesezonowe wyniki wyszukiwania. [68]
Przykładem sezonowości witryny może służyć wykres Senuto jak to jest pokazane na
rysunku 57.
48
Rys. 57 “Sezonowość witryny – wykres SENUTO” [źródło: [42]]
Częstotliwość
Częstotliwość zapytania – to wartość odpowiadająca prognozie liczby wyświetleń
danej frazy w miesiącu w danej wyszukiwarce.
Istnieje warunkowy podział zapytań według częstości występowania:
niskiej częstotliwości lub "długi ogon"
średniej częstotliwości;
wysokiej częstotliwości.
W każdej niszy biznesowej istnieje indywidualny zestaw zapytań niskiej, średniej,
wysokiej częstotliwości charakteryzujący się ilościowymi wskaźnikami. [68]
Konkurencyjność zapytania
Konkurencyjność zapytania – to względna charakterystyka, na podstawie której
określa się zakres, czas i budżet prac niezbędnych do wyświetlania strony na wysokich
pozycjach wyników wyszukiwania. [68]
Witalne zapytanie i witalna odpowiedź
Witalne zapytanie – to zapytanie, które ma witalną odpowiedź.
Witalna odpowiedź – to obecność jednej lub więcej oficjalnych odpowiedzi na dane
zapytanie. [68]
49
Podsumowanie
Ta klasyfikacja, choć dość szczegółowa jest jednocześnie bardzo umowna, gdyż to samo
zapytanie może posiadać cechy kilku typów zapytań.
Wyszukiwarki budują wyniki na podstawie ogromnej liczby danych pochodzących od
użytkowników.
W niektórych przypadkach zapytania w miarę wzrostu popularności mogą zmieniać
swój typ (na przykład z ogólnego do komercyjnego).
W niniejszej pracy do przeprowadzenia badania został wybrany informacyjny typ
zapytania o stanie faktycznym z następującymi cechami: niemultimedialny, niesezonowy,
geoniezależny i o niskiej częstotliwości. Takie charakterystyki zostały wybrane, by ułatwić
pracę ekspertów w trakcie oceny jakości wyszukiwarek.
Zapytania zostały przygotowane w trzech językach, przy czym dla każdego z języków
została wybrana odpowiednia geolokalizacja w opcjach wyszukiwarek: dla zapytań w języku
polskim została wybrana Polska, dla zapytań w języku angielskim - USA, a dla zapytań w
języku rosyjskim - Rosja, Moskwa.
Lista zapytań znajduje się w następnym rozdziale niniejszej pracy.
50
Wybór zapytań dla agregacji wyników
Niżej przedstawiona tabela 3 z zapytaniami, które były wykorzystane przy badaniu jakości
wyników zapytań. Tabela 3 „Zapytania dla badania”
Zapytanie Język zapytania Lokalizacja
zapytania Data
zapytania
wskaźniki makroekonomiczne kanada 2000 2010
Polski Polska 20.11.2017
adam mickiewicz data aresztowania Polski Polska 20.11.2017
albert einstein nagroda nobla za co Polski Polska 20.11.2017
bmw x6 m50d ile koni Polski Polska 20.11.2017
elon musk wiek Polski Polska 20.11.2017
data bitwy pod grunwaldem Polski Polska 20.11.2017
kim dzong un wykształcenie Polski Polska 20.11.2017
kim jong il miejsce urodzenia Polski Polska 20.11.2017
pkb polski 1991 Polski Polska 20.11.2017
populacja mozambique 2015 Polski Polska 20.11.2017
canada macroeconomic indicators 2000 2010
Angielski USA 20.11.2017
adam mickiewicz date of arrest Angielski USA 20.11.2017
albert einstein nobel prize for what Angielski USA 20.11.2017
bmw x6 m50d horsepower Angielski USA 20.11.2017
elon musk age Angielski USA 20.11.2017
where did the battle of grunwald take place
Angielski USA 20.11.2017
kim jong un education Angielski USA 20.11.2017
kim jong il birthplace Angielski USA 20.11.2017
gdp polski 1991 Angielski USA 20.11.2017
population of mozambique 201 Angielski USA 20.11.2017
макроэкономические показатели Канады 2000 2010
Rosyjski Rosja 20.11.2017
дата рождения адама мицкевича Rosyjski Rosja 20.11.2017
альберт эйнштейн нобелевскую премию за что получил
Rosyjski Rosja 20.11.2017
бмв x6 m50d сколько лошадей Rosyjski Rosja 20.11.2017
элон маск возраст Rosyjski Rosja 20.11.2017
дата битвы под грюнвальдом Rosyjski Rosja 31.10.2017
51
Każde z badanych zapytań otrzymało konkretną odpowiedź, choć przy niektórych
zapytaniach potrzebna była pomoc eksperta w celu określenia relewantności dokumentu.
W celu przeprowadzenia oceny jakości wyników wyszukiwania została opracowana
dokumentacja na podstawie rekomendacji ekspertów Yandex i Google.
Opis procedury badawczej, grupy badawczej, a także opracowanie dokumentacji oceny
jakości wyników zapytań zaprezentowano w rozdziale poświęconym fazie badawczej niniejszej
pracy.
ким чен ын образование Rosyjski Rosja 20.11.2017
ким чен ир место рождения Rosyjski Rosja 20.11.2017
ввп польши 1991 Rosyjski Rosja 20.11.2017
мозамбик население 2015 Rosyjski Rosja 20.11.2017
52
Faza Implementacyjna
Omówienie szczegółów implementacji agregatora na podstawie pozycji w
poszczególnych wyszukiwarkach
Jak zaprezentowano w rozdziale „Koncepcja realizacji agregacji” w sekcji „Opis
algorytmu agregacji” agregator wyników wyszukiwania opiera się na pozycjach w
poszczególnych wyszukiwarkach.
Aby uzyskać linki badanych stron, użyto plugin Link Klipper do przeglądarki Chrome.
Rozszerzenie to ma następujące cechy:
Ekstrakcja wszystkich linków na stronie,
Przechowywanie wszystkich otrzymanych linków do pliku CSV. [69]
Emulacja działania została zrealizowana za pomocą aplikacji Numbers. Stworzono
szablon do obliczania uzyskanych ogólnych wyników. Wygląd tego szablonu zarówno pustego,
jak i wypełnionego zaprezentowano poniżej na rysunkach 58 i 59:
Rys. 58 „Pusty szablon dla oceny” [źródło: własne]
53
Pusty szablon z agregowanymi wynikami jest pokazany na rysunku 60. Po wystawieniu ocen
agregowane wyniki wyglądają, jak to jest pokazane na rysunku 61:
Rys. 59 „Wypełniony szablon dla oceny” [źródło: własne]
Rys. 60 “Szablon agregowanych wyników” [źródło: własne]
54
Dla każdej wyszukiwarki przy każdym zapytaniu obliczono wskaźnik DCG i iDCG.
Pokazane to na rysunku 62.
Rys. 62 “Obliczanie wskaźników DCG i iDCG dla wyszukiwarki Google” [źródło: własne]
W końcu dla każdego zapytania otrzymano następującą tabelę z wskaźnikami
Cumulative Gain, Discount Cumulative Gain, Ideal Discount Cumulative Gain, Normalized
Discount Cumulative Gain jak to jest pokazane na rysunku 63:
Rys. 61 “Szablon agregowanych wyników - 2” [źródło: własne]
55
Rys. 63 “Ogólna tabela oceny jakości dokumentu z wskaźnikami CG, DCG, iDCG, NDCG” [źródło: własne]
Wartość wskaźnika NDCG ma największe znaczenie, ponieważ to właśnie ona
posłużyła do analizy.
Kryteria oceny zostały opisane w kolejnym rozdziale badawczym niniejszej pracy
dyplomowej.
56
Faza Badawcza
Opis grupy i procedury badawczej
W badaniu jakości otrzymanych wyników wyszukiwania zespół badawczy składał się z
15 osób: specjalistów SEO, specjalistów PPC, programistów oraz specjalistów ds. marketingu
internetowego.
Rys. 64 “Zespół badawczy” [źródło: własne]
Każdy z ekspertów otrzymał papierową i elektroniczną wersję ankiety do wypełnienia.
Każdy z ekspertów dostał po 2 zapytania do zweryfikowania. W sumie każdy z użytkowników
dał ocenę dla maksymalnie 60 stron.
Opracowanie dokumentacji oceny jakości wyników zapytań na podstawie ocen
użytkowników (raterów)
Do oceny każdej witryny została wykorzystana następująca gradacja dla oceny
relewantności. Ta gradacja jest pokazana w tabeli 4.
Tabela 4 “Poziomy ocen relewantności z opisami” [70], [71], [72]
Ocena relewantności Punkty Opis
Witalna (Vital) 10 Jest to najwyższa ocena, którą może otrzymać wynik
wyszukiwania. Witalną ocenę najprawdopodobniej
uzyska oficjalna strona zapytania.
Korzystna (Useful) 7
Jest to drugi co do ważności wynik oceny strony. Tę
ocenę otrzymuje dokument (strona www), na której
można znaleźć informacje nie tylko dokładnie pasujące
do zapytania, ale i posiadające dodatkową wartość
informacyjną.
Relewantna (Relevant) 5
Dokument odpowiada na zapytanie, ale nie posiada
dodatkowej wartości informatycznej jak przy ocenie
Useful Często strony z taką oceną posiadają tylko
jednym z ważnych aspektów zapytania, a nie
wszystkimi.
Nie relewantna (Not Relevant)
2 Ocena przyznawana stronom, które nie odpowiadają na
zapytanie, ale w jakiś sposób są powiązane z intencją
użytkownika.
Nie na temat (Off-topic) 1 Jest to najniższa pozytywna ocena, którą otrzyma
strona całkowicie niezgodna z zapytaniem.
Język obcy (Foreign
Language) 0
Taka ocena zostanie przypisana stronie internetowej,
jeżeli język docelowy zapytania nie zgadza się z
językiem strony.
57
Problem z pobraniem
dokumentu (Didn’t Load) 0
Taką ocenę uzyska strona internetowa, zwracająca błąd
404, błąd „nie znaleziono strony”, błąd „product not
found”, błąd „server time out, błąd „403 forbidden”,
gdy jest wymagana autoryzacja itp. Nie może być oceniona
(Unratable) 0
Ocena przyznawana, jeżeli strona nie może zostać
oceniona. Spam -5 Spam.
Powyższa tabela jest oparta na dwóch podstawowych dokumentach:
Google Przewodnik oceny jakości wyszukiwania (Search Quality Evaluator
Guidelines) (rysunek 59)
Yandex Przewodnik dla Asesora (Руководство для Ассесора) (rysunek 60)
Powyższe dokumenty należą do oficjalnej dokumentacji Google i Yandex służącej do
oceny jakości wyszukiwania. Dane pochodzące z analizy są wykorzystywane do wprowadzenia
zmian w algorytmach wyszukiwarek. Na podstawie przyznanych ocen stwierdza się, jak
skuteczne były innowacje wprowadzone w wyszukiwarce.
W badaniu przeprowadzonym na potrzeby niniejszej pracy agregowano i analizowano
wyniki Google, Yandex, Bing, a także meta-agregatora na podstawie danych wyszukiwarek.
Wyniki analizy przedstawiono w następnym rozdziale pracy.
Rys. 65 “Google przewodnik oceny jakości wyszukiwania” [źródło: [71]]
Rys. 66 “Yandex przewodnik dla Asesora” [źródło: [72]]
58
Przeprowadzenie oceny jakości agregowanych wyników na podstawie NDCG
Zapytania w języku polskim
Lista zapytań w języku polskim pokazane jest w tabeli 5: Tabela 5 „Zapytania w języku polskim”
Zapytania Język zapytania
Lokalizacja Data zapytania
[wskazniki makroekonomiczne kanada 2000 2010] Polski Polska 20.11.2017 [adam mickiewicz data aresztowania] Polski Polska 20.11.2017 [albert einstein nagroda nobla za co] Polski Polska 20.11.2017 [bmw x6 m50d ile koni] Polski Polska 20.11.2017 [elon musk wiek] Polski Polska 20.11.2017 [data bitwy pod grunwaldem] Polski Polska 20.11.2017 [kim dzong un wykształcenie] Polski Polska 20.11.2017 [kim jong il miejsce urodzenia] Polski Polska 20.11.2017 [pkb polski 1991] Polski Polska 20.11.2017 [populacja mozambique 2015] Polski Polska 20.11.2017
Wskaźniki nDCG dotyczące silnika wyszukiwania dla zapytań w języku polskim
pokazane są w tabeli 6 i na rysunkach 67 i 68:
Tabela 6 “Wskaźniki nDCG dla zapytań w języku polskim”
Google Bing Yandex Agregator
0.851186383 0.4250813 0.246175938 0.606393201
0.967461449 0.580303852 0.461774159 0.70852278
0.984657242 0.932006786 0.67545195 0.891474674
0.940951605 0.827707235 0 0.755485232
0.856691478 0.899498975 0.482404919 0.955516751
1 0.813415391 0.773281909 0.907261943
0.86867189 0.822351389 0.808398771 0.993251859
0.630514225 0.499452346 0.484181547 0.662664269
0.790982483 0.780794773 0.785013688 0.69820307
0.697925427 0.69019418 0.436889463 0.883287352
0.858904218 0.727080623 0.515357234 0.806206113
Rys. 67 “Wskaźniki nDCG dla zapytań w języku polskim - 2” [źródło: własne]
59
Rys. 68 “Wskaźniki nDCG dla zapytań w języku polskim - 3” [źródło: własne]
Jak wynika z badań, wyszukiwarka Google okazała się bezkonkurencyjna, co
potwierdzają wskaźniki popularności tej wyszukiwarki w Polsce, którą według badań posługuje
się 97-98% użytkowników. [45]
Rys. 69 „Porównanie nDCG Google i Agregatora dla zapytań w języku polskim” [źródło: własne]
Yandex poradził sobie z zapytaniami w języku polskim na przeciętnym poziomie,
pokazując najgorsze wskaźniki jakości wyszukiwania, co nie jest zaskakujące, ponieważ dla tej
wyszukiwarki polski segment internetu nie stanowi priorytetu.
0,5
0,6
0,7
0,8
0,9
1
1,1
1 2 3 4 5 6 7 8 9 10
Porównanie nDCG Google i Agregatora dla zapytań w języku polskim
Google Agregator
60
Zapytania w języku angielskim
Lista zapytań w języku polskim pokazane jest w tabeli 7:
Tabela 7 “Zapytania w języku angielskim”
Zapytania Język zapytania Lokalizacja Data zapytania
[canada macroeconomic indicators 2000 2010] Angielski Usa 20.11.2017
[adam mickiewicz date of arrest] Angielski Usa 20.11.2017
[albert einstein nobel prize for what] Angielski Usa 20.11.2017
[bmw x6 m50d horsepower] Angielski Usa 20.11.2017
[elon musk age] Angielski Usa 20.11.2017
[where did the battle of grunwald take place] Angielski Usa 20.11.2017
[kim jong un education] Angielski Usa 20.11.2017
[kim jong il birthplace] Angielski Usa 20.11.2017
[gdp polski 1991] Angielski Usa 20.11.2017
[population of mozambique 2015] Angielski Usa 20.11.2017
Wskaźniki nDCG dotyczące silnika wyszukiwania dla zapytań w języku angielskim
pokazane są w tabeli 8 i na rysunkach 70 i 71:
Tabela 8 “Wskaźniki nDCG dla zapytań w języku angielskim”
Google Bing Yandex Agregator
0.967094751 0.933049507 0.319023198 0.872017982
0.825572726 0.63057043 0.992312373 0.897789659
0.845176096 0.80557925 0.880899522 0.966518375
0.917222156 0.819354823 0.485457396 0.881289017
0.732028955 0.942458084 0.83698606 0.944755662
0.969939234 0.613330561 0.845732126 0.977435009
0.970130578 0.820087533 0.833992932 0.899617805
0.829549721 0.827767526 0.600463836 0.933800969
0.926333895 0.921587575 0.795387436 0.943238286
0.922871274 0.831829117 0.799463912 0.902135097
0.890591939 0.814561441 0.738971879 0.921859786
Rys. 70 “Wskaźniki nDCG dla zapytań w języku angielskim - 2” [źródło: własne]
61
Rys. 71 „Wskaźniki nDCG dla zapytań w języku angielskim – 3” [źródło: własne]
Zapytania w języku angielskim stanowią priorytet dla większości wyszukiwarek, nawet
tych lokalnych, jak Yandex czy Baidu.
W tych zapytaniach jakość wyników wyszukiwania dla wyszukiwarki Yandex wzrosła
w porównaniu z zapytaniami w języku polskim, podobnie jak w Google i Bing, dla których
anglojęzyczny segment internetu jest głównym źródłem zysku. Semantyka języka angielskiego
zbadana jest przez Google i Bing w wystarczającym stopniu – wyszukiwarki uzyskały bardzo
wysokie wyniki.
Jednak agregator, korzystając z wszystkich atutow metawyszukiwania i rozszerzając
szerokość widzenia klasycznych wyszukiwarek w danym języku zapytania, uzyskał najlepszy
wynik.
62
Zapytania w języku rosyjskim
Lista zapytań w języku polskim pokazane jest w tabeli 9:
Tabela 9 “Zapytania w języku rosyjskim”
Zapytania Język zapytania
Lokalizacja Data zapytania
[макроэкономические показатели Канады 2000 2010] Rosyjski Rosja 20.11.2017
[дата рождения адама мицкевича] Rosyjski Rosja 20.11.2017
[альберт эинштеин нобелевскую премию за что получил] Rosyjski Rosja 20.11.2017
[бмв x6 m50d сколько лошадеи] Rosyjski Rosja 20.11.2017
[элон маск возраст] Rosyjski Rosja 20.11.2017
[дата битвы под грюнвальдом] Rosyjski Rosja 31.10.2017
[ким чен ын образование] Rosyjski Rosja 20.11.2017
[ким чен ир место рождения] Rosyjski Rosja 20.11.2017
[ввп польши 1991] Rosyjski Rosja 20.11.2017
[мозамбик население 2015] Rosyjski Rosja 20.11.2017
Wskaźniki nDCG dotyczące silnika wyszukiwania dla zapytań w języku rosyjskim
pokazane są w tabeli 10 i na rysunkach 72 i 73:
Tabela 10 “Wskaźniki nDCG dla zapytań w języku rosyjskim”
Google Bing Yandex Agregator
0.915611808 0.661764405 0.910845706 0.938635335
0.939000348 0.878427736 0.995483776 0.993653734
0.922173622 0.679071893 0.795189759 0.917404545
0.907464398 0.692446399 0.88300339 0.946523138
1 0.899495632 0.936980207 1
0.955935878 0.552977671 0.985100413 0.913026778
0.65589738 0.653882911 0.841142961 0.831979759
0.816423491 0.715936491 0.973641206 0.863869369
0.889243271 0.81315996 0.8336009 0.930861319
0.795391596 0.638138456 0.963668729 0.911012941
0.879714179 0.718530155 0.911865705 0.924696692
63
Rys. 72 “Wskaźniki nDCG dla zapytań w języku rosyjskim - 2”
Rys. 73 “Wskaźniki nDCG dla zapytań w języku rosyjskim - 3”
W zapytaniach w języku rosyjskim Yandex ma najlepszy wynik wśród klasycznych
wyszukiwarek, co potwierdza jego wiodącą pozycję w rosyjskim segmencie Internetu. Google
z kolei ma drugi wynik. Bing uzyskał najgorszy wynik.
Agregator dla tego języka zapytań zaprezentował najwyższy wynik. To z kolei
potwierdza hipotezę, że największą skuteczność agregacja wyników może mieć miejsce na
rynkach, w których nie ma dominacji jednej z wyszukiwarek, a popularność wyszukiwarek na
danym rynku jest równoznaczna. Przykładem tu może być rynek wyszukiwarek w Rosji, gdzie
Google i Yandex mają niemal równie części rynku jak to jest pokazane na rysunku 73.
Rys. 74 “Ranking wyszukiwarek w 2017 w Rosji” [73]
64
Właśnie w takich segmentach Internetu stosowanie agregatorów wyników
wyszukiwania jest najbardziej uzasadnione, co zostało potwierdzone wynikami badań.
65
Opracowanie wyników badań
Ogólne wyniki badań pokazane na rysunkach 75 i 76:
Rys. 75 “Ogólne wyniki badań nDCG”
Średnioważone znaczenia wskaźnika nDSG pokazane są w tabeli 10.
Tabela 10 “Ogólne wyniki badań nDCG - 2”
Google Bing Yandex Agregator
0.876403445 0.75339074 0.722064939 0.884254197
Rys. 76 “Ogólne wyniki badań nDCG - 3”
Wyniki wykazały, że nieznacznie wskaźnik nDCG agregatora wyników zapytań jest
wyższy niż wskaźniki trzech poszczególnych wyszukiwarek. Najlepszy wynik wśród
klasycznych wyszukiwarek zaprezentowało Google, na drugim miejscu jest Bing, a najgorsza
wyszukiwarka to Yandex.
66
Testy statystyczne
Jako test statystyczny został wykorzystany test Wilkoksona. To nieparametryczny
statystyczny test (kryterium), używany w celu sprawdzenia różnic pomiędzy dwoma próbkami
pikseli par pomiarów. Po raz pierwszy zaproponowany Frankiem Wilkoksonem. [81].
Test został przeprowadzony przy użyciu online zasobu - http://vassarstats.net/. [82]
Poniżej znajdują się wyniki testu statystycznego dla par badanych wyników. Dla pary
«Google i Agregator» wyniki są pokazane w tabeli 11 i tabeli 12.
Hipotezy: H0: W badanych wynikach zapytań mediana różnic pomiędzy nDCG
agregatora i Google wynosi 0. H1: W badanych wynikach zapytań mediana różnic pomiędzy
nDCG agregatora i Google różna od 0.
Tabela 11 “Test statystyczny dla pary Google i Agregator”
Google Agregator S/R of|Xa−Xb|
0.851186383 0.606393201 28
0.967461449 0.70852278 29
0.984657242 0.891474674 17
0.940951605 0.755485232 26
0.856691478 0.955516751 -19
1 0.907261943 15
0.86867189 0.993251859 -23
0.630514225 0.662664269 -6
0.790982483 0.69820307 16
0.697925427 0.883287352 -25
0.967094751 0.872017982 18
0.825572726 0.897789659 -14
0.845176096 0.966518375 -22
0.917222156 0.881289017 7
0.732028955 0.944755662 -27
0.969939234 0.977435009 -2
0.970130578 0.899617805 13
0.829549721 0.933800969 -20
0.926333895 0.943238286 -3
0.922871274 0.902135097 4
0.915611808 0.938635335 -5
0.939000348 0.993653734 -12
0.922173622 0.917404545 1
0.907464398 0.946523138 -8
1 1 ---
0.955935878 0.913026778 10
0.65589738 0.831979759 -24
0.816423491 0.863869369 -11
0.889243271 0.930861319 -9
0.795391596 0.911012941 -21
Tabela 12 “Wyniki testu statystycznego dla pary Google i Agregatora”
W=-67
ns/r=29 P(1-tail) P(2-tail)
z=-0.72 0.2358 0.4715
67
Dla pary «Bing i Agregator» wyniki są pokazane w tabeli 13 i tabeli 14.
Hipotezy: H0: W badanych wynikach zapytań mediana różnic pomiędzy nDCG
agregatora i Bing wynosi 0. H1: W badanych wynikach zapytań mediana różnic pomiędzy
nDCG agregatora i Bing różna od 0.
Tabela 13 „Test statystyczny dla pary Bing i Agregator”
Bing Agregator S/R of|Xa−Xb|
0.4250813 0.606393201 -22
0.580303852 0.70852278 -16
0.932006786 0.891474674 3
0.827707235 0.755485232 8
0.899498975 0.955516751 -4
0.813415391 0.907261943 -11
0.822351389 0.993251859 -20
0.499452346 0.662664269 -19
0.780794773 0.69820307 10
0.69019418 0.883287352 -23
0.933049507 0.872017982 5
0.63057043 0.897789659 -26
0.80557925 0.966518375 -18
0.819354823 0.881289017 -6
0.942458084 0.944755662 -1
0.613330561 0.977435009 -30
0.820087533 0.899617805 -9
0.827767526 0.933800969 -13
0.921587575 0.943238286 -2
0.831829117 0.902135097 -7
0.661764405 0.938635335 -28
0.878427736 0.993653734 -14
0.679071893 0.917404545 -24
0.692446399 0.946523138 -25
0.899495632 1 -12
0.552977671 0.913026778 -29
0.653882911 0.831979759 -21
0.715936491 0.863869369 -17
0.81315996 0.930861319 -15
0.638138456 0.911012941 -27
Tabela 14 “Wyniki testu statystycznego dla pary Bing i Agregatora”
W=-413
ns/r=30 P(1-tail) P(2-tail)
z=-4.24 <.0001 <.0001
68
Dla pary «Yandex i Agregator» wyniki są pokazane w tabeli 15 i tabeli 16.
Hipotezy: H0: W badanych wynikach zapytań mediana różnic pomiędzy nDCG
agregatora i Yandex wynosi 0. H1: W badanych wynikach zapytań mediana różnic pomiędzy
nDCG agregatora i Yandex różna od 0.
Tabela 15 “Test statystyczny dla pary Yandex i Agregator”
Yandex Agregator S/R of|Xa−Xb|
0.246175938 0.606393201 -25
0.461774159 0.70852278 -23
0.67545195 0.891474674 -22
0 0.755485232 -30
0.482404919 0.955516751 -28
0.773281909 0.907261943 -18
0.808398771 0.993251859 -21
0.484181547 0.662664269 -20
0.785013688 0.69820307 10
0.436889463 0.883287352 -27
0.319023198 0.872017982 -29
0.992312373 0.897789659 11
0.880899522 0.966518375 -9
0.485457396 0.881289017 -26
0.83698606 0.944755662 -14
0.845732126 0.977435009 -17
0.833992932 0.899617805 -7
0.600463836 0.933800969 -24
0.795387436 0.943238286 -19
0.799463912 0.902135097 -13
0.910845706 0.938635335 -3
0.995483776 0.993653734 1
0.795189759 0.917404545 -16
0.88300339 0.946523138 -6
0.936980207 1 -5
0.985100413 0.913026778 8
0.841142961 0.831979759 2
0.973641206 0.863869369 15
0.8336009 0.930861319 -12
0.963668729 0.911012941 4
Tabela 16 “Wyniki testu statystycznego dla pary Yandex i Agregatora”
W=-363
ns/r=30 P(1-tail) P(2-tail)
z=-3.73 0.0001 0.0002
Dla pary Agregator-Bing i Agregator-Yandex poziom asymptotycznej istotności P
poniżej 0.05 (P<0.05), c czego wynika, że dane pary danych statystycznie się różną od siebie
69
nawzajem, co w naszym przypadku będzie mówić o wzroście jakości wyników. Hipoteza
zerowa dla tych przypadków ma być odrzucona.
Dla pary Agregator-Google P(1-tail) = 0.2358 i P(2-tail) = 0.4715, co jest więcej niż
0.05, co z kolei oznacza, że dane wyniki statystycznie są podobne, czyli różnice między
próbkami nie są statystycznie istotne, z czego można stwierdzić, że jakość wyników
wyszukiwania agregatora nie jest gorsza niż jakość wyszukiwania każdego z klasycznych
wyszukiwarek indywidualnie (Google, Bing, Yandex) i lepiej niż u dwóch wyszukiwarek (Bing
i Yandex). W naszym konkretnym przypadku okazało się, że Agregator pokazał trochę lepszy
wynik niż najlepsza z wyszukiwarek klasycznych: Google, ale nie da się stwierdzić, że przy
przeprowadzeniu powtórnych badań taka sytuacja się powtórzy.
Hipoteza zerowa dla tej pary wyników nie może być odrzucona.
70
Podsumowanie
Wnioski wynikające z realizacji badań
Na podstawie powyższych wyników można stwierdzić, że korzystanie z agregatorа
wyników zapytań dla zapytań o aktualnym stanie jest uzasadnione i może poprawić jakość
wyników wyszukiwania, zwiększając zadowolenie użytkowników.
Wykorzystanie agregatora powoduje zwiększenie zasięgu wyszukiwania, co z kolei
powoduje, że użycie meta-wyszukiwarek jest korzystnie w tych segmentach Internetu, gdzie
nie ma dominacji jednej z wyszukiwarek. Zgodnie z rysunkiem 28 “Popularność wyszukiwarek
w państwach świata” [46] przykładami takich państw mogą być: Chiny, Rosja, Czechy.
Rynki tych krajów reprezentują największy potencjał w zakresie zwiększania jakości
wyszukiwania w przypadku korzystania z agregatorów wyników wyszukiwania. Ale tu trzeba
brać pod uwagę rodzaj i popularność zapytania do wyszukiwarki. W badaniach były
wykorzystane zapytania o stan faktyczny.
Jakość wyników przy takim rodzaju zapytań Agregatora była wyższa niż jakość
poszczególnych wyszukiwarek, z czego można zrobić podsumowanie, że wykorzystanie
agregacji poprawia jakość wyników, co w dalszym ciągu zwiększa zadowolenie
użytkowników, co z kolei w jest głównym celem działania systemów wyszukiwania informacji.
Więc można stwierdzić, że cel pracy został osiągnięty.
Potrzeba kontynuacji prac
W niniejszej pracy została zbadana jakość wyników wyszukiwania zarówno agregatora,
jak i poszczególnych wyszukiwarek na podstawie 30 zapytań o stan faktyczny. Ta próbka w
ramach skali wyszukiwarek jest za mała.
Niestety dla pary Agregator-Google po przeprowadzeniu testu statystycznego wynika,
że dane wyniki statystycznie są podobne, czyli różnice między próbkami nie są statystycznie
istotne i nie można stwierdzić, że jakość wyników przy innej próbce zapytań będzie lepsza u
Agregatora, więc w przypadku dostępności większej liczby osób zaangażowanych (Search
Quality Raters) autor niniejszej pracy uważa, że warto przeprowadzić tego typu badania na
większej próbie zapytań.
71
Spis ilustracji:
Rysunek 1 “Użytkownicy Internetu na 100 mieszkańców” [źródło [3][4]]
Rysunek 2 “Łączna liczba witryn” [źródło [7]]
Rysunek 3 “Architektura silnika meta-wyszukiwarki” [źródło [13]]
Rysunek 4 „Wizualizacja agregacji wyników wyszukiwania” [źródło [20]]
Rysunek 5 “Meta-wyszukiwarka Quick” [źródło [18]]
Rysunek 6 “Meta-wyszukiwarka MetaCrawler” [źródło [19]]
Rysunek 7 “Przykład klastrowania przy wykorzystaniu meta-wyszukiwarki Yippy” [źródło
[76]]
Rysunek 8 “Przykład klastrowania przy wykorzystaniu meta-wyszukiwarki Izito” [źródło
[77]]
Rysunek 9 “Zaawansowane systemy meta-wyszukiwania” [źródło [10]]
Rysunek 10 “Meta-wyszukiwarka Dogpile” [źródło [17]]
Rysunek 11 “Meta-wyszukiwarka WebCrawler” [źródło [78]]
Rysunek 12 “Meta-wyszukiwarka Nigma” [źródło [23]]
Rysunek 13 “Możliwości meta-wyszukiwarki Nigma” [źródło [23]]
Rysunek 14 “Wyszukiwarka DuckDuckGo” [źródło [24]]
Rysunek 15 “Anonimowość użytkownika przy korzystaniu DuckDuckGo” [źródło [79]]
Rysunek 16 “Wzrost użycia DuckDuckGo” [źródło [24]]
Rysunek 17 “Wyniki wyszukiwania Google” [źródło [27]]
Rysunek 18 “Wyniki płatne i organiczne” [źródło [37]]
Rysunek 19 “Ahrefs” [źródło [38]]
Rysunek 20 „Analiza organicznego ruchu w wyszukiwarce w Ahrefs” [źródło [38]]
Rysunek 21 “Historia pozycji w wynikach wyszukiwania” [źródło [38]]
Rysunek 22 “Webpozycja” [źródło [39]]
Rysunek 23 “Serp.watch” [źródło [80]]
Rysunek 24 “Zakres widoczności witryny” [źródło [42]]
Rysunek 25 „Google Search Console” [źródło [43]]
Rysunek 26 “Popularność wyszukiwarek w Polsce” [źródło [45]]
Rysunek 27 “Popularność wyszukiwarki Google w Polsce” [źródło [45]]
Rysunek 28 “Popularność wyszukiwarek w państwach świata” [źródło [46]]
Rysunek 29 "Interakcja między wyszukiwarką a użytkownikiem" [źródło [20]]
Rysunek 30 “Kompletność i dokładność przy ocenie efektywności wyszukiwania” [źródło
[20]]
Rysunek 31 “Dokładność jako miara skuteczności wyników wyszukiwania” [źródło [50]]
Rysunek 32 “Kompletność jako miara skuteczności wyników wyszukiwania” [źródło [50]]
Rysunek 33 “Dokładność i kompletność” [źródło [51]]
Rysunek 34 „Fall-out, jako miara skuteczności wyników wyszukiwania” [źródło [50]]
Rysunek 35 “F-miara, jako miara efektywności wyszukiwania” [źródło [50]]
Rysunek 36 “F-miara, jako miara efektywności wyszukiwania - 2” [źródło [50]]
Rysunek 37 “Przykład pierwszej strony wyników wyszukiwania” [źródło [20]]
Rysunek 38 “Discounting Cumulative Gain” [źródło [50]]
Rysunek 39 “Discounted Cumulative Gain i Ideal Discounted Cumulative Gain” [źródło:
własne]
Rysunek 40 “Normalized discounted cumulative gain - 2” [źródło [54] [55]]
Rysunek 41 “Google Quality Rater” [źródło [56]]
Rysunek 42 “Google Quality Rater 2” [źródło [56]]
Rysunek 43 “Wyszukiwarki Google, Bing, Yandex jako źródła danych dla agregatora”
[źródło: własne]
72
Rysunek 44 “Logo Google” [źródło [57]]
Rysunek 45 “https://google.pl” [źródło [57]]
Rysunek 46 “Logo Bing” [źródło [60]]
Rysunek 47 “https://bing.com” [źródło [60]]
Rysunek 48 “Logo Yandex” [źródło [62]]
Rysunek 49 “https://yandex.com [źródło [62]]
Rysunek 50 „Tabela agregacji na podstawie poszczególnych pozycji” [źródło: własne]
Rysunek 51 “Agregacja na postawie wyników z Google, Bing, Yandex” [źródło: własne]
Rysunek 52 “Procent ruchu odnośnie pozycji w wynikach wyszukiwarki Google” [źródło:
[64]]
Rysunek 53 “Rozkład ruchu odnośnie strony wyszukiwania” [źródło: [64]]
Rysunek 54 “Rozkład ruchu odnośnie pozycji wyszukiwania” [źródło: [64]]
Rysunek 55 “Rozkład ruchu odnośnie pozycji w pierwszej dziesiątce wyników
wyszukiwania” [źródło: [66]]
Rysunek 56 «Druga strona wyników wyszukiwania» [źródło: [67]]
Rysunek 57 “Sezonowość witryny – wykres SENUTO” [źródło: [42]]
Rysunek 58 „Pusty szablon dla oceny” [źródło: własne]
Rysunek 59 „Wypełniony szablon dla oceny” [źródło: własne]
Rysunek 60 “Szablon agregowanych wyników” [źródło: własne]
Rysunek 61 “Szablon agregowanych wyników - 2” [źródło: własne]
Rysunek 62 “Obliczanie wskaźników DCG i iDCG dla wyszukiwarki Google” [źródło:
własne]
Rysunek 63 “Ogólna tabela oceny jakości dokumentu z wskaźnikami CG, DCG, iDCG,
NDCG” [źródło: własne]
Rysunek 64 “Zespół badawczy” [źródło: własne]
Rysunek 65 “Google przewodnik oceny jakości wyszukiwania” [źródło: [71]]
Rysunek 66 “Yandex przewodnik dla Asesora” [źródło: [72]]
Rysunek 67 “Wskaźniki nDCG dla zapytań w języku polskim - 2” [źródło: własne]
Rysunek 68 “Wskaźniki nDCG dla zapytań w języku polskim - 3” [źródło: własne]
Rysunek 69 „Porównanie nDCG Google i Agregatora dla zapytań w języku polskim” [źródło:
własne]
Rysunek 70 “Wskaźniki nDCG dla zapytań w języku angielskim - 2” [źródło: własne]
Rysunek 71 „Wskaźniki nDCG dla zapytań w języku angielskim – 3” [źródło: własne]
Rysunek 72 “Wskaźniki nDCG dla zapytań w języku rosyjskim - 2”
Rysunek 73 “Wskaźniki nDCG dla zapytań w języku rosyjskim - 3”
Rysunek 74 “Ranking wyszukiwarek w 2017 w Rosji” [73]
Rysunek 75 “Ogólne wyniki badań nDCG”
Rysunek 76 “Ogólne wyniki badań nDCG - 3”
73
Spis tabel:
Tabela 1 „Internauci na całym świecie” [źródło: [4]]
Tabela 2 „Wzrost łącznej liczby witryn w ciągu ostatnich 20 lat” [źródło: [7]]
Tabela 3 „Poziomy interakcji między użytkownikiem a wyszukiwarką”
Tabela 4 „Poziomy ocen relewantności z opisami” [źródło: [70] [71] [72]]
Tabela 5 „Zapytania w języku polskim”
Tabela 6 „Wskaźniki nDCG dla zapytań w języku polskim”
Tabela 7 „Zapytania w języku angielskim”
Tabela 8 „Wskaźniki nDCG dla zapytań w języku angielskim”
Tabela 9 „Zapytania w języku rosyjskim”
Tabela 10 „Wskaźniki nDCG dla zapytań w języku rosyjskim”
Tabela 10 „Ogólne wyniki badań nDCG - 2”
Tabela 11 „Test statystyczny dla pary Google i Agregator”
Tabela 12 „Wyniki testu statystycznego dla pary Google i Agregatora”
Tabela 13 „Test statystyczny dla pary Bing i Agregator”
Tabela 14 „Wyniki testu statystycznego dla pary Bing i Agregatora”
Tabela 15 „Test statystyczny dla pary Yandex i Agregator”
Tabela 16 „Wyniki testu statystycznego dla pary Yandex i Agregatora”
74
Literatura
[1] Statystyka użytkowania internetu, https://www.internetworldstats.com/stats.htm, data
ostatniego dostępu: 28.02.2018.
[2] Globalne wykorzystanie Internetu, https://en.wikipedia.org/wiki/Global_Internet_usage,
data ostatniego dostępu: 28.02.2018.
[3] Internauci na 100 mieszkańców,
https://en.wikipedia.org/wiki/Global_Internet_usage#/media/File:Internet_users_per_100
_inhabitants_ITU.svg, data ostatniego dostępu: 28.02.2018.
[4] Kluczowe wskaźniki ICT dla krajów rozwiniętych i rozwijających się oraz świata,
http://www.itu.int/en/ITU-D/Statistics/Documents/statistics/2014/ITU_Key_2005-
2014_ICT_data.xls data ostatniego dostępu: 28.02.2018.
[5] Informacja o „Internet Live Stats, http://www.internetlivestats.com/about/, data ostatniego
dostępu: 28.02.2018.
[6] http://www.internetlivestats.com/, data ostatniego dostępu: 28.02.2018.
[7] Łączna liczba stron internetowych, http://www.internetlivestats.com/total-number-of-
websites/, data ostatniego dostępu: 26.02.2018.
[8] Użytkownicy Internetu, http://www.internetlivestats.com/internet-users/, data ostatniego
dostępu: 26.02.2018.
[9] Statystyki wyszukiwarki Google, http://www.internetlivestats.com/google-search-
statistics/, data ostatniego dostępu: 26.02.2018.
[10] Zalety meta-wyszukiwania, http://internetno.net/category/shpargalki/meta-search/, data
ostatniego dostępu: 26.02.2018.
[11] Indeksacja w systemach wyszukiwania https://ru.wikipedia.org/wiki/
Индексация_в_поисковых_системах, data ostatniego dostępu: 26.02.2018
[12] Blokowanie dostępu do treści w witrynie,
https://support.google.com/webmasters/topic/4598466?hl=pl&ref_topic=4617736, data
ostatniego dostępu: 28.02.2018
[13] https://en.wikipedia.org/wiki/Metasearch_engine, data ostatniego dostępu: 28.02.2018
[14] System meta-wyszukiwania, https://ru.wikipedia.org/wiki/Метапоисковая_система,
data ostatniego dostępu: 26.02.2018
[15] Metasearch Engines, Weiyi Meng
http://www.cs.binghamton.edu/~meng/pub.d/EDBS_Metasearch.pdf, data ostatniego dostępu:
26.02.2018
[16] Ranking algorithm for meta search engine, Mr. Biraj Patel and Dr. Dipti Shah,
http://www.technicaljournalsonline.com/ijaers/VOL%20II/IJAERS%20VOL%20II%20ISSU
E%20I%20%20OCTBER%20DECEMBER%202012/231.pdf, data ostatniego dostępu:
26.02.2018
[17] https://en.wikipedia.org/wiki/Dogpile, data ostatniego dostępu: 01.03.2018
[18] https://en.wikipedia.org/wiki/Ixquick, data ostatniego dostępu: 01.03.2018
[19] https://en.wikipedia.org/wiki/MetaCrawler, data ostatniego dostępu: 01.03.2018
[20] Porównanie metod oceny jakości wyszukiwania, Roman Poborchy, 2015
https://events.yandex.ru/lib/talks/2344/, data ostatniego dostępu: 01.03.2018
[21] https://www.theregister.co.uk/2012/12/18/search_engines_we_have_known/?page=3,
data ostatniego dostępu: 02.03.2018
[22] Klastrowanie w wyszukiwarkach, https://en.wikipedia.org/wiki/Document_clustering#
Clustering_in_search_engines, data ostatniego dostępu: 02.03.2018
[23] Meta-wyszukiwarka Nigma, https://ru.wikipedia.org/wiki/Нигма, data ostatniego
dostępu: 02.03.2018
75
[24] Wyszukiwarka DuckDuckGo, https://en.wikipedia.org/wiki/DuckDuckGo, data
ostatniego dostępu: 02.03.2018
[25] http://natemat.pl/56717,duckduckgo-powstalo-ze-zlosci-na-googla-wyszukiwarka-ktora-
nie-sledzi-uzytkownika-zagrozi-gigantowi, data ostatniego dostępu: 02.03.2018
[26] Wyniki wyszukiwania SERP, https://www.seopilot.pl/wiki/Wyniki_wyszukiwania_-
_SERP.html, data ostatniego dostępu: 02.03.2018
[27] https://www.artefakt.pl/blog/slownik-seo/co-jest-serp-wyniki-wyszukiwania#wyniki ,
data ostatniego dostępu: 02.03.2018
[28] Snippet, https://www.seopilot.pl/wiki/Snippet.html, data ostatniego dostępu: 02.03.2018
[29] Zapytanie do wyszukiwarki, https://en.wikipedia.org/wiki/Web_search_query, data
ostatniego dostępu: 02.03.2018
[30] Organiczne wyniki wyszukiwania,
https://en.wikipedia.org/wiki/Search_engine_results_page# Organic_results, data ostatniego
dostępu: 02.03.2018
[31] https://pl.wikipedia.org/wiki/Wyniki_organiczne, data ostatniego dostępu: 02.03.2018
[32] Catherine Juon, Dunrie Greiling, Catherine Buerkle (2011) “Internet Marketing Start to
Finish: Drive measurable” ISBN 978-0-7897-4789-1
[33] Co to jest SERP, https://www.artefakt.pl/blog/slownik-seo/co-jest-serp-wyniki-
wyszukiwania, data ostatniego dostępu: 02.03.2018
[35] Broder, A. (2002). A taxonomy of Web search. SIGIR Forum, 36(2), 3–10.
[36] https://en.wikipedia.org/wiki/Web_search_query, data ostatniego dostępu 02.03.2018
[37] https://pl.wikipedia.org/wiki/Wyniki_organiczne#/media/File:Wyniki_wyszukiwania
_(organiczne_i_p%C5%82atne).jpg, data ostatniego dostępu: 02.03.2018
[38] https://ahrefs.com/serp-checker, data ostatniego dostępu 02.03.2018
[39] https://webpozycja.pl/, data ostatniego dostępu 02.03.2018
[40] https://www.seopilot.pl/news_id172.html, data ostatniego dostępu 02.03.2018
[41] https://www.silesiasem.pl/senuto-pod-lupa-czyli-wszystko-o-analizie-widocznosci-w-
google, data ostatniego dostępu 02.03.2018
[42] https://www.senuto.com/analiza-widocznosci-2/, data ostatniego dostępu 02.03.2018
[43] https://www.google.com/webmasters/tools/search-analytics, data ostatniego dostępu
21.04.2018
[44] Google Search Console, https://pl.wikipedia.org/wiki/Google_Search_Console, data
ostatniego dostępu 02.03.2018
[45] Wyszukiwarka Google nadal bezkonkurencyjna, 2008
https://www.artefakt.pl/blog/seo/wyszukiwarka-google-nadal-bezkonkurencyjna, data
ostatniego dostępu 02.03.2018
[46] Ranking światowych wyszukiwarek, http://k2search.pl/ranking-swiatowych-
wyszukiwarek-google-bing-yahoo-baidu-yandex-seznam/, data ostatniego dostępu 02.03.2018
[47] https://events.yandex.ru/lib/talks/2344#search, data ostatniego dostępu 14.03.2018
[48] Ocena efektywności wyszukiwania informacji w Internecie,
https://www.slideshare.net/Szorstki/ocena-efektywnoci-wyszukiwania-informacji-w-
internecie, data ostatniego dostępu 09.04.2018
[49] Introduction to Informal Retrieval,
https://web.stanford.edu/class/cs276/handouts/EvaluationNew-handout-6-per.pdf, data
ostatniego dostępu 09.04.2018
[50] Wyszukiwanie informacji, https://ru.wikipedia.org/wiki/Информационный_поиск, data
ostatniego dostępu 09.04.2018
[51] https://en.wikipedia.org/wiki/Precision_and_recall, data ostatniego dostępu 09.04.2018
[52] https://en.wikipedia.org/wiki/Discounted_cumulative_gain, data ostatniego dostępu
09.04.2018
76
[53] Search Engines, Chapter 8 – Evaluating Search Engines, Felix Naumann, 2009
https://hpi.de/fileadmin/user_upload/fachgebiete/naumann/folien/SS09/SE_VL/SearchEngine
s_08_Evaluation.pdf, data ostatniego dostępu 09.04.2018
[54] Discounted cumulative gain,
https://en.wikipedia.org/wiki/Discounted_cumulative_gain#Normalized_DCG, data
ostatniego dostępu 09.04.2018
[55] Relevance Ranking and Evaluation of Search Results through Web Content Mining, G.
Poonkuzhali, R. Kishore Kumar, P. Sudhakar, G.V.Uma, K.Sarukesi, 2012,
https://pdfs.semanticscholar.org/ade6/ccf5c06572d07c3d517be5bc3d34146013fc.pdf, data
ostatniego dostępu 09.04.2018
[56] Google Quality Raters General Guidelines,
https://static.googleusercontent.com/media/www.google.com/ru//insidesearch/howsearchwork
s/assets/searchqualityevaluatorguidelines.pdf, data ostatniego dostępu 09.04.2018
[57] https://en.wikipedia.org/wiki/Google_Search, data ostatniego dostępu 09.04.2018
[58] https://ru.wikipedia.org/wiki/ Google_(поисковая_система), data ostatniego dostępu
09.04.2018
[59] http://9186748.ru/top-10-poiskovyh-sistem-mira-na-2017g/, data ostatniego dostępu
09.04.2018
[60] https://en.wikipedia.org/wiki/Bing_(search engine), data ostatniego dostępu 09.04.2018
[61] https://ru.wikipedia.org/wiki/Bing, data ostatniego dostępu 09.04.2018
[62] https://ru.wikipedia.org/wiki/Яндекс_(поисковая_система), data ostatniego dostępu
09.04.2018
[63] Zasady działania Yandex, http://www.seodiplom.ru/3-poiskovie-sistemi/princip-raboti-
yandex/, data ostatniego dostępu 09.04.2018
[64] Position No. 1 in Google Gets 33% of Search Traffic, Jessica Lee, 2013,
https://searchenginewatch.com/sew/study/2276184/no-1-position-in-google-gets-33-of-
search-traffic-study, data ostatniego dostępu 09.04.2018
[65] Chitika Insights The Value of Google Result Positioning, 2013,
http://info.chitika.com/uploads/4/9/2/1/49215843/chitikainsights-
valueofgoogleresultspositioning.pdf, data ostatniego dostępu 09.04.2018
[66] https://searchenginewatch.com/sew/study/2276184/no-1-position-in-google-gets-33-of-
search-traffic-study#top10, data ostatniego dostępu 09.04.2018
[67] https://digitalsynopsis.com/tools/google-serp-design/, data ostatniego dostępu 09.04.2018
[68] Rodzaje zapytań, 2017, https://kabaev-kb.ru/teoriya/tipy-poiskovyh-zaprosov/#, data
ostatniego dostępu 09.04.2018
[69] https://chrome.google.com/webstore/detail/link-klipper-extract-
all/fahollcgofmpnehocdgofnhkkchiekoo, data ostatniego dostępu 09.04.2018
[70] https://searchengineland.com/the-google-quality-raters-handbook-13575, data ostatniego
dostępu 09.04.2018
[71] Google Quality Raters General Guidelines - Page Quality Rating Guideline,
https://static.googleusercontent.com/media/www.google.com/ru//insidesearch/howsearchwork
s/assets/searchqualityevaluatorguidelines.pdf#page-quality-rating-guideline, data ostatniego
dostępu 09.04.2018
[72] Przewodnik Yandex, https://promoexpert.pro/wp-content/uploads/2014/07/asessor-
2013.pdf?x95516, data ostatniego dostępu 09.04.2018
[73] Ocena wyszukiwarek w 2017 r. (Statystyki krajów WNP i świata), Anton Judin, 2017
https://marketer.ua/rejting-poiskovyh-sistem-v-2017-statistika-stran-sng-i-mira/, data
ostatniego dostępu 09.04.2018
[74] Kutovenko Alexey Alekseevich (2011) “Профессиональный поиск в Интернете”,
ISBN: 9785459003345
77
[75] https://en.wikipedia.org/wiki/Cyril_Cleverdon, data ostatniego dostępu 29.03.18
[76] http://yippy.com/, data ostatniego dostępu 20.04.2018
[77] https://www.izito.com/, data ostatniego dostępu 20.04.2018
[78] http://www.webcrawler.com/, data ostatniego dostępu 20.04.2018
[79] https://duckduckgo.com/, data ostatniego dostępu 20.04.2018
[80] http://www.serp.watch/, data ostatniego dostępu 21.04.2018
[81] Wilcoxon, F. (1945). Individual comparisons by ranking methods. Biometrics, 1, 80-83.
[82] Wilcoxon Signed-Rank Test, http://vassarstats.net/wilcoxon.html, data ostatniego
dostępu 24.01.2018