Praca dyplomowa - magisterskakopel/mgr/2018.06_mgr_Buben.pdfWydział Informatyki i Zarządzania kierunek studiów: Informatyka specjalność: Systemy informacyjne Praca dyplomowa -

.

Wydział Informatyki i Zarządzania

kierunek studiów: Informatyka specjalność: Systemy informacyjne

Praca dyplomowa - magisterska

Agregator wyników zapytań w wyszukiwarkach

internetowych Agregator of results gathered from Internet search engines

Maksim Buben

słowa kluczowe:

search engines

quality raters

agregator

Krótkie streszczenie:

Ta praca ma na celu zbadanie dziedziny zastosowania agregatorów wyników

wyszukiwania, w których jakość uzyskanych wyników będzie wyższa niż jakość

poszczególnych wyszukiwarek, wyniki wyszukiwania, których zostaną

wykorzystane w tworzeniu zagregowanych wyników.

opiekun pracy

dyplomowej

Dr inż. Marek Kopel ....................... ....................... Tytuł/stopień naukowy/imię i nazwisko ocena podpis

Do celów archiwalnych pracę dyplomową zakwalifikowano do:*

a) kategorii A (akta wieczyste)

b) kategorii BE 50 (po 50 latach podlegające ekspertyzie) * niepotrzebne skreślić

pieczątka wydziałowa

Wrocław 2018

1

Streszczenie Tematem niniejszej pracy magisterskiej jest agregator wyników zapytań w

wyszukiwarkach internetowych. Opisano zarówno istniejące systemy meta-wyszukiwania, jak

i meta-wyszukiwarki, które przestały i obecnie nie są wykorzystywane przez użytkowników

Internetu. Przeanalizowano przyczyny tego zjawiska oraz zaproponowano sposoby rozwoju

systemów informacyjnych typu metasearch search engine.

W pierwszej części niniejszej pracy przybliżono podstawowe pojęcia niezbędne do

zrozumienia zasad funkcjonowania takiego rodzaju systemów: SERP (Search engine results

page), Snippet, Search query (Zapytanie), Rodzaje zapytań, Organic results (Wyniki

organiczne).

Zaprezentowano również pojęcia konieczne do oceny jakości zagregowanych wyników

wyszukiwań: Relewantność, Pertynentność, Assesor (Ассесор), Quality Rater, Discounted

Cumulated Gain – DCG, Normalized Discounted Cumulated Gain - nDCG.

Podano przykłady wykorzystania agregacji wyników wyszukiwania.

W drugiej części niniejszej pracy opisano i zaimplementowano agregator wyników

wyszukiwania na podstawie pozycji w wynikach wyszukiwania, których wyniki zostały

wykorzystane w utworzeniu wyników agregacji.

W trzeciej części pracy zbadano jakość wyników wyszukiwania agregatora na

podstawie preferencji użytkownika. Przygotowano dokumentację do oceny jakości, korzystając

z dwóch przewodników oceny jakości wyszukiwania: Google Przewodnik oceny jakości

wyszukiwania (Search Quality Evaluator Guidelines), Yandex Przewodnik dla Asesora

(Руководство для Ассесора).

Zespół badawczy składał się z 15 osób: specjalistów SEO, specjalistów PPC,

programistów oraz specjalistów ds. marketingu internetowego.

Oceny przyznawane przez użytkowników składały się na analizę jakości zarówno

poszczególnych wyszukiwarek (Google, Bing, Yandex), jak i agregatora, wykorzystującego

dane z wyszukiwarek w tworzeniu własnych wyników. Zapytania do wyszukiwarek wysyłano

w trzech językach. Miały one charakter zapytań o stan faktyczny.

W podsumowaniu przedstawiono wnioski na temat uzyskanych wyników. Na ich

podstawie można stwierdzić, że korzystanie z agregatorа wyników zapytań dla zapytań o

aktualnym stanie jest uzasadnione i może poprawić jakość wyników wyszukiwania,

zwiększając zadowolenie użytkownika.

2

Abstract The subject of my master's thesis is: “The aggregator of results gathered from Internet

search engines.

In my master's thesis, I have described existing meta-search systems and also meta-

search engines, have stopped working in the recent past. The reasons for this phenomenon are

analyzed. The methods of development of this type of information systems have been proposed.

The first part of my work describes the basic concepts necessary to understand the

principles of functioning of such systems, such as: SERP (Search engine results page),

Snippet, Search query, Types of queries, Organic results.

The concepts necessary to evaluate the quality of aggregated search results have also

been described: Relevance, Pertinence, Assessor, Quality Rater, Discounted Cumulated Gain

– DCG, Normalized Discounted Cumulated Gain - nDCG.

Examples are provided of the use of aggregation of search results.

In the second part of my work, a search results aggregator was described and implemented

based on positions in search results, the results of which were used to create aggregation results.

In the third part of my, the quality of the aggregator search results was tested based on

the user's preferences. Prepared documentation for this evaluation based on two search quality

evaluator guides from Google and Yandex: Search Quality Evaluator Guidelines, Guide for

Assessor from Yandex.

As a research team, there were 15 people involved: SEO specialists, PPC specialists,

programmers and internet marketing specialists.

On the basis of user ratings, a quality evaluation was made, like individual search

engines (Google, Bing, Yandex), as well as an aggregator that used data from search engines

to create its own results. Inquiries for search engines were in three languages and had the

character of inquiries about the actual state.

In summary, I presented conclusions on the obtained results. Based on these results, it

can be concluded that using an aggregator of query results for queries about the current state is

justified and can improve the quality of search results, which in turn increases user satisfaction.

3

Spis treści

Wstęp ............................................................................................................................... 5 Przegląd stanu wiedzy w dziedzinie agregacji wyników zapytań ................................................ 9

Meta-wyszukiwanie standardowe ................................................................................................ 11

Meta-wyszukiwanie zaawansowane ............................................................................................ 13

Meta-wyszukiwarka Nigma .......................................................................................................... 15

Duckduckgo.com .......................................................................................................................... 16

Podsumowanie ............................................................................................................................. 17

Obszary wykorzystania agregacji wyników zapytań ................................................................ 19 Wyniki wyszukiwania (SERP)......................................................................................................... 20

Snippet .......................................................................................................................................... 20

Search query (Zapytanie) .............................................................................................................. 21

Organic results (Wyniki organiczne) ............................................................................................. 21

Rodzaje zapytań ............................................................................................................................ 22

Przykłady narzędzi wykorzystujących agregację wyników wyszukiwania ................................. 23 Ahrefs ............................................................................................................................................ 23

Webpozycja .................................................................................................................................. 25

Serp.watch .................................................................................................................................... 25

Senuto ........................................................................................................................................... 26

Google Search Console ................................................................................................................. 26

Podsumowanie ............................................................................................................................. 27

Faza konceptualna .......................................................................................................... 31 Zdefiniowanie podstawowych pojęć do oceny jakości systemu wyszukiwania informacji .......... 31

Dokładność (precision) ................................................................................................................. 33

Kompletność (recall) ..................................................................................................................... 33

Fall-out .......................................................................................................................................... 34

F-miara (F-measure, miara Van Riesbergena) .............................................................................. 34

Discounted Cumulative Gain ........................................................................................................ 37

Normalized Discounted Cumulative Gain ..................................................................................... 37

Cel pracy ................................................................................................................................ 39 Koncepcja realizacji agregacji ................................................................................................. 40

Opis algorytmu agregacji .............................................................................................................. 40

Algorytm rankingowania .............................................................................................................. 40

Wybór wyszukiwarek .................................................................................................................... 41

Wybór rodzaju zapytań ................................................................................................................. 47

Podsumowanie ............................................................................................................................. 49

Wybór zapytań dla agregacji wyników.................................................................................... 50

Faza Implementacyjna .................................................................................................... 52 Omówienie szczegółów implementacji agregatora na podstawie pozycji w poszczególnych wyszukiwarkach ..................................................................................................................... 52

Faza Badawcza ................................................................................................................ 56 Opis grupy i procedury badawczej ........................................................................................... 56 Opracowanie dokumentacji oceny jakości wyników zapytań na podstawie ocen użytkowników (raterów) ............................................................................................................................... 56 Przeprowadzenie oceny jakości agregowanych wyników na podstawie NDCG .......................... 58

4

Zapytania w języku polskim .......................................................................................................... 58

Zapytania w języku angielskim ..................................................................................................... 60

Zapytania w języku rosyjskim ....................................................................................................... 62

Opracowanie wyników badań ................................................................................................ 65 Testy statystyczne .................................................................................................................. 66 Podsumowanie ...................................................................................................................... 70

Wnioski wynikające z realizacji badań .......................................................................................... 70

Potrzeba kontynuacji prac ............................................................................................................ 70

Spis ilustracji:.................................................................................................................. 71

Spis tabel: ....................................................................................................................... 73

Literatura ....................................................................................................................... 74

5

Wstęp

Obecnie mamy do czynienia z dynamicznie zmieniającą się liczbą danych w Internecie.

Globalna sieć to rosnący organizm, który wymaga narzędzi usprawniających sprawny przepływ

informacji. Należą do nich przede wszystkim aplikacje i systemy służące do wyszukiwania.

Dlatego rozwój i ciągłe doskonalenie jakości wyszukiwarek powinno być jednym z głównych

zadań znajdujących się w obszarze badań.

Według danych z czerwca 2017 r. 51% światowej populacji ma dostęp do Internetu

[1]. Około 2 miliardy użytkowników pochodziło z krajów rozwijających się, а 89 milionów z

krajów mniej rozwiniętych. [2]

Rys.1 “Użytkownicy Internetu na 100 mieszkańców” [źródło [3][4]]

Na podstawie informacji z tabeli 1 można założyć, że w przyszłości główny wzrost

liczby użytkowników Internetu będzie wynikał ze wzrostu wskaźników krajów rozwijających

się, dla których potencjał szybkiego wzrostu nie został jeszcze do końca wyczerpany.

Tabela 1: Internauci na całym świecie [4]

2005 2010 2016

Populacja świata 6.5

miliarda

6.9

miliarda

7.3

miliarda

Użytkownicy na całym świecie 16% 30% 47%

Użytkownicy z krajów rozwijających się 8% 21% 40%

Użytkownicy z krajów rozwiniętych 51% 67% 81%

6

Zgodnie z danymi „Internet Live Stats” – projektem, którego celem jest udostępnienie

statystyk o Internecie w dynamicznym formacie dla szerokiego grona odbiorców na całym

świecie [5] na dzień 26.02.2018 o godzinie 14.00 otrzymujemy następujące wyniki: [6]

Całkowita liczba stron internetowych 1 341 180 889 [7]

Użytkownicy Internetu na świecie: 3 857 089 345 [8]

Wyszukiwania Google na sekundę: 65 529 [9]

Liczba filmów z YouTube oglądanych na sekundę: 72 845 [6]

Liczba e-maili wysyłanych na sekundę: 2 669 778 [6]

Interesująca jest także tendencja wzrostu wielkości Internetu w ciągu ostatnich 20 lat,

jeśli porównamy ten wzrost z wejściem na rynek firm, które później stały się znaczącymi

graczami w branży internetowej. [7]

Tendencja jest pokazana w tabeli 2.

Rys. 2 “Łączna liczba witryn” [źródło [7]]

7

Tabela 2 ”Wzrost łącznej liczby witryn w ciągu ostatnich 20 lat” [7]

Powyższe dane są z pewnością imponujące, ale nie pozwalają w pełni przedstawić

prawdziwej, łącznej liczby witryn w Internecie. Niestety, żadna z wyszukiwarek, a tym bardziej

Rok Witryny Zmiana Użytkownicy

internetu

Użytkowników na

stronę

Uruchomiono witryny

internetowe

2015 863 105

652 -11% 3 185 996 155* 3.7

2014 968 882

453 44% 2 925 249 355 3.0

2013 672 985

183 -3% 2 756 198 420 4.1

2012 697 089

489 101% 2 518 453 530 3.6

2011 346 004

403 67% 2 282 955 130 6.6

2010 206 956

723 -13% 2 045 865 660 9.9 Pinterest

2009 238 027

855 38% 1 766 206 240 7.4

2008 172 338

726 41% 1 571 601 630 9.1 Dropbox

2007 121 892

559 43% 1 373 327 790 11.3 Tumblr

2006 85 507 314 32% 1 160 335 280 13.6 Twttr

2005 64 780 617 26% 1 027 580 990 16 YouTube, Reddit

2004 51 611 646 26% 910 060 180 18 Thefacebook, Flickr

2003 40 912 332 6% 778 555 680 19 WordPress, LinkedIn

2002 38 760 373 32% 662 663 600 17

2001 29 254 370 71% 500 609 240 17 Wikipedia

2000 17 087 182 438% 413 425 190 24 Baidu

1999 3 177 453 32% 280 866 670 88 PayPal

1998 2 410 067 116% 188 023 930 78 Google

1997 1 117 255 334% 120 758 310 108 Yandex

1996 257 601 996% 77 433 860 301

1995 23 500 758% 44 838 900 1,908 Altavista, Amazon,

AuctionWeb

1994 2 738 2006% 25 454 590 9,297 Yahoo

1993 130 1200% 14 161 570 108,935

1992 10 900%

Aug.

1991 1 World Wide Web Project

8

algorytmy wyszukiwania nie są w stanie samodzielnie objąć wszystkich niekończących się

zasobów Internetu. Dlatego liczba i rodzaj zaindeksowanych dokumentów różni się w

poszczególnych wyszukiwarkach. [10]

By zrozumieć specyfikę procesu wyszukiwania, poniżej przedstawiono definicję

indeksowania.

Indeksowanie w wyszukiwarkach (indeksowanie stron) - proces dodawania

informacji za pomocą robotów wyszukiwarek do bazy danych, a następnie wykorzystywania

tej zaindeksowanej informacji do wyszukiwania na zaindeksowanych stronach. [11]

Zaindeksowana informacja o stronie internetowej często zawiera słowa kluczowe

(algorytm wyznaczania słów kluczowych zależy od wyszukiwarki), artykuły, linki, dokumenty.

Również obrazy lub pliki audio mogą być indeksowane.

Aby kontrolować indeksowanie własnych witryn przez wyszukiwarki internetowe,

webmasterzy posługują się plikiem robots.txt i dyrektywami: Disallow, Allow, User-agent,

crawl-delay itp. Do dyspozycji pozostaje również tag <noindex> i atrybut <nofollow>. [12]

Algorytmy i czas indeksowania poszczególnych wyszukiwarek znacznie się różnią.

Na przykład szybkość indeksowania nowych stron w systemie wyszukiwania Yandex trwa od

tygodnia do czterech tygodni, a w Google - od kilku minut do jednego tygodnia. [11]

Aby poszerzyć możliwości wyszukiwania poprzez agregowanie wyników

wyszukiwania poszczególnych wyszukiwarek, zostały stworzone systemy wyszukiwania,

zwane agregatorami wyników zapytań, czyli meta-wyszukiwarkami.

Meta-wyszukiwarka to wyszukiwarka, która po wpisaniu zapytania wysyła

równolegle kilka niezależnych od siebie zapytań do tradycyjnych wyszukiwarek i zwraca

wyniki w ujednoliconej liście wyników, działając jako pośrednik między użytkownikiem oraz

kilkoma wyszukiwarkami internetowymi. [10]

Temat rozwoju tego typu systemów informatycznych oraz aktualny stan wiedzy w

dziedzinie agregacji wyników zapytań zostanie szczegółowo opisany w następnej części

niniejszej pracy magisterskiej.

9

Przegląd stanu wiedzy w dziedzinie agregacji wyników zapytań

W literaturze przedmiotu istnieje kilka definicji systemów agregacji wyników zapytań,

które chociaż różnią się od siebie, posiadają kilka cech wspólnych. Zwracając uwagę na istotne

elementy tego typu systemu informacyjnego, otrzymujemy następującą definicję:

Agregator wyników zapytań w wyszukiwarkach internetowych (także agregator lub

meta-wyszukiwarka) to narzędzie wyszukiwania, które wykorzystuje dane z innych

wyszukiwarek do generowania własnych wyników z Internetu. Agregator pobiera dane

wejściowe od użytkownika i jednocześnie wysyła zapytania do zewnętrznych wyszukiwarek w

celu uzyskania wyników. Zebrane informacje zostają sformatowane według indywidualnego

rankingu agregatora i przedstawione użytkownikom. [13]

Agregator wyników wyszukiwania - to system informacyjny, który w przeciwieństwie

do klasycznych wyszukiwarek nie posiada własnej bazy danych i własnego indeksu

wyszukiwania, ale generuje wyniki wyszukiwania poprzez mieszanie i przerankowanie

wyników wyszukiwania innych wyszukiwarek. [14]

Zagregowane wyniki są wyświetlane użytkownikowi bez powielania linków i jeśli to

możliwe poprawiane są wyniki wyjściowe za pomocą rozwiązań informatycznych agregatora,

działając jako pośrednik między użytkownikiem i wyszukiwarkami. [10]

Dostępność kilku indeksowych baz danych dokumentów sieciowych gromadzonych za

pomocą różnych metod i algorytmów generuje niszę dla całej klasy systemów meta-

wyszukiwania.

Takie systemy nie zbierają informacji niezależnie, ale wysyłają zapytanie użytkownika

do kilku innych wyszukiwarek, łączą wyniki wyszukiwania, wykonują dodatkowe

przetwarzanie i wydają uogólnioną odpowiedź. Powoduje to zwiększenie zasięgu

wyszukiwania poprzez przetwarzanie danych z różnych baz indeksu. [74]

Ponadto meta-wyszukiwarka oszczędza czas użytkownika, który musiałby posiadać

osobisty dostęp do wszystkich niezbędnych serwerów, aby dotrzeć do podobnych danych

zagregowanych ręcznie z różnych wyszukiwarek. Jest to schemat w pełni rozwiniętego systemu

meta-wyszukiwania. [74]

Istnieje również szereg serwisów meta-wyszukiwania, które nie przeprowadzają

własnej analizy wyników. W skrajnym przypadku można po prostu uzyskać kilka oddzielnych

stron z wynikami różnych wyszukiwarek. Zasadniczo takie podejście może funkcjonować

jedynie w początkowej fazie rozwoju meta-wyszukiwarki. Bardziej dotkliwy staje się problem

przetwarzania wyników meta-search w przypadku oddzielnej wyszukiwarki. Z tego względu

wiele ciekawych, eksperymentalnych rozwiązań można zobaczyć właśnie w takim rodzaju

systemów informacyjnych. [74]

Główną zaletą meta-wyszukiwania jest możliwość szybkiego i wygodnego generowania

zapytania za pomocą jednej linii wyszukiwania do wielu wiodących wyszukiwarek

internetowych, co oszczędza czas, a analiza pojedynczego zestawienia wyników staje się

znacznie łatwiejsza niż przetwarzanie wielu różnych wyników przy dużym powielaniu

wyników. [10]

Każda wyszukiwarka to unikalny system z unikatowymi narzędziami do indeksowania,

wyszukiwania i udostępniania informacji. Nie każda wyszukiwarka, nawet ta najbardziej

popularna w danym kraju, nie posiada pełnych danych. Dlatego warto wziąć pod uwagę inne

meta-wyszukiwarki. Za pomocą agregowania wyników wyszukiwania możemy korzystać z

zalet kilku wyszukiwarek jednocześnie. Używając agregatora wyników zapytań, dostęp do

informacji w Internecie zawsze będzie znacznie szerszy niż uzyskiwanie informacji za pomocą

poszczególnych wyszukiwarek. [10]

Arbitralnie systemy meta-wyszukiwania można podzielić na dwie grupy:

Meta-wyszukiwanie standardowe

10

Meta-wyszukiwanie zaawansowane.

Szczegółowy opis każdego rodzaju meta-wyszukiwania zaprezentowano w następnej

części niniejszej pracy.

11

Meta-wyszukiwanie standardowe

Rozpatrując tego rodzaju agregację, warto zauważyć, że ze względu na prostą strukturę

standardowe agregatory praktycznie nie wymagają dużych początkowych nakładów na

realizację projektu. Większość z tych systemów informatycznych posiada długą historię i jest

dobrze znana doświadczonym internautom, ale ze względu na ich zasadniczo identyczną

strukturę nie zostaną one przeanalizowane w niniejszej pracy indywidualnie. [10]

Na rysunku 3 zaprezentowana została architektura klasycznego agregatora wyników

zapytań (meta-wyszukiwarki).

Rys. 3 “Architektura silnika meta-wyszukiwarki” [źródło [13]]

Agregator wyników zapytań przyjmuje jedno zapytanie wyszukiwania od użytkownika,

które jest następnie przekazywane do innej bazy danych wyszukiwarki. Mechanizm meta-

wyszukiwarek nie tworzy własnych bazy danych stron internetowych, ale generuje wirtualną

bazę danych w celu integracji danych z wielu źródeł. [15] [16]

Ponieważ każda wyszukiwarka jest unikalna i ma indywidualne algorytmy generowania

danych rankingowych, duplikaty również zostaną wygenerowane. Aby usunąć kopie, silnik

meta-wyszukiwarki przetwarza dane i stosuje własne algorytmy. Ujednolicona lista zostaje

stworzona jako wynik dla użytkownika. [13]

Rys. 4 „Wizualizacja agregacji wyników wyszukiwania” [źródło [20]]

Poniżej przedstawiono kilka przykładów agregatorów wyników zapytań (meta-

wyszukiwarek):

12

IxQuick

Ixquick zwraca dziesięć pierwszych wyników z wielu wyszukiwarek. Agregator

wyników wyszukiwania używa "Systemu Star", aby uszeregować wyniki, przyznając jedną

gwiazdkę za każdy wynik, który został zwrócony z wyszukiwarki. Tym samym najlepsze

wyniki wyszukiwania to te, które zostały zwrócone przez większość wyszukiwarek. [18]

System meta-wyszukiwania Ixquick współpracuje z dziesięcioma zewnętrznymi

bazami danych. Są to wyszukiwarki Bing, Yahoo! Ask, All the Web, Cuil, Entire Web,

Gigablast, katalogi Open Directory i Wikipedia. Zasięg systemów powinien zostać uznany za

wystarczająco szeroki, co czyni ten meta-finder bardzo cennym zasobem. [74]

Ixquick może wyszukiwać dane w 17 językach: uproszczonym i tradycyjnym chińskim,

duńskim, holenderskim, angielskim, fińskim, francuskim, niemieckim, włoskim, japońskim,

koreańskim, norweskim, polskim, portugalskim, hiszpańskim, szwedzkim i tureckim. Każda

wersja językowa obejmuje lokalne wyniki wyszukiwarki. [18]

Ixquick oferuje standardowe narzędzia do pracy z operatorami logicznymi:

wyszukiwanie z obowiązkowym włączeniem lub wyłączeniem określonych słów kluczowych,

wyszukiwanie z użyciem dokładnej frazy. Do funkcji agregatora należy również obsługiwanie

wyszukiwania w tytułach stron i adresach tekstowych, ograniczając wyszukiwanie do

określonej domeny. Ixquick umożliwia także znalezienie linków do witryn na stronie

internetowej zdefiniowanej przez użytkownika. [74]

MetaCrawler

MetaCrawler to meta-wyszukiwarka, która łączy wyniki m.in. z takich wyszukiwarek

internetowych jak: Google, Yahoo!, Bing (dawniej Live Search), Ask.com, About.com, MIVA,

LookSmart. MetaCrawler udostępnia użytkownikom opcję wyszukiwania zdjęć, filmów,

wiadomości, katalogów telefonicznych firmowych i osobistych, a nawet dźwięku. [19]

Ponadto do meta-wyszukiwarek korzystających z meta-wyszukiwania standardowego

należą:

ZapMeta

Draze

MetaSearch

MetaEureka

Search.com

Rys. 5 “Meta-wyszukiwarka Quick” [źródło [18]]

Rys. 6 “Meta-wyszukiwarka MetaCrawler” [źródło [19]]

13

Różnice między poszczególnymi systemami meta-wyszukiwania standardowego

polegają jedynie na zastosowaniu różnych interfejsów podczas projektowania danych

systemów meta-wyszukiwania.

Meta-wyszukiwanie zaawansowane

Istnieje kilka podstawowych cech charakterystycznych dla zaawansowanego meta-

wyszukiwania:

Silne przetwarzanie wyników wyszukiwania otrzymanych z klasycznych

wyszukiwarek.

Zazwyczaj w pierwszym etapie zaraz po otrzymaniu wyników od wyszukiwarek

następuje niezależne rankowanie wszystkich opisów otrzymanych dokumentów. Następnie

wyniki są dodatkowo analizowane oraz korelowane z uwzględnieniem miejsca, które

zajmowały w poszczególnych wynikach wyszukiwania, i łączną liczbą podobnych

dokumentów znalezionych w poszczególnych wyszukiwarkach (tj. wyniki poszczególnych

wyszukiwarek stają się przedmiotem rankingu, a także aktywnej analizy przeprowadzanej przez

silnik meta-wyszukiwarki). Skuteczność rankowania zależy od poziomu zaawansowania

agregatora wyników wyszukiwania. [22]

Obecność klastrowania

Metody klastrowania mogą być używane do automatycznego grupowania pobranych

dokumentów w listy znaczących kategorii. [22]

Rys. 7 “Przykład klastrowania przy wykorzystaniu meta-wyszukiwarki Yippy” [źródło [76]]

Rys. 8 “Przykład klastrowania przy wykorzystaniu meta-wyszukiwarki Izito” [źródło [77]]

14

Klastry technicznie mogą zostać zaimplementowane w różnej postaci, jednak

najczęściej automatycznie podświetlają kluczowe tematy lub słowa wyszukiwania, a także

kategorię wyników, jak pokazano na rysunku 7. Dodatkowo może powstać chmura tagów

tematycznych albo gotowy zestaw kluczowych zapytań nawiązujących do tematu

interesującego użytkownika, jak to jest pokazane na rysunku 8. Takie funkcjonalności

udoskonalają kolejne wyszukiwania.

Rysunek 7 pokazuje typowy schemat zaawansowanych systemów meta-wyszukiwania:

Rys. 9 “Zaawansowane systemy meta-wyszukiwania” [źródło [10]]

Do najpopularniejszych zaawansowanych systemów meta-wyszukiwania należą:

Dogpile

Dogpile jest silnikiem meta-wyszukiwania informacji w sieci WWW, pobierającym

wyniki z Google, Yahoo!, Yandex oraz kilku innych popularnych wyszukiwarek, w tym kilku

dostawców treści audio oraz wideo. [17]

Rys. 10 “Meta-wyszukiwarka Dogpile” [źródło [17]]

15

WebCrawler

WebCrawler to silnik meta-wyszukiwania, który łączy najlepsze wyniki wyszukiwania

z wyszukiwarek Google i Yahoo!. WebCrawler zapewnia użytkownikom opcję wyszukiwania

obrazów, audio, wideo, wiadomości. Został opublikowany 20 kwietnia 1994 r. i stworzony

przez Briana Pinkertona na University of Washington. [21]

Ponadto wśród zaawansowanych meta-wyszukiwarek można także wymienić:

Yippy

Izito

Warto zauważyć, że podział na meta-wyszukiwanie standardowe i zaawansowane jest

raczej arbitralny.

W procesie rozwoju standardowej meta-wyszukiwarki, a mianowicie implementacji

własnych autorskich mechanizmów służących poprawie jakości wyszukiwania zaawansowanie

systemu rośnie, dlatego system może zostać sklasyfikowany jako zaawansowany.

Meta-wyszukiwarka Nigma Zdaniem autora pracy jednym z najciekawszych projektów ostatnich lat w tym obszarze

był projekt Nigma.

Rys. 12 “Meta-wyszukiwarka Nigma” [źródło [23]]

Nigma - rosyjski system meta-wyszukiwania inteligentnego z akcentem akademickim.

Projekt powstał przy wsparciu wydziałów IUM i psychologii Moskiewskiego Uniwersytetu

Państwowego, a także Uniwersytetu Stanford. [23].

Pierwsza wersja usługi została uruchomiona na początku 2005 r. Nigma sprawdzała

wszystkie duże bazy zawierające dokumenty w języku rosyjskim, w tym Google, Yahoo!

AltaVista, MSN, Yandex i Rambler, zapewniające szeroki zakres źródeł wyników

wyszukiwania. Następnie stopniowo generowany jest indeks własny Nigmy.

System Nigma pozwolił dostrzec mocne strony meta-wyszukiwania. Twórcy

oprogramowania skoncentrowali się na poszukiwaniu innowacji w stworzeniu programu

wyszukującego informacje w Internecie. [74]

Rys. 11 “Meta-wyszukiwarka WebCrawler” [źródło [78]]

16

Wyszukiwarka Nigma działała od ok. 14 lat i posiadała zarówno właściwości meta-

wyszukiwania, jak i własne narzędzia rankingujące. Należała do najpopularniejszych

wyszukiwarek w Rosji.

Nigma korzystała z indeksów Google, Bing, Yandex itd., których łączny stan indeksu

na dzień 28 lutego 2009 r. wyniósł ponad 7,16 miliarda dokumentów. [23]

Rys. 13 “Możliwości meta-wyszukiwarki Nigma” [źródło [23]]

W 2018 r. strona wyszukiwarki Nigma przestała działać. [23]

Ten przypadek jest przykładem ostrej konkurencji w dziedzinie wyszukiwania w

Internecie. Na rynku meta-wyszukiwarek można także znaleźć aplikacje, które potrafią oprzeć

się rosnącej rywalizacji. Należy do nich wyszukiwarka DuckDuckGo.

Duckduckgo.com

Dzięki kompetentnej polityce dostrzegania słabych punktów

światowych liderów wyszukiwania (Google, Bing) - np. wycieku

danych użytkownika – DuckDuckGo zdążyła nie tylko wytrzymać

konkurencję, ale także zyskała dużą popularność wśród użytkowników,

którzy obawiają się o bezpieczeństwo danych osobowych.

DuckDuckGo (DDG) to internetowa wyszukiwarka, która

preferuje ochronę prywatności użytkowników. Aplikacja nie śledzi

internautów, nie przechowuje adresów IP, plików cookies (o ile nie jest

to niezbędne) i nie jest zaśmiecona reklamami. Tez ma funkcjonalność,

która pozwala przeszukiwać sieć anonimowo.

DuckDuckGo analizuje wyniki z ponad 400 pojedynczych

źródeł, takich jak Yahoo! Search BOSS, Wikipedia, Bing, a także

własny DuckDuckBot.

Rys. 14 “Wyszukiwarka

DuckDuckGo” [źródło [24]]

17

Tempo wzrostu użycia tej wyszukiwarki pokazano na rysunku 16.

DuckDuckGo jest pozytywnym przykładem tego, jak standardowa meta-wyszukiwarka

na początkowym etapie rozwoju stała się jedną z najpopularniejszych wyszukiwarek na

świecie.

Podsumowanie Agregacja wyników nie jest ograniczona do meta-wyszukiwarek. Meta-wyszukiwanie

jest najbardziej oczywistym, ale nadal szczególnym przypadkiem agregowania wyników

wyszukiwania. W oparciu o przetwarzanie wyników SERP pojawiło się wiele systemów

informatycznych, które można porównać do popularności meta-wyszukiwarek.

Wartością meta-wyszukiwania jest szeroki zasięg zasobów. Pozwalają one

zaobserwować, że odwołując się do jednej, nawet najlepszej "normalnej" wyszukiwarki,

ryzykuje się przekazanie zasobów w alternatywnych bazach danych. Szczególnie interesujące

stają się meta-wyszukiwarki, które wspierają technologię klastrowania, czyli grupowania

znalezionych wyników. [74]

Rus. 15 “Anonimowość użytkownika przy korzystaniu DuckDuckGo” [źródło [79]]

Rys. 16 “Wzrost użycia DuckDuckGo” [źródło [24]]

18

Wykorzystanie agregatorów wyników wyszukiwania szczegółowo zostanie omówione

w następnej części niniejszej pracy.

19

Obszary wykorzystania agregacji wyników zapytań

Oprócz klasycznego przetwarzania jako źródła danych dla systemów meta-

wyszukiwania dane wyników wyszukiwania wykorzystują wiele różnych typów systemów

informatycznych.

Zasadniczo te systemy informacyjne mają na celu zdobycie dodatkowych informacji,

by uzyskać przewagę nad konkurentami. Informacje te są kluczowe dla optymalizacji stron

internetowych (zarówno wewnętrznej optymalizacji, jak i zewnętrznej optymalizacji) do

wyszukiwarek.

Autor pracy używa tych narzędzi w pracy zawodowej na stanowisku Specjalisty SEO.

Po pierwsze, trzeba podać przykłady rodzajów danych, które otrzymujemy przy zapytaniu do

wyszukiwarki i zdefiniować pojęcia dla zrozumienia procesów zachodzących podczas

wyszukiwania.

Lista głównych pojęć związanych z procesem wyszukiwania informacji w Internecie

obejmuje:

Wyniki wyszukiwania (Search engine results page – SERP)

Snippet

Search query (Zapytanie)

Organic results (Wyniki organiczne)

Sponsored results (Wyniki sponsorowane)

Rodzaje zapytań.

20

Wyniki wyszukiwania (SERP)

Wyniki wyszukiwania (SERP - ang. Search Engine Resultant Page) - jest to strona, na

której prezentowane są wyniki wyszukiwania dla określonego zapytania użytkownika jak to

jest pokazane na rysunku 17. Znajdują się na niej linki do serwisów posiadających treści

odpowiadające zapytaniu wraz z krótkim opisem strony, który się nazywa snippet. [26]

Linki zostają ustawione w formie listy rankingowej stworzonej na podstawie zgodności

z zadanym zapytaniem. Po wprowadzeniu zapytania przez użytkownika wyszukiwarka

analizuje je na podstawie różnych właściwości (lingwistycznych, morfologicznych,

geograficznych itd.) i zgodnie z określonymi algorytmami wyszukiwania buduje wyniki,

wyświetlające się na stronie w formie listy stron w porządku odpowiadającym ich zgodności z

zapytaniem - w pierwszej kolejności pojawiają się te najbardziej odpowiadające zapytaniu. [26]

Wyniki wyszukiwania w odpowiedzi na to samo zapytanie mogą różnić się w

poszczególnych wyszukiwarkach, co spowodowane jest zastosowaniem odmiennych

algorytmów wyszukiwania. Każdy system posiada swój unikalny sposób doboru najbardziej

odpowiednich odpowiedzi na podstawie określonych czynników. [26]

Snippet Snippet (z ang. snippet - fragment) - niewielki fragment tekstu, wyświetlający się obok

linku w wynikach wyszukiwania. Inaczej mówiąc, jest to krótki opis strony internetowej

odpowiadający zapytaniu wpisanemu do wyszukiwarki. [28]

W snippecie wyróżnione są słowa kluczowe z zapytania wpisanego w wyszukiwarce.

Treść zawarta w snippecie często pozwala na uzyskanie poszukiwanej informacji bez

konieczności przechodzenia do strony. [28]

Rola snippetu jest często niedoceniana, jednakże aby zmotywować użytkownika do

wejścia na stronę, warto zatroszczyć się, by przyciągał on uwagę. Konkurencja, nawet

Rys. 17 “Wyniki wyszukiwania Google” [źródło [27]]

21

znajdując się o kilka pozycji niżej, dzięki optymalnemu snippetowi, może cieszyć się większą

popularnością niż strona na pierwszej pozycji bez dopracowanego snippetu. [28]

Im dokładniejszą i bardziej treściwą odpowiedź na zapytanie daje snippet, tym większą

liczbę przejść zanotuje dana strona, co ma znaczący wpływ na pozycję strony w wynikach

wyszukiwania. [28]

Search query (Zapytanie) Zapytanie wyszukiwarki internetowej to wyrażenie, które użytkownik wprowadza do

wyszukiwarki internetowej. Wyszukiwane hasła mają charakter odróżniający, ponieważ często

jest to zwykły tekst lub hipertekst z opcjonalnymi dyrektywami wyszukiwania (takimi jak "and"

/ "or" z "-" do wykluczenia). [29]

Organic results (Wyniki organiczne) Wyniki organiczne – to ta część wyników wyszukiwania (SERP-ów), która nie

obejmuje wyników płatnych, czyli linków sponsorowanych. [31]

Organiczne wyniki wyszukiwania SERP są naturalnymi wynikami generowanymi przez

silnik wyszukiwarki w oparciu o szereg wskaźników, które określają ich relewantność i

pertynentność dla podanego zapytania. Strony internetowe, które osiągają dobre wyniki na

podstawie algorytmu wyszukiwania, są pokazywane wysoko na liście organicznych wyników.

Algorytmy wyszukiwarki są najczęściej oparte na takich czynnikach jak zawartość i

wiarygodność strony internetowej, linki zewnętrzne, media społecznościowe, wiadomości,

reklama itp. [30]

Każda wyszukiwarka ma nieco inny układ wyników wyszukiwania. W przypadku

Google pod paskiem wyszukiwania mogą pojawić się maksymalnie 4 linki sponsorowane,

następnie wyświetlonych zostaje przeważnie 10 wyników organicznych (chociaż w niektórych

przypadkach ich może być nawet 13), a pod nimi znajduje się jeszcze miejsce dla 3-4 reklam

AdWords. [33]

Nigdy nie został udowodniony związek między organicznymi i płatnymi wynikami

zapytań.

Rys. 18 “Wyniki płatne i organiczne” [źródło [37]]

22

Kolejność SERP ustalają złożone algorytmy wyszukiwarki. Za układ linków

sponsorowanych odpowiada aukcyjny mechanizm platformy AdWords – analizie podlega

jakość tekstu reklamowego (obecność fraz) oraz stawka CPC, którą jest gotowy zapłacić

reklamodawca za kliknięcie w link. [33]

Na kolejność wyników organicznych ma wpływ pozycjonowanie i optymalizacja strony

internetowej. Dobrze zoptymalizowane serwisy, nasycone słowami kluczowymi, na których

generowany jest duży ruch, są oceniane wyżej przez algorytmy Google i zajmują wysokie

pozycje w SERP. [33]

Rodzaje zapytań Istnieją trzy szerokie kategorie obejmujące większość zapytań internetowych:

informacyjne, nawigacyjne, transakcyjne, ogólne. [35]

Zapytania informacyjne.

Zapytania nawigacyjne.

Zapytania transakcyjne.

Ogólne. [36] [68]

Więcej szczegółów na temat typów zapytań zostanie opisane w rozdziale „Wybór

rodzaju zapytań” niniejszej pracy.

23

Przykłady narzędzi wykorzystujących agregację wyników wyszukiwania

Ahrefs

Rys. 19 “Ahrefs” [źródło [38]]

Analizuje wyniki wyszukiwania, porównuje lokalne SERP-y, określa potencjał ruchu i

pokazuje sposoby ulepszania rankingów analizowanych witryn. Screen narzędzia Ahrefs

pokazany jest na rysunku 19.

Analiza organicznego ruchu w wyszukiwarce

Sprawdzając SERP Ahrefs pokazuje, jak dużo ruchu organicznego z wyszukiwarki najlepsze

wyniki uzyskują ze wszystkich słów kluczowych na które się wyświetlają (pokazane jest na

rysunku 20).

Rys. 20 „Analiza organicznego ruchu w wyszukiwarce w Ahrefs” [źródło [38]]

24

Historia pozycji w wynikach wyszukiwania

Rys. 21 “Historia pozycji w wynikach wyszukiwania” [źródło [38]]

Narzędzie Ahrefs posiada funkcję "pozycja historyczna SERP", która pozwala

sprawdzić historyczne rankingi dla stron obecnie znajdujących się w TOP5. W oparciu o ich

historyczne wzorce rankingowe, można dostrzec, kiedy wyszukiwarka uznaje strony w TOP10

za odpowiadające zapytaniu albo czy będzie skłonna wprowadzić inne wartościowe serwisy.

[38]

25

Webpozycja

Rys. 22 “Webpozycja” [źródło [39]]

Webpozycja.pl to profesjonalna platforma do sprawdzania pozycji stron WWW w

Google i innych wyszukiwarkach w polskim segmencie Internetu. Szeroki zakres możliwości

systemu, m.in. badanie konkurencji, analiza SERP, zaawansowana obsługa płatności dla firm

pozycjonujących, czy sprawdzanie mobilnych wyników wyszukiwania sprawia, że

Webpozycja jest jednym z liderów w polskim Internecie w zakresie agregowania pozycji

wyników zapytań do wyszukiwarek internetowych. [39] [40]

Serp.watch Serp.watch to narzędzie do ogólnego monitorowania zmian w wynikach wyszukiwania

w Internecie według kraju, obszaru wyszukiwania, typu urządzenia.

Rys. 23 “Serp.watch” [źródło [80]]

26

Senuto Jedno z najlepszych narzędzi do analizy widoczności strony w polskim segmencie

Internetu. Na postawie analizy zagregowanych SERP prezentuje, ile słów kluczowych w

konkretnych przedziałach pozycji TOP 50/10/3 ma dana witryna. [41]

Rys. 24 “Zakres widoczności witryny” [źródło [42]]

Wykres widoczności zawiera 3 linie jak to jest pokazane na rysunku 24:

TOP 3: Informuje o liczbie słów kluczowych w TOP 3 wyników wyszukiwania (na

miejscach 1-3) – kolor jasnoniebieski


miejscach 1-10) – kolor niebieski


miejscach 1-50) – kolor ciemnoniebieski [42]

Google Search Console Warto wspomnieć również o natywnym narzędziu Google, które zawiera wiele

informacji analitycznych uzyskiwanych na podstawie wyników wyszukiwania. Screen tego

narzędzia jest pokazany na rysunku 25.

Rys. 25 „Google Search Console” [źródło [43]]

27

Google Search Console (wcześniej się nazywał Google Webmaster Tools) to

darmowa platforma internetowa stworzona przez Google dla administratorów stron

internetowych. Pozwala na sprawdzenie statusu indeksowania witryny przez wyszukiwarkę

Google oraz zoptymalizowanie widoczności strony. [44]

Google Search Console posiada m.in. następujące narzędzia:

Wysłanie i sprawdzenie statusu mapy witryny,

Przegląd statystyk indeksowania strony przez roboty Google,

Wygenerowanie i sprawdzanie pliku robots.txt,

Analiza wewnętrznych i zewnętrznych linków do strony,

Lista wadliwych linków na stronie,

Analiza widoczności strony w naturalnych wynikach wyszukiwarki Google według

różnych słów kluczowych,

Ustawienie preferowanej domeny (np. z www lub bez www),

Otrzymywanie powiadomień od Google w przypadku zawirusowania strony, kar za

nieuczciwe pozycjonowanie. [44]

Podsumowanie Zakres zastosowania tego typu systemów informatycznych jest dość szeroki - należą

one do głównych narzędzi pracy specjalistów SEO. Warto również zauważyć, że wyszukiwarki

stale walczą z robotami danych systemów, dlatego że marketingowa wartość tych danych jest

bardzo duża.

28

Wprowadzenie do problemu wykorzystania agregacji wyników zapytań

Głównym problemem w korzystaniu z systemów meta-wyszukiwania jest wybór

techniki agregacji, która pozwala polepszyć wyniki wyszukiwania w porównaniu z

klasycznymi wyszukiwarkami. Staje się to coraz trudniejsze ze względu na stale rosnące

wskaźniki jakości światowych liderów wyszukiwania w Internecie.

Jednym z potencjalnie przydatnych obszarów zastosowania agregatorów wyników

wyszukiwania jest ich wykorzystanie w przypadku niektórych typów zapytań oraz w tych

państwach, w których nie dominuje jedna z wyszukiwarek.

W Polsce dominacja Googla nie podlega wątpliwości jak to jest pokazane na rysunku

26 i rysunku 27.

Rys. 26 “Popularność wyszukiwarek w Polsce” [źródło [45]]

Rys. 27 “Popularność wyszukiwarki Google w Polsce” [źródło [45]]

29

Wykorzystanie wyszukiwarek internetowych na świecie nie jest tak jednoznaczne jak

w Polsce jak to jest pokazane na rysunku 28.

Rys. 28 “Popularność wyszukiwarek w państwach świata” [źródło [46]]

W opinii autora niniejszej pracy najciekawsze wyniki agregacji można uzyskać w

krajach, w których nie ma dominacji jednej z wyszukiwarek. Przykładem takich państw mogą

być: Chiny, Rosja, Czechy. Rynki tych krajów reprezentują największy potencjał w zakresie

zwiększania jakości wyszukiwania w przypadku korzystania z agregatorów wyników

wyszukiwania.

Nie dla każdego kraju i typu zapytania wykorzystanie agregatora wyników

wyszukiwania ma sens. Wydaje się oczywiste, że w przypadku 90% zapytań wystarczy jedna

wyszukiwarka. Jakość wyników dla tak zwanych prostych typów zapytań jest w tej chwili

bardzo wysoka. W większości przypadków użytkownik jest zadowolony z pierwszych

wyników (TOP1, TOP2, TOP3).

Problemy z jakością wyników zapytań w wyszukiwarkach zaczynają się od

niestandardowych zapytań.

Przykłady skomplikowanych zapytań:

wskaźniki makroekonomiczne kanada 2000 2010

albert einstein nagroda nobla za co

bmw x6 m50d ile koni

elon musk wiek

30

Aby pomóc użytkownikowi uzyskać systemy meta-wyszukiwania, które rozszerzą

zakres danych w porównaniu z jedną, nawet najbardziej zaawansowaną wyszukiwarką i będą

przydatne dla użytkownika podczas wyszukiwania niezbędnych informacji.

W niniejszej pracy zweryfikowana zostanie prawdziwość tezy postawionej przez

autora:

„Jakość wyników wyszukiwania na podstawie preferencji użytkownika jest związana z

popularnością tej wyszukiwarki w danym kraju.”

Ciekawym obiektem do takiego sprawdzenia może być Polska. Według danych

gs.statcounter.com za styczeń 2018 roku z wyszukiwarki Google'a korzysta 97-98%

użytkowników.

Czy żaden z konkurentów Google nie może zaoferować akceptowalnych wyników dla

zapytań w języku polskim? W niniejszej pracy jakość wyników wyszukiwania sprawdzono na

podstawie ocen dla polskiego segmentu internetowego dla następujących wyszukiwarek:

Google

Yandex

Bing

Badania prowadzono dla powyższych systemów wyszukiwania w języku angielskim i

rosyjskim. Dodatkowym problemem stał się wybór typu zapytania i faktycznych zapytań

służących do weryfikacji postawionej tezy.

Więcej na ten temat opiszę w następnej części niniejszej pracy magisterskiej.

31

Faza konceptualna

Zdefiniowanie podstawowych pojęć do oceny jakości systemu wyszukiwania

informacji

Poznanie mechanizmu wyszukiwania wymaga zrozumienia problemu, w jaki sposób

wyszukiwarki rozumieją działania użytkownika. Na podstawie oficjalnych raportów od

przedstawicieli Google i Yandex obraz interakcji między użytkownikiem a wyszukiwarką

wygląda tak, jak pokazano na rysunku 29.

Rys. 29 "Interakcja między wyszukiwarką a użytkownikiem" [źródło [20]]

Każdy użytkownik ma cel, który próbuje osiągnąć za pomocą wyszukiwarki. To zadanie

może być skomplikowane lub proste i pochłaniać więcej albo mniej czasu. W ramach tego

zadania użytkownik rozwiązuje podzadania, a dla każdego z nich potrzebuje informacji

(odpowiedzi na zapytania). Jednocześnie użytkownik nie zawsze w pełni rozumie, czego

naprawdę potrzebuje.

Przykładem takiego celu może być zadanie planowania wakacji. Aby rozwiązać ten

problem, należy zrealizować kilka potrzeb informacyjnych - dowiedzieć się o atrakcjach

miasta, do którego użytkownik zamierza się udać, poznać ceny miejsc noclegowych, sprawdzić

prognozy pogody dla terminu w okresie wakacyjnym itd. Po określeniu potrzeb informacyjnych

użytkownik zaczyna komunikować się z wyszukiwarką za pomocą zapytań.

Przykłady takich zapytań podane zostały poniżej w tabeli 1:

Tabela 3 „Poziomy interakcji między użytkownikiem a wyszukiwarką”

Zadanie Planowanie wakacji

Wymagania informacyjne poznać zabytki miasta

znaleźć ceny miejsc noclegowych

sprawdzić prognozę pogody w okresie

wakacyjnym Zapytania warszawa syrena

32

warszawa syren

warszawa atrakcje

hotel warszawa

ceny nocleg w warszawie

warszawa prognoza pogody na 30 dni

pogoda 17.09 Warszawa

Na każdym etapie rozwiązywania problemu występuje utrata informacji na temat

intencji użytkownika, ponieważ każdy inaczej formułuje zapytania do systemu wyszukiwania.

Jak twierdzą niektórzy eksperci w dziedzinie wyszukiwania, jeśli kiedykolwiek uda się odstąpić

od procedury komunikacji między użytkownikiem a wyszukiwarkami za pomocą zapytań,

będzie to ogromny skok w rozwoju wyszukiwarek. [20]

Istnieje wiele sposobów oceny czy dokumenty znalezione przez wyszukiwarkę dobrze

odpowiadają na zapytanie użytkownika. Niestety, pojęcie stopnia relewantności wyników

zapytania (jego znaczenia) jest pojęciem subiektywnym, które zależy od osoby oceniającej

wyniki zapytania.

Relewantność stanowi zgodność odpowiedzi wyszukiwarki na zapytanie wyszukiwane,

które otrzymano od użytkownika. Odpowiedź najbardziej odpowiednia dla żądania

użytkownika jest uważana za relewantną. Relewantność to najważniejszy wskaźnik w pracy

wyszukiwarek internetowych.

Sortowanie listy wyników zapytań według relewantności jest merytoryczną funkcją w

przeważającej większości systemów wyszukiwania. Jednak występują pewnie nieścisłości przy

ustalaniu trafności i jakości wyników wyszukiwania.

Ścisłe przestrzeganie warunków zapytania nie gwarantuje jakościowego wyniku

wyszukiwania. Relewantne odpowiedzi mogą być nierelewantnymi, mimo że idealnie pasują

do zapytania. Użytkownik może sformułować nieudane lub zbyt ogólne zapytanie.

Dlatego w celu określenia jakości wyszukiwania, często używa się pojęcia

pertynentności, które wskazuje stopień, w jakim wyszukiwarka reaguje na rzeczywiste

potrzeby informacyjne użytkownika.

Odpowiedź jest pertynentną, jeżeli oferuje użytkownikowi niezbędne informacje,

nawet jeśli żądanie nie zostało sformułowane przez użytkownika w najbardziej skuteczny

sposób.

Na polepszenie pertynentności wyników wyszukiwania skierowano szereg nowych

technologii wyszukiwania w Internecie. Obecnie jednym z głównych mechanizmów oceny

jakości wyszukiwarek stanowi ocena ekspercka. [20]

W Yandeks osoby te nazywane są Asesorami, w Google - Quality Raters. Pomimo

różnicy w nazewnictwie specjaliści wykonują identyczną pracę - przekazują do wyszukiwarki

zwrotną informację o jakości wyników wyszukiwania na podstawie przyznanych ocen.

Otrzymując oceny wyników wyszukiwania z tych wyszukiwarek, w kolejnym zadanie

jest przekonwertowanie tych danych na liczbę w celu późniejszej analizy wyników.

Ocena jakości wyszukiwarek liczy ponad 50 lat. W 1957 r. bibliotekarz z Wyższej

Szkoły Aeronautycznej Cyril Cleverdon zaproponował dość prosty system oceny wyników

wyszukiwania. Za jego pomocą rozwiązany został problem poszukiwania artykułów na dany

temat. Bibliotekarz stworzył testową kolekcję dokumentów (1100 sztuk) i porównywał

dokładność oraz kompletność algorytmów wyszukiwania za pomocą tabeli pokazanej na

rysunku 30: [75]

33

Rys. 30 “Kompletność i dokładność przy ocenie efektywności wyszukiwania” [źródło [20]]

Poniżej znajdują się miary efektywności wyników wyszukiwania:

Dokładność (precision)

Dokładność jest zdefiniowana jako stosunek liczby relewantnych dokumentów

znalezionych przez system wyszukiwania do łącznej liczby znalezionych dokumentów.

Rys. 31 “Dokładność jako miara skuteczności wyników wyszukiwania” [źródło [50]]

gdzie D r e l jest zbiorem relewantnych dokumentów w bazie, a D r e t r to zestaw dokumentów

znalezionych przez system. [50]

Kompletność (recall)

Stosunek liczby znalezionych relewantnych dokumentów do całkowitej liczby

odpowiednich dokumentów w bazie:

Rys. 32 “Kompletność jako miara skuteczności wyników wyszukiwania” [źródło [50]]

gdzie D r e l — jest zbiorem odpowiednich dokumentów w bazie danych, a D r e t r to zestaw

dokumentów znalezionych przez system. [50]

34

Rys. 33 “Dokładność i kompletność” [źródło [51]]

Fall-out

Fall-out charakteryzuje prawdopodobieństwo znalezienia nierelewantnego wyniku i

jest zdefiniowany jako stosunek liczby nierelewantnych dokumentów znalezionych do

całkowitej liczby nierelewantnych dokumentów w bazie danych:

Rys. 34 „Fall-out, jako miara skuteczności wyników wyszukiwania” [źródło [50]]

gdzie D n r e l — to zbiór nierelewantnych dokumentów w bazie danych, а D r e t r — zbiór

dokumentów znalezionych przez system. [50]

F-miara (F-measure, miara Van Riesbergena)

Aby wspólnie ocenić dokładność i kompletność, stosuje się F-miarę, która jest

zdefiniowana jako ważona średnia harmoniczna dokładności P i kompletności R: [50]

35

Rys. 35 “F-miara, jako miara efektywności wyszukiwania” [źródło [50]]

Rys. 36 “F-miara, jako miara efektywności wyszukiwania - 2” [źródło [50]]

α – waga dokładności z przedziału [0, 1]

β2– określa, ile razy ważniejsza jest kompletność niż dokładność; wartość z przedziału [0, ∞].

[48]

Te miary są skuteczne przy wyszukiwaniu określonej liczby dokumentów, ale w

Internecie wszystko dzieje się trochę inaczej niż w tym klasycznym przypadku: [20]

1. Liczba dokumentów jest bardzo duża.

2. Liczba zapytań jest również duża.

3. Użytkownik nie przegląda wszystkich znalezionych przez wyszukiwarkę elementów.

Największą wartość uzyskuje pierwsza strona wyników wyszukiwania. Wprowadza

się także pojęcie tak zwanego modelu użytkownika, który ma następujące cechy zachowania:

1. Przegląda wyniki wyszukiwania od góry do dołu

2. Otwiera każdy dokument

3. Wstrzymuje wyszukiwanie, gdy znajdzie odpowiedź na zapytanie lub

jest zmęczony wyszukiwaniem. [20]

Poniżej na rysunku 37 przedstawiono przykład pierwszej strony wyszukiwarki z 10 wynikami

wyszukiwania.

Rys. 37 “Przykład pierwszej strony wyników wyszukiwania” [źródło [20]]

36

Dokładność w tym przypadku będzie proporcją relewantnych dokumentów do

całkowitej liczby dokumentów na pierwszej stronie wyszukiwarki. Na podstawie wzoru z

rysunku 31 otrzymujemy następujący wynik:

Dokładność = 6/10 = 0.6

W obu przypadkach dokładność będzie taka sama. Ten parametr pokazuje, że oba SERP

mają te same oceny jakości, ale intuicyjnie użytkownik rozumie, że wyniki wyszukiwania,

które na wyższych pozycjach mają relewantne wyniki, są lepsze niż SERP, który w pierwszych

wynikach nie ma relewantnych wyników.

Konieczne jest uwzględnienie pozycji dokumentów w SERP.

W tym celu stosują się wskaźniki: Discounting Cumulative Gain (DCG) i Normalized

Discounting Cumulative Gain (nDCG).

37

Discounted Cumulative Gain

Założeniem DCG jest to, że sytuacja, gdy wysoce istotne dokumenty znajdujące się

niżej na liście wyników wyszukiwania, nie powinna mieć miejsca, ponieważ stopniowana

wartość relewantności jest zmniejszona logarytmicznie proporcjonalnie do pozycji wyniku.

DCG na określonej pozycji rangowej określa się jak to jest pokazane niżej na rysunku

38:

Rys. 38 “Discounting Cumulative Gain” [źródło [50]]

DCG używa stopniowanej skali relewantności dokumentów z wyników zapytania, aby

ocenić użyteczność dokumentu na podstawie jego pozycji na liście wyników.

Wysoko relewantne dokumenty występujące na niskich pozycjach na liście wyników

otrzymają gorszą ocenę (będzie ona maleć logarytmicznie). Wysoko relewantne dokumenty są

istotniejsze niż dokument o marginalnym znaczeniu. [48]

DCG jest popularną miarą oceny wyszukiwania jakości wyszukiwania w sieci i

powiązanych zadań.Im niższa pozycja w rankingu danej pozycji dokumentu, tym mniej przydatny staje się

on dla użytkownika, ponieważ jest mniej prawdopodobne, że zostanie obejrzany. [49] [53]

Normalized Discounted Cumulative Gain

Listy wyników wyszukiwania różnią się długością w zależności od zapytania.

Dla poprawnego porównania DCG różnych zapytań należy znormalizować DCG

różnych zapytań. Odbywa się to poprzez uporządkowanie wszystkich istotnych dokumentów

w wynikach zapytań przez ich względną relewantność jak to jest pokazane na rysunku 39,

generując maksymalny możliwy DCG przez pozycję, zwany również idealnym DCG (Ideal

DCG). [54]

Rys. 39 “Discounted Cumulative Gain i Ideal Discounted Cumulative Gain” [źródło: własne]

Dla zapytania, Normalized Discounted Cumulative Gain lub nDCG, jest obliczany jak

to jest pokazane na rysunku 40:

Rys. 40 “Normalized discounted cumulative gain - 2” [źródło [54] [55]]

38

Dzięki NDCG wyszukiwarka może nadać większą wagę złożonym zapytaniom, dla

których nie ma tak wielu relewantnych dokumentów w Internecie.

W obliczeniach Gain stron internetowych zaangażowane są inne czynniki:

Popularność strony

Obecność reklam

Tematyczność strony

Mechanizm oceny jakości wyników wyszukiwania za pomocą Normalized DCG jest

obecnie szeroko stosowany przez wiodące wyszukiwarki.

Rys. 41 “Google Quality Rater” [źródło [56]]

Oprócz automatycznych algorytmów oceny trafności dane dotyczące jakości strony

można uzyskać od ekspertów - specjalnie wyszkolonych osób zwanych "Quality Raters" w

Google i „Asesory” w Yandeksie.

Każda taka osoba otrzymuje zadanie dla oceny - Page Quality (PQ) rating task.

Zadanie oceny jakości strony Page Quality (PQ) składa się z adresu URL i siatki do

zapisania obserwacji w celu przeprowadzenia eksploracji strony docelowej i strony

internetowej związanej z adresem URL. [56]

Ostatecznie celem oceny jakości strony jest określenie, jak dobrze strona osiąga swoją

cel. Ponieważ różne typy witryn i stron internetowych mogą mieć różne cele, oczekiwania i

standardy dla poszczególnych rodzajów stron są inne. [56]

Rys. 42 “Google Quality Rater 2” [źródło [56]]

Temat eksperckiej oceny wyników wyszukiwania zostanie dokładnie opisany w części

badawczej niniejszej pracy.

39

Cel pracy

Na podstawie powyższych rozważań cel niniejszej pracy został sformułowany w

następujący sposób: zbadanie dziedziny zastosowania (typów zapytań) agregatorów wyników

wyszukiwania, w których jakość uzyskanych wyników będzie wyższa niż jakość

poszczególnych wyszukiwarek, wyniki wyszukiwania, których zostaną wykorzystane w

tworzeniu zagregowanych wyników.

Jakość wyników wyszukiwania została wyliczona na podstawie preferencji

użytkowników, tj. na podstawie eksperckiej oceny jakości wyników wyszukiwania.

W badaniu wykorzystano zapytania o rzeczywisty stan.

40

Koncepcja realizacji agregacji

Opis algorytmu agregacji

Jako algorytm agregacji wybrano klasyczny algorytm oparty na pozycjach w poszczególnych

wyszukiwarkach.

Algorytm rankingowania

W meta-wyszukiwarce rankingowanie może być wykonane na podstawie pozycji w

poszczególnych wynikach wyszukiwania.

Na przykład dla meta-wyszukiwarki, która korzysta z trzech oddzielnych

wyszukiwarek, na potrzeby niniejszej pracy przyjęto założenie, że pierwsza strona każdej

wyszukiwarki TOP10 to (A, B, C, D, E, F, G, H, I, J), dla których wyniki mogą być wspólne.

Dla poszczególnych wyszukiwarek jest przypisana pewna wartość całkowita dla

konkretnej pozycji wyszukiwania. Jeśli wynik wyszukiwania A znajduje się na pierwszej

pozycji, to należy nadać mu 10 punktów, gdy znajduje się on na drugim miejscu, to 9 punktów

itd. aż do ostatniej pozycji, dla której nadaje się 1 punkt.

Jak w przykładzie poniżej pozycja w meta-wyszukiwaniu zostanie wyliczona na

podstawie sumy punktów, obliczonej na postawie pozycji w wynikach wszystkich trzech

oddzielnych wyszukiwarek. [16]

Jeśli strona jako wynik wyszukiwania znajduje się w jednej wyszukiwarce na pierwszej

pozycji, w drugiej wyszukiwarce na drugim miejscu, a w trzeciej na pierwszej pozycji, to jej

sumaryczna ocena zostanie obliczona na podstawie punktów (10+9+10=29). [16]

Zgodność punktów i pozycji została pokazana na rysunku 50.

41

Wybór wyszukiwarek

Zapytania do wyszukiwarki były wpisywane w trzech językach: polskim, angielskim,

rosyjskim.

Jako źródła danych dla agregatora wyników wyszukiwania w niniejszej pracy użyto 3

wyszukiwarek jak to jest pokazane na rysunku 43:

Rys. 43 “Wyszukiwarki Google, Bing, Yandex jako źródła danych dla agregatora” [źródło: własne]

Google

Google Search, zazwyczaj określane jako wyszukiwarka Google lub po prostu Google

to wyszukiwarka opracowana przez firmę Google. Jest to najpopularniejszy silnik

wyszukiwania w sieci www, przetwarzający ponad trzy miliardy zapytań każdego dnia. [57]

Rys. 44 “Logo Google” [źródło [57]]

Rys. 45 “https://google.pl” [źródło [57]]

42

Według danych z 2017 roku ponad 70% zapytań od mieszkańców ze wszystkich

zakątków Ziemi jest wpisywanych do wyszukiwarki Google, przy czym jedna trzecia całego

ruchu google.com przypada na obywateli USA. Ponadto Google to najczęściej odwiedzana

strona internetowa na świecie. Średni czas korzystania z wyszukiwarki Google wynosi 9 minut.

[59]

Wyszukiwarka Google obsługuje wyszukiwanie w dokumentach w formatach PDF,

RTF, PostScript, Microsoft Word, Microsoft Excel, Microsoft PowerPoint i innych. [58]

Bing

Bing to wyszukiwarka, która jest własnością firmy Microsoft. Usługa powstała na

podstawie wyszukiwarek: MSN Search, Windows Live Search i Live Search.

Bing oferuje różne usługi wyszukiwania, w tym liku web, wideo, zdjęcia i mapy,

wyszukiwanie produktów. Wyszukiwarka została zaprojektowana z wykorzystaniem

ASP.NET. [60]

Obecnie strona internetowa Bing zajmuje 2 miejsce na liście najbardziej popularnych

wyszukiwarek internetowych. [61]

Bing - wyszukiwarka firmy Microsoft, powstała w 2009 roku stała się obowiązkowym

atrybutem smartfonów opartych na systemie operacyjnym Windows. Najbardziej popularny

Bing jest w USA (31%), Chinach (18%) i Niemczech (6%). [59]

Yandex

"Yandex" — wyszukiwarka należąca do rosyjskiej firmy Yandex, będąca głównym

produktem tego przedsiębiorstwa. [62]

Jest najbardziej popularną wyszukiwarką w Rosji, a około 3% oglądalności zawdzięcza

mieszkańcom Niemiec. Strona wyróżnia się dużą ilością usług (muzyka, radio, rozkład jazdy

komunikacji miejskiej, nieruchomości, tłumacz itp.) [59]

Rys. 46 “Logo Bing” [źródło [60]]

Rys. 47 „https://bing.com” [źródło [60]]

Rys. 48 “Logo Yandex” [źródło [62]]

43

Główną cechą systemu Yandex, wpływającą na jego wysoką popularność wśród

rosyjskojęzycznych użytkowników, stanowi możliwość zdefiniowania różnych odmian słów z

uwzględnieniem cech morfologicznych języka rosyjskiego.

Wartość zapytania za pomocą geolokalizacji i formuły wyszukiwania przekształca się

w maksymalnie możliwie precyzyjne sformułowanie. Również do atutów można zaliczyć

wysoką szybkość reakcji na zapytania i stabilną, bez przeciążeń, pracę serwera. [63]

Po wysłaniu zapytania do agregatora wysyła on zapytania do Google, Bing, Yandex.

Uzyskane wyniki są rankingowane w liście wyników na podstawie pozycji.

Żadna z wyszukiwarek nie jest dyskryminowana. Przyjmuje się, że trzy wyszukiwarki

mają równą wartość.

Każdy z wyników z pierwszej dziesiątki (tzw. TOP10) otrzymuje punkty na podstawie

poniższej tabeli pokazanej na rysunku 50:

Rys. 50 „Tabela agregacji na podstawie poszczególnych pozycji” [źródło: własne]

W tym momencie należy zadać pytanie, dlaczego jedynie pierwszych 10 wyników

wyszukiwania z każdej wyszukiwarki posłuży do tworzenia zagregowanych wyników.

Rys. 49 https://yandex.com [źródło [62]]

44

Rys. 51 “Agregacja na postawie wyników z Google, Bing, Yandex” [źródło: własne]

Według badań tylko około 5% użytkowników korzysta z wyników z drugiej strony

wyników wyszukiwania.

Rys. 52 “Procent ruchu odnośnie pozycji w wynikach wyszukiwarki Google” [źródło: [64]]

Podobne badania przeprowadzone przez „Chitika team” w 2010 roku wykazały

porównywalne wyniki.

45

Rys. 53 “Rozkład ruchu odnośnie strony wyszukiwania” [źródło: [64]]

Rys. 54 “Rozkład ruchu odnośnie pozycji wyszukiwania” [źródło: [64]]

Strona 1 (TOP10) uzyskuje 92% całego ruchu. Na drugą stronę przechodzi już tylko

4,8% użytkowników. [65]

46

Rys. 55 “Rozkład ruchu odnośnie pozycji w pierwszej dziesiątce wyników wyszukiwania” [źródło: [66]]

W branży SEO funkcjonuje popularne wyrażenie odnoszące się do drugiej strony

wyników wyszukiwania: „The best place to hide a dead body is page 2 of Google search

results”, co w tłumaczeniu na język polski brzmi to: Najlepsze miejsce, by ukryć zwłoki, to

druga strona wyników wyszukiwania.

Rys. 56 «Druga strona wyników wyszukiwania» [źródło: [67]]

W związku z powyższym podczas badania wyników użyto tylko pierwszych dziesięć

wyników uzyskanych z wyszukiwarek internetowych.

47

Wybór rodzaju zapytań

Obecnie wyróżnia się cztery podstawowe rodzaje zapytań:

Informacyjne

Nawigacyjne

Operacyjne (komercyjne)

Ogólne.

Zapytanie informacyjne – zapytanie użytkownika, który chce znaleźć satysfakcjonujące

go informacje na dany temat. [68]

Nawigacyjne zapytania

Nawigacyjne zapytanie – zapytanie wprowadzone przez użytkownika, który chce

znaleźć konkretne miejsce. [68]

Transakcyjne i komercyjne zapytania

Transakcyjne zapytanie – zapytanie użytkownika, który chce popełnić jakiekolwiek

działanie (transakcję). Komercyjne zapytanie – zapytanie użytkownika wyrażającego potrzebę

zakupu towaru lub zamówienia usługi. Często ogólne zapytanie składa się tylko z jednego

słowa i w konsekwencji intencje użytkownika nie są jasne. [68]

Ponadto każdy z podstawowych rodzajów zapytań może posiadać następujące cechy:

Multimedialność

Geozależność

Sezonowość

Częstotliwość

Witalność

Konkurencyjność [68]

Multimedialność zapytania – celem użytkownika jest uzyskanie treści multimedialnych

(zdjęcia, wideo, audio lub ich zbiór).

Treści multimedialne mogą być zarówno informacyjne, jak i transakcyjne.

Geozależność

Geozależne zapytania (regionalne) – to zapytania, dla których wyniki są różne dla

poszczególnych regionów. W większości przypadków geozależne zapytania przedstawione

komercyjnymi zapytaniami. [68]

Sezonowość

Sezonowe zapytania – to zapytania, dla których liczba zgłoszeń ma wyraźnie sezonowy

charakter; wyniki zmieniają się według daty, miesiąca lub pory roku. Przeciwne sezonowym są

całoroczne, niesezonowe wyniki wyszukiwania. [68]

Przykładem sezonowości witryny może służyć wykres Senuto jak to jest pokazane na

rysunku 57.

48

Rys. 57 “Sezonowość witryny – wykres SENUTO” [źródło: [42]]

Częstotliwość

Częstotliwość zapytania – to wartość odpowiadająca prognozie liczby wyświetleń

danej frazy w miesiącu w danej wyszukiwarce.

Istnieje warunkowy podział zapytań według częstości występowania:

niskiej częstotliwości lub "długi ogon"

średniej częstotliwości;

wysokiej częstotliwości.

W każdej niszy biznesowej istnieje indywidualny zestaw zapytań niskiej, średniej,

wysokiej częstotliwości charakteryzujący się ilościowymi wskaźnikami. [68]

Konkurencyjność zapytania

Konkurencyjność zapytania – to względna charakterystyka, na podstawie której

określa się zakres, czas i budżet prac niezbędnych do wyświetlania strony na wysokich

pozycjach wyników wyszukiwania. [68]

Witalne zapytanie i witalna odpowiedź

Witalne zapytanie – to zapytanie, które ma witalną odpowiedź.

Witalna odpowiedź – to obecność jednej lub więcej oficjalnych odpowiedzi na dane

zapytanie. [68]

49

Podsumowanie

Ta klasyfikacja, choć dość szczegółowa jest jednocześnie bardzo umowna, gdyż to samo

zapytanie może posiadać cechy kilku typów zapytań.

Wyszukiwarki budują wyniki na podstawie ogromnej liczby danych pochodzących od

użytkowników.

W niektórych przypadkach zapytania w miarę wzrostu popularności mogą zmieniać

swój typ (na przykład z ogólnego do komercyjnego).

W niniejszej pracy do przeprowadzenia badania został wybrany informacyjny typ

zapytania o stanie faktycznym z następującymi cechami: niemultimedialny, niesezonowy,

geoniezależny i o niskiej częstotliwości. Takie charakterystyki zostały wybrane, by ułatwić

pracę ekspertów w trakcie oceny jakości wyszukiwarek.

Zapytania zostały przygotowane w trzech językach, przy czym dla każdego z języków

została wybrana odpowiednia geolokalizacja w opcjach wyszukiwarek: dla zapytań w języku

polskim została wybrana Polska, dla zapytań w języku angielskim - USA, a dla zapytań w

języku rosyjskim - Rosja, Moskwa.

Lista zapytań znajduje się w następnym rozdziale niniejszej pracy.

50

Wybór zapytań dla agregacji wyników

Niżej przedstawiona tabela 3 z zapytaniami, które były wykorzystane przy badaniu jakości

wyników zapytań. Tabela 3 „Zapytania dla badania”

Zapytanie Język zapytania Lokalizacja

zapytania Data

zapytania

wskaźniki makroekonomiczne kanada 2000 2010

Polski Polska 20.11.2017

adam mickiewicz data aresztowania Polski Polska 20.11.2017

albert einstein nagroda nobla za co Polski Polska 20.11.2017

bmw x6 m50d ile koni Polski Polska 20.11.2017

elon musk wiek Polski Polska 20.11.2017

data bitwy pod grunwaldem Polski Polska 20.11.2017

kim dzong un wykształcenie Polski Polska 20.11.2017

kim jong il miejsce urodzenia Polski Polska 20.11.2017

pkb polski 1991 Polski Polska 20.11.2017

populacja mozambique 2015 Polski Polska 20.11.2017

canada macroeconomic indicators 2000 2010

Angielski USA 20.11.2017

adam mickiewicz date of arrest Angielski USA 20.11.2017

albert einstein nobel prize for what Angielski USA 20.11.2017

bmw x6 m50d horsepower Angielski USA 20.11.2017

elon musk age Angielski USA 20.11.2017

where did the battle of grunwald take place

Angielski USA 20.11.2017

kim jong un education Angielski USA 20.11.2017

kim jong il birthplace Angielski USA 20.11.2017

gdp polski 1991 Angielski USA 20.11.2017

population of mozambique 201 Angielski USA 20.11.2017

макроэкономические показатели Канады 2000 2010

Rosyjski Rosja 20.11.2017

дата рождения адама мицкевича Rosyjski Rosja 20.11.2017

альберт эйнштейн нобелевскую премию за что получил

Rosyjski Rosja 20.11.2017

бмв x6 m50d сколько лошадей Rosyjski Rosja 20.11.2017

элон маск возраст Rosyjski Rosja 20.11.2017

дата битвы под грюнвальдом Rosyjski Rosja 31.10.2017

51

Każde z badanych zapytań otrzymało konkretną odpowiedź, choć przy niektórych

zapytaniach potrzebna była pomoc eksperta w celu określenia relewantności dokumentu.

W celu przeprowadzenia oceny jakości wyników wyszukiwania została opracowana

dokumentacja na podstawie rekomendacji ekspertów Yandex i Google.

Opis procedury badawczej, grupy badawczej, a także opracowanie dokumentacji oceny

jakości wyników zapytań zaprezentowano w rozdziale poświęconym fazie badawczej niniejszej

pracy.

ким чен ын образование Rosyjski Rosja 20.11.2017

ким чен ир место рождения Rosyjski Rosja 20.11.2017

ввп польши 1991 Rosyjski Rosja 20.11.2017

мозамбик население 2015 Rosyjski Rosja 20.11.2017

52

Faza Implementacyjna

Omówienie szczegółów implementacji agregatora na podstawie pozycji w

poszczególnych wyszukiwarkach

Jak zaprezentowano w rozdziale „Koncepcja realizacji agregacji” w sekcji „Opis

algorytmu agregacji” agregator wyników wyszukiwania opiera się na pozycjach w

poszczególnych wyszukiwarkach.

Aby uzyskać linki badanych stron, użyto plugin Link Klipper do przeglądarki Chrome.

Rozszerzenie to ma następujące cechy:

Ekstrakcja wszystkich linków na stronie,

Przechowywanie wszystkich otrzymanych linków do pliku CSV. [69]

Emulacja działania została zrealizowana za pomocą aplikacji Numbers. Stworzono

szablon do obliczania uzyskanych ogólnych wyników. Wygląd tego szablonu zarówno pustego,

jak i wypełnionego zaprezentowano poniżej na rysunkach 58 i 59:

Rys. 58 „Pusty szablon dla oceny” [źródło: własne]

53

Pusty szablon z agregowanymi wynikami jest pokazany na rysunku 60. Po wystawieniu ocen

agregowane wyniki wyglądają, jak to jest pokazane na rysunku 61:

Rys. 59 „Wypełniony szablon dla oceny” [źródło: własne]

Rys. 60 “Szablon agregowanych wyników” [źródło: własne]

54

Dla każdej wyszukiwarki przy każdym zapytaniu obliczono wskaźnik DCG i iDCG.

Pokazane to na rysunku 62.

Rys. 62 “Obliczanie wskaźników DCG i iDCG dla wyszukiwarki Google” [źródło: własne]

W końcu dla każdego zapytania otrzymano następującą tabelę z wskaźnikami

Cumulative Gain, Discount Cumulative Gain, Ideal Discount Cumulative Gain, Normalized

Discount Cumulative Gain jak to jest pokazane na rysunku 63:

Rys. 61 “Szablon agregowanych wyników - 2” [źródło: własne]

55

Rys. 63 “Ogólna tabela oceny jakości dokumentu z wskaźnikami CG, DCG, iDCG, NDCG” [źródło: własne]

Wartość wskaźnika NDCG ma największe znaczenie, ponieważ to właśnie ona

posłużyła do analizy.

Kryteria oceny zostały opisane w kolejnym rozdziale badawczym niniejszej pracy

dyplomowej.

56

Faza Badawcza

Opis grupy i procedury badawczej

W badaniu jakości otrzymanych wyników wyszukiwania zespół badawczy składał się z

15 osób: specjalistów SEO, specjalistów PPC, programistów oraz specjalistów ds. marketingu

internetowego.

Rys. 64 “Zespół badawczy” [źródło: własne]

Każdy z ekspertów otrzymał papierową i elektroniczną wersję ankiety do wypełnienia.

Każdy z ekspertów dostał po 2 zapytania do zweryfikowania. W sumie każdy z użytkowników

dał ocenę dla maksymalnie 60 stron.

Opracowanie dokumentacji oceny jakości wyników zapytań na podstawie ocen

użytkowników (raterów)

Do oceny każdej witryny została wykorzystana następująca gradacja dla oceny

relewantności. Ta gradacja jest pokazana w tabeli 4.

Tabela 4 “Poziomy ocen relewantności z opisami” [70], [71], [72]

Ocena relewantności Punkty Opis

Witalna (Vital) 10 Jest to najwyższa ocena, którą może otrzymać wynik

wyszukiwania. Witalną ocenę najprawdopodobniej

uzyska oficjalna strona zapytania.

Korzystna (Useful) 7

Jest to drugi co do ważności wynik oceny strony. Tę

ocenę otrzymuje dokument (strona www), na której

można znaleźć informacje nie tylko dokładnie pasujące

do zapytania, ale i posiadające dodatkową wartość

informacyjną.

Relewantna (Relevant) 5

Dokument odpowiada na zapytanie, ale nie posiada

dodatkowej wartości informatycznej jak przy ocenie

Useful Często strony z taką oceną posiadają tylko

jednym z ważnych aspektów zapytania, a nie

wszystkimi.

Nie relewantna (Not Relevant)

2 Ocena przyznawana stronom, które nie odpowiadają na

zapytanie, ale w jakiś sposób są powiązane z intencją

użytkownika.

Nie na temat (Off-topic) 1 Jest to najniższa pozytywna ocena, którą otrzyma

strona całkowicie niezgodna z zapytaniem.

Język obcy (Foreign

Language) 0

Taka ocena zostanie przypisana stronie internetowej,

jeżeli język docelowy zapytania nie zgadza się z

językiem strony.

57

Problem z pobraniem

dokumentu (Didn’t Load) 0

Taką ocenę uzyska strona internetowa, zwracająca błąd

404, błąd „nie znaleziono strony”, błąd „product not

found”, błąd „server time out, błąd „403 forbidden”,

gdy jest wymagana autoryzacja itp. Nie może być oceniona

(Unratable) 0

Ocena przyznawana, jeżeli strona nie może zostać

oceniona. Spam -5 Spam.

Powyższa tabela jest oparta na dwóch podstawowych dokumentach:

Google Przewodnik oceny jakości wyszukiwania (Search Quality Evaluator

Guidelines) (rysunek 59)

Yandex Przewodnik dla Asesora (Руководство для Ассесора) (rysunek 60)

Powyższe dokumenty należą do oficjalnej dokumentacji Google i Yandex służącej do

oceny jakości wyszukiwania. Dane pochodzące z analizy są wykorzystywane do wprowadzenia

zmian w algorytmach wyszukiwarek. Na podstawie przyznanych ocen stwierdza się, jak

skuteczne były innowacje wprowadzone w wyszukiwarce.

W badaniu przeprowadzonym na potrzeby niniejszej pracy agregowano i analizowano

wyniki Google, Yandex, Bing, a także meta-agregatora na podstawie danych wyszukiwarek.

Wyniki analizy przedstawiono w następnym rozdziale pracy.

Rys. 65 “Google przewodnik oceny jakości wyszukiwania” [źródło: [71]]

Rys. 66 “Yandex przewodnik dla Asesora” [źródło: [72]]

58

Przeprowadzenie oceny jakości agregowanych wyników na podstawie NDCG

Zapytania w języku polskim

Lista zapytań w języku polskim pokazane jest w tabeli 5: Tabela 5 „Zapytania w języku polskim”

Zapytania Język zapytania

Lokalizacja Data zapytania

[wskazniki makroekonomiczne kanada 2000 2010] Polski Polska 20.11.2017 [adam mickiewicz data aresztowania] Polski Polska 20.11.2017 [albert einstein nagroda nobla za co] Polski Polska 20.11.2017 [bmw x6 m50d ile koni] Polski Polska 20.11.2017 [elon musk wiek] Polski Polska 20.11.2017 [data bitwy pod grunwaldem] Polski Polska 20.11.2017 [kim dzong un wykształcenie] Polski Polska 20.11.2017 [kim jong il miejsce urodzenia] Polski Polska 20.11.2017 [pkb polski 1991] Polski Polska 20.11.2017 [populacja mozambique 2015] Polski Polska 20.11.2017

Wskaźniki nDCG dotyczące silnika wyszukiwania dla zapytań w języku polskim

pokazane są w tabeli 6 i na rysunkach 67 i 68:

Tabela 6 “Wskaźniki nDCG dla zapytań w języku polskim”

Google Bing Yandex Agregator

0.851186383 0.4250813 0.246175938 0.606393201

0.967461449 0.580303852 0.461774159 0.70852278

0.984657242 0.932006786 0.67545195 0.891474674

0.940951605 0.827707235 0 0.755485232

0.856691478 0.899498975 0.482404919 0.955516751

1 0.813415391 0.773281909 0.907261943

0.86867189 0.822351389 0.808398771 0.993251859

0.630514225 0.499452346 0.484181547 0.662664269

0.790982483 0.780794773 0.785013688 0.69820307

0.697925427 0.69019418 0.436889463 0.883287352

0.858904218 0.727080623 0.515357234 0.806206113

Rys. 67 “Wskaźniki nDCG dla zapytań w języku polskim - 2” [źródło: własne]

59

Rys. 68 “Wskaźniki nDCG dla zapytań w języku polskim - 3” [źródło: własne]

Jak wynika z badań, wyszukiwarka Google okazała się bezkonkurencyjna, co

potwierdzają wskaźniki popularności tej wyszukiwarki w Polsce, którą według badań posługuje

się 97-98% użytkowników. [45]

Rys. 69 „Porównanie nDCG Google i Agregatora dla zapytań w języku polskim” [źródło: własne]

Yandex poradził sobie z zapytaniami w języku polskim na przeciętnym poziomie,

pokazując najgorsze wskaźniki jakości wyszukiwania, co nie jest zaskakujące, ponieważ dla tej

wyszukiwarki polski segment internetu nie stanowi priorytetu.

0,5

0,6

0,7

0,8

0,9

1

1,1

1 2 3 4 5 6 7 8 9 10

Porównanie nDCG Google i Agregatora dla zapytań w języku polskim

Google Agregator

60

Zapytania w języku angielskim

Lista zapytań w języku polskim pokazane jest w tabeli 7:

Tabela 7 “Zapytania w języku angielskim”

Zapytania Język zapytania Lokalizacja Data zapytania

[canada macroeconomic indicators 2000 2010] Angielski Usa 20.11.2017

[adam mickiewicz date of arrest] Angielski Usa 20.11.2017

[albert einstein nobel prize for what] Angielski Usa 20.11.2017

[bmw x6 m50d horsepower] Angielski Usa 20.11.2017

[elon musk age] Angielski Usa 20.11.2017

[where did the battle of grunwald take place] Angielski Usa 20.11.2017

[kim jong un education] Angielski Usa 20.11.2017

[kim jong il birthplace] Angielski Usa 20.11.2017

[gdp polski 1991] Angielski Usa 20.11.2017

[population of mozambique 2015] Angielski Usa 20.11.2017

Wskaźniki nDCG dotyczące silnika wyszukiwania dla zapytań w języku angielskim


Tabela 8 “Wskaźniki nDCG dla zapytań w języku angielskim”


0.967094751 0.933049507 0.319023198 0.872017982

0.825572726 0.63057043 0.992312373 0.897789659

0.845176096 0.80557925 0.880899522 0.966518375

0.917222156 0.819354823 0.485457396 0.881289017

0.732028955 0.942458084 0.83698606 0.944755662

0.969939234 0.613330561 0.845732126 0.977435009

0.970130578 0.820087533 0.833992932 0.899617805

0.829549721 0.827767526 0.600463836 0.933800969

0.926333895 0.921587575 0.795387436 0.943238286

0.922871274 0.831829117 0.799463912 0.902135097

0.890591939 0.814561441 0.738971879 0.921859786

Rys. 70 “Wskaźniki nDCG dla zapytań w języku angielskim - 2” [źródło: własne]

61

Rys. 71 „Wskaźniki nDCG dla zapytań w języku angielskim – 3” [źródło: własne]

Zapytania w języku angielskim stanowią priorytet dla większości wyszukiwarek, nawet

tych lokalnych, jak Yandex czy Baidu.

W tych zapytaniach jakość wyników wyszukiwania dla wyszukiwarki Yandex wzrosła

w porównaniu z zapytaniami w języku polskim, podobnie jak w Google i Bing, dla których

anglojęzyczny segment internetu jest głównym źródłem zysku. Semantyka języka angielskiego

zbadana jest przez Google i Bing w wystarczającym stopniu – wyszukiwarki uzyskały bardzo

wysokie wyniki.

Jednak agregator, korzystając z wszystkich atutow metawyszukiwania i rozszerzając

szerokość widzenia klasycznych wyszukiwarek w danym języku zapytania, uzyskał najlepszy

wynik.

62

Zapytania w języku rosyjskim

Lista zapytań w języku polskim pokazane jest w tabeli 9:

Tabela 9 “Zapytania w języku rosyjskim”

Zapytania Język zapytania

Lokalizacja Data zapytania

[макроэкономические показатели Канады 2000 2010] Rosyjski Rosja 20.11.2017

[дата рождения адама мицкевича] Rosyjski Rosja 20.11.2017

[альберт эинштеин нобелевскую премию за что получил] Rosyjski Rosja 20.11.2017

[бмв x6 m50d сколько лошадеи] Rosyjski Rosja 20.11.2017

[элон маск возраст] Rosyjski Rosja 20.11.2017

[дата битвы под грюнвальдом] Rosyjski Rosja 31.10.2017

[ким чен ын образование] Rosyjski Rosja 20.11.2017

[ким чен ир место рождения] Rosyjski Rosja 20.11.2017

[ввп польши 1991] Rosyjski Rosja 20.11.2017

[мозамбик население 2015] Rosyjski Rosja 20.11.2017

Wskaźniki nDCG dotyczące silnika wyszukiwania dla zapytań w języku rosyjskim


Tabela 10 “Wskaźniki nDCG dla zapytań w języku rosyjskim”


0.915611808 0.661764405 0.910845706 0.938635335

0.939000348 0.878427736 0.995483776 0.993653734

0.922173622 0.679071893 0.795189759 0.917404545

0.907464398 0.692446399 0.88300339 0.946523138

1 0.899495632 0.936980207 1

0.955935878 0.552977671 0.985100413 0.913026778

0.65589738 0.653882911 0.841142961 0.831979759

0.816423491 0.715936491 0.973641206 0.863869369

0.889243271 0.81315996 0.8336009 0.930861319

0.795391596 0.638138456 0.963668729 0.911012941

0.879714179 0.718530155 0.911865705 0.924696692

63

Rys. 72 “Wskaźniki nDCG dla zapytań w języku rosyjskim - 2”

Rys. 73 “Wskaźniki nDCG dla zapytań w języku rosyjskim - 3”

W zapytaniach w języku rosyjskim Yandex ma najlepszy wynik wśród klasycznych

wyszukiwarek, co potwierdza jego wiodącą pozycję w rosyjskim segmencie Internetu. Google

z kolei ma drugi wynik. Bing uzyskał najgorszy wynik.

Agregator dla tego języka zapytań zaprezentował najwyższy wynik. To z kolei

potwierdza hipotezę, że największą skuteczność agregacja wyników może mieć miejsce na

rynkach, w których nie ma dominacji jednej z wyszukiwarek, a popularność wyszukiwarek na

danym rynku jest równoznaczna. Przykładem tu może być rynek wyszukiwarek w Rosji, gdzie

Google i Yandex mają niemal równie części rynku jak to jest pokazane na rysunku 73.

Rys. 74 “Ranking wyszukiwarek w 2017 w Rosji” [73]

64

Właśnie w takich segmentach Internetu stosowanie agregatorów wyników

wyszukiwania jest najbardziej uzasadnione, co zostało potwierdzone wynikami badań.

65

Opracowanie wyników badań

Ogólne wyniki badań pokazane na rysunkach 75 i 76:

Rys. 75 “Ogólne wyniki badań nDCG”

Średnioważone znaczenia wskaźnika nDSG pokazane są w tabeli 10.

Tabela 10 “Ogólne wyniki badań nDCG - 2”


0.876403445 0.75339074 0.722064939 0.884254197

Rys. 76 “Ogólne wyniki badań nDCG - 3”

Wyniki wykazały, że nieznacznie wskaźnik nDCG agregatora wyników zapytań jest

wyższy niż wskaźniki trzech poszczególnych wyszukiwarek. Najlepszy wynik wśród

klasycznych wyszukiwarek zaprezentowało Google, na drugim miejscu jest Bing, a najgorsza

wyszukiwarka to Yandex.

66

Testy statystyczne

Jako test statystyczny został wykorzystany test Wilkoksona. To nieparametryczny

statystyczny test (kryterium), używany w celu sprawdzenia różnic pomiędzy dwoma próbkami

pikseli par pomiarów. Po raz pierwszy zaproponowany Frankiem Wilkoksonem. [81].

Test został przeprowadzony przy użyciu online zasobu - http://vassarstats.net/. [82]

Poniżej znajdują się wyniki testu statystycznego dla par badanych wyników. Dla pary

«Google i Agregator» wyniki są pokazane w tabeli 11 i tabeli 12.

Hipotezy: H0: W badanych wynikach zapytań mediana różnic pomiędzy nDCG

agregatora i Google wynosi 0. H1: W badanych wynikach zapytań mediana różnic pomiędzy

nDCG agregatora i Google różna od 0.

Tabela 11 “Test statystyczny dla pary Google i Agregator”

Google Agregator S/R of|Xa−Xb|

0.851186383 0.606393201 28

0.967461449 0.70852278 29

0.984657242 0.891474674 17

0.940951605 0.755485232 26

0.856691478 0.955516751 -19

1 0.907261943 15

0.86867189 0.993251859 -23

0.630514225 0.662664269 -6

0.790982483 0.69820307 16

0.697925427 0.883287352 -25

0.967094751 0.872017982 18

0.825572726 0.897789659 -14

0.845176096 0.966518375 -22

0.917222156 0.881289017 7

0.732028955 0.944755662 -27

0.969939234 0.977435009 -2

0.970130578 0.899617805 13

0.829549721 0.933800969 -20

0.926333895 0.943238286 -3

0.922871274 0.902135097 4

0.915611808 0.938635335 -5

0.939000348 0.993653734 -12

0.922173622 0.917404545 1

0.907464398 0.946523138 -8

1 1 ---

0.955935878 0.913026778 10

0.65589738 0.831979759 -24

0.816423491 0.863869369 -11

0.889243271 0.930861319 -9

0.795391596 0.911012941 -21

Tabela 12 “Wyniki testu statystycznego dla pary Google i Agregatora”

W=-67

ns/r=29 P(1-tail) P(2-tail)

z=-0.72 0.2358 0.4715

67

Dla pary «Bing i Agregator» wyniki są pokazane w tabeli 13 i tabeli 14.


agregatora i Bing wynosi 0. H1: W badanych wynikach zapytań mediana różnic pomiędzy

nDCG agregatora i Bing różna od 0.

Tabela 13 „Test statystyczny dla pary Bing i Agregator”

Bing Agregator S/R of|Xa−Xb|

0.4250813 0.606393201 -22

0.580303852 0.70852278 -16

0.932006786 0.891474674 3

0.827707235 0.755485232 8

0.899498975 0.955516751 -4

0.813415391 0.907261943 -11

0.822351389 0.993251859 -20

0.499452346 0.662664269 -19

0.780794773 0.69820307 10

0.69019418 0.883287352 -23

0.933049507 0.872017982 5

0.63057043 0.897789659 -26

0.80557925 0.966518375 -18

0.819354823 0.881289017 -6

0.942458084 0.944755662 -1

0.613330561 0.977435009 -30

0.820087533 0.899617805 -9

0.827767526 0.933800969 -13

0.921587575 0.943238286 -2

0.831829117 0.902135097 -7

0.661764405 0.938635335 -28

0.878427736 0.993653734 -14

0.679071893 0.917404545 -24

0.692446399 0.946523138 -25

0.899495632 1 -12

0.552977671 0.913026778 -29

0.653882911 0.831979759 -21

0.715936491 0.863869369 -17

0.81315996 0.930861319 -15

0.638138456 0.911012941 -27

Tabela 14 “Wyniki testu statystycznego dla pary Bing i Agregatora”

W=-413


z=-4.24 <.0001 <.0001

68

Dla pary «Yandex i Agregator» wyniki są pokazane w tabeli 15 i tabeli 16.


agregatora i Yandex wynosi 0. H1: W badanych wynikach zapytań mediana różnic pomiędzy

nDCG agregatora i Yandex różna od 0.

Tabela 15 “Test statystyczny dla pary Yandex i Agregator”

Yandex Agregator S/R of|Xa−Xb|

0.246175938 0.606393201 -25

0.461774159 0.70852278 -23

0.67545195 0.891474674 -22

0 0.755485232 -30

0.482404919 0.955516751 -28

0.773281909 0.907261943 -18

0.808398771 0.993251859 -21

0.484181547 0.662664269 -20

0.785013688 0.69820307 10

0.436889463 0.883287352 -27

0.319023198 0.872017982 -29

0.992312373 0.897789659 11

0.880899522 0.966518375 -9

0.485457396 0.881289017 -26

0.83698606 0.944755662 -14

0.845732126 0.977435009 -17

0.833992932 0.899617805 -7

0.600463836 0.933800969 -24

0.795387436 0.943238286 -19

0.799463912 0.902135097 -13

0.910845706 0.938635335 -3

0.995483776 0.993653734 1

0.795189759 0.917404545 -16

0.88300339 0.946523138 -6

0.936980207 1 -5

0.985100413 0.913026778 8

0.841142961 0.831979759 2

0.973641206 0.863869369 15

0.8336009 0.930861319 -12

0.963668729 0.911012941 4

Tabela 16 “Wyniki testu statystycznego dla pary Yandex i Agregatora”

W=-363


z=-3.73 0.0001 0.0002

Dla pary Agregator-Bing i Agregator-Yandex poziom asymptotycznej istotności P

poniżej 0.05 (P<0.05), c czego wynika, że dane pary danych statystycznie się różną od siebie

69

nawzajem, co w naszym przypadku będzie mówić o wzroście jakości wyników. Hipoteza

zerowa dla tych przypadków ma być odrzucona.

Dla pary Agregator-Google P(1-tail) = 0.2358 i P(2-tail) = 0.4715, co jest więcej niż

0.05, co z kolei oznacza, że dane wyniki statystycznie są podobne, czyli różnice między

próbkami nie są statystycznie istotne, z czego można stwierdzić, że jakość wyników

wyszukiwania agregatora nie jest gorsza niż jakość wyszukiwania każdego z klasycznych

wyszukiwarek indywidualnie (Google, Bing, Yandex) i lepiej niż u dwóch wyszukiwarek (Bing

i Yandex). W naszym konkretnym przypadku okazało się, że Agregator pokazał trochę lepszy

wynik niż najlepsza z wyszukiwarek klasycznych: Google, ale nie da się stwierdzić, że przy

przeprowadzeniu powtórnych badań taka sytuacja się powtórzy.

Hipoteza zerowa dla tej pary wyników nie może być odrzucona.

70

Podsumowanie

Wnioski wynikające z realizacji badań

Na podstawie powyższych wyników można stwierdzić, że korzystanie z agregatorа

wyników zapytań dla zapytań o aktualnym stanie jest uzasadnione i może poprawić jakość

wyników wyszukiwania, zwiększając zadowolenie użytkowników.

Wykorzystanie agregatora powoduje zwiększenie zasięgu wyszukiwania, co z kolei

powoduje, że użycie meta-wyszukiwarek jest korzystnie w tych segmentach Internetu, gdzie

nie ma dominacji jednej z wyszukiwarek. Zgodnie z rysunkiem 28 “Popularność wyszukiwarek

w państwach świata” [46] przykładami takich państw mogą być: Chiny, Rosja, Czechy.

Rynki tych krajów reprezentują największy potencjał w zakresie zwiększania jakości

wyszukiwania w przypadku korzystania z agregatorów wyników wyszukiwania. Ale tu trzeba

brać pod uwagę rodzaj i popularność zapytania do wyszukiwarki. W badaniach były

wykorzystane zapytania o stan faktyczny.

Jakość wyników przy takim rodzaju zapytań Agregatora była wyższa niż jakość

poszczególnych wyszukiwarek, z czego można zrobić podsumowanie, że wykorzystanie

agregacji poprawia jakość wyników, co w dalszym ciągu zwiększa zadowolenie

użytkowników, co z kolei w jest głównym celem działania systemów wyszukiwania informacji.

Więc można stwierdzić, że cel pracy został osiągnięty.

Potrzeba kontynuacji prac

W niniejszej pracy została zbadana jakość wyników wyszukiwania zarówno agregatora,

jak i poszczególnych wyszukiwarek na podstawie 30 zapytań o stan faktyczny. Ta próbka w

ramach skali wyszukiwarek jest za mała.

Niestety dla pary Agregator-Google po przeprowadzeniu testu statystycznego wynika,

że dane wyniki statystycznie są podobne, czyli różnice między próbkami nie są statystycznie

istotne i nie można stwierdzić, że jakość wyników przy innej próbce zapytań będzie lepsza u

Agregatora, więc w przypadku dostępności większej liczby osób zaangażowanych (Search

Quality Raters) autor niniejszej pracy uważa, że warto przeprowadzić tego typu badania na

większej próbie zapytań.

71

Spis ilustracji:

Rysunek 1 “Użytkownicy Internetu na 100 mieszkańców” [źródło [3][4]]

Rysunek 2 “Łączna liczba witryn” [źródło [7]]

Rysunek 3 “Architektura silnika meta-wyszukiwarki” [źródło [13]]

Rysunek 4 „Wizualizacja agregacji wyników wyszukiwania” [źródło [20]]

Rysunek 5 “Meta-wyszukiwarka Quick” [źródło [18]]

Rysunek 6 “Meta-wyszukiwarka MetaCrawler” [źródło [19]]

Rysunek 7 “Przykład klastrowania przy wykorzystaniu meta-wyszukiwarki Yippy” [źródło

[76]]

Rysunek 8 “Przykład klastrowania przy wykorzystaniu meta-wyszukiwarki Izito” [źródło

[77]]

Rysunek 9 “Zaawansowane systemy meta-wyszukiwania” [źródło [10]]

Rysunek 10 “Meta-wyszukiwarka Dogpile” [źródło [17]]

Rysunek 11 “Meta-wyszukiwarka WebCrawler” [źródło [78]]

Rysunek 12 “Meta-wyszukiwarka Nigma” [źródło [23]]

Rysunek 13 “Możliwości meta-wyszukiwarki Nigma” [źródło [23]]

Rysunek 14 “Wyszukiwarka DuckDuckGo” [źródło [24]]

Rysunek 15 “Anonimowość użytkownika przy korzystaniu DuckDuckGo” [źródło [79]]

Rysunek 16 “Wzrost użycia DuckDuckGo” [źródło [24]]

Rysunek 17 “Wyniki wyszukiwania Google” [źródło [27]]

Rysunek 18 “Wyniki płatne i organiczne” [źródło [37]]

Rysunek 19 “Ahrefs” [źródło [38]]

Rysunek 20 „Analiza organicznego ruchu w wyszukiwarce w Ahrefs” [źródło [38]]

Rysunek 21 “Historia pozycji w wynikach wyszukiwania” [źródło [38]]

Rysunek 22 “Webpozycja” [źródło [39]]

Rysunek 23 “Serp.watch” [źródło [80]]

Rysunek 24 “Zakres widoczności witryny” [źródło [42]]

Rysunek 25 „Google Search Console” [źródło [43]]

Rysunek 26 “Popularność wyszukiwarek w Polsce” [źródło [45]]

Rysunek 27 “Popularność wyszukiwarki Google w Polsce” [źródło [45]]

Rysunek 28 “Popularność wyszukiwarek w państwach świata” [źródło [46]]

Rysunek 29 "Interakcja między wyszukiwarką a użytkownikiem" [źródło [20]]

Rysunek 30 “Kompletność i dokładność przy ocenie efektywności wyszukiwania” [źródło

[20]]

Rysunek 31 “Dokładność jako miara skuteczności wyników wyszukiwania” [źródło [50]]

Rysunek 32 “Kompletność jako miara skuteczności wyników wyszukiwania” [źródło [50]]

Rysunek 33 “Dokładność i kompletność” [źródło [51]]

Rysunek 34 „Fall-out, jako miara skuteczności wyników wyszukiwania” [źródło [50]]

Rysunek 35 “F-miara, jako miara efektywności wyszukiwania” [źródło [50]]

Rysunek 36 “F-miara, jako miara efektywności wyszukiwania - 2” [źródło [50]]

Rysunek 37 “Przykład pierwszej strony wyników wyszukiwania” [źródło [20]]

Rysunek 38 “Discounting Cumulative Gain” [źródło [50]]

Rysunek 39 “Discounted Cumulative Gain i Ideal Discounted Cumulative Gain” [źródło:

własne]

Rysunek 40 “Normalized discounted cumulative gain - 2” [źródło [54] [55]]

Rysunek 41 “Google Quality Rater” [źródło [56]]

Rysunek 42 “Google Quality Rater 2” [źródło [56]]

Rysunek 43 “Wyszukiwarki Google, Bing, Yandex jako źródła danych dla agregatora”

[źródło: własne]

72

Rysunek 44 “Logo Google” [źródło [57]]

Rysunek 45 “https://google.pl” [źródło [57]]

Rysunek 46 “Logo Bing” [źródło [60]]

Rysunek 47 “https://bing.com” [źródło [60]]

Rysunek 48 “Logo Yandex” [źródło [62]]

Rysunek 49 “https://yandex.com [źródło [62]]

Rysunek 50 „Tabela agregacji na podstawie poszczególnych pozycji” [źródło: własne]

Rysunek 51 “Agregacja na postawie wyników z Google, Bing, Yandex” [źródło: własne]

Rysunek 52 “Procent ruchu odnośnie pozycji w wynikach wyszukiwarki Google” [źródło:

[64]]

Rysunek 53 “Rozkład ruchu odnośnie strony wyszukiwania” [źródło: [64]]

Rysunek 54 “Rozkład ruchu odnośnie pozycji wyszukiwania” [źródło: [64]]

Rysunek 55 “Rozkład ruchu odnośnie pozycji w pierwszej dziesiątce wyników

wyszukiwania” [źródło: [66]]

Rysunek 56 «Druga strona wyników wyszukiwania» [źródło: [67]]

Rysunek 57 “Sezonowość witryny – wykres SENUTO” [źródło: [42]]

Rysunek 58 „Pusty szablon dla oceny” [źródło: własne]

Rysunek 59 „Wypełniony szablon dla oceny” [źródło: własne]

Rysunek 60 “Szablon agregowanych wyników” [źródło: własne]

Rysunek 61 “Szablon agregowanych wyników - 2” [źródło: własne]

Rysunek 62 “Obliczanie wskaźników DCG i iDCG dla wyszukiwarki Google” [źródło:

własne]

Rysunek 63 “Ogólna tabela oceny jakości dokumentu z wskaźnikami CG, DCG, iDCG,

NDCG” [źródło: własne]

Rysunek 64 “Zespół badawczy” [źródło: własne]

Rysunek 65 “Google przewodnik oceny jakości wyszukiwania” [źródło: [71]]

Rysunek 66 “Yandex przewodnik dla Asesora” [źródło: [72]]

Rysunek 67 “Wskaźniki nDCG dla zapytań w języku polskim - 2” [źródło: własne]

Rysunek 68 “Wskaźniki nDCG dla zapytań w języku polskim - 3” [źródło: własne]

Rysunek 69 „Porównanie nDCG Google i Agregatora dla zapytań w języku polskim” [źródło:

własne]

Rysunek 70 “Wskaźniki nDCG dla zapytań w języku angielskim - 2” [źródło: własne]

Rysunek 71 „Wskaźniki nDCG dla zapytań w języku angielskim – 3” [źródło: własne]

Rysunek 72 “Wskaźniki nDCG dla zapytań w języku rosyjskim - 2”

Rysunek 73 “Wskaźniki nDCG dla zapytań w języku rosyjskim - 3”

Rysunek 74 “Ranking wyszukiwarek w 2017 w Rosji” [73]

Rysunek 75 “Ogólne wyniki badań nDCG”

Rysunek 76 “Ogólne wyniki badań nDCG - 3”

73

Spis tabel:

Tabela 1 „Internauci na całym świecie” [źródło: [4]]

Tabela 2 „Wzrost łącznej liczby witryn w ciągu ostatnich 20 lat” [źródło: [7]]

Tabela 3 „Poziomy interakcji między użytkownikiem a wyszukiwarką”

Tabela 4 „Poziomy ocen relewantności z opisami” [źródło: [70] [71] [72]]

Tabela 5 „Zapytania w języku polskim”

Tabela 6 „Wskaźniki nDCG dla zapytań w języku polskim”

Tabela 7 „Zapytania w języku angielskim”

Tabela 8 „Wskaźniki nDCG dla zapytań w języku angielskim”

Tabela 9 „Zapytania w języku rosyjskim”

Tabela 10 „Wskaźniki nDCG dla zapytań w języku rosyjskim”

Tabela 10 „Ogólne wyniki badań nDCG - 2”

Tabela 11 „Test statystyczny dla pary Google i Agregator”

Tabela 12 „Wyniki testu statystycznego dla pary Google i Agregatora”

Tabela 13 „Test statystyczny dla pary Bing i Agregator”

Tabela 14 „Wyniki testu statystycznego dla pary Bing i Agregatora”

Tabela 15 „Test statystyczny dla pary Yandex i Agregator”

Tabela 16 „Wyniki testu statystycznego dla pary Yandex i Agregatora”

74

Literatura

[1] Statystyka użytkowania internetu, https://www.internetworldstats.com/stats.htm, data

ostatniego dostępu: 28.02.2018.

[2] Globalne wykorzystanie Internetu, https://en.wikipedia.org/wiki/Global_Internet_usage,

data ostatniego dostępu: 28.02.2018.

[3] Internauci na 100 mieszkańców,

https://en.wikipedia.org/wiki/Global_Internet_usage#/media/File:Internet_users_per_100

_inhabitants_ITU.svg, data ostatniego dostępu: 28.02.2018.

[4] Kluczowe wskaźniki ICT dla krajów rozwiniętych i rozwijających się oraz świata,

http://www.itu.int/en/ITU-D/Statistics/Documents/statistics/2014/ITU_Key_2005-

2014_ICT_data.xls data ostatniego dostępu: 28.02.2018.

[5] Informacja o „Internet Live Stats, http://www.internetlivestats.com/about/, data ostatniego

dostępu: 28.02.2018.

[6] http://www.internetlivestats.com/, data ostatniego dostępu: 28.02.2018.

[7] Łączna liczba stron internetowych, http://www.internetlivestats.com/total-number-of-

websites/, data ostatniego dostępu: 26.02.2018.

[8] Użytkownicy Internetu, http://www.internetlivestats.com/internet-users/, data ostatniego

dostępu: 26.02.2018.

[9] Statystyki wyszukiwarki Google, http://www.internetlivestats.com/google-search-

statistics/, data ostatniego dostępu: 26.02.2018.

[10] Zalety meta-wyszukiwania, http://internetno.net/category/shpargalki/meta-search/, data

ostatniego dostępu: 26.02.2018.

[11] Indeksacja w systemach wyszukiwania https://ru.wikipedia.org/wiki/

Индексация_в_поисковых_системах, data ostatniego dostępu: 26.02.2018

[12] Blokowanie dostępu do treści w witrynie,

https://support.google.com/webmasters/topic/4598466?hl=pl&ref_topic=4617736, data

ostatniego dostępu: 28.02.2018

[13] https://en.wikipedia.org/wiki/Metasearch_engine, data ostatniego dostępu: 28.02.2018

[14] System meta-wyszukiwania, https://ru.wikipedia.org/wiki/Метапоисковая_система,

data ostatniego dostępu: 26.02.2018

[15] Metasearch Engines, Weiyi Meng

http://www.cs.binghamton.edu/~meng/pub.d/EDBS_Metasearch.pdf, data ostatniego dostępu:

26.02.2018

[16] Ranking algorithm for meta search engine, Mr. Biraj Patel and Dr. Dipti Shah,

http://www.technicaljournalsonline.com/ijaers/VOL%20II/IJAERS%20VOL%20II%20ISSU

E%20I%20%20OCTBER%20DECEMBER%202012/231.pdf, data ostatniego dostępu:

26.02.2018

[17] https://en.wikipedia.org/wiki/Dogpile, data ostatniego dostępu: 01.03.2018

[18] https://en.wikipedia.org/wiki/Ixquick, data ostatniego dostępu: 01.03.2018

[19] https://en.wikipedia.org/wiki/MetaCrawler, data ostatniego dostępu: 01.03.2018

[20] Porównanie metod oceny jakości wyszukiwania, Roman Poborchy, 2015

https://events.yandex.ru/lib/talks/2344/, data ostatniego dostępu: 01.03.2018

[21] https://www.theregister.co.uk/2012/12/18/search_engines_we_have_known/?page=3,


[22] Klastrowanie w wyszukiwarkach, https://en.wikipedia.org/wiki/Document_clustering#

Clustering_in_search_engines, data ostatniego dostępu: 02.03.2018

[23] Meta-wyszukiwarka Nigma, https://ru.wikipedia.org/wiki/Нигма, data ostatniego

dostępu: 02.03.2018

75

[24] Wyszukiwarka DuckDuckGo, https://en.wikipedia.org/wiki/DuckDuckGo, data


[25] http://natemat.pl/56717,duckduckgo-powstalo-ze-zlosci-na-googla-wyszukiwarka-ktora-

nie-sledzi-uzytkownika-zagrozi-gigantowi, data ostatniego dostępu: 02.03.2018

[26] Wyniki wyszukiwania SERP, https://www.seopilot.pl/wiki/Wyniki_wyszukiwania_-

_SERP.html, data ostatniego dostępu: 02.03.2018

[27] https://www.artefakt.pl/blog/slownik-seo/co-jest-serp-wyniki-wyszukiwania#wyniki ,


[28] Snippet, https://www.seopilot.pl/wiki/Snippet.html, data ostatniego dostępu: 02.03.2018

[29] Zapytanie do wyszukiwarki, https://en.wikipedia.org/wiki/Web_search_query, data


[30] Organiczne wyniki wyszukiwania,

https://en.wikipedia.org/wiki/Search_engine_results_page# Organic_results, data ostatniego

dostępu: 02.03.2018

[31] https://pl.wikipedia.org/wiki/Wyniki_organiczne, data ostatniego dostępu: 02.03.2018

[32] Catherine Juon, Dunrie Greiling, Catherine Buerkle (2011) “Internet Marketing Start to

Finish: Drive measurable” ISBN 978-0-7897-4789-1

[33] Co to jest SERP, https://www.artefakt.pl/blog/slownik-seo/co-jest-serp-wyniki-

wyszukiwania, data ostatniego dostępu: 02.03.2018

[35] Broder, A. (2002). A taxonomy of Web search. SIGIR Forum, 36(2), 3–10.

[36] https://en.wikipedia.org/wiki/Web_search_query, data ostatniego dostępu 02.03.2018

[37] https://pl.wikipedia.org/wiki/Wyniki_organiczne#/media/File:Wyniki_wyszukiwania

_(organiczne_i_p%C5%82atne).jpg, data ostatniego dostępu: 02.03.2018

[38] https://ahrefs.com/serp-checker, data ostatniego dostępu 02.03.2018

[39] https://webpozycja.pl/, data ostatniego dostępu 02.03.2018

[40] https://www.seopilot.pl/news_id172.html, data ostatniego dostępu 02.03.2018

[41] https://www.silesiasem.pl/senuto-pod-lupa-czyli-wszystko-o-analizie-widocznosci-w-

google, data ostatniego dostępu 02.03.2018

[42] https://www.senuto.com/analiza-widocznosci-2/, data ostatniego dostępu 02.03.2018

[43] https://www.google.com/webmasters/tools/search-analytics, data ostatniego dostępu

21.04.2018

[44] Google Search Console, https://pl.wikipedia.org/wiki/Google_Search_Console, data

ostatniego dostępu 02.03.2018

[45] Wyszukiwarka Google nadal bezkonkurencyjna, 2008

https://www.artefakt.pl/blog/seo/wyszukiwarka-google-nadal-bezkonkurencyjna, data


[46] Ranking światowych wyszukiwarek, http://k2search.pl/ranking-swiatowych-

wyszukiwarek-google-bing-yahoo-baidu-yandex-seznam/, data ostatniego dostępu 02.03.2018

[47] https://events.yandex.ru/lib/talks/2344#search, data ostatniego dostępu 14.03.2018

[48] Ocena efektywności wyszukiwania informacji w Internecie,

https://www.slideshare.net/Szorstki/ocena-efektywnoci-wyszukiwania-informacji-w-

internecie, data ostatniego dostępu 09.04.2018

[49] Introduction to Informal Retrieval,

https://web.stanford.edu/class/cs276/handouts/EvaluationNew-handout-6-per.pdf, data


[50] Wyszukiwanie informacji, https://ru.wikipedia.org/wiki/Информационный_поиск, data


[51] https://en.wikipedia.org/wiki/Precision_and_recall, data ostatniego dostępu 09.04.2018

[52] https://en.wikipedia.org/wiki/Discounted_cumulative_gain, data ostatniego dostępu

09.04.2018

76

[53] Search Engines, Chapter 8 – Evaluating Search Engines, Felix Naumann, 2009

https://hpi.de/fileadmin/user_upload/fachgebiete/naumann/folien/SS09/SE_VL/SearchEngine

s_08_Evaluation.pdf, data ostatniego dostępu 09.04.2018

[54] Discounted cumulative gain,

https://en.wikipedia.org/wiki/Discounted_cumulative_gain#Normalized_DCG, data


[55] Relevance Ranking and Evaluation of Search Results through Web Content Mining, G.

Poonkuzhali, R. Kishore Kumar, P. Sudhakar, G.V.Uma, K.Sarukesi, 2012,

https://pdfs.semanticscholar.org/ade6/ccf5c06572d07c3d517be5bc3d34146013fc.pdf, data


[56] Google Quality Raters General Guidelines,

https://static.googleusercontent.com/media/www.google.com/ru//insidesearch/howsearchwork

s/assets/searchqualityevaluatorguidelines.pdf, data ostatniego dostępu 09.04.2018

[57] https://en.wikipedia.org/wiki/Google_Search, data ostatniego dostępu 09.04.2018

[58] https://ru.wikipedia.org/wiki/ Google_(поисковая_система), data ostatniego dostępu

09.04.2018

[59] http://9186748.ru/top-10-poiskovyh-sistem-mira-na-2017g/, data ostatniego dostępu

09.04.2018

[60] https://en.wikipedia.org/wiki/Bing_(search engine), data ostatniego dostępu 09.04.2018

[61] https://ru.wikipedia.org/wiki/Bing, data ostatniego dostępu 09.04.2018

[62] https://ru.wikipedia.org/wiki/Яндекс_(поисковая_система), data ostatniego dostępu

09.04.2018

[63] Zasady działania Yandex, http://www.seodiplom.ru/3-poiskovie-sistemi/princip-raboti-

yandex/, data ostatniego dostępu 09.04.2018

[64] Position No. 1 in Google Gets 33% of Search Traffic, Jessica Lee, 2013,

https://searchenginewatch.com/sew/study/2276184/no-1-position-in-google-gets-33-of-

search-traffic-study, data ostatniego dostępu 09.04.2018

[65] Chitika Insights The Value of Google Result Positioning, 2013,

http://info.chitika.com/uploads/4/9/2/1/49215843/chitikainsights-

valueofgoogleresultspositioning.pdf, data ostatniego dostępu 09.04.2018

[66] https://searchenginewatch.com/sew/study/2276184/no-1-position-in-google-gets-33-of-

search-traffic-study#top10, data ostatniego dostępu 09.04.2018

[67] https://digitalsynopsis.com/tools/google-serp-design/, data ostatniego dostępu 09.04.2018

[68] Rodzaje zapytań, 2017, https://kabaev-kb.ru/teoriya/tipy-poiskovyh-zaprosov/#, data


[69] https://chrome.google.com/webstore/detail/link-klipper-extract-

all/fahollcgofmpnehocdgofnhkkchiekoo, data ostatniego dostępu 09.04.2018

[70] https://searchengineland.com/the-google-quality-raters-handbook-13575, data ostatniego

dostępu 09.04.2018

[71] Google Quality Raters General Guidelines - Page Quality Rating Guideline,

https://static.googleusercontent.com/media/www.google.com/ru//insidesearch/howsearchwork

s/assets/searchqualityevaluatorguidelines.pdf#page-quality-rating-guideline, data ostatniego

dostępu 09.04.2018

[72] Przewodnik Yandex, https://promoexpert.pro/wp-content/uploads/2014/07/asessor-

2013.pdf?x95516, data ostatniego dostępu 09.04.2018

[73] Ocena wyszukiwarek w 2017 r. (Statystyki krajów WNP i świata), Anton Judin, 2017

https://marketer.ua/rejting-poiskovyh-sistem-v-2017-statistika-stran-sng-i-mira/, data


[74] Kutovenko Alexey Alekseevich (2011) “Профессиональный поиск в Интернете”,

ISBN: 9785459003345

77

[75] https://en.wikipedia.org/wiki/Cyril_Cleverdon, data ostatniego dostępu 29.03.18

[76] http://yippy.com/, data ostatniego dostępu 20.04.2018

[77] https://www.izito.com/, data ostatniego dostępu 20.04.2018

[78] http://www.webcrawler.com/, data ostatniego dostępu 20.04.2018

[79] https://duckduckgo.com/, data ostatniego dostępu 20.04.2018

[80] http://www.serp.watch/, data ostatniego dostępu 21.04.2018

[81] Wilcoxon, F. (1945). Individual comparisons by ranking methods. Biometrics, 1, 80-83.

[82] Wilcoxon Signed-Rank Test, http://vassarstats.net/wilcoxon.html, data ostatniego

dostępu 24.01.2018