Upload
symetria-sp-j
View
702
Download
1
Embed Size (px)
DESCRIPTION
Citation preview
Wyszukiwarki klastrowe
Paulina Łapińska
A-Symetria
A-Symetria Wyszukiarki klastrowe 2
Plan prezentacji
1. Co to są wyszukiwarki klastrowe?
2. Przykład wyszukiwarek klastrowych: Clusty i Carrot2
3. Sposób prezentacji wyników w Google, Clusty, Carrot2
4. Podsumowanie
Co to są wyszukiwarki klastrowe?
A-Symetria Wyszukiarki klastrowe 4
Co to są wyszukiwarki klastrowe?
• Wyszukiwarki klastrowe (ang. clustering search engines) to wyszukiwarki, które organizują wyniki w kategorie tematyczne przy pomocy specjalnych algorytmów.
A-Symetria Wyszukiarki klastrowe 5
Historia wyszukiwarek klastrowych
• Jednym z pierwszych systemów, wykorzystujących taki typ porządkowania wyników, był interfejs Grouper stworzony dla wyszukiwarki HuskySearch.
• Działał on w latach 1997-2000.
• Wykorzystywał algorytm Suffix Tree Clustering, w skrócie STC.
A-Symetria Wyszukiarki klastrowe 6
Przykłady wyszukiwarek klastrowych
• A9 http://www.a9.com/• Accumo http://www.accumo.com/• All 4 One MetaSearch http://all4one.searchallinone.com/• AlltheWeb Livesearch http://livesearch.alltheweb.com/• BizNetic http://www.biznetic.com/• BoardReader.com • Cluster http://www.boardreader.com/• Clush http://www.clush.com/• Cluuz http://www.cluuz.com/• Collarity http://www.collarity.com/• Curry Guide http://www.curryguide.com/• Deepor http://www.deepor.com/• Exalead http://www.exalead.com/• Find.com http://www.find.com/• FyberSearch http://www.fybersearch.com/
Przykład wyszukiwarek klastrowych: Clusty i Carrot2
A-Symetria Wyszukiarki klastrowe 8
Clusty
A-Symetria Wyszukiarki klastrowe 9
Clusty
• Powstała w 2004 roku w Pittsburghu.• Stworzona przez firmę Vivísimo (założona w
2000 przez 3 naukowców z Carnegie Mellon University, którzy postanowili rozwiązać problem przeładowania informacją).
• Twórcy uznali, że lepszym rozwiązaniem niż opieranie się na rankingu wyników, jest tematyczne dzielenie ich lub też łączenie w grupy znaczeniowe dla lepszego wyszukiwania i odkrywania odpowiedzi na zadanie pytanie.
A-Symetria Wyszukiarki klastrowe 10
Clusty
• Clusty przeszukuje wyszukiwarki i na podstawie ich rankingów daje wyniki.
• Czymś, co sprawia ze Clusty jest wyjątkowa jest sposób, w jaki grupuje wyniki w klasy znaczeniowe. Pozwala to skupić się na wyszukiwaniu pojęcia oraz odkrywać zaskakujące związki.
A-Symetria Wyszukiarki klastrowe 11
Clusty
• Przeszukuje na przykład: Ask, Bing, NY Times, Open Directory, Yahoo!, Yahoo! News, Gigablast.
• Linki sponsorowane pochodzą tylko z Ask.• Prywatność: twórcy zaznaczają, że nie
interesują ich żadne detale z życia użytkowników.
• Brak cenzury wyników.• Tylko do użytku prywatnego i niekomercyjnego.
Na wykorzystanie komercyjne należy mieć zgodę twórców.
A-Symetria Wyszukiarki klastrowe 12
Carrot2
A-Symetria Wyszukiarki klastrowe 13
Carrot2
• To wyszukiwarka klastrowa Open Source.• Organizuje małe kolekcje dokumentów (np.
wyniki wyszukiwania) w kategorie tematyczne.• Można klastrować HTML i MS Word.• Ma 2 specjalne algorytmy Lingo i STC. • Korzysta z różnych źródeł: YahooAPI,
GoogleAPI, MSN Live API, eTools Meta Search, Lucene, SOLR, Google Desktop i in.
A-Symetria Wyszukiarki klastrowe 14
Carrot2
• Możną ją stosować w celach komercyjnych, ale należy zawiadomić o tym twórców, a także działać zgodnie z licencją.
• Twórcy: Dawid Weiss, Stanisław Osiński związani z Politechniką Poznańską.
Sposób prezentacji wyników w Google, Clusty, Carrot2
A-Symetria Wyszukiarki klastrowe 16
W jaki sposób Google prezentuje wyniki wyszukiwania?
A-Symetria Wyszukiarki klastrowe 17
W jaki sposób Google prezentuje wyniki wyszukiwania?
• Lista wyników z wyróżnionymi linkami sponsorowanymi.
• Wynik zawiera: tytuł, opis, adres URL.• Dodatkowe opcje:
– podział wyników według typu źródła (grafika, filmy, wiadomości, blogi, książki, dyskusje);
– czas publikacji; – widok (standardowy albo koło informacji, z obrazami,
podglądy stron, przetłumaczone wyniki).
A-Symetria Wyszukiarki klastrowe 18
W jaki sposób Google prezentuje wyniki wyszukiwania?
• Podaje liczbę uzyskanych wyników i czas poszukiwania oraz podane przez użytkownika zapytanie.
• Propozycje podobne do podanej frazy.• „Czy chodziło Ci o…” z propozycją zapytania
wyszukiwawczego.
A-Symetria Wyszukiarki klastrowe 19
Co można zrobić z wynikami w Google?
• Można je przeglądać strona po stronie.• Podzielić wyniki według typu źródła (grafika,
filmy, wiadomości, blogi, książki, dyskusje), czasu publikacji, widoku (standardowy albo koło informacji, z obrazami, podglądy stron, przetłumaczone wyniki).
A-Symetria Wyszukiarki klastrowe 20
W jaki sposób Clusty prezentuje wyniki wyszukiwania?
A-Symetria Wyszukiarki klastrowe 21
W jaki sposób Clusty prezentuje wyniki wyszukiwania?
• Wyniki podane są w formie listy wyników.• Zawiera: tytuł, opis, adres URL.• Możliwość: podglądu, otwarcia strony w nowym
oknie, wskazania kategorii tematycznej, do której należy dany wynik.
• Na początku listy znajdują się linki sponsorowane.
• Podaje liczbę uzyskanych wyników wraz z czasem przeszukiwania.
A-Symetria Wyszukiarki klastrowe 22
Co można zrobić z wynikami w Clusty?
• Przeglądać wyniki według kategorii tematycznych, przeszukanych źródeł oraz domeny.
• Wyszukać w wynikach konkretną frazę ze wskazaniem kategorii tematycznych, w których występuje.
• Zmniejszyć lub zwiększyć czcionkę.• Wyświetlić definicję wyszukiwanej frazy.
A-Symetria Wyszukiarki klastrowe 23
Ponadto Clusty
• Pozwala na wyświetlenie szczegółów dotyczących przeprowadzonego wyszukiwania: czasu, źródeł wraz z podaniem uzyskanych wyników.
• Może filtrować wyszukiwane treści - odrzuca treści tylko dla dorosłych.
• Wyszukuje w danej domenie lub witrynie.
A-Symetria Wyszukiarki klastrowe 24
Ponadto Clusty
• Pozwala wyszukiwać typ pliku (doc, pdf, ppt, xls) i według języka.
• Wybrać ilość wyświetlanych wyników na stronie.• Wybrać liczbę kategorii.• Wybrać czy wyniki mają się otwierać w nowym
oknie.• Zawiera tabsy pozwalające wyszukiwać
określone dane: wiadomości, grafikę oraz umożliwiające przeszukiwanie Wikipedii, blogów, ofert pracy i zakupów, stron rządowych.
A-Symetria Wyszukiarki klastrowe 25
Ponadto Clusty
• Pozwala wybierać, co ma zawierać opis wyświetlanych wyników.
• Wyświetlane tabsy są wybierane przez użytkownika.
• Pozwala stworzyć własne kategorie tabsów wraz ze wskazaniem przeszukiwanych źródeł i dołączyć je na stałe do wyszukiwarki.
A-Symetria Wyszukiarki klastrowe 26
W jaki sposób Carrot2 prezentuje wyniki wyszukiwania?
A-Symetria Wyszukiarki klastrowe 27
W jaki sposób Carrot2 prezentuje wyniki wyszukiwania?
• Wyniki podane są w formie listy wyników.• Zawiera: tytuł, opis, adres URL.• Możliwość: podglądu, otwarcia strony w nowym
oknie, wskazanie kategorii tematycznej, do której należy dany wynik.
• Przeglądać wyniki według kategorii tematycznych lub wybrać opcję wizualizacji, która prezentuje wybrane kategorie w formie okręgu. Wybór kategorii powoduje, że wyświetlają się wyniki do niej należące.
A-Symetria Wyszukiarki klastrowe 28
Opcja wizualizacji wyników w Carrot2
A-Symetria Wyszukiarki klastrowe 29
Ponadto Carrot2
• Pozwala określić ile chcemy otrzymać wyników (od 50 do 200).
• Pozwala dzielić wyniki na kategorie według wybranego algorytmu (STC lub Lingo), źródła i adresu url.
• Filtrować wyniki ze względu na pornografię i/lub przemoc.
• Wyszukiwać według języka i kraju.
A-Symetria Wyszukiarki klastrowe 30
Ponadto Carrot2
• Pozwala na wyszukiwanie, grafik, wiadomości, ofert pracy, blogów oraz przeszukiwanie MSN, Yahoo!, Wikipedii, bazy medycznej PubMed, witryny Politechniki Poznańskiej.
• Pozwala na wyszukiwanie przy pomocy dwóch algorytmów - Lingo i STC. Wyniki otrzymane po ich zastosowaniu różnią się od siebie.
Podsumowanie
A-Symetria Wyszukiarki klastrowe 32
Podsumowanie
• Wyniki w Google można przeglądać jedynie w formie listy.
• Clusty i Carrot2 pozwalają na przeglądanie wyników według kategorii tematycznych.
• Ponadto Clusty pozwala na tworzenie własnych tabsów służących do wyszukiwania.
• Carrot2 pozwala na wizualizację kategorii.
A-Symetria Wyszukiarki klastrowe 33
Podsumowanie
• W 2006 roku Dennis Galletta, profesor University of Pittsburgh, stwierdził, że Google zacznie w pewien sposób naśladować wyszukiwarki klastrowe.
• Koło informacji, obecnie dostępne w Google, może być właśnie wynikiem ich naśladowania.
A-Symetria Wyszukiarki klastrowe 34
Bibliografia
• Carrot2. [dostęp 11 marca 2010]. http://search.carrot2.org/.
• Clusty. [dostęp 11 marca 2010]. http://clusty.com.
• Conti D., What is Clusty. [dostęp 11 marca 2010]. http://pittsburghlive.com/x/pittsburghtrib/news/rss/s_473651.html.
• Kowalik P., Wspomaganie tworzenia analizatorów stron wyników z internetowych systemów wyszukujących. [dostęp 11 marca 2010]. http://project.carrot2.org/publications/kowalik-2003-wrapit.pdf.
• MetaCrawler, HuskySearch and Grouper. [dostęp 11 marca 2010]. http://www.cs.washington.edu/research/projects/WebWare1/www/metacrawler/.
• Zamir O., Etzioni O., Grouper: a dynamic clustering interface to web search results. [dostęp 11 marca 2010]. http://www.cs.washington.edu/research/projects/WebWare1/etzioni/www/papers/www8.pdf.
Dziękuję za uwagę
Paulina Łapiń[email protected]