12
17 marca 2014

Zaraz, zaraz, gdzie to było…

Embed Size (px)

Citation preview

17 marca 2014

Kiedy był pocztek ?Początki wyszukiwania giną w morkach przeszłości

- 1969 – IBM vs. US Department of Justice – STAIRS

- Potem inni:

- Lycos (1994); 1999 top visited site – Uniwersytet Pittsburgh

- AllTheWeb (1999) – Uniwersytet Trondheim – potem FAST -> Overture -> Yahoo!

- AltaVista (1995) -> od 1996 jako Yahoo!

- Yahoo! (1995) – zaczęli od katalogu stron, a nie search’a, ale potem kupili kilka technologii

- Infoseek (1994) -> wykupiona przez Disney w 1998 na Go.com; technologia Ultraseek Server -> Inktomi, Yahoo!, Verity, Autonomy …

A potem przyszedł GoogleJak układać wyniki wyszukiwania?

- Same trafienia w tekście?

Larry Page & Sergey Bryn – doktorat o page rank

Firma Google – 1998

I tak rósł, rósł i rósł.

ENTERPRISE SEARCH

Nowa rzecz

Co dawała wczesna technologia

wyszukiwania w Internecie?

• Wyszukiwanie pełnotekstowe

• Skala internetowa – ogromna objętość danych i wyszukiwanie

online

• Proste modele rankingowe oparte o trafienia i autorytet

• I niewiele więcej – trudności z precyzją

Czego zatem brakowało?

• Prostej implementacji

• Zabezpieczeń przed nieuprawnionym dostępem

• Bardziej zaawansowanych modeli rankingowych

• Więcej metadanych

• Porządkowania wyników wyszukiwania

• I to przy utrzymaniu skali i czasu odpowiedzi

Verity, Autonomy

• Verity firma z największą bazą klientów search’a – 14 000

• Autonomy (1996) – Mike Lynch z Cambridge – teoria Bayes’a

zasotoswana do odnajdywania kluczowych fraz w tekście

• IDOL – “Meaning based computing”

• Szybki wzrost i upadek …

• Upadek? Sprzedaż do HP za 10,2 mld USD

FAST, Endeca i inni

• Z lat 90-tych, 2000-ych pochodzą także FAST, Endeca, Exlaead i

masa innych lokalnych search enginów (NetSprint w PL)

• Autonomy, FAST, Endeca dominowały rynek na początku XXI

wieku – skalowalne liniowo z mechnizmami porządkująycymi wyniki

wyszukiwania (faceting, klasteryzacja), elastycznymi modelami

rankingowymi, rozproszona architektura

No i ten open source

• Lucene

• Zbudowane pod koniec lat 90-tych – Apache release 2001;

bilblioteka Java do indeksowania i wyszukiwania

• Bardzo intensywny rozwój na początku lat 2000

• Solr

• Zbudowane przez Yonik Seeley w 2005 roku; Apache release

2006

• Narzędzia wspomagające: UIMA, OpenPipeline, OpenNLP, wiele wiele innych

No i ten open source

• Historia ma swoje etapy:

• Początki trudne, mozolne powolne

• Search engines w Internecie – bańka .com

• Szybki wzrost dużyhc graczy i mniejszycg firm – FAST, Autonomy,

Endeca

• Pierwsze projeckty open source

• Załamanie dużych graczy i wykup przez gigantów

• Szalony wzrost popularności open source …

A co na to wielcy gracze?

Microsoft kupił FAST w 2008 roku -> wtopienie w SharePoint

IBM kupił iPhrase (2005 – wycofany ze sprzedaży) oraz Vivisimo

(2012 – narzędize do Big Data)

Google – cały czas włsna technologia, sprzedaje urządzenia

Google Search Appliance (GSA)

Oracle kupił Endeca w 2011 jako narżędize do Big Data

Dassault Systemes kupiło Exalead w 2010 – jako narzędzie

wspierające proces wytwarzanie