Mapy i inteligentna nawigacja w sieci WWW z Mapy i inteligentna nawigacja w sieci WWW z wykorzystaniem sieci bayesowskich i systemów wykorzystaniem sieci bayesowskich i systemów
immunologicznych immunologicznych Kierownik: dr hab. inż.Mieczyslaw A. KlopotekWykonawcy: prof. dr hab. inż. Slawomir T. Wierzchon ,mgr inż. Krzysztof Ciesielski mgr inż. Michal Draminski, Instytut Podstaw Informatyki PAN, Warszawamgr Mariusz KujawiakInstytut Informatyki Akademii Podlaskiej , Siedlce dr inż. Marcin SydowPolsko-Japońska Wyższa Szkoła Technik Komputerowych, Warszawa
Research partially supported by the KBN research project 4 T11C 026 25 "Maps and intelligent navigation in WWW using
Bayesian networks and artificial immune systems"
projekt KBN 4 T11C 026 25 (okres realizacji XI.2003- XI.2005
Agenda
Cel projektu Pojęcie mapy dokumentu Proces tworzenia mapy Architektura systemu Problematyka klasteryzacji w
mapach dokumentów Wyniki niektórych
eksperymentów Co przed nami ....
Cel projektu
Celem projektu jest stworzenie narzędzi do wspomagania zadania eksploracji pełnotekstowych baz dokumentów poprzez stworzenie nawigacyjnej mapy dokumentów, na której bliskość geometryczna na mapie odzwierciedlałaby bliskość koncepcyjną dokumentów, a trzeci wymiar byłby wykorzystywany do odzwierciedlenia gęstości dokumentów
Koncepcja mapy dokumentów
Wizualizacja zbioru dokumentów na płaszczyźnie Wiele podejść (inxight, internet cartographer,
WEbSOM i warianty) Idea WebSOM
– bliskość na mapie = bliskość w przestrzeni dokumentów
– Obszary mapy etykietowane informatywnie– Trzeci wymiar – odmienność w stosunku do
otoczenia Nasze podejście bazuje na idei WebSOM
– Trzeci wymiar – gęstość dokumentów
Interfejs systemu BEATCA dostęp z http://www.ipipan.waw.pl/~klopotek
/mak/current_research/KBN2003/KBN2003Translation.htm
Lista map Wyntrana mapa
Dokumenty z „komórek”
Zapytanie
Trójwymiarowe wizualizacje map (BEATCA)
W planach: hypergeometryczne reprezentacje (Fish-Eye Effect)
Proces tworzenia mapy(bez etykietowania)
Zbiór dokumentów
Punkty w przestrzeni dokumentów
Grupy w przestrzeni dokumentów
Mapa doklumentów
WebSOM – model przestrzeni
dokumentów W tzw. Modelu
wektorowym dokument jest punktem w przestrzeni rozpiętej przez termy – o współrzędnych odpowiadających częstosci tych termów
dogfood
walk
My dog likes this food
When walking, I take some food
Przestrzeń dokumentów a zapytania w wyszukiwarce
Relewantność dokumentu do kwerendy mierzy się kosinusem kąta między kwerendą a dokumentem
dogfood
walk
Query: walk
WebSOM – specyficzna klasteryzacja dokumentów
Document space 2D map
mxr
Mocna zmiana położenia (gruba
strzałka)
Important difference to general clustering: not only clusters with similar documents, but also neighboring clusters similar
Każda komórka mapy ma swój wektore ferencyjny
Wady WebSOM
Wysoka złożoność obliczeniowa Niestabilność (mapy różnią się dla tych
samych dokumentów)
Nasza modyfikacja Reprezentacja w postaci kompaktowych wektorów
referencyjnych Inicjalizacja ogólnymi tematami Łączona metoda szukania zwycięzcy Mapy wielopozuiomowe Wielofazowa klasteryzacja
– Początkowa klasteryzacja – identyfikacja głównych tematów
– Wstępne grupowanie dokumentów – WEBSOM dla grup dokumentów – Rozmyte grupowanie komórek WebSOM i
etykietowanie
Reprezentacja w postaci kompaktowych wektorów
referencyjnych Wektory referencyjne komórek mapy są rzadkie Podczas uczenia stają się jeszcze rzadsze Reprezenntowane przez zrównoważone drzewa
„red-black tree” Zadano próg tolerancji Termy (wymiary) poniżej progu są usuwane Zdecydowanie zmniejszono złozoność bez
pogorszenia jakości
Inicjalizacja tematyczna wektorów referencyjnych
Zamiast WebSOMowej losowej Identyfikacja K głównych tematów (i ich opisów)
– Użycie LSI, lub – Naiwnej sieci bayesowskiej lub– PLSA – niestety nie rekomendujemy
Wybór K punktów na mapie jako tyzw. „punktów fiksowych poszczególnych tematów
Inicjalizacja punktów fiksowych tematami głównymi Pozostałe komórki inicjalizujemy wektorami
„pośrednimi”
Klasteryzacja wstępna dokumentów
Metoda – gazu neuronowego lub – gazu neuronowego z funkcją użyteczności lub– sieci immunologicznej (przyszłe badania)– sieci bayesowskiej (przyszłe badania)
Łączone poszukiwanie zwycięzcy na mapie typu WebSOM
Globalne poszukiwanie – dokładne, lecz wolne Lokalne przeszukiwanie – szybsze, lecz może
być niedokładne dla szybkich zmian rozkładu Start – jedna faza poszukiwań globalnych Ruchy dokumentów coraz płynniejsze – lokalne
poszukiwanie wystarcza Nawrót globalnego przeszukiwania w wypadku
nagłych przemieszczeń (outliery, zmnmiejszenie promienia otoczenia)
Mapy hierarchiczne Bottom-up approach Feasible (with joint
winner search method)
Start with most detailed map
Compute weighted centroids of map areas
Use them as seeds for coarser map
Top-down approach is possible but requires fixpoints
21-28
Klasteryzacja grup dokumentów (komórek do obszarów)
Tradycyjne metody zawodne:– Skrajnie rozmyta struktura tematyczna SOM – Podobieństwo w oryginalnej przestrzeni i na mapie koniecznie
zachowane – Problemy outrlierów – Brak estymacji liczby grup apriori
Zastosowano Fuzzy C-MEANS na kracie komórek Połączenie rozmytego grupowania z podejściem grafowym
(MST gęstości i odległości) Sjklastrowane dokumenty etykietowane ważonymi
centroidami wektorów referencyjnych komórek skalowanymi entropią międzygrupową
........
INTERNET
DBREGISTRY
HT-Base
HT-Base
VEC-BaseMAP-Base
DocGR-Base
Search Engine
Indexing +Optimizing
SpiderDownloading
MappingClustering
of docs
........
CellGR-Base
Clusteringof cells
........
........ ........ ........
Processing Flow Diagram - BEATCA
Architektura systemu
Eksperymenty ze zbieżnością map
Badano zbieżność do stabilnego stanu mapy w zależności od – Typu funkcji alpha (tempo redukcji promienia
poszukiwań) – Typu metody szukankia zwycięzcy
Zbieżność – funkcje alpha (liniowa kontra odwrotnie proporcjonalna)
Zbieżność – poszukiwanie zwycięzcy (łączne kontra lokalne)
Eksperymenty z czasem wykonania
Czynniki badane– Rozmiar mapy (całkowita liczba komórek) – Metoda optymalizacji słownika
• dictionary optimization
• reference vector representation
Execution time - map size
Execution time - optimizations
Dalsze badania
Implementacja kolejnych metod klasteryzacji
Implementacja koncepcji przyrostowego konstruowania map
Budowa efektywnego pająka Badania porównawcze szybkości i jakości
generowanych na różnych ścieżkach
Dziękuję.Czy są pytania?Dziękuję.Czy są pytania?