25
Eksploracja danych a serwisy internetowe Przemysław KAZIENKO Wydział Informatyki i Zarządzania Politechnika Wrocławska [email protected]

Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Eksploracja danych a serwisy internetowe

Przemysław KAZIENKOWydział Informatyki i Zarządzania

Politechnika Wrocł[email protected]

Page 2: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 2

Dlaczego eksploracja danych w serwisach internetowych?

Kanały internetowe (serwisy, witryny) dla wielu firm są głównym a dla bardzo wielu ważnym obszarem działalności

Ocena serwisu (a co za tym idzie zmiany na lepsze) bez zastosowania specjalistycznych narzędzi jest trudna ze względu na:

dużą liczbę informacji (serwisy składają się z wielu stron)dużą liczbę informacji o odwiedzinach użytkownikówocena powinna być dokonywana przez użytkowników a nie twórców

Serwisy internetowe są ważnymi elementami kontaktów z klientem –powinny być uwzględniane w systemach zarządzania relacjami z klientem (CRM)

Dostosowywanie serwisu do użytkownika jest ważnym elementem budowania zadowolenia i utrzymania klienta

Page 3: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 3

Typy eksploracji danych w InternecieAnaliza treści serwisu – web content mining:

wydzielenie tematów (przestrzenie tematyczne)analiza tekstów (text mining)crawlery

Analiza sposobów korzystania z serwisu przez użytkowników – web usage mining:

analiza logów (dzienników) serwerów i systemówwykrywanie sesji w serwisach bez identyfikacjiwykrywanie ścieżek nawigacyjnychwykrywanie „wzorcowych sposobów korzystania”struktura obciążenia systemu

Analiza struktury serwisu – web structure mining:analiza korzystania z odsyłaczy na podstawie logów: wykrywanie nieużywanych odsyłaczy, błędne odesłania, ścieżki „na około”, zły układ serwisu, strony, w których nastąpiła rezygnacja z serwisu, miejsca powrotówanaliza (statyczna) odsyłaczy poprzez analizę treści stron

Page 4: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 4

Proces eksploracji

Gromadzenie (pozyskiwanie) danych: zapamiętywanie przebiegu sesji użytkownika, formularze wypełniane przez użytkownika.

Eksploracja danych (a także inne formy analizy):

analiza zachowań użytkowników

analiza treści serwisu

analiza struktury (układu) serwisu

analiza interfejsu (układ, wygląd, sposoby interakcji)

Wykorzystanie wyników analizy

Page 5: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 5

Wykorzystanie wyników analizyPoprawa serwisu (struktury, układu treści, wyglądu), statycznaAutomatyczna personalizacja serwisu – podpowiadanie stron i produktów, personalizacja wygląduWprowadzenie nowych elementów do serwisu, np. dostępu przez WAP, nowe formy płatności, nowe usług dodatkowe (np. konta pocztowe)Wydzielenie grupy klientów atrakcyjnychZmiany w strategii cenowej, np. wprowadzenie opłat dla wybranych grup użytkownikówIntegracja z innymi kanałami i systemami firmyRozliczenia reklamowe (np. banery)Sprzedaż danych i analiz innym firmomZmiany w infrastrukturze technicznej (komputery, połączenia sieciowe, oprogramowanie serwerów)

Page 6: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 6

Eksploracja - korzyści

Analiza (eksploracja) może przynieść korzyści:

klientowi – serwis lepiej odpowiada na jego potrzeby, częściej i chętniej korzysta z serwisu, wykorzystuje nowe funkcji

organizacji – dostarczenie danych użytecznych w procesach podejmowania decyzji, klient lepiej ocenia serwis a więc i firmę

Page 7: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 7

Analiza – metody i technikiRaporty, zestawienia, wykresy, OLAPEksploracja danych (data mining):

Grupowanie – sesji użytkowników, stron serwisów, stron produktowych, identyfikacja użytkowników z grupami, podpowiadanie odsyłaczy, zmiany w strukturze serwisuSekwencje czasowe, regresja liniowa, sieci neuronowe –przewidywanie zachowań użytkowników, predykcja obciążeniaDrzewa decyzyjne, np. kiedy i dlaczego użytkownicy rezygnują, klasyfikacja użytkownikówReguły związków – wykrywanie sesji w serwisach bez identyfikacji, podpowiadanie następnego kroku (odsyłacze)Wzorce sekwencji – wykrywanie ścieżek nawigacyjnych, reorganizacja struktury serwisu

Page 8: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 8

WebHound – SAS Solution

Przeznaczony do analizy logów serwera WWW

Wydziela dane z logów (extract), wypełnia nimi zbiory SAS-owe (load), tworzy raporty (HTML+skrypty Javy) i hurtownie danych (kostki)

Daje wiedzę o użytkownikach serwisu:Skąd pochodzą (kraje, organizacje)Skąd do nas przyszli (odesłania w innych serwisach)Kiedy pracująJak korzystają z serwisu (ścieżki nawigacyjne)Co używają: platformy systemowe i przeglądarki

Daje wiedzę o serwisiePrzewidywane przyszłe obciążenia, Najczęściej wykorzystywane ścieżki nawigacyjne

Page 9: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 9

Godzinowy raport obciążenia

Page 10: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 10

Najczęściej oglądane strony

Page 11: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 11

Kraje użytkowników

Page 12: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 12

Organizacje użytkowników

Page 13: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 13

Najpopularniejsze ścieżki nawigacyjne

Page 14: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 14

Platformy użytkowników

Page 15: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 15

Ścieżki nawigacyjne

Page 16: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 16

Strony poprzedzające rezygnację z serwisu w danym miejscu

Page 17: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 17

Konfiguracja a personalizacja (1)

Serwisy mogą być konfigurowane (customization) czyli dopasowywane przez użytkownika, najczęściej ręcznie. Przykład: my.yahoo.com - zmiana zawartości (prawy ekran), kolorów, układu; wszystko z ograniczonej listy.

Choose content. What’s on your page

Page 18: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 18

Konfiguracja a personalizacja (2)

Serwisy mogą być personalizowane(personalization) czyli automatyczniedopasowywane przez system do użytkownika na podstawie jego profilu.

Osoby które kupowały "XML na poważnie" często kupowały też:

Page 19: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 19

Profile użytkownikówProfil użytkownika może uwzględniać:

aktualne działania użytkownika (np. jakie strony właśnie odwiedził)dotychczasową historię działań użytkownika w serwisie (sposób poruszania się po serwisie, zakupy)wiedzę wynikającą z informacji przekazanych przez użytkownika (np. w procesie rejestracji) lub pochodzącą z innych systemów

Do personalizacji można także wykorzystać:profile innych, „podobnych” użytkownikówdane o serwisie (zawartość, struktura)informacje firmowe (związane z promocjami, strategią firmy – np. wydawnictwo nastawia się przede wszystkim na książki tłumaczone)

Page 20: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 20

Koncepcja podpowiadania odsyłaczy

Web usage miningWeb content mining IntegracjaONLINE

OFFLINE

Utworzeniewektorów terminów,Grupowanie

Najbliższa tematyka Najbliższa grupa sesji

Integracja wektorówRanking stron

Utworzeniewektorów sesji.Grupowanie

wektor centroidu

Przeglądarka

Serwer WWW.Wektor aktual.sesji

wektor centroiduwektor sesji Podpowiedzi (URL-e)

Odp. HTTPŻądanie HTTP

Wydzielenie terminów zestron serwisu

Przestrzenie tematyczne- centroidy tematów

Identyfikacja sesji(logi)

Wzorce użycia - grupy,centroidy grup sesji

Page 21: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 21

Problemy (1)Wybór właściwych deskryptorów (terminów dobrze opisujących treść)

- liczba dokumentów, w których występuje termin ti, kt1, kt

2, kt

3 - stałe, tf qi – częstość występowania terminu ti we

wszystkich pytaniach do wyszukiwarki, tfqmax – max. wartość

tf qi.

Wartość wag współrzędnych wektora, uwzględniające częstość i miejsce występowania terminu, wielkość strony, liczbę dokumentów, w których termin występuje

( ) ( )q

qi

tt

tt

t

tt

icu tftf

knkn

nkntf

i

i

i

i4

21 2exp* +

+

−−

−=

itn

max3

Page 22: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 22

Problemy (2)Postać wektora aktualnej sesji, współrzędne:

waj =

λ — stała z przedziału [0,1], wyznaczona eksperymentalnie, przyjęto λ=0,95; na

j — kolejny nr dokumentu dj w aktualnej sesji w odwrotnym porządku.

Sposób dokonania integracji wektorów i rankingu dokumentów

ogladanybylnieddokumentdysesjiaktywnejwogladanybylddokumentgdy

j

jna

j

g,0,)(λ

Page 23: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 23

Koncepcja podpowiadania odsyłaczy i banerów reklamowych - agenty

OFFLINE

ONLINE

Server WWWŻądanie HTTPOdpowiedź HTTP

sesjaużytkownika

najbliższeużycie

najbliższatematyka

Przeglądarka

Content Manager(wektory terminów i dokumentów)

Crawler

Content Miner(tematy, content mining)

User Assistent(generowanie stron HTML)

Banner Manager(URL-e banerów)

Banner Miner(wektory banerów)

Banner Recommender(najlepsze banery)

User Session Monitor(wektor aktualnej sesji)

Usage Miner(wzorce użycia, usage mining)

Hyperlink Recommender(łączenie centroidów, ranking)

Page 24: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 24

Podpowiadanie odsyłaczy

Page 25: Eksploracja danych a serwisy internetowekazienko/pub/SASForum03/WebMining.pdf · Przemysław Kazienko: Eksploracja danych a serwisy internetowe.SASForum, 4 kwietnia 2003 3 Typy eksploracji

Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 25

Dziękuję za uwagę!