29
1 Parametri za ocenjivanje efikasnosti pronalaženja Cvetana Krstev Čas 5.

Parametri za ocenjivanje efikasnosti pronala ž enja

Embed Size (px)

DESCRIPTION

Parametri za ocenjivanje efikasnosti pronala ž enja. Cvetana Krstev Čas 5. Merenje efikasnosti sistema za pronalaženje informacija. - PowerPoint PPT Presentation

Citation preview

Page 1: Parametri za ocenjivanje efikasnosti pronala ž enja

1

Parametri za ocenjivanje efikasnosti pronalaženja

Cvetana Krstev

Čas 5.

Page 2: Parametri za ocenjivanje efikasnosti pronala ž enja

2

Merenje efikasnosti sistema za pronalaženje informacija Predstavili smo sisteme za pronalaženje

informacija zasnovane na predstavljanju dokumenata izabranom listom termina (koja je nekako izabrana) i razna proširenja osnovne ideje: parametri blizine, podsecanje upitnih termina, sinonimi, težine dodeljenih termina

Ali kako da znamo koji od ovih pristupa je zaista efikasan i u kojim situacijama, odnosno koji je bolji u odnosu na druge?

Page 3: Parametri za ocenjivanje efikasnosti pronala ž enja

3

Evaluacija sistema za pronalaženje informacija Da bismo ad hoc izmerili efikasnost nekog

sistema za pronalaženje informacija na neki standardan način, potrebna nam je kolekcija za testiranje koja se sastoji od tri stvari: Kolekcija dokumenata Paket informacionih potreba koje se obično

izražavaju preko upita Skup procena relevantnosti koji se obično

izražava dodeljivanjem binarne vrednosti (relevantan / nije relevantan) svakom paru (upit,dokument)

Page 4: Parametri za ocenjivanje efikasnosti pronala ž enja

4

Kolekcija dokumenata za testiranje Obično se naziva zlatni standard I kolekcija dokumenata i paket

informacionih potreba treba da budu razumne veličine. Kolekcija dokumenata treba da bude dovoljno

velika i raznovrsna da rezultati merenja efikasnosti ne bi suviše zavisili od samog izbora dokumenata, a dovoljno mala da se njihova relevantnost može proceniti za svaku informacionu potrebu (jer to treba da uradi jedan čovek, ili što je češće slučaj, više ljudi)

Praksa pokazuje da je 50 informacionih potreba donja granica

Page 5: Parametri za ocenjivanje efikasnosti pronala ž enja

5

Odnos informacione potrebe korisnika i upita Relevantnost se određuje relativno u odnosu na

informacionu potrebu, a ne na upit. Primer:

Informaciona potreba: Information on whether drinking red wine is more effective at

reducing your risk of heart attacks than drinking white wine. Može se prevesti u sledeći upit:

wine AND red AND white AND heart AND attack AND effective Dokument je relevantan ako odgovara informacionim

potrebama korisnika, a ne ako slučajno sadrži reči sadržane u upitu.

Zlatni standard treba da omogući procenu raznih sistema – na primer, koliko neki sistemi omogućavaju obradu „inteligentnih“ upita.

Page 6: Parametri za ocenjivanje efikasnosti pronala ž enja

6

Još jedan primer

Informaciona potreba: penzioni zakon u republikama bivše Jugoslavije

Google – ništa na prvoj strani "penzioni zakon" AND "republika bivše Jugoslavije"

Google – ništa na prvoj strani (govori se samo o građanima Srbije koji su staž ostvarivali i u republikama bivše YU)

"penzioni zakon" AND (Srbija OR Hrvatska OR Slovenija...) Google – prvi odgovor relevanantan, svi relevantni na

prvoj stanici odnose se na Srbiju

Page 7: Parametri za ocenjivanje efikasnosti pronala ž enja

7

Poznate kolekcije za testiranje Cranfield kolekcija

Iz Velike Britanije, sadrži 1398 članaka iz oblasti aerodinamike i paket od 225 upita – iscrpno procenjena relevantnost

TREC8 (Text Retrieval Conference) 528.000 novinskih vesti i 150 informacionih

potreba – nije iscrpno procenjena relevantnost Reuters-RCV1

806.791 dokumenata 20 Newsgroups

Po 1000 članaka iz 20 izabranih Newsgroups

Page 8: Parametri za ocenjivanje efikasnosti pronala ž enja

8

Parametri odziv i preciznost za ocenu sistema za pronalaženje bez rangiranih rezultata Dva glavna parametra za ocenjivanje

efikasnosti pronalaženja su u upotrebi već godinama. To su: odnos izdvojenih relevantnih stavki i

ukupno relevantnih stavki, ili odziv (engl. recall - R)

odnos izdvojenih relevantnih stavki i ukupno izdvojenih stavki, ili preciznost (engl. precision - P).

Page 9: Parametri za ocenjivanje efikasnosti pronala ž enja

9

Odnos parametara odziv i preciznost Za uska pitanja, preciznost je velika - skoro sve

izdvojeno je i relevantno - ali je odziv mali jer je u stvari jako malo relevantnih stavki pronađeno. Kako se formulacije upita šire, ukupan broj pronađenih relevantnih dokumenata raste, što povećava odziv. Ali u isto vreme raste i broj izdvojenih nerelevantnih stavki, a to smanjuje preciznost. To jest, uski upiti daju visoku preciznost a mali odziv, dok široki upiti daju obrnuti rezultat - veliki odziv a malu preciznost.

Ova dva parametra su obrnuto recipročna.

Page 10: Parametri za ocenjivanje efikasnosti pronala ž enja

10

Podela kolekcije dokumenata upitom na četiri dela

Nerelevatne stavke Relevatne stavke

Neizdvojene stavke Izdvojene stavke

Page 11: Parametri za ocenjivanje efikasnosti pronala ž enja

11

a – izdvojene relevantne stvake

b – izdvojene nerelevatne stavke

c – neizdvojene relevatne stavke

d – neizdvojenenerelevantne stavke

Odziv: R= a/(a+c)

Preciznost:P=a/(a+b)

Skupovi a i d treba da budu što veči

Skupovi b i c treba da budu što manji

Page 12: Parametri za ocenjivanje efikasnosti pronala ž enja

12

Varijacije parametara odziv i preciznost u zavisnosti od širine upita

uzak upitmalo izdvojenih relevantnih

malo izdvojenihnerelevantnih

mnogo neizdvojenihrelevantnih

Page 13: Parametri za ocenjivanje efikasnosti pronala ž enja

13

Varijacije parametara odziv i preciznost u zavisnosti od širine upita

širok upit

više neizdvojenihrelevantnih

više neizdvojenihnerelevantnih

Page 14: Parametri za ocenjivanje efikasnosti pronala ž enja

14

Odnos parametara preciznost i odziv Odziv uvek može da bude

visok, čak 1 (tj. 100%) ako ponudimo korisniku sva dokumenta. Odziv je neopadajuća funkcija broja pronađenih dokumenata, tj. kako raste broj izdvojenih dokumenata, raste i odziv.

Preciznost obično opada sa brojem pronađenih dokumenata, tj. kako raste broj izdvojenih dokumenata preciznost pada.

(x1, x2) (x1x2 f(x1) f(x2))

R

a+b

(x1, x2) (x1x2 f(x1) f(x2))

P

a+b

Page 15: Parametri za ocenjivanje efikasnosti pronala ž enja

15

Alternativna mera – mera tačnosti To je mera koja utvrđuje koliki deo

klasifikovanih dokumenata je ispravno klasifikovan, tj. ispravno smešten u grupu relevantnih odnosno nerelevantnih dokumenata.A (accuracy) = (a+d)/(a+b+c+d) = (a+d)/sve

Ovo je mera uspešnosti klasifikacije, tj. uspešnog klasifikovanja dokumenta relevantan/nerelantan

Page 16: Parametri za ocenjivanje efikasnosti pronala ž enja

16

Neadekvatnost mere tačnosti za merenje uspešnosti sistema za pronalaženje Podaci su često vrlo iskrivljeni. Naime,

najčešće je najveći deo dokumenata kolekcije nerelevantan, i do 99,9%. Ako bismo želeli da podesimo sistem na maksimalnu tačnost dovoljno je da odbacimo sva dokumenta i dobićemo tačnost od skoro 100%.

Za korisnike je to nepoželjno jer oni najčešće žele da dobiju bar neki odgovor, čak iako je on izmešan sa dosta nerelevantnih odgovora.

Page 17: Parametri za ocenjivanje efikasnosti pronala ž enja

17

Jedan parametar koji meri izbalansiranost odziva i preciznosti U opštem slučaju korisnik želi da dobije

određen nivo odziva pri čemu će tolerisati određen procenat pogrešno određenih relevantnih odgovora (b)

U posebnom slučaju Veb surfer obično želi da mu svi rezultati na prvoj

stranici budu relevantni (visoka preciznost) dok ga uopšte ne interesuje da pronađe sve relevantne niti misli da ih gleda

Istraživač koji radi za tajnu službu želi da pronađe sve relevantne i uopšte ga ne brine ako će zato morati da pregleda i mnogo nerelevantnih ponuđenih.

Page 18: Parametri za ocenjivanje efikasnosti pronala ž enja

18

F-mera koja se zasniva na harmonijskoj sredini Šta je

harmonijska sredina? Aritmetička sredina:

A=(P+R)/2 Geometrijska sredina:

G=PR Harmonijska

sredina: H=2/(1/P+1/R)Uvek važi: H G A

Harmonijska sredina naginje manjoj od dve vrednostiOna teži da neutrališe uticaj većeg, a potencira značaj manjeg

Page 19: Parametri za ocenjivanje efikasnosti pronala ž enja

19

Prednosti F-mere

Zašto aritmetička sredina nije dobra? Pošto uvek možemo da dobijemo odziv 100% ako

izdvojimo sva dokumenta, preciznost će biti skoro 0, ali aritmetička sredina će biti 50%, tako da ispada da je rezultat pronalaženja skoro dobar

Neka je 1 dokument kolekcije relevantan, i neka je on među 10.000 pronađenih dokumenata. Tada je: R= 1 (ili 100%) P= 1/10000 = 0,0001 (ili 0,01%) A=(1+0,0001)/2 = 0,50005 (ili 50,005%) F= (2*1*0,0001)/(1+0,0001) = 0,0002 (ili 0,02%)

Page 20: Parametri za ocenjivanje efikasnosti pronala ž enja

20

Davanje prednosti odzivu ili preciznosti

Takvu vrednost αbi izabrao veb surfer

Takvu vrednost αbi izabrao radniktajne službe

Page 21: Parametri za ocenjivanje efikasnosti pronala ž enja

21

Evalucija rezultata rangiranog pronalaženja Preciznost, odziv i F-mera se definišu

na neuređenim skupovima Ove mere moraju da se prošire ili da se

uvedu nove mere ako se rezultati pronalaženja rangiraju (npr. Google)

U ovom slučaju se računaju preciznost i odziv za prvih k dokumenata. Kada se k menja dobija se kriva zavisnosti preciznosti od odziva

Page 22: Parametri za ocenjivanje efikasnosti pronala ž enja

22

Grafikon preciznost-odziv

Page 23: Parametri za ocenjivanje efikasnosti pronala ž enja

23

Izgled grafikona preciznost-odziv Ovaj graf ima prepoznatljiv testerast izgled. Zašto?

Ako je (k+1)-i dokument nerelevantan onda odziv ostaje isti a preciznost pada

Ako je (k+1)-i dokument relevantan onda rastu i preciznost i odziv i kriva skače nagore i udesno.

Ponekad se uklanjaju ovi zupci tako što se koristi interpolacija: interpolirana preciznost se dobija kao maksimalna preciznost

na nekom utvrđenom nivou odziva r (najveća preciznost za svaki odziv q > r).

Opravdanje za ovo je da je skoro svako spreman da gleda malo više dokumenata ako će time dobiti nešto više relevantnih

Crvena linija na prethodnom grafikonu. Sa rastom odziva, dodavanje novog dokumenata pronađenim

dokumentima jako malo utiče na preciznost (pri kraju grafikona plava i crvena linija se skoro poklapaju).

Page 24: Parametri za ocenjivanje efikasnosti pronala ž enja

24

Interpolirana srednja preciznost u 11 tačaka Izučavanje celokupne krive

preciznost-odziv je informativno ali nepraktično. Postoji potreba da se merenje svede ako je moguće na jedan broj.

Za svaku informacionu potrebu iz probnog skupa se računa interpolirana preciznost na 11 nivoa odziva: 0.0, 0.1, 0.2, ..., 0.9, 1.0.

Za svaki od 11 nivoa odziva se zatim računa srednja vrednost interpoliranih preciznost za sve informacione potrebe.

Page 25: Parametri za ocenjivanje efikasnosti pronala ž enja

25

Grafikon srednjih interpoliranih vrednosti preciznosti za 11 nivoa odziva (za 50 upita tj. informacionih potreba)

Page 26: Parametri za ocenjivanje efikasnosti pronala ž enja

Prosečna preciznost(Average Precision) Daje meru uspešnosti pronalaženja kao jedan broj. AP je prosečna preciznost p(r) u intervalu r=0 do

r=1. Računa se kao zbir za svaki dodati dokument u

listi rangiranih dokumenata.

Gde je k rang u sekvenci pronađenih dokumenata, n je broj pronađenih dokumenata, P(k) je preciznost u presečnoj tački k, a Δr(k) je promena u odzivu s (k-1)-vog rangiranog dokumenta do k-tog.

26

Page 27: Parametri za ocenjivanje efikasnosti pronala ž enja

Prosečna preciznost(Average Precision) Prethodna suma je ekvivalentna sa:

gde je rel(k) indikator koji ima vrednost 1 ako je dokument rangiran kao k-ti relevantan, inače dobija vrednost 0. Primetimo da se srednja vrednost računa za sva relevantna dokumenta, pa relevantna koja nisu pronađena dobijaju preciznost 0.

27

Page 28: Parametri za ocenjivanje efikasnosti pronala ž enja

Srednja prosečna preciznost(Mean Average Precision) - MAP

Srednja prosečna preciznost za skup upita (informacionih potreba) je srednja vrednost prosečnih vrednosti za svaki upit.

gde je Q broj upita. Ova MAP mera je veoma osetljiva na same

upite (jer neki vraćaju veliki broj dokumenata a neki veoma malo).

28

Page 29: Parametri za ocenjivanje efikasnosti pronala ž enja

29

U slučaju ovog sistema i 50 informacionih potreba korišćenih za procemu MAP=0,2553.