Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme

Normalleştirme Etkeninin Önemi

Özlem KARAGEDİKAta Önal

AmaçÇalışmada, kullanıcının ihtiyacı olan ilgili

belgelere en iyi oranda erişerek arama kalitesinin arttırılması amaçlanmıştır. Bu amaçla, vektör uzay modeli ve eksenli benzersiz normalleştirme modeli karşılaştırılarak bu modellerin sonuçları gözlemlenmiştir.

2

Bilgiye Erişim Nedir?

DdDddBilgiye erişim denince akla genelde internet

arama motorları gelir.Ticari olarak başarılı çalışmalar30 yıldan fazla akademik araştırma konusu

Bilgiye erişim herhangi bir ilgili belgeyi bulmayı kapsar.

3

Bilgiye Erişim SistemleriBilgiye erişim sistemleri, belge arşivlerinde

kullanıcıların isteklerine uygun belgelere, kullanıcıların kolay bir şekilde erişimlerini sağlayan sistemlerdir.

4

Bilgiye Erişim Sistemleri

5

Bilgiye Erişim SistemleriBilgiye erişim sistemleri belge arşivlerindeki

ilgili (relevant) belgelere erişmeyi,ilgisiz (non-relevant) belgeleri ise çıkartmayı

amaçlar.Bilgiye erişim sistemlerinin kalitesinin

arttırılması Elde edilen ilgili belge sayısının arttırılması, İlgili belgelerin sıralamada daha yüksek sıralarda

yer alması ile olur.

6

Bilgiye Erişim Sistemleri

7

Değerlendirme Ölçütleriİlgililik

Sorguların kullanıcının ihtiyacını ne kadar iyi karşıladığının ölçüsüdür.

HassasiyetErişilen ilgili belgelerin, erişilen belgelere oranıdır.Hassasiyet=İlgili erişilen belgeler/Erişilen belgeler

Anma Erişilen ilgili belgelerin, bütün ilgili belgelere

oranıdır.Anma=İlgili erişilen belgeler/ilgili belgeler

8

Sıralandırılmış Bir Listeyi DeğerlendirmeDerecelendirilmiş Erişim

Her derece için hassasiyet ve anma hesaplanır. Hassasiyet ve anma grafiği çizilir.

Ortalama Hassasiyet İlgili belgelere erişilen sıralardaki ortalama hassasiyet

9

Hassasiyetlerin Aritmetik Ortalaması(MAP)Her bir sorgu için hesaplanan ortalama

hassasiyet değerlerinin aritmetik ortalamasına denir.

10

Ön İşlemlerSorguyu ve belgeleri bilgiye erişime hazır ve

verimli hale getirmek için, yapılan işlemlerdir.

Bu işlemler:Tek harfli veya iki harfli gibi çok kısa kelimeler

silinir.

11

Ön İşlemlerÇıkartılacak kelimeler listesindeki (stop word

list) kelimelerin atılır (stop word elimination). Kelimelerin türetilmiş veya ek almış

hallerinden kurtularak köklerine inmek için birkaç farklı yöntem vardır.

12

Kullanılan YöntemlerVektör Uzay Modeli(Vector Space Model)

Terim Sıklığı- Devrik Belge Sıklığı(Term Frequency-Inverse Document Frequency (Tf-Idf))

Kosinüs BenzerliğiEksenli Benzersiz Normalleştirme (Pivoted

Unique Normalization)

13

Vektör Uzay ModeliBelgeler ve sorgular birer vektör ile ifade

edilir. Her bir belge, anlamlı kelimelerden oluşan

ve kelimelerin her birinin ağırlığı olan birer terim vektörü şekline getirilir.

Belge vektörleri bir araya getirilerek bütün belgeleri içeren bir matris oluşturulur

14

Vektör Uzay ModeliBelge terim matrisi ( D matrisi)

Her bir satırı bir belgeyi vektör olarak gösterirken,

Sütunları da terim vektörleri olarak adlandırılır.

15

Vektör Uzay ModeliTerim Ağırlığı her bir terimin o belge için

önemini belirtir.Terim ağırlığı farklı yollarla bulunabilir.

Terim SayısıTerim Sıklığı- Devrik Belge Sıklığı

16

Terim Sıklığı- Devrik Belge SıklığıTerimin ağırlığı,

belge içerisinde o terimin geçme sayısıyla doğru orantılıyken;

bütün belge havuzu içerisinde o terimin geçme sıklığıyla ters orantılıdır

17

Kosinüs BenzerliğiKosinüs benzerliği iki vektör arasındaki açının

kosinüsünü bularak bu vektörlerin birbirleriyle benzerliklerini ölçmek için kullanılmaktadır .

Kosinüs benzerliğinde belge ve sorgular kendi vektör uzunluklarına bölünerek birim vektör haline getirilir.

Kosinüs değeri sıfır ile bir arasında olur. Bir değerine ne kadar yakınsa benzerlik o kadar fazladır.

18

Kosinüs Benzerliği

19

Kosinüs BenzerliğiBelge ve sorgular kendi vektör uzunluklarına

bölünerek birim vektör haline getirilir.Vektör uzunluklarına bölünmesiyle belgeler

normalleştirilir.

20

Erişim kalitesini etkileyen faktörlerBelge uzunluklarının normalleştirilme

gereksinimleri şunlardır: Yüksek terim frekansları : Uzun belgeler ,

genelde aynı terimi çokça kez tekrar eder. Fazla sayıda terim: Uzun belgeler fazla sayıda

farklı terim içerir.

21

Kosinüs BenzerliğiKosinüs benzerliğinde normalleştirme

ağırlıklı belge vektörü uzunluğuna bölünerek yapılır.Normalleştirme belgelerin uzunluklarından

bağımsızdır.Bu durumda büyük belgeler için vektör

uzunlukları çok büyük olur. Belgeler büyüdükçe kosinüs

normalleştirmesinin başarısı düşer.

22

Eksenli Benzersiz Normalleştirme Modeli Klasik vektör uzay modelinin değiştirilmiş bir

versiyonudur. Terim ağırlığı hesaplanırken, terim ve belge

frekanslarından farklı olarak bir normalleştirme etkeni de denkleme eklenir.

23

Eksenli Benzersiz Normalleştirme Modeli dtf:terimin belgede geçme sayısı sumdtf: belge içerisindeki tüm terimler için

ifadesinin toplamı N koleksiyondaki toplam belge sayısını nf j. terimi içeren belge sayısını U’da belgedeki benzersiz terim sayısını

gösterir

24

Eksenli Benzersiz Normalleştirme Modeli Denklemin ilk kısmında sumdtf değerine

bölünmesiyle, uzun belgelerde aynı sayıda terimin çokça geçmesi problemine çözüm getirir

Normalleştirme etkeni uzun belgelerin fazla sayıda farklı terim içermesi ve bunun uzun belgelerin ağırlıklarını yükseltmesi problemine çözüm getirir

25

Veri KümesiWikipediaMM, görsel bigiye erişim için Wikipedia

resimlerinin koleksiyonundan oluşan bir test ortamı sunar.

Veri kümesi olarak wikipedia’nın kullanılmasının amacı, kullanıcının arama yapabileceği, web’e benzer nitelikte daha büyük ölçekli ve heterojen içerikli bir koleksiyonu araştırmaktır.

Çalışmada WikipediaMM 2008 veri kümesi kullanılmıştır.

26

Veri KümesiVeri kümesi, çeşitli konularda 151,519 resim

içerir . Bu resimlerin her biri yapısal olmayan

gürültülü metinsel açıklamalar içerir.Bu veri kümesinde resimler üzerinde

aranabilecek 75 metinsel sorgu bulunur. Sorgularla ilgili olan toplam belge sayısı ise

5593’tür.

27

Veri Kümesi Belge Örnek<?xml version="1.0"?><article>

<name id="10">1959ModelPiperPA24 Comanche.jpg</name><image xmlns:xlink="http://www.w3.org/1999/xlink" xlink:type="simple" xlink:actuate="onLoad" xlink:show="embed" xlink:href="../pictures/1959ModelPiperPA-24Comanche.jpg" id="10" part="images-40000">1959ModelPiperPA-24Comanche.jpg</image><text>A 1959 model Piper PA-24 Comanche, Valleyfield, Quebec 2004</text>

</article>

28

Veri Kümesi Sorgu Örnek<topic> <number>76</number> <title>Shopping in a market</title> </topic>

29

Deneysel SonuçlarEksenli benzersiz normalleştirme modelinin daha

başarılı olduğu gözlemlenmiştir. Bu model belgelerin uzunluklarını dikkate alan

bir normalleştirme etkeni kullanarak, çok büyük boyuttaki belgelerin ağırlıklarını azaltılmış, küçük boyuttaki belgelerin ağırlıklarını arttırmış ve bütün belgelerdeki ağırlıkları ortalama boyuttaki belgelerle ile aynı seviyeye getirmiştir.

30

Deneysel SonuçlarNo Yöntem

Ort. Hassasiyet

İlk 5’de hassasiyet

İlk 10’da hassasiyet Erişilen İlgili Erişilen İlgili

1 Vektör Uzay Modeli-Kosinüs Norm. 0.1394 0.2427 0.2013 64040 2369 5593

2 Eksenli Benzersiz Normalleştirme 0.2549 0.4453 0.3693 65888 3184 5593

31

Gelecek ÇalışmalarÇalışmanın bundan sonraki ilerleyişi:

kullanıcının sorgularını sistemin otomatik olarak genişletmesi ile arama kalitesinin arttırılması üzerine olacaktır.

Genişletme ile, sorgudaki kelimeler ile benzer anlamlı yeni kelimeler, sorguya eklenecektir. Böylelikle sorgunun içeriği zenginleştirilerek, sorgunun ilk halindeki kelimeyi içermeyen ama sorgu genişletilince bulunabilen ilgili belgelere de erişimi sağlamak amaçlanacaktır.

32

TEŞEKKÜRLER

33

Documents

Bilgiye Erişim Sistemlerinde Arama Kalitesini İyileştirme