31
1 Bilgi Erişim Sistemleri Sevgi Koyuncu Tunç 4/2/2012

Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

Embed Size (px)

Citation preview

Page 1: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

1

Bilgi Erişim Sistemleri

Sevgi Koyuncu Tunç4/2/2012

Page 2: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

İçindekiler

A. GİRİŞ..................................................................................................................................................... 4

B. BİLGİ ERİŞİM SİSTEMİ NEDİR? AMAÇLARI NELERDİR?.............................................................................4

C. BİLGİ ERİŞİM SİSTEMLERİNİN KISA TARİHİ..............................................................................................5

D. BİLGİ ERİŞİM SİSTEMİ GENEL MİMARİSİ............................................................................................................101. WEB ÖRÜMCEĞİ..........................................................................................................................................112. DİZİNLEME..................................................................................................................................................123. ARAMA......................................................................................................................................................12

E. PERFORMANS DEĞERLENDİRMESİ....................................................................................................... 12

1. ARAMA SONUÇLARININ KALİTESİ.....................................................................................................................12a. Anma (Recall)......................................................................................................................................12b. Duyarlılık (Precision)............................................................................................................................13

2. KULLANIŞLILIK..............................................................................................................................................133. HIZ............................................................................................................................................................13

F. BİLGİ ERİŞİM MODELLERİ:.................................................................................................................... 13

1. VEKTÖR UZAYI MODELİ.................................................................................................................................13i. Doküman içeriğinin arındırılması........................................................................................................13ii. Gövdeleme..........................................................................................................................................15iii. Vektör oluşturma................................................................................................................................15iv. Benzerlik hesaplaması - İstatistiksel Ağırlıklandırma (tf*idf)...............................................................17v. Eşik Değeri (Threshold)........................................................................................................................17vi. Modelin Avantajları.............................................................................................................................18vii. Modelin Dezavantajları...................................................................................................................18

2. BOOLE MODELİ...........................................................................................................................................18I. Sorunları..............................................................................................................................................19

G. İDEAL BİLGİ ERİŞİM SİSTEMİ VE SORUNLARI.........................................................................................19

1. SORGU SORUNLARI.......................................................................................................................................192. DİL SORUNLARI............................................................................................................................................203. KONU BELİRLEME SORUNLARI........................................................................................................................204. WEB'İN BÜYÜKLÜĞÜ VE DİNAMİKLİĞİ..............................................................................................................205. WEB KAYNAKLARINDAKİ YAZIM HATALARI..........................................................................................................21

H. BİLGİ ERİŞİM SİSTEMİ GELİŞTİRME AŞAMASINDA KARŞILAŞILAN GÜÇLÜKLER.......................................21

A. DONANIMSAL ALTYAPI GEREKSİNİMLERİ:..........................................................................................................21B. İNSAN KAYNAĞI GEREKSİNİMİ:........................................................................................................................21C. BİLİMSEL ARAŞTIRMALARIN PAYLAŞILMAMASI SORUNU:......................................................................................21

I. BİLGİ ERİŞİM SİSTEMLERİNDE ARAŞTIRMA KONULARI..........................................................................21

1. BİRLEŞTİRİLMİŞ ARAMA MOTORLARI (META SEARCH ENGİNES)............................................................................212. KİŞİSELLEŞTİRİLMİŞ ARAMA (PERSONALİZED SEARCH)...........................................................................................223. ANLAMSAL ARAMA (SEMANTİC SEARCH)...........................................................................................................224. SORU YANITLAMA SİSTEMLERİ (QUESTİON ANSWERİNG).......................................................................................23

2

Page 3: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

5. KONU TESPİT VE TAKİP SİSTEMLERİ (TOPİC DETECTİON AND TRACKİNG).................................................................23

J. SONUÇ................................................................................................................................................ 23

KAYNAKÇA.................................................................................................................................................. 24

3

Page 4: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

A. GirişBilgi ihtiyacı bir insanın dünyaya gelmesi ile başlar ve ölünceye kadar da devam eder. İlk insanlardan bu yana bilgi önce sözle, daha sonra resimle ve nihayet yazı ile nesilden nesle aktarılmıştır. Yazma vasıtasıyla bilgiler doğru olarak saklanabilmiş ve böylece biriken bilgiler kullanılarak yeni bilgiler üretilebilmiştir. Yazıdan sonra bilginin paylaşılmasında en büyük ve önemli araç internet olmuştur. Son yıllarda internet teknolojilerinde görülen hızlı değişim ve gelişime bağlı olarak internet üzerinden yayınlanan belgelerin sayısı da hızla artmış, bu belgelere son kullanıcıların erişebilmeleri için pek çok yöntem geliştirilmiştir.

Peter Lyman ve Hal Varian’ın 26 Mart 2001 sayılı The Economist'te yayınlanan araştırmasına göre bilgi miktarı ile ilgili aşağıdaki veriler göze çarpıyor:

• 5,4 Exabyte veri internet üzerinde yayınlanmış durumda (milyar x milyar byte: 54 milyar Economist dergisinin içeriğine eşit)

• ABD’de her yıl 80 milyar fotoğraf çekiliyor

• 2 milyar röntgen filmi çekiliyor

• Günde 610 milyar e-posta mesajı gönderiliyor

• Her yıl 15 trilyon sayfa yazıcılardan çıktı alınıyor

World Stats'ın internet kullanımıyla ilgili 31 Aralık 2011 itibariyle yayınladığı istatistik:

Dünya'da internet kullanımı İstatistikleri- 31 Aralık, 2011 (World Stats, 2012)

Dünya Nüfusu(2011)

İnternet Kull.Ara. 31, 2000

İnternet Kull. Sayısı, 2011

% İnternet Kull. 2011 Büyüme 2000-2011

6,930,055,154 360,985,492 2,267,233,742 32.7 % 528.1 %

Bilgi Erişim bir bilgi ihtiyacını karşılamak amacıyla büyük koleksiyonlar içindeki(genellikle bilgisayarlarda) düzenli yapıda olmayan (genellikle metin biçiminde) materyalleri bulmaktır. (C.D. Manning, P. Raghavan,H. Schütze, 2009)

B. Bilgi Erişim Sistemi Nedir? Amaçları Nelerdir?Bilgisayarların depolama kapasitelerinin artması çok miktarda veri depolayabilmemize olanak vermiştir. Depoladığımız veya internette bulunan materyaller arasında ihtiyaç duyduğumuz konulardaki materyale ulaşmak için bir Bilgi Erişim sistemine ihtiyacımız vardır. Bu sistem bizden aradığımız bilginin konu başlığını veya anahtar kelimelerini yani sorgu sözcüklerini ister. Kullanıcı sorgusunu girdikten sonra arama işlemini başlatır. Bu esnada Bilgi Erişim sistemi arka planda bir algoritmaya dayalı olarak koleksiyonundaki materyallerle sorguyu karşılaştırır ve materyalleri ilgililik derecesine göre sıralayarak kullanıcıya sunar. Yani bilgi Erişim sistemlerinin amacı kullanıcılara aradıkları bilgiyi içeren materyalleri ilgililik sırasına göre en kısa zamanda sunmaktır.

4

Page 5: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

C. Bilgi Erişim Sistemlerinin Kısa TarihiBir kitabın "içindekiler" bölümü veya indeks bölümü birer Bilgi Erişim Sistemidir. 1876'da kütüphaneler Melvil Devey Onlu Sınıflandırma sistemini geliştirerek bilgi erişiminde yeni bir dönem başlatmıştır. Bu sınıflandırmada 10 adet ana kategori vardır. Hiyerarşik bir organizasyon söz konusudur ve her kategori kendi içinde en fazla 10 dala ayrılır. Günümüzde yaklaşık 130 bin sınıf mevcuttur. (Dewey Services, 2012)

18 ve 19.yy. ortaya çıkan ve kütüphanede bulunan eserleri belli bir düzen içinde sıralamak, yerini belirtmek ve aranılan eserin kolayca bulunmasını sağlamak amacıyla, bir sistem dahilinde hazırlanan kart katalogları da klasik Bilgi Erişim Sistemlerine örnektir.

1847'de George Boole'un "Boolean Algebra" kavramını ortaya atması, 1937'de Claude Shannon'ın sayısal devrelerde boole mantığını kullanarak "Bilgisayar"ın temelini atmasının ardından bilginin sayısal ortamda depolanmaya başlaması Bilgi Erişim Sistemlerinin daha çok önem kazanmasına yol açtı. Matematikçi Claude Shannon'ın bu konuda MIT' de yazdığı master tezi 20.yy.ın en önemli tezi olarak kabul edilmektedir. (Charles T. Meadow,Bert R. Boyce,Donald H. Kraft, 1992)

1945 yılında A.B.D. Başkanı Roosevelt 'in bilim danışmanı Vannevar Bush "As we may think" adlı makalesinde çok büyük miktarda veriyi birarada tutabilen ve istenildiğinde bu verilerin arasından işine yarayanı kullanıcıya gösteren bir makina hayal ettiğini yazdı. Bu makinaya "memory" ve "index" kelimelerinin birleşiminden oluşan "Memex" adını verdi. Memex'de veriler mikrofiber üzerine basılı olacak, fotoğraflama yoluyla ve optik teknolojisini kullanılarak kullanıcıya sunulacaktı. Tek sorun makinanın mekanik olarak tasarlanmasıydı. Bush'un bu hayali hipermetin, web ve Bilgi Erişim teknolojilerine ışık tutmuştur. (Bush, 1945) (Charles T. Meadow,Bert R. Boyce,Donald H. Kraft, 1992)

20. yy. kütüphanecilik ve bilgisayar bilimi alanındaki en önemli 100 kişisinden biri olan Mortimer Taube 1950 yılında "coordinate indexing" adını verdiği bir yöntem geliştirdi. Bu yöntem arama yapmak için koleksiyondaki kaynakların başlığının yetersiz olduğunu söylüyor, bunun yerine kaynağı

5

Page 6: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

tanımlayan sözcükleri birer terim kümesine dönüştürüp bu terimleri arama için kullanıyordu. Taube her bir kelime için bir kart oluşturuyor, kartın üzerine kelimeyi, kelimenin numarasını ve kelimenin geçtiği dokümanların numaralarını 10 sütuna bölerek yazıyordu. Numaraları en küçük basamağındaki rakamlara göre sütunlara yerleştiriyor, numaranın büyüklüğüne göre de yukarından aşağıya sıralıyordu. Farklı kelime kartları karşılaştırılarak ortak olan numaralardan aranan dokümanlara erişiliyordu. Örneğin EMPRESYONISM ve PISSARO kelimelerinin geçtiği dokümanlar bulunmak istendiğinde bu kelimelerin kartlarına bakılır, iki karttaki doküman numaralarından ortak olanlar bu iki kelimeyi de içeren dokümanlardır. Aşağıdaki resimde 62, 54, 88 ve 364 numaralı dokümanlarda hem EMPRESYONISM hem de PISSARO kelimeleri bulunmaktadır. (Charles T. Meadow,Bert R. Boyce,Donald H. Kraft, 1992)

W.E. Batten 1948 yılında Scientific Information Conference bünyesinde yayımladığı bildiride benzer bir mantığı delikli kartlar üzerinde uyguladı. Karelere bölünen kartlar üzerindeki her bir kare bir numarayı ifade ediyordu. Kart üzerine numara yazılmıyor bunun yerine ilgili noktaya bir delik açılıyordu. Farklı iki kelimenin kartları üst üste konup bir ışık kaynağının üzerine yerleştiriliyor, ışığı geçiren noktalar bulunarak ortak doküman numaraları belirleniyordu. (Charles T. Meadow,Bert R. Boyce,Donald H. Kraft, 1992)

6

Page 7: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

"Information Retrieval" kavramını ilk ortaya atan kişi olarak kabul edilen Calvin Mooers 1951 yılında dokümanlara erişimi kolaylaştırmak amacıyla "Zatocode" yöntemini geliştirdi. Batten ve Taube'dan farklı olarak bu sefer kartlarda kelimeyi içeren doküman numaraları değil dokümanı tanımlayan kelimeler kodlanıyordu. Her bir kelimenin/kavramın bir kodu vardı ve doküman o kelime/kavram ile tanımlanabiliyorsa karttaki numaralı alanlar kelimenin koduna göre deliniyordu. (Trudi Bellardo Hahn,Michael Keeble Buckland, 1998)

7

Page 8: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

1950'li yılların başında özel amaçlı bilgisayarlar üzerinde bazı doküman arama sistemleri geliştirildi. Bunlardan biri The Western Reserve Rapid Searching Selector idi. Bu sistemde daha çok teknik içerikli dokümanların makina tarafından çözümlenebilecek telegrafik özetleri (telegraphic abstract) oluşturulup kaydediliyor ve makina aramayı bu özetler üzerinde yapıyordu. Aşağıdaki örnekte a. maddesinde klasik bir öz, b. maddesinde ise yine manuel oluşturulmuş telegrafik öz gösterilmektedir. Bu sistem aramayı kolaylaştırsa da telegrafik özü oluşturmanın karmaşıklığı ve çok zaman alması sistemin atıl kalmasına neden oldu. (Charles T. Meadow,Bert R. Boyce,Donald H. Kraft, 1992)

8

Page 9: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

1950'lı yılların sonunda genel amaçlı bilgisayarların fiyatları düşerken işlemci gücü ve hafıza alanı artmıştı. Bu gelişmeler arama sistemlerini genel amaçlı bilgisayarlara kaydırmıştı. Genel amaçlı bilgisayarlarda geliştirilen ilk sistem 1957 yılında Bracken ve Tillit'in California'da geliştirdiği sistemdir. Bu sistemde dokümanlar indexlenmiş bir şekilde saklanıyor. Sorgular bir manyetik teybe kaydedildikten sonra ve indexlenip sıralanıyor. Dokümanlar ve sorgular bool işlemlerinden geçirilerek karşılaştırılıyordu. (Charles T. Meadow,Bert R. Boyce,Donald H. Kraft, 1992)

1958'de Luhn ve Bar Hillel arama işlemlerinin daha isabetli yapılabilmesi için basit kelime karşılaştırması dışında kelimelerin frekanslarını ve kelimelerin tüm dokümanlardaki kullanılma sıklığı parametrelerini kullanmaya başladılar. Luhn'un sisteminde bir kelime bir dokümanda birden fazla kullanılmışsa dokümanın konusunu ifade etme olasılığı yüksektir fakat eğer çok fazla kullanılmışsa büyük olasılıkla bu kelime anlamsal değil yapısal bir kelimedir. Hillel ise bir kelimenin dokümanların tümünde kullanılma sıklığını(inverse document frequency) bir gösterge olarak kabul etmiş ve bir kelime ne kadar çok dokümanda geçiyorsa o kelimeyi, dokümanı tanımlama gücü açısından o kadar zayıf kabul eden bir sistem geliştirmiştir. Bu gelişmeler sorgu ile dokümanın benzerliğini derecelendirmeye olanak tanımıştır. (Alt, 1968)

2. Dünya Savaşı sırasında ve sonrasında teknolojik ve bilimsel alanda büyük gelişmeler meydana gelmiş literatüre önemli katkılar yapılmıştır. Literatüre erişim klasik yollarla mümkün olmakta idi. Devletler, gönüllü organizasyonlar veya ticari kurumlar düzenli olarak öz indeksleri, bibliyografyalar,

9

Page 10: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

kitap katalogları kayda değer bir maliyetle hazırlayıp yayınlıyorlardı. 1960'lı yılların başında yayıncılar bu kaynakları düzenlemenin otomasyon sistemleriyle elektronik ortamda daha kolay olabileceğini gördüler. 1961 yılında Chemical Abstracts Service adlı kuruluş 600 önemli dergiyi kapsayan "Chemical Titles" adını verdiği konu indeksini bilgisayar vasıtasıyla üretti ve bastı. Çevrimiçi veritabanı sistemleri de böylece kullanılmaya başlandı. Fakat bilgisayarların sıralı erişimli dosya yapısı nedeniyle işlemler çok uzun sürüyor, herhangi bir hata oluşması durumunda ise bütün işlemler yeniden başlatılıyordu. Bilgisayarların hızlanması ve rastgele erişimli dosya yapısı sayesinde 1963 yılında MIT' de MAC projesi ile interaktif bilgi erişim sistemi hayata geçti.

MAC sistemini kuran ekip 1967'de ticari bir ürün olan ORBIT'i geliştirdi ve Amerikan Ulusal Tıp Kütüphanesi bu sistemi kullanmaya başladı. 1970'te Amerika'daki tüm tıp enstitüleri AIM/TWX (Amerikan Index Medicus /Teletype Writer Index Network) adlı ağ üzerinden ORBIT veritabanına erişebilir hale geldi. 1970 yılında MEDLINE adı verilen sistemde Index Medicus'taki 1200 dergi internette erişilebilir duruma geldi. 1972'de Data Central Corporation tarafından LEXIS/NEXIS hukuk ve gazete erişim sisteminin temelleri atıldı. Böylece ilk defa bir erişim sistemi ile kaynakların tam metinleri üzerinde arama yapılmaya başlandı.

Tüm bu sistemlerin büyümesi ile uzak bilgisayarlarla iletişim önem kazanmaya başladı. 1969'da DARPA(Defence Advanced Research Projects Agency) ARPANET adlı 4 sunucunun bağlı olduğu ilk ağ yapısını kurmuştur. R.E. Kahn DARPA'da çalışmaya başladıktan sonra 1972'de paket veri paylaşımı için TCP(Transmission Control Program) adlı basit bir yapı tasarladı. Bu yapı günümüzdeki internetin ilk haliydi. İsviçre'nin Cenevre kentinde Cern araştırma merkezinde fizikçi Tim Berners- Lee 1991'de hiper metin modelinin kullanarak WWW(World Wide Web)'i yarattı. Böylece önce yerel ağlar ardından da internet bilgi paylaşımının adresi oldu.(Charles T. Meadow,Bert R. Boyce,Donald H. Kraft,1992)

D. Bilgi Erişim Sistemi Genel MimarisiBilgi Erişim Sistemi üç ana modülden oluşur. (Castillo, 2004) Bunlar, Web Örümceği (Web crawler), Dizinleme ve Arama modülleridir.

10

Page 11: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

1. Web Örümceğiİnternetteki tüm web sayfalarını keşfetmeyi ve toplamayı amaçlar. Böylece bu sayfalara erişimi mümkün kılar. Bir web örümceğinin kalitesi aşağıdaki ölçütlere göre değerlendirilebilir:

a. Kapsama Alanı: Web'in yüzde kaçını toplayabildi?b. Güncellik: Toplanan sayfalar ne kadar güncel?c. İşe yararlılık: Toplanan sayfalar popüler ve önemli sayfalar mı? (Ricardo Baeza-Yates, B. Barla

Cambazoglu, 2010)

Web'in çok büyük boyutta olması ve değişken olması Web Örümceklerinin baş etmek zorunda oldukları en önemli sorunlardır. Bu sorunları çözmek için bazı kararlar almak ve politikalar üretmek gerekir:

I. Web Sayfası Seçimi Politikası: Tüm web sayfalarını belirlenen süre içinde toplamak mümkün olamayacağı için bir "Web Sayfası Seçimi Politikası"na ihtiyaç vardır. Toplanacak web sayfalarının türünü belli kriterlere göre önceliklendirmek gerekmektedir. Ör: En çok referans alan sayfalar, bloglar, vs..

II. Yeniden Ziyaret Etme Politikası: Sayfalarının dinamik olması ve çok hızlı değişmeleri nedeniyle sayfaların en güncel halini elde etmek gerekir. Bunun için bir "Yeniden Ziyaret Etme Politikası"na ihtiyaç vardır.

III. Saygı Politikası: Web sayfalarının içeriğini indirme işlemi sayfanın ait olduğu web sitesi sunucusuna belli bir yük getirmektedir. Çok sık aralıklarda bu sayfalar indirilmeye çalışıldığında sunucular diğer istemcilere hizmet edemez hale gelebilmektedir. Bu nedenle bir "Saygı Politikası"na ihtiyaç vardır. Bu politikada bir web sayfasının en az kaç saniye aralıklarla indirileceği belirlenir.

11

Page 12: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

IV. Paralel Çalışma Politikası: Bilgi erişim sistemi hız kazanmak açısından birden fazla web örümceği çalıştırıyorsa aynı web sayfasının birçok örümcek tarafından indirilmemesi için bir "Paralel Çalışma Politikası" belirlenerek tekrarlı sayfa indirmenin engellenmesi gerekir. Ör: Her örümceğin farklı yer sağlayıcılarla yönlendirilmesi gibi... (Castillo, 2004)

2. DizinlemeBir Bilgi Erişim Sisteminde derlemdeki belgeler gerektiğinde hızlı bir biçimde erişilebilmesi için dizinlenerek (indeksleme) saklanır. Dizin,özel veri yapıları kullanılarak oluşturulan bir yapıdır. Dizin yapısı iki tablodan oluşur. Birinci tabloda derlemdeki tüm sözcükleri ve bu sözcüklerin kaç dokümanda ,toplam kaç defa kullanıldığı bilgisi saklanır. İkinci tabloda ise sözcüğün hangi dokümanlarda kaç defa bulunduğu bilgisi ilk tablo ile ilişkili biçimde saklanır. Bir sorguda geçen bir sözcüğü bütün derlemde baştan sona aramak yerine dizine bakıp hangi dokümanlarda hangi ağırlıkta geçtiği bilgisi kullanılarak aramanın makul sürelerde gerçekleşmesi mümkün olmaktadır. Dizinleme, verilere yavaş olan disk (Hard Disk) yerine çok daha hızlı olan ana hafızadan (RAM) erişimi mümkün kılar. (Köse, 2010)

3. AramaArama işlemi, ihtiyaç duyulan bilgiyi içeren kaynaklara ulaşmak için belli bir yöntem izlenerek sorgu ve kaynakların değerlendirilmesi ve uygun kaynakların kullanıcıya sunulması sürecidir. Arama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir.

E. Performans Değerlendirmesi Performans Değerlendirmesi bir sistemin, ürünün veya tekniğin ne kadar doğru çalıştığını ortaya çıkaran işlemler dizisidir. Bu nedenle Performans Değerlendirmesi bilim, teknoloji ve diğer pek çok alan için vazgeçilmez bir gerekliliktir. Bilgi Erişim Sistemlerindeki araştırma, geliştirme ve uygulamaların da en önemli ayağıdır. Değerlendirmenin prensiplerinin ne olacağı zorlayıcı bir problemdir. Tüm alanlarda araştırmanın büyük bir bölümü değerlendirme kriterleri, ölçütler, metotlar ve ilgili konularda yapılmaktadır. (Saracevic, 1995)

Bilgi Erişim sisteminin performansını değerlendirirken aşağıdaki kriterler göz önünde bulundurulmalıdır.

1. Arama Sonuçlarının KalitesiArama sonuçlarının kullanıcının bilgi ihtiyacı ile ilişkili olması Bilgi Erişimde en önemli kriterdir. Bu kriteri değerlendirmemizi sağlayan Anma (recall) ve Duyarlılık (precision) Bilgi Erişim çalışmalarında en çok tercih edilen kriterler olmuştur. Zaman içerisinde başka kriterler de öne sürülmüştür fakat uygulamaya geçmemiştir. (Saracevic, 1995)

a. Anma (Recall)Anma, sorgu sonucu erişilen ilgili dokümanların koleksiyondaki tüm ilgili dokümanlara oranıdır. (Saracevic, 1995) Bütün ilgili dokümanların ne kadarına ulaşabildiğimizi anlatır. Anma tamlığı, bütünlüğü (completeness) gösterir. Erişilen dokümanlar kadar erişilemeyenlerle de ilgilidir. Anma, belirli sayıda belge içeren koleksiyonlar için bir anlam ifade eder fakat günümüzde dünyanın dört bir yanında her an üretilen ve internete aktarılan bilginin miktarını düşünürsek bu sınırsız bilgi dünyasında Anma kavramı artık önemini yitirmektedir. (Fensel, 2007)

12

Page 13: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

Anma(Recall)= Erişilenilgilidokümanların sayısıkoleksiyondaki tüm ilgilidokümanların sayısı

b. Duyarlılık (Precision)Duyarlılık sorgu sonucu erişilen ilgili dokümanların , erişilen tüm dokümanlara oranıdır. Yani döndürülen dokümanların kaç tanesinin sorgu ile ilişkili olduğu bilgisini verir. "Doğruluğu" ifade eder. (Fensel, 2007)

Duyarlılık (Precision )= Erişilenilgilidoküman ların sayısıErişilentümdokümanların sayısı

2. KullanışlılıkArama sayfası ara yüzü kullanıcı dostu olmalıdır. Kullanıcı ara yüze baktığında ne yapması gerektiğini kolayca anlamalı, bunun için gerekli yönlendirmeler yapılmış olmalıdır. Sonuç sayfasının düzeni okunabilir olmalıdır.

3. HızArama sonuçlarının yeterince hızlı gelmesi kullanışlılığı da etkileyen bir faktördür. Sistemin hızlı çalışması bazı alanlarda zaruri olabilir. Ör: Güvenlik, sağlık hizmetleri vs.. (LaPaugh, 2012)

F. Bilgi Erişim Modelleri:

1. Vektör Uzayı ModeliBir doküman setindeki dokümanların ortak bir vektör uzayında vektörel olarak ifade edilmesine Vektör Uzayı Modeli denir. Sorgu ile dokümanların benzerliklerinin bulunabilmesi için, dokümanlara ait vektörler ve sorgu vektörü vektör iç çarpımı kullanılarak benzerlik hesaplaması yapılır. (C.D. Manning, P. Raghavan,H. Schütze, 2009) Dokümanlar benzerlik değerinin yüksekliğine göre sıralanır. Bu modelin uygulamasında aşağıdaki adımlar takip edilir.

i. Doküman içeriğinin arındırılması

Belge içerisindeki noktalama işaretleri silinerek yerine boşluk eklenir. Birden fazla olan boşluklar tek boşluğa indirgenir. Büyük harfler küçük harfe çevrilir.

13

Page 14: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

Tek harfli sözcükler silinir. Durma kelimeleri(stop words) silinir. Bu kelimelerin konu belirleme özelliği olmadığı

için sonucu etkilememesi için silinmektedir.

Türkçe için durma kelimeleri: (Köse, 2010)

İngilizce Durma Kelimeleri: (Köse, 2010)

ii. GövdelemeGövdeleme işlemi kelimeleri çekim eklerinden ayırma, yalın hallerine döndürme işlemidir. Özellikle Türkçe gibi sondan eklemeli dillerde gövdeleme Bilgi Erişim Sistemlerinin performansı açısından önem kazanmaktadır çünkü kelimelerin ek alarak farklılaşması sorgular ve belgelerin kesişme olasılığını etkilemektedir.

Ör1. kalitesindeki -> kalite

kaliteden->kalite

14

Page 15: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

Ör2. buldular -> bul

bulacağı->bul

iii. Vektör oluşturmaVektör Uzayı Modelinde bir temel vektör vardır. Bu vektörün elemanları örneğin Türkçe Sözlüğündeki kelimelerden oluşur veya kütüphanedeki dokümanlarda bulunan birbirinden farklı kelimelerden bir sözlük oluşturulabilir. Sorgular ve dokümanlar sözlükte bulunan t1, t2, t3…tn gibi n adet tekil kelimeden oluşan bir vektör gibi gösterilir. t1, t2, t3…tn katsayılarının değerleri, sözlükteki kelimenin doküman veya sorgu içerisinde bulunma sayısını göstermektedir. Bu yönteme bilgi geri erişim sistemlerinde “terim ağırlıklı gösterim” adı verilir ve her bir sözlük kelimesinin belge veya sorgu içerisindeki sıklık değerini vektör katsayısı olarak kullanır. (C.D. Manning, P. Raghavan,H. Schütze, 2009)

Ör:

D1: "Küçük alanda domates yetiştirme teknikleri" bloğu yeri sınırlı olanlar için kullanışlı bir blog. Domatesten verim almak için bu blogdaki dikim ve bakım tekniklerinin dikkatle uygulanması gerekiyor.

D2: Domates yetiştirme teknikleri domatesin türüne göre farklılık göstermektedir. Salkım domatesler saksı gibi küçük alanlarda bile çok az sulama ile yetiştirilebilmekteyken salçalık büyük domatesler derin ve geniş toprağa ihtiyaç duyuyor.

D3: Saksıda salkım domates yetiştirdim, bütün yaz çok az su ile inanılmaz verim aldım.

D4: Salçalık domates mart ayında zam şampiyonu oldu, fiyatı %30 arttı. Domates yetiştiricileri durumdan memnun.

D5: Pazarda satılan sözde organik domateste yüksek oranda zirai ilaç tespit edildi. Uzmanlar sebzelerin mevsiminde tüketilmesinde fayda olduğunu söyledi.

D6: Yunanistan'da halk başbakanı domates atarak protesto etti.

Sözlük D1 D2 D3 D4 D5 Sorgu

Küçük 1 1 0 0 0 1Alan 1 1 0 0 0 1Yetiştir 1 2 0 1 0 1Teknik 2 1 0 0 0 1Domates 2 3 1 1 1 1Yer 1 0 0 0 0 0Sınır 1 0 0 0 0 0Olan 1 0 0 0 0 0Kullanışlı 1 0 0 0 0 0Blog 3 0 0 0 0 0verim 1 0 1 0 0 0almak 1 0 1 0 0 0dikim 1 0 0 0 0 0bakım 1 0 0 0 0 0 uygula 1 0 0 0 0 0gerek 1 0 0 0 0 0tür 0 1 0 0 0 0farklılık 0 1 0 0 0 0göstermek 0 1 0 0 0 0saksı 0 1 1 0 0 0

15

Page 16: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

derin 0 1 0 0 0 0geniş 0 1 0 0 0 0toprak 0 1 0 0 0 0ihtiyaç 0 1 0 0 0 0duy 0 1 0 0 0 0bütün 0 0 1 0 0 0yaz 0 0 1 0 0 0su 0 1 1 0 0 0inanılmaz 0 0 1 0 0 0salçalık 0 1 0 1 0 0mart 0 0 0 1 0 0ay 0 0 0 1 0 0zam 0 0 0 1 0 0şampiyon 0 0 0 1 0 0ol 0 0 0 1 1 0fiyat 0 0 0 1 0 0art 0 0 0 1 0 0durum 0 0 0 1 0 0memnun 0 0 0 1 0 0Pazar 0 0 0 0 1 0sat 0 0 0 0 1 0söz 0 0 0 0 1 0organik 0 0 0 0 1 0yüksek 0 0 0 0 1 0oran 0 0 0 0 1 0ziraii 0 0 0 0 1 0ilaç 0 0 0 0 1 0tespit 0 0 0 0 1 0et 0 0 0 0 1 0uzman 0 0 0 0 1 0sebze 0 0 0 0 1 0mevsim 0 0 0 0 1 0tüket 0 0 0 0 1 0fayda 0 0 0 0 1 0söyle 0 0 0 0 1 0yunanistan 0 0 0 0 0 0halk 0 0 0 0 0 0başbakan 0 0 0 0 0 0at 0 0 0 0 0 0protesto 0 0 0 0 0 0et 0 0 0 0 0 0salkım 0 1 1 0 0 0

iv. Benzerlik hesaplaması - İstatistiksel Ağırlıklandırma (tf*idf)Sorgu ve haberin benzerliği, vektörlerinin birbirleriyle yaptıkları açıyla ters orantılıdır. İki vektör arasındaki açı ne kadar küçükse iki vektör o kadar benzerdir. İki vektör arasındaki açı vektörlerin iç

çarpımlarında elde edilir. (C.D. Manning, P. Raghavan,H. Schütze, 2009)

Cos (Θ )= A→

. B→

‖A‖.‖B‖ Bu formülü uygulamak için vektörler oluşturulduktan sonra tf ve idf değerlerinin hesaplanması gerekmektedir. Tf (term frequency) ; kelimenin doküman içinde geçme sıklığını ifade eder. Idf (inverse document frequency) ; ilgili kelimenin tüm dokümanlar içinde kullanım sıklığını ifade eder. Aşağıdaki eşitlik ile idf değeri hesaplanabilir. Bu eşitlikte N, toplam doküman sayısını, i, kelimenin vektör içindeki

16

Page 17: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

sırasını, df(i) (document frequency) ise i. kelimenin bulunduğu toplam doküman sayısını ifade etmektedir. (Alt, 1968)

Idf ( i )=log 10 { Ndf ( i )}

Idf değerini de elde ettikten sonra aşağıdaki eşitlikte gösterilen benzerlik fonksiyonu ile vektörlerin benzerliği bulunabilir. Bu eşitlikte kullanılan tfa(i), i. kelimenin, a vektöründeki sıklığı, tfb(i), i. kelimenin b vektöründeki sıklığı ve idf(i), i. kelimenin tüm dokümanlar içerisinde geçme sıklığını ifade etmektedir.

Bir dokümanda bir kelime çok sık geçiyorsa o belgenin konusunu ve içeriğini ifade etmede önemli olma ihtimali yüksektir . Diğer taraftan bir terim derlemdeki dokümanların çoğunluğunda çok fazla bulunuyorsa belgeleri birbirinden ayırt etme olasılığı o kadar düşük demektir. Buna göre derlemde çok fazla olmayan ve bazı belgelerde çok geçen kelimeler benzerlik hesaplamasında önemli rol oynayacaktır. (Alt, 1968)

sim(a ,b )=∑i=1

ntf a( i) .tf b ( i ) .idf (i )

√∑i=1

ntf a

2.∑i=1

ntf b

2

v. Eşik Değeri (Threshold)Erişim işlemleri sonucunda bulunan belgelerin benzerlik değerlerinden belli bir skor değerinin altında kalanlar ilgisiz kabul edilir. İlgili / ilgisiz ayrımının yapılmasını sağlayan bu skor değeri eşik değer olarak kabul edilir. Erişim sonucunda ilgisiz ya da çok az ilgili belge sayısını azaltmak için eşik değeri kullanılmalıdır.

Eşik değerleri seçilirken nispeten küçük bir test doküman seti üzerinde deneme yapılır. Bu deneme sonucunda anma ve duyarlık değerlerinin en yüksek olduğu noktadaki skor değeri Eşik Değeri olarak alınır. (C.D. Manning, P. Raghavan,H. Schütze, 2009)

vi. Modelin Avantajları Sorgu sonucu derecelendirilebilmektedir. Böylece dokümanlar benzerlik değerine göre

sıralanarak kullanıcıya sunulabiliyor. Terim ağırlıklandırma, sorgu sonucu döndürülen belgelerin kalitesini artırmaktadır yani

bilgiye erişim daha başarılı olmaktadır.

vii. Modelin Dezavantajları Terimleri birbirlerinden bağımsız görmesi nedeniyle belgedeki kelimeler arası ilişkiler göz ardı

ediliyor. Farklı terimlerle ifade edilmiş benzer konuları içeren dokümanları bulmak zor. (C.D.

Manning, P. Raghavan,H. Schütze, 2009)

17

Page 18: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

2. Boole ModeliBu modelde de Vektör Uzayı Modeli'nde olduğu gibi dokümanlar vektörel olarak ifade edilir fakat vektör katsayıları 1 veya 0 olarak ifade edilir. Sözlükteki bir kelime dokümanda varsa ilgili alana 1, yoksa 0 yazılır. Bir kelimenin bir doküman içerisinde birden fazla geçmesi önem taşımamaktadır. Pek çok belgede geçen kelimeler, diğerleri ile aynı ağırlığa sahiptir. Aynı şekilde sorgu için de bir vektör oluşturulur. Boole Modeli vektör yapısı aşağıdaki örnek koleksiyon incelenerek daha iyi anlaşılabilir. (C.D. Manning, P. Raghavan,H. Schütze, 2009)

D1: Gezgin iletişim sistemleri

D2: Kablosuz gezgin iletişim ağları

D3: Geniş alanlı kablosuz veri ağları

D4: Veritabanı yönetim sistemleri

D5: Bilgi teknolojileri

Sözlük Vektörü D1 D2 D3 D4 D5kablosuz 0 1 1 0 0gezgin 1 1 0 0 0iletişim 1 1 0 0 0sistemleri 1 0 0 1 0veri 0 0 1 0 0ağları 0 1 1 0 0bilgi 0 0 0 0 0teknolojileri 0 0 0 0 1geniş 0 0 1 0 1alanlı 0 0 1 0 0veritabanı 0 0 0 1 0yönetim 0 0 0 1 0

Boole Modeli Küme teorisi üzerine kuruludur. Sorgu kelimeleri ile doküman terimlerinin kesişmesi mantığı üzerinde çalışır. Kullanıcı sorgu kelimeleri arasına AND, OR, NOT mantıksal operatörleri yerleştirir. Ör. bilgi VE erişim , pasta VEYA kurabiye gibi. Sorgu ve doküman vektörleri kullanıcının girdiği operatörlere göre mantıksal işleme sokulur. Sonuçta TRUE çıkıyorsa doküman kullanıcıya sunulur, FALSE çıkarsa sunulmaz. Sorgular işlenirken önce parantez içleri, sonra AND işlemi en son OR işlemi yapılır. (C.D. Manning, P. Raghavan,H. Schütze, 2009)

Ör 1. Sorgu: kablosuz VE gezgin VE iletişim

Erişim Sonucu: D2

Ör 2. Sorgu: (kablosuz VEYA gezgin) VE iletişim

Erişim Sonucu: D1, D2

18

Page 19: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

Ör 3. Sorgu: (kablosuz VEYA gezgin) VE (iletişim VEYA ağları VEYA teknolojileri VEYA sistemleri)

Erişim sonucu: D1,D2, D3

I. Sorunları Benzerlik derecelendirme yok yani sorgu ile belgenin ne kadar ilgili olduğunu gösteren bir skor

değeri üretilmiyor bunun yerine ilgili / ilgisiz (1/0) yargısı var. Terim ağırlıklandırma yok yani bir belge içerisinde 1 kez geçen terimle 100 kez geçen terim aynı

ağırlıkta, bu belge içeriğini ifade eden değerli terimleri seçmemizi engelliyor. Sorgu oluşturmak zor çünkü kullanıcılar bilgi ihtiyaçlarını ifade edebilmek için karmaşık sorgular

kurabilmesi gerekiyor. Hata toleransı yok çünkü bilgi ihtiyacı tam ifade edilmek zorunda, yaklaşık sonuç alma olasılığı

yok. (C.D. Manning, P. Raghavan,H. Schütze, 2009)

G. İdeal Bilgi Erişim Sistemi ve Sorunlarıİdeal Bilgi erişim sistemi aşağıdaki özelliklere sahip olmalıdır.

Kullanıcının aradığı konu ile ilişkili materyalleri döndürmelidir. Kullanıcının aradığı konu ile ilişkili tüm materyalleri döndürmelidir. Sonuçlar güncel olmalıdır. Sonuçları hızlı döndürmelidir. Arayüzü kullanışlı olmalıdır. (M. Kobayashi, K. Takeda, 2000)

İdeal Bilgi Erişim Sistemi kavramı aşağıdaki nedenlerden dolayı mümkün olmamaktadır.

1. Sorgu SorunlarıKullanıcı aradığı konuyu iyi ifade edemediğinde, sorgu sözcüklerini iyi seçmediğinde arama sonuçları da yeterince başarılı olamamaktadır.

2. Dil SorunlarıHer dilin yapısı farklıdır ve belgelerin yazıldığı dile göre gövdeleme yapmak sistemleri zorlayan konular arasındadır.

3. Konu Belirleme SorunlarıBir belgenin hangi konu hakkında olduğunun belirlenmesi arama sonuçlarının sorgu ile ilişkili olup olmadığını kontrol etmek açısından gereklidir. Meta data web kaynağının içeriğini makinenin anlayabileceği dilde tanımlamak amacı ile kullanılır. (Yaşar Tonta, 2002) Meta data tanımlama işlemi kolay olmasına rağmen web sayfalarında kullanımı oldukça düşüktür. 1998'da yapılan bir araştırmaya göre örnek olarak seçilen 1024 web sayfasından sadece yedisinin üst veri belirteçleri içerdiği görülmüştür. Üst veri bilgisi suiistimale açık bir bilgidir. İnternette çok aranan sözcükleri web sayfasına üst veri olarak ekleyen kişi bu yolla web sitesine fazla sayıda ziyaretçi çekerek kazanç elde edebilmektedir. Meta data klasik Bilgi Erişim sistemlerinde en önemli dizinleme aracıyken Web üzerinde hem kullanım sıklığı hem de kalitesi düşüktür. Bir Google yetkilisi 2009 yılında yaptığı açıklamada arama işlemlerinde meta data bilgisini kullanmadıklarını açıklamıştır. (Cutts, 2009).

19

Page 20: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

4. Web'in Büyüklüğü ve DinamikliğiAramanın yapıldığı Web'deki materyallerin sayısı gün geçtikçe artmaktadır. Netcraft'ın ulaşabildiği web sitesi sayısı Mart 2012 itibariyle 646 milyona ulaşmıştır ve bu sayı her ay yaklaşık %5 oranında artmaktadır.

Ağustos 1995 - Mart 2012 Toplam Web Sitesi Sayısı (Netcraft, 2012)

İnternet üzerindeki verinin bu hızla artması aradığımız veriye ulaşmamızı da zorlaştırmaktadır. Web sayfaları kısa zamanda güncellenmekte, içeriği değişmektedir. Yeni içeriğin de dizinlenmesi gerekmektedir. Bu özellik Bilgi Erişim Sistemlerini daha da karmaşık hale getirmektedir.

5. Web kaynaklarındaki yazım hatalarıWeb'de yayınlanan metinler bir filtreden geçmediği için ve her eğitim düzeyinden insan içerik oluşturabildiği için yazım yanlışlarına sıkça rastlanmaktadır. Bu nedenle sorgu ile ilişkili olduğu halde yazım yanlışlarından dolayı da bazı kaynaklara erişilememektedir.

H. Bilgi Erişim Sistemi Geliştirme Aşamasında Karşılaşılan GüçlüklerGerçek zamanlı bir Bilgi Erişim Sistemi geliştirmek ve hayata geçirmek için yola çıkan yazılımcılar bir çok güçlükle karşılaşmaktadır. Bu güçlüklerin nedenlerini donanımsal altyapı eksiği, insan kaynağı eksiği ve üniversitelerde bilimsel araştırma sonucu elde edilen ürünlerin paylaşılmamasından kaynaklanan bilgi eksiklikleri olarak sınıflandırılabilir.

a. Donanımsal Altyapı Gereksinimleri: Bilgi Erişim Sisteminin verimli olabilmesi için internet üzerindeki materyallerin büyük bir bölümünü kapsaması gerekir. Web Örümceği'nin maksimum sayıda sayfaya hızlı bir şeklide ulaşması gerekir. (M.Kobayashi, K. Takeda, 2000) Bunun için hızlı sunuculara ve büyük hafıza alanlarına ihtiyaç vardır. Bireysel çalışmalarda bu tür donanımların eksikliği çalışmaları aksatmaktadır.

20

Page 21: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

b. İnsan Kaynağı Gereksinimi:Bilgi Erişim Sistemini geliştirirken sisteminin sağlamlığını, tutarlılığını test etmek için büyük veri kümeleriyle çalışmak gerekmektedir. Çünkü test ortamı gerçek ortama ne kadar çok benzerse sistemin güvenirliği o derece artacaktır. Birçok farklılığı barındıran büyük bir doküman koleksiyonu oluşturmak kolaydır fakat sonuçları değerlendirmek için bu dokümanların konularını belirlemek gerekir. Örneğin 400.000 belge üzerinde test ve geliştirme yapmak isteyen bir yazılımcı tüm bu dokümanları okuyup konularını belirleyemez. Bilgi Erişim Sistemi geliştiricileri için bir defaya mahsus büyük bir koleksiyon oluşturup konularını belirlemek ve yazılımcıların kullanımına sunmak çok faydalı bir çalışma olacaktır.

c. Bilimsel Araştırmaların Paylaşılmaması Sorunu:Bilim birikerek ilerler ve her bilgi kendisinden önce üretilmiş bilgiler ışığında oluşur. Bisiklet üretmek isteyen bir kişinin tekerleği yeniden icat etmesine gerek yoktur zira bu zaman kaybı olur, var olan tasarımı büyük ölçüde kullanacaktır. Bilgi Erişim Sistemlerinde Gövdeleme işlemi Türkçe gibi sondan eklemeli dillerde hayati önem taşımaktadır. Çünkü aynı kelime bir çok çekim eki alıp birbirinden farklı gibi görünen kelimelere dönüşebilmektedir. Fakat kelimenin gövdesi aynı bilgiyi ifade etmektedir. Gövdeleme işleminin sağlıklı yapılması Bilgi Erişim Sistemlerinin performansını %30 oranında etkilemektedir. (Sever, 1999) Ülkemizde birden çok üniversite bünyesinde otomatik gövdeleme yazılımları geliştirilmesine rağmen bu yazılımlar paylaşılmamakta, bu nedenle her ihtiyaç duyulduğunda yeniden geliştirilmek zorunda kalınmaktadır. Büyük bir zaman ve emek kaybı bu nedenle yaşanmaktadır.

I. Bilgi Erişim Sistemlerinde Araştırma Konuları

1. Birleştirilmiş Arama Motorları (Meta Search Engines)Birleştirilmiş Arama Motorları, kullanıcıdan sorguyu alıp birden fazla arama motoruna gönderen ve sonuçlarını birleştirerek kullanıcıya sunan uygulamalardır. Bu sistem kullanıcıyı birden fazla arama motorunda arama yapma külfetinden kurtarır. Kullanıcı farklı arama motorlarının birbirinden farklı sorgu dillerini öğrenmek zorunda kalmaz. Sistem kapsadığı arama motorlarının en yüksek ilişkili sonuçlarını kullanıcıya en üstte sunduğu için kullanıcının aradığını kolayca bulma olasılığı yükselmektedir. (Meng, August 2009) En popüler birleştirilmiş arama motorları:

AllInOneNews Search aggregator Travelfox Federated search Metabrowsing Multisearch Travel website

2. Kişiselleştirilmiş arama (personalized search)Kişiselleştirilmiş arama, kullanıcının internetteki aktivitelerinin, bilgi tüketim alışkanlıklarının izlenerek kullanıcı hakkında edinilen bilgilerin bilgi erişim sistemlerinde kullanılması ve kullanıcıya anlamlı sonuçlar döndürülmesi olarak tanımlanır. (J. Pitkow, H. Schütze, T. Cass, R. Cooley, D. Turnbull, A. Edmonds, E. Adar, T. Breuel, 2002) Google isteğe bağlı olarak kişiselleştirilmiş arama yapmaktadır.

21

Page 22: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

Google hesabı olan bir kişi sisteme giriş yaptıktan sonra Google ekranındaki tüm davranışları (sorgulama, sonuçlara tıklama vs..) kaydedilir. Toplanan bilgiler sonraki aramalarında kullanılır. Örneği "bass" (levrek veya bir enstrüman) kelimesini aratan kişinin geçmişinde eğer balıkçılıkla ilgili ipuçları varsa sorgu sonuçlarından balıkçılıkla ilgili olanlar önde gösterilir, eğer müzikle ilgili bir kişiyse müzikle ilgili siteler üstte gösterilecektir. Kullanıcı kişiselleştirme özelliğini kullanmak istemezse tüm geçmişi silip bu özelliği kapatabiliyor. (Mills, 2005)

Kişiselleştirilmiş aramada dikkat edilecek en önemli nokta güvenliktir. Kullanıcı bilgisayar ortamındaki davranışlarının kaydedilmesini istemeyebilir bu nedenle önce kullanıcının izni alınmalıdır. Kullanıcının ilgi alanları zamanla değişebileceği göz önünde bulundurulmalı, çok eski bilgilerine dayalı arama yapılmamalıdır. (J. Pitkow, H. Schütze, T. Cass, R. Cooley, D. Turnbull, A. Edmonds, E. Adar, T. Breuel, 2002) G

3. Anlamsal arama (semantic search)Anlamsal arama klasik aramadan farklı olarak sorgu sözcüklerinin dokümanda bulunma sıklığına değil kullanıcının gerçekte neyi aradığına ve karşısına çıkan web içeriklerinin konusuna odaklanır. (Janowicz, 2010) Semantik aramada aşağıdaki hususlar göz önünde bulundurulur:

I. Sorgu sözcükleriyle eş anlamlı olan sözcükler de aramaya dahil edilir. II. Sözcüklerin morfolojik özellikleri incelenir ve Sözcüğün tüm varyasyonları aramaya dahil

edilir: improve, improved, improvementIII. Sadece aranan anahtar kelime değil konu ile ilgili diğer kelimelerin de bilinmesi gerekir.

(ontological knowledge) Ör: üst solunum yolu enfeksiyonu ->(nezle, grip, sinüzit, faranjit)

Anlamsal arama ile ilgili sorunlar henüz çözülmüş değildir. Anlamsal arama için yapılması gereken ön çalışma (ontoloji oluşturma) çok uzun zaman almaktadır. Doğal dil sorgularını makinenin anlayabileceği ontolojik sorgulara dönüştürmek henüz mümkün olmamıştır. Web içeriğinde konunun,

anlamın bulunması da çözülmeyi bekleyen sorunlar arasındadır. Hakia, DBpedia projeleri anlamsal

arama yapmaktadırlar.

4. Soru yanıtlama sistemleri (question answering) Soru yanıtlama sistemleri kullanıcının sorduğu soruya cevap olarak bulduğu bilgileri toparlayıp tek bir sonuç olarak döndürür. İlk soru yanıtlama sistemleri 1960'larda geliştirildi ve belirli alanlara özel olarak hazırlanmış uzman sistemlerin ara yüzleriydiler. Buna karşılık günümüzde soru yanıtlama sistemleri bilgi kaynağı olarak metinsel dokümanları kullanmakta, sorulara cevap aramak için doğal dil işleme tekniklerini birleştirmektedirler. Günümüz soru yanıtlama sistemleri "soru sınıflama" modülü ile sorunun ve cevabın türünü belirlerler. Soru analiz edildikten sonra sistem metinler üzerinde karmaşık doğal dil işleme tekniklerini çalıştırır. Bu sırada bir filtre cevabın türüne göre paragraflar arasından cevabı bulur. Örneğin soruda "kim" sorusu soruluyorsa cevap bir özel isim olmalıdır. (Dragomir R. Rade, John Prager,Valerie Samn, 2000) webclopedia.com, answerbus.com, answers.com halen kullanılan soru yanıtlama sistemleridir.

5. Konu Tespit ve Takip Sistemleri (Topic Detection and Tracking) Konu Tespit ve Takip Sistemleri haber yayınlarının izlenerek yeni ve ilginç bir haber olduğunda ilgililerin uyarılmasını sağlayan sistemlerdir. Dört ana modülden oluşur. "İlk Hikaye Algılama Modülü",

22

Page 23: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

sisteme yeni bir hikaye ulaştığında bunun tartıştığı konu daha önceden tanımlanmış konularla ilgili değilse, yeni bir konu olduğunu belirler. "Küme Belirleme Modülü" gelen hikaye bir ilk hikaye değilse ilgili konu kümesine yerleştirir, eğer ilk hikaye ise bunun için yeni bir küme oluşturur. "Haber İzleme Modülü", haber kaynaklarından sisteme gelen haberleri değerlendirilerek, bu haberlerin daha önceden belirlenmiş olan konularla ilgili olup olmadıklarını araştırır. "Hikaye Bağlantı Algılama" modülü ise sisteme ulaşan iki farklı hikayenin aynı konuyu tartışıp tartışmadıklarını anlamayı amaçlar. (Köse, AN EVENT MODEL IN TOPIC DETECTION AND TRACKING PROGRAM, 2004)

J. SonuçKütüphanedeki bir veriye ulaşmak için kütüphanenin dizinine bakmak yeterlidir. Web'de ise milyonlarca kaynak varken biz sadece arama motorlarının bize ulaştırabildiği sayıdaki kaynaklara erişebilmekteyiz. Bu nedenle bilgi erişim sistemlerinin geliştirilmesi ve iyileştirilmesi günümüzde büyük önem kazanmıştır. (BRAKE, 1997)

Bilgi Erişim Sistemlerinin dünyada üretilen bilginin hızla artması nedeniyle hem işi zorlaşacak hem de ihtiyacın artmasıyla gün geçtikçe daha da önem kazanacaktır. Mobil cihazların sabit ve dizüstü bilgisayarların yerine geçmesi internete erişimi kolaylaştıracak, içerik oluşturma hızlanacak, 4G ve 5G ile bant genişliklerinin 2-3 katına çıkması nedeniyle veri iletimi hızlanacak ve bu gelişmeler Dünya’da üretilen bilginin daha da hızla artmasına neden olacaktır. Bilgi Erişim Sistemleri sadece metin değil aynı oranda ses, video, resim arama araçları olacak.

Doğru kaynağa en kısa zamanda ulaşabilmek için kullanıcıyı tanıyan,arama yaparken niyetini anlayan, web içeriğinin konusunu tespit edebilen sistemlere ihtiyaç vardır.

KaynakçaAlt, F. (1968). Advances in Computers. New York: Academic Press.

BRAKE, D. (1997). LOST IN CYBERSPACE . New Scientist .

Bush, V. (1945). As We May Think. Atlantic Montly .

C.D. Manning, P. Raghavan,H. Schütze. (2009). An Introduction to Information Retrieval. Cambridge, England: Cambridge University Press.

Castillo, C. (2004). EffectiveWeb Crawling. Chile: Dept. of Computer Science - University of Chile.

Charles T. Meadow,Bert R. Boyce,Donald H. Kraft. (1992). Text Information Retrieval Systems. London: Emerald Group Publishing .

Cutts, M. (2009, 09 01). Google does not use the keywords meta tag in web ranking. 03 30, 2011 tarihinde Google Webmaster Central Blog: http://googlewebmastercentral.blogspot.com/2009/09/google-does-not-use-keywords-meta-tag.html adresinden alındı

Dewey Services. (2012). 2012 tarihinde OCLC: http://www.oclc.org/dewey/about/default.htm adresinden alındı

23

Page 24: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

Dragomir R. Rade, John Prager,Valerie Samn. (2000). Ranking suspected answers to natural language questions using predictive annotation. Applied Natural Language Processing. Seattle.

Fensel, D. (2007). Computer Science in the 21st Century. University of Innsbruck, Tyrol, Austria.

J. Pitkow, H. Schütze, T. Cass, R. Cooley, D. Turnbull, A. Edmonds, E. Adar, T. Breuel. (2002). Personalized Search. Communications of the ACM , 50-55.

Janowicz, K. (2010). Semantic Search on the Web. Semantic Web – Interoperability, Usability, Applicability , 1-7.

Köse, G. (2004). AN EVENT MODEL IN TOPIC DETECTION AND TRACKING PROGRAM. Ankara: Başkent University.

Köse, G. (2010). BBY 220 - Bilgi Erişim İlkeleri Ders Notları. 2012 tarihinde BBY 220 - Bilgi Erişim İlkeleri: yunus.hacettepe.edu.tr/~gkose/ adresinden alındı

LaPaugh, A. (2012, 01 05). Department of Computer Science. 03 23, 2012 tarihinde Andrea S. LaPaugh: http://www.cs.princeton.edu/courses/archive/spr08/cos435/Class_notes/relevance_toPost.pdf adresinden alındı

M. Kobayashi, K. Takeda. (2000). Information retrieval on the Web. ACM Computing Surveys, (s. 144-172).

Meng, W. (August 2009). Metasearch Engines. Encyclopedia of Database Systems , 1730-1734.

Mills, E. (2005). Google automates personalized search. 2012 tarihinde CNet: http://news.cnet.com/Google-automates-personalized-search/2100-1032_3-5766899.html adresinden alındı

Netcraft. (2012, 03). March 2012 Web Server Survey. 03 30, 2012 tarihinde Netcraft: http://news.netcraft.com/archives/category/web-server-survey/ adresinden alındı

Ricardo Baeza-Yates, B. Barla Cambazoglu. (2010). Distributed Web Crawling,Indexing, and Search. 2012 tarihinde Index of /~coletta/CaisePresentations: http://www.lirmm.fr/~coletta/CaisePresentations/TutorialYAHOO.pdf adresinden alındı

Saracevic, T. (1995). EVALUATION OF EVALUATION IN INFORMATION RETRIEVAL. SIGIR (s. 138-143). Seattle: ACM.

Sever, H. (1999). Kaşgarlı Mahmut Bilgi Geri-Getirim Sistemi Sonuç Raporu. Ankara: Hacettepe Üniversitesi Bilgisayar Müh. Bölümü Bilgi Erişim Araştırma Grubu.

Trudi Bellardo Hahn,Michael Keeble Buckland. (1998). Historical Studies in Information Science. Medford, NJ: Information Today.

World Stats. (2012, 02 15). 03 21, 2012 tarihinde Internet World Stats: www.internetworldstats.com. adresinden alındı

Yaşar Tonta, Y. B. (2002). Türkçe Arama Motorlarında Performans Değerlendirme. Ankara: Total Bilişim Ltd. Şti.

24

Page 25: Bilgi Erişim Sistemleriyunus.hacettepe.edu.tr/~soydal/bby156_2013/6/sevgikoy... · Web viewArama işlemini yapmak için zaman içinde bir çok yöntem ve algoritma geliştirilmiştir

25