Upload
mehmet-sueleyman-yildirim
View
35
Download
1
Embed Size (px)
Citation preview
DOM Based Content
Extraction via Text Density
Mehmet Süleyman YILDIRIM
Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar
Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar
Makalenin Tanıtımı Yazarlar
Fei Sun Dandan Song Lejian Liao
School of Computer Science
Beijing Institute of Technology
DetaylarSIGIR 2011Web Sayfası: http://disnet.cs.bit.edu.cn/Uygulama Kodları:
https://github.com/FeiSun/ContentExtraction
Veri Seti: CETD Dataset
Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar
İlgili Kavramlar - DOM Tree
Yahoo
İlgili Kavramlar - Noise (Gürültü) Web sayfalarında asıl içeriğin dışında
kalan,NavigasyonBannerReklam görüntüleri
Arama motorlarının verimliliği açısından önemli bir handikaptır.
Sitedeki anlamlı esas içeriği yakalamak için yok sayılması veya yok edilmesi gerekmektedir.
İlgili Kavramlar - Text Density
i web sayfasındaki bir tagdır (). Ci: i tagı içindeki karakter adedi Ti: i tagı içindeki tag adedi TDi: i tagının text yoğunluğu
Ti: 0 olduğunda 1 ile değiştirilir. DOM Tree de bulunan script, comment,
style vb. taglar kaldırılır veya yok sayılır.
Text Density
Text Density
Text Density
İlgili KavramlarComposite Text Density
LCi: i tagı linklerin içindeki karakter adedi¬LCi: i tagı içindeki (link olmayan)
karakter adediLTi: i tagı içindeki link tagı adediLCb: <body> tagı içindeki link tagı adediCb: <body> tagı içindeki karakter adediCTDi: i tagının composite text yoğunluğu
Composite Text Density
Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar
İçerik Çıkarma - DensitySum
Bazı taglarda (haber başlığı, özeti, tarih bilgisi, referanslar vb.) düşük metin yoğunluğu olabilir.
Aksine bazı gürültü taglarında (telif hakkı veya yasal uyarı metinleri) da yüksek metin yoğunluğu olabilir.
DensitySum En basit durumda içerik sadece bir node
içerisinde olabilir. Bu durumda text yoğunluğu sadece bir tagın maximum çıkar ve burası içerik olarak belirlenir.
Fakat bir çok sitede içerik bir node ile sınırlı değildir. Bunları kapsayan node göz önüne alınmalıdır.
Başlangıç için <body> tagının text yoğunluğu baz alınır
Diğer her node adımda maximum text yoğunluğu olan tag eşik olarak tutulur.
DensitySum
Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar
Uygulama Data Set
CleanEval : Temizlik için özel hazırlanmış veri setidir. İngilizce ve Çince versiyonu vardır. Bu uygulamada sadece İngilizce versiyonu kullanılmıştır.
CETD : (1) The Big 5 : Ars Technica, BBC, Yahoo!, New York Times, Wikipedia, and (2) the Chaos data set chosen randomly from Google News and the best-known blog platforms such as WordPress and Blogger.
Tiny RapidXML
Uygulama Performans Ölçütleri
Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar
Sonuçlar CETD-DS: Text Density with DensitySum CECTD-DS: Composite Text Density with
DensitySum CECTD-S: Composite Text Density with
Smoothing
Sonuçlar
Sonuçlar
Sonuçlar
Sonuçlar
TEŞEKKÜRLER.
Mehmet Süleyman YILDIRIM
Turgut Özal Üniversitesi
Elektrik ve Bilgisayar Mühendisliği