28
DOM Based Content Extraction via Text Density Mehmet Süleyman YILDIRIM

Dom tree text destiny

Embed Size (px)

Citation preview

Page 1: Dom tree text destiny

DOM Based Content

Extraction via Text Density

Mehmet Süleyman YILDIRIM

Page 2: Dom tree text destiny

Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar

Page 3: Dom tree text destiny

Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar

Page 4: Dom tree text destiny

Makalenin Tanıtımı Yazarlar

Fei Sun Dandan Song Lejian Liao

School of Computer Science

Beijing Institute of Technology

DetaylarSIGIR 2011Web Sayfası: http://disnet.cs.bit.edu.cn/Uygulama Kodları:

https://github.com/FeiSun/ContentExtraction

Veri Seti: CETD Dataset

Page 5: Dom tree text destiny

Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar

Page 6: Dom tree text destiny

İlgili Kavramlar - DOM Tree

Yahoo

Google

Page 7: Dom tree text destiny

İlgili Kavramlar - Noise (Gürültü) Web sayfalarında asıl içeriğin dışında

kalan,NavigasyonBannerReklam görüntüleri

Arama motorlarının verimliliği açısından önemli bir handikaptır.

Sitedeki anlamlı esas içeriği yakalamak için yok sayılması veya yok edilmesi gerekmektedir.

Page 8: Dom tree text destiny
Page 9: Dom tree text destiny

İlgili Kavramlar - Text Density

i web sayfasındaki bir tagdır (). Ci: i tagı içindeki karakter adedi Ti: i tagı içindeki tag adedi TDi: i tagının text yoğunluğu

Ti: 0 olduğunda 1 ile değiştirilir. DOM Tree de bulunan script, comment,

style vb. taglar kaldırılır veya yok sayılır.

Page 10: Dom tree text destiny

Text Density

Page 11: Dom tree text destiny

Text Density

Page 12: Dom tree text destiny

Text Density

Page 13: Dom tree text destiny

İlgili KavramlarComposite Text Density

LCi: i tagı linklerin içindeki karakter adedi¬LCi: i tagı içindeki (link olmayan)

karakter adediLTi: i tagı içindeki link tagı adediLCb: <body> tagı içindeki link tagı adediCb: <body> tagı içindeki karakter adediCTDi: i tagının composite text yoğunluğu

Page 14: Dom tree text destiny

Composite Text Density

Page 15: Dom tree text destiny

Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar

Page 16: Dom tree text destiny

İçerik Çıkarma - DensitySum

Bazı taglarda (haber başlığı, özeti, tarih bilgisi, referanslar vb.) düşük metin yoğunluğu olabilir.

Aksine bazı gürültü taglarında (telif hakkı veya yasal uyarı metinleri) da yüksek metin yoğunluğu olabilir.

Page 17: Dom tree text destiny

DensitySum En basit durumda içerik sadece bir node

içerisinde olabilir. Bu durumda text yoğunluğu sadece bir tagın maximum çıkar ve burası içerik olarak belirlenir.

Fakat bir çok sitede içerik bir node ile sınırlı değildir. Bunları kapsayan node göz önüne alınmalıdır.

Başlangıç için <body> tagının text yoğunluğu baz alınır

Diğer her node adımda maximum text yoğunluğu olan tag eşik olarak tutulur.

Page 18: Dom tree text destiny

DensitySum

Page 19: Dom tree text destiny

Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar

Page 20: Dom tree text destiny

Uygulama Data Set

CleanEval : Temizlik için özel hazırlanmış veri setidir. İngilizce ve Çince versiyonu vardır. Bu uygulamada sadece İngilizce versiyonu kullanılmıştır.

CETD : (1) The Big 5 : Ars Technica, BBC, Yahoo!, New York Times, Wikipedia, and (2) the Chaos data set chosen randomly from Google News and the best-known blog platforms such as WordPress and Blogger.

Tiny RapidXML

Page 21: Dom tree text destiny

Uygulama Performans Ölçütleri

Page 22: Dom tree text destiny

Dom Based Content Extraction via Text Density Makalenin Tanıtımı İlgili Kavramlar İçerik Çıkarma Uygulama Sonuçlar

Page 23: Dom tree text destiny

Sonuçlar CETD-DS: Text Density with DensitySum CECTD-DS: Composite Text Density with

DensitySum CECTD-S: Composite Text Density with

Smoothing

Page 24: Dom tree text destiny

Sonuçlar

Page 25: Dom tree text destiny

Sonuçlar

Page 26: Dom tree text destiny

Sonuçlar

Page 27: Dom tree text destiny

Sonuçlar

Page 28: Dom tree text destiny

TEŞEKKÜRLER.

Mehmet Süleyman YILDIRIM

Turgut Özal Üniversitesi

Elektrik ve Bilgisayar Mühendisliği