Upload
tarsadalominformatika
View
1.303
Download
5
Embed Size (px)
DESCRIPTION
Citation preview
KERESŐPORTÁLOK MŰKÖDÉSI ELVEI, INDEXELŐ SZOLGÁLTATÁSOK, RANGSOROLÁSI SZEMPONTOK
Tarcsi Ádám
Keresőportálok csoportosítása
2
Keresők csoportosítása
Klasszikus, általános célú, kulcsszavas keresők
Katalógus, linkgyűjtemény jellegű, tematikus keresők
Web 2.0 keresők Tematikus, speciális adatbázisokra
épített keresők, tudásbázisok Meta vagy szemantikus keresők Vizualizációs keresők Real-time, valósidejű kereső Hibrid
3
Klasszikus, általános célú keresők
A keresők a weblapokat indexelés után veszik fel az adatbázisba.
A legnagyobb keresők (a Google, a Yahoo és a Bing) alapvetően ebbe a kategóriába tartoznak.
4
Katalógus, linkgyűjtemény, tematikus keresők
Felhasználók, vagy szerkesztők által kezelt tartalmak érhetőek el.
Például: Open Directory Project (DMOZ) Yahoo Directory Startlap Lapozz.hu Linkcenter.hu del.icio.us
5
Web 2.0-s keresők
A tartalmat a felhasználók töltik fel, osztják meg.
Youtube.com Flickr.com
6
Tematikus, speciális adatbázisokra épített keresők, tudásbázisok
Adott témára, vagy speciális adatbázisokra épített keresők. Például:
books.google.com Europeana az európai elektronikus
könyvtár www.europeana.eu Wolfram Alpha (wolframalpha.com) -
részben Gyógyszerkereső: agyogyszer.hu Termékkereső: arukereso.hu [Origo] sztaki szótár: szotar.sztaki.hu
7
Meta vagy szemantikus keresők
A weben lévő tartalmakat, adatbázisokat a számítógép számára is értelmezetten le tudjuk írni, ún. metaadatok vagy szemantikák, azaz jelentések, összefüggések megadásával
Néhány szemantikus kereső: Evi: http://evi.com SenseBot: http://www.sensebot.net/ Swoogle: http://swoogle.umbc.edu/ Dbpedia: a wikipedia tartalmára építettek egy
szemantikus adatbázist. Wolfram Alpha: http://wolframalpha.com
8
Szemantikus keresők - evi9
http://www.evri.com/news/for?query=Budapest+sights
DBpedia10
11
Hol voltak ma földrengések?
12
WolframAlpha
http://www.wolframalpha.com/input/?i=all+earthquakes+today
Vizualizációs keresők
Találataik között összefüggéseket állapítanak meg, majd azokat ábrázolják, jellemzően gondolati térképeken hatékonyabb, a gráfok mentén böngészve gyorsabb keresést kínálvaIlyen keresők például:
Quitura: http://www.quintura.com/ Liveplasma: http://www.liveplasma.com/
13
Valósidejű (real time) keresők
Valós idejű keresők, közösségi oldalakon, blogokon, hírfolyamokon használt.
Az adatok szinte valós idejű indexelése, hogy az.
Az internet csak egy kis részét pásztázzák.
Pl.: socialmention.com
14
Hibrid
A legnagyobb keresők valójában ebbe a kategóriába tartoznak.
A Google keresője például nagyrészt a keresőrobotok által talált oldalak tartalmára, valamint azokon talált képekre történő keresésekben segít, ugyanakkor bizonyos szemantikus adatokat is fel tud dolgozni.
15
Keresők működése16
17
Keresők működése
Kereséshez fel kell túrni a homokozót: Web (ro)bot, spider, clawler
Linkeken keresztül járják be a webet
Indexelés Adattisztítás Indexelés, Rangsorolás: A kulcsszavak előfordulását súlyozza az elismertségi
szinttel (PageRank-kel Frissítés (újra bejárás)
A pontos értelmezés: metaadatok szükségesek Matematikai módszerekkel az emberi nyelv nem írható le a helyes
értelmezéshez szükség van az emberre is. Valahol itt született meg a szemantikus web víziója
Az Interneten nem csak emberek "böngésznek", kommunikálnak számítógépek számára is érthető tartalom kell.
PageRank18
Hiperlinkkel összekötött dokumentumhoz egy számot rendel a betöltött szerep alapján.
Hivatkozás = szavazás az oldalra Az a fontos oldal, amire mutatnak.
- i: adott oldal- d: csillapítási tényező- M(i): azon oldalak halmaza, amelyek linkelnek i-re- L(j): j. Oldalról kimenő linkek száma
PageRank, kulcsszó lekérdezők
19
Többféle SEO Toolbar létezik FireFox-hoz http://seopen.com/seopen-tools/pagerank.ph
p http://www.iwebtool.com/pagerank_checker Bejövő linkek ellenőrzése
link: http://www.inf.elte.hu Linkhálózat PageRank elemzése:
http://www.smartpagerank.com/pagerank-backlinks.php
Kulcsszó ajánló, kulcssűrűség vizsgáló: http://www.webconfs.com/ http://www.seotools.hu/
Google20
Googol Google21
1 googol = 10100 = 10 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000
1938, Milton Sirotta Googolplex = 10googol – a legnagyobb
saját névvel rendelkező szám – Edward Kasner
Története22
BackRub Larry Page (1971), Sergey Brin (1972),
Stanford University, 1995 1996: BackRub keresőmotor.
Alapja: visszamutató linkek elemzése 1997 – Google: Az egyetemi campuson
üzemel 1998: Első adatközpont – 1 terrabyte Google: 59 000 keresés
másodpercenként
A Google titka23
A legtöbb belinkelt oldal (?) Legtöbb találat több, mint 70-80%-os piaci
rész Egyszerű, átlátható, barátságos Kevés reklám, a szponzorált oldalak nem
kapnak jobb pozíciót Egyéb, kiegészítő szolgáltatások:
Képkeresés Számológép, definíció, US telefonkönyv,
utcatérkép, helyesírás ellenőrző Hasonló lapok, adott site-on keresés, ki
hivatkozik rám, stb. Fizetős szolgáltatások: hirdetési rendszer,
Earth, SketchUp
Keresők piaca24
Keresők piaca: trend25
Keresők piaca: trend
2012 Jan, US
GoogleBingYahooASKAOL
26
comScore January 2012 U.S. Search Engine Rankings
Globális keresőpiac27
http://marketshare.hitslink.com/search-engine-market-share.aspx?qprid=4
Globális keresőpiac28
Mobil keresés29
Keresőmotorok - Magyarország
30
Forrás: http://www.rankings.hu/hu/rankings/search-engines.html
gemiusTraffic kutatás
Keresőmotorok: Magyarország
31
De nem mindenhol a Google az első: Kína
32
2011 Q2 – forrás: http://www.iresearch.cn/
Kína33
Japán34
Oroszország: Yandex35
Volt Szovjet tagállamok36
Világ37
Keresőoptimalizálás38
Keresőoptimalizálás39
Technikailag az első látogató a kereső a "barátainak" majd ő meséli el, mit látott.
Rangsorolás alapján ajánlanak tartalmat, oldalakat a keresett kifejezésre
Linkgyűjtemények szerepe lap.hu, lapozz.hu, linkfarm, stb. Dmoz.org
SEO – Keresőoptimalizálás SEM – Keresőmarketing
Rangsorolás alapja40
Tartalom Oldal fontossága
Látogatottság, Megbízhatóság, A linkhálózatban betöltött szerepe, Szponzoráció, Frissesség, Tartalom eredetisége, Egyéb szempontok,
Top 30 probléma41
A kutatások szerint a keresési lista első 30 helyezettjét nézi át a felhasználók többsége
Egy cégnek létfontosságú lehet a Top 30-ba bekerülés (és bentmaradás)
Keresők – bejárási utak
42
Googlebot
Forrás: http://www.drunkmenworkhere.org
Yahoo! Slurp
MSNbot
Linkszaporítás43
Tematikus keresők, katalógusok Startlap: Lap.hu Linkek.hu Lapozz.hu
Szakmai címlisták Szakmai címtárak DMOZ.org Szakmai kiadványok, szervezetek weblapjai
Google Webmestereszközök44
Google Webmestereszközök 2. Milyen keresőkifejezésekről jutottak el a
weboldalunkra? Milyen kulcsszavakra látja a Google
optimalizálva az oldalunkat? Robots.txt lekérdezése, beállítása Webhelytérkép feltöltése Webhelylinkek megadása Webhelyre mutató linkek Javaslatok Tájékoztatja a webes rendszergazdát
arról, ha a Google úgy észlelte, feltörték weboldalunkat.
Google bot Mobile elemzések
45
Trükkök, irányelvek46
Bőséges, egyedi tartalom, keresőre (kulcsszavakra, kifejezésekre) optimalizálva de ne vigyük túlzásba
Domain név Cím (Title) címke Főcímek (h1,h2,h3...) Szöveget ne képként Képaláírások használata (Alt címke) Linkek szövegében kifelé és befelé mutatókban
egyaránt! Fájlok, könyvtárak nevei Honlap életkora, frissessége is számít Linkhálózat értéke és frissessége
Trükkök, irányelvek – 2.47
Menüvel saját oldalainkra linkelhetünk Sitemap (oldaltérkép) Bloggok, fórumok bejegyzéseiben történő reklám JavaScript, Flash, Framek, képként ábrázolt
szövegek használata nem szerencsés Első 20, 200 szó a legfontosabb Kulcsszótávolság Kulcsszósűrűség Hivatkozások lekérése:
Google: link:elte.hu Yahoo: linkdomain:elte.hu
Formai, tartalmi irányelvek48
Szöveges linkek, minden oldal legyen elérhető link által
Hasznos, információkban gazdag oldal Törött linkek ellenőrzése Dinamikus weboldalak esetén minél
kevesebb paraméter legyen a linkekben Frame-es oldalakban egyes keresők is
elakadnak, de a könyvjelzők, oldal címének megjegyzése is nehézkes
Technikai irányelvek49
Szöveges böngészővel (pl.: Lynx) ellenőrizni az oldalt (a keresőrobot is kb. annyit lát az oldalból) http://lynx.isc.org/ http://csant.info/lynx.htm
A keresőrobot bejárhassa az oldalt session id, vagy egyéb argumentum nélkül is.
Webszerver: "If-Modified-Since" HTTP header (változott-e a tartalom)
URL-ekben kerülendő az &id= argumentum Robots.txt fájl létrehozása (
http://www.robotstxt.org/wc/faq.html) Gyökérben. Ebben adjuk meg, hogy a keresőrobot mit
indexelhet és mit nem. META tageket is használhatunk. Példa:
User-agent: * Disallow: /cgi-bin/ Disallow: /images/
Kulcsszó kiválasztása50
Marketing cél alapján lehet pl.: termék, termékhez kapcsolódó kifejezés
Az oldal tartalmának illeszkedni kell a kiválasztott kulcsszóhoz
Keresési trendek is segíthetnek a kiválasztásban http://www.google.com/trends http://google.com/insights/search/
A látogatottsági adatok alapján formálni kell! Az elkészült oldalon ellenőrizzük le, hogy a
tartalom illeszkedik-e a kulcsszóhoz! https://www.google.com/webmasters/tools/ http://www.webconfs.com/keyword-density-che
cker.php http://www.seotools.hu/keywsuggest.php
Végül...51
Publikálni az oldalt, hogy ráleljen a kereső (is)! fórumok bloggok lap.hu
Oldal bejelentése: http://www.google.com/addurl.html submit.search.yahoo.com/free/request
Folyamatosan figyelni és karbantartani! Az oldal frissessége, aktualitása és múltja
egyaránt számít!
Ha kész az oldal52
Oldaltérkép bejelentésehttp://www.google.com/webmasters/sitemaps/login?hl=en
Oldaltérkép előállítása: http://www.auditmypc.com/site-maps.asp
Ha kész az oldal53
Partneroldalakat értesíteni, hogy on-line elérhető az oldal
Tematikus katalógusokba be kell jelenteni
Wordpress, Drupal, Joomla SEO eszközök
A gyakorlat azt mutatja, hogy a gyakori blog motorokhoz írt SEO pluginek nagyon jól teljesítenek.
Működésük: On-page SEO: a postok elemzése igazítása
a kulcsszóhoz a fenti technikai elvek alapján.
Off-page SEO: linképítés nagy pagerank értékkel rendelkező site-ok segítségével - automatikusan. Ez utóbbi biztosítja azt, hogy szinte azonnal bekerülünk a Google keresési eredményei közé.
54
Wordpress on-page SEO elemzés
55
Merre tartunk?
Szemantikus web?
57
A Web működése okozza a gondot!
A HTML dokumentum leíró és nem információ leíró nyelv.• Metaelemek - sovány vigasz
• <meta name="description" content="Az oldal a … témakörével foglalkozik.">
• <meta name="keywords" content="kulcsszó1, kulcsszó2, kulcsszó3">
• Az oldalak közötti kapcsolatok egyirányúak.• A tartalom az embernek szól.• A HTML5 picit segít ezen
Az emberi nyelv nem formalizálható teljesen a matematika segítségével.
58
Szemantikus web vs. szemantikus keresés
Szemantikus web: gépileg feldolgozható tudás
Szemantikus keresés: értelmezhető keresés, jobb, pontosabb találatok
59
Az adatok a weboldalakba temetve
60
Számítógépnek is értenie kell
Nagyszámú integráció - ad hoc - egyedi
A kapott információk jellemzően túl nagy mennyiségűek áttekintéshez, automatikus keresésre és összekapcsolásra van szükség
A weblapok ember számára „érthetőek”.
A tartalom a számítógép számára „érthetetlen”.
?
Search & Mash-up Engine
010 0 1 1 0
01101
10100 10 0010 01 101 101 01 110 1 10 110 0 1 1 01 0 1 0 0 1 1 0 1 1 1 10 01 101 0 1
Alkalmazások milliói
Mi a „megértés”?
Mit mond egy weblap egy Web robotnak?
" For more information visit <a href=“http://www.ex.org”> my company </a> Web site. . .”
Ebből azt értik, hogy: " blah blah blah blah blah <a
href=“http://www.ex.org”> blah blah blah </a> blah blah. . .”
61
Mit „ért meg” a Google?
Azt érti meg, hogy: [page1] hivatkozik [page2] page2 fontos
Google rendezni tudja a találatokat!Az okosabb találatokhoz okosabb adatleírás kell.
63
Szemantika, kapcsolat, …
Kapcsolat nem weblapok között, hanem tartalmak között.
Szemantika ~ jelentés
Metaadatok szükségesek a leírásra
egér egér
64
Szemantikus web
egér
Állat
Emlős Ragadozó
Macska Egér
sajt
eszik
fél tőle
eszikábrázol
terminológia (szó v. kifejezés) a fogalomra….
vanvan
van
65
Google: Microadatok, microformats, RDFa
Forrás: http://www.google.com/support/webmasters/bin/answer.py?hl=hu&answer=173379
Tulajdonság Leírásname (fn) Kötelező. Az esemény neve.recipeType (tag) Az étel típusa: pl. előétel, főétel, desszert ...photo Az étel készítését ábrázoló fénykép.published A recept közzétételének ideje ISO dátumformátumban.summary Az étel rövid összefoglaló leírása.
review Az étel értékelése. Tartalmazhat beágyazott értékelési információkat.
prepTimeA recept előkészítésének időtartama ISO 8601 időtartam-formátumban. Az időtartam megadásához használhatja a min és max gyermekelemeket is.
cookTimeAz étel megfőzésének/-sütésének időtartama ISO 8601 időtartam-formátumban. Az időtartam megadásához használhatja a min és max gyermekelemeket is.
totalTime (duration)Az étel előkészítésének és megfőzésének/sütésének időtartama ISO 8601 időtartam-formátumban. Az időtartam megadásához használhatja a min és max gyermekelemeket is.
nutrition
A recepttel kapcsolatos tápanyagadatok. A következő gyermekelemeket tartalmazhatja: servingSize, calories, fat, saturatedFat, unsaturatedFat, carbohydrates, sugar, fiber, protein, cholesterol. Ezek az elemek nem kifejezett részei a hRecipe mikroformátumnak, de a Google felismeri őket.
instructionsAz étel elkészítésének lépései. Tartalmazhatja az instruction gyermekelemet, amellyel az egyes lépéseket különböztetheti meg.
yield A recept alapján elkészített étel mennyisége (pl. hány főre, hány adag stb.).
ingredientA receptben használt hozzávaló. Tartalmazhatja a name (a hozzávalók neve) és az amount (mennyiség) gyermekelemeket. Ennek használatával azonosítsa az egyes hozzávalókat.
author A recept szerzője. Tartalmazhat beágyazott, személyre vonatkozó információt.
66
RDFa – RDF with attributes
További információk: http://www.w3.org/TR/xhtml-rdfa-primer/
67
RDFa példa kód
<html xmlns="http://www.w3.org/1999/xhtml"xmlns:cal="http://www.w3.org/2002/12/cal/icaltzd#"xmlns:xs="http://www.w3.org/2001/XMLSchema#" ><body><p about="#event1" typeof="cal:Vevent"><b property="cal:summary">Borkóstoló és konferencia</b>:<span property="cal:dtstart" datatype="xs:date">2010-11-25</span>-től<span property="cal:dtend" datatype="xs:date">2010-11-27</span>-ig.További információk<a rel="cal:url"
href="http://infoera.hu/">az InfoÉra weboldalán</a> találhatóak.
<br/>Helyszín: <span property="cal:location">Füzesgyarmat</span>.
</p></body></html>
68
Az ember számára látható adatok
<html xmlns="http://www.w3.org/1999/xhtml"xmlns:cal="http://www.w3.org/2002/12/cal/icaltzd#"xmlns:xs="http://www.w3.org/2001/XMLSchema#" ><body><p about="#event1" typeof="cal:Vevent"><b property="cal:summary">Borkóstoló és konferencia</b>:<span property="cal:dtstart" datatype="xs:date">2010-11-25</span>-től<span property="cal:dtend" datatype="xs:date">2010-11-27</span>-ig.További információk<a rel="cal:url"
href="http://infoera.hu/">az InfoÉra weboldalán</a> találhatóak.
<br/>Helyszín: <span property="cal:location">Füzesgyarmat</span>.
</p></body></html>
69
Adatok az RDFa ügynöknek
<html xmlns="http://www.w3.org/1999/xhtml"xmlns:cal="http://www.w3.org/2002/12/cal/icaltzd#"xmlns:xs="http://www.w3.org/2001/XMLSchema#" ><body><p about="#event1" typeof="cal:Vevent"><b property="cal:summary">Borkóstoló és konferencia</b>:<span property="cal:dtstart" datatype="xs:date">2010-11-25</span>-től<span property="cal:dtend" datatype="xs:date">2010-11-27</span>-ig.További információk<a rel="cal:url"
href="http://infoera.hu/">az InfoÉra weboldalán</a> találhatóak.
<br/>Helyszín: <span property="cal:location">Füzesgyarmat</span>.
</p></body></html>
70
A kettő metszete: a „lényeg”<html xmlns="http://www.w3.org/1999/xhtml"xmlns:cal="http://www.w3.org/2002/12/cal/icaltzd#"xmlns:xs="http://www.w3.org/2001/XMLSchema#" ><body><p about="#event1" typeof="cal:Vevent"><b property="cal:summary">Borkóstoló és konferencia</b>:<span property="cal:dtstart" datatype="xs:date">2010-11-25</span>-től<span property="cal:dtend" datatype="xs:date">2010-11-27</span>-ig.További információk<a rel="cal:url"
href="http://infoera.hu/">az InfoÉra weboldalán</a> találhatóak.
<br/>Helyszín: <span property="cal:location">Füzesgyarmat</span>.
</p></body></html>
71
Mit tud az RDFa ügynök?
#event1 isA cal:Vevent #event1 cal:summary "Borkóstoló és
konferencia" #event1 cal:dtstart "2010-11-25"
(xs:date) #event1 cal:dtend "2010-11-27" (xs:date) #event1 cal:url <http://infoera.hu/> #event1 cal:location "Füzesgyarmat"
72
Melyek azok a legalább 50 kilométer hosszú folyók, melyek a Rajnába ömlenek?
73
Szemantikus keresés
Seth Grimes a keresés és a szemantika közös megközelítésének 11 módját sorolja fel:
kapcsolódó keresések felajánlása, keresett kifejezések javítása
definíciók, referenciák megjelenítése egy keresett kifejezésre
szemantikailag annotált eredménymegjelenítés, a releváns információk kiemelése
hosszabb szöveg alapú keresés szemantikai/szintaktikai annotációval támogatott keresés fogalmi keresés taxonómiák alkalmazásával ontológia alapú keresés szemantikus web technológiáinak kihasználása előre definiált kategóriák szerinti eredménymegjelenítés eredmények klaszterezett, csoportosított megjelenítése természetes nyelvű kereső kérdések megválaszolása
http://kereses.blog.hu/2010/02/03/mitol_szemantikus_egy_kereso
74
Néhány érdekes példa:
http://www.hakia.com/ http://swoogle.umbc.edu/ http://www.cognitionsearch.com/ http://www.powerset.com/ http://www.kartoo.com/ http://www.quintura.com/ http://iglue.com/ http://www.polymeta.hu http://szorcs.hu/
Vége