2
60 | CHIP | 2008 OKTÓBER TESZTEK, TECHNOLÓGIÁK Így működik a Google 2008 OKTÓBER | CHIP | 61 A Google- egyenlet megoldása 10-es Pagerank-értékű oldalak Pagerank 10 – ez az érték csak az internet isteneinek jár: csak a legnépszerűbb oldalak kapnak ekkora számot. Az alábbi listában a legmagasabb pontszámot elért oldalakat soroltuk fel, a rájuk mutató hivatkozások szerint rendezve. Magyar oldalakat felesle- ges is keresgélnünk – még a legnépszerűbb hazai internetes helyek sem érnek el 7-nél többet. És ez igaz a google.hu oldalra is, amely csak 6-ot érdemelt. 1. helyezett: www.google.com/ 2. helyezett: www.firstgov.gov/ 3. helyezett: web.mit.edu/ 4. helyezett: www.nasa.gov/ 5. helyezett: www.real.com/ 6. helyezett: www.energy.gov/ 7. helyezett: www.whitehouse.gov/ 8. helyezett: www.adobe.com/ 9. helyezett: www.nsf.gov/ 10. helyezett: www.w3.org/ Ebben a cikkben Tények és elmélet A képlet leírása Hogyan nyerhetünk? Tippek és trükkök a magas pontszámhoz K ezdjük először is pár tény ismerteté- sével: amíg az internet hatalmas, addig hozzá képest egy weboldal kicsi. Ráadásul nehéz egyedi weboldalt lét- rehozni: bármit is találunk ki, nagy az esély rá, hogy már több hasonló témájú oldal található a világhálón. A felhasználó rend- szerint az alapján választ az egyes honlapok közül, hogy melyik áll előrébb a Google találati listájában. Sokakat érdekelhet tehát, hogy miként került egy tetszőleges weboldal a lista ele- jére. A választ a Google alapítói, Larry Page és Sergey Brin egy egyszerű képlettel adják meg, a Pagerank-egyenlettel (az elnevezés Larry Page nevéből, és nem az angol page – oldal – szóból származik). Aki ismeri, és tudja is, hogyan működik, az előre kerülhet a listában – aki pedig rosszul használja, az büntetésre számíthat. Pagerank: alapelvek A rangsor mögött egy egyszerű, de haté- kony formula áll: 1. Minden weboldalhoz tartoznak olyan oldalak, amelyek az adott honlapra hivat- kozó linket tartalmaznak. 2. Ezeknek a hivatkozásokat tartalmazó weboldalaknak van Pagerankje. 3. A B oldalról A oldalra mutató linket egy a B oldal által A-ra leadott szavazatnak vehetünk. 4. A „szavazatot” leadó B oldal már meg- lévő Pagerankje a szavazat súlyát hatá- rozza meg. Minél magasabb az érték, annál többet ér a link. 5. Még egy jellemzőt figyelembe kell ven- nünk, mégpedig a B oldalon található lin- kek számát. Ez minél kisebb, annál többet ér az adott link. 6. Fontos, hogy egy website esetében a PageRanket minden oldalra külön kiszá- mítják, így előfordulhat, hogy egy adott cikk a főoldalnál magasabb helyre kerül a listában. Képletként leírva ez a Pagerank-számí- tás az alábbi módon néz ki: PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/ C(Tn) Kiolvasva pedig: A oldal Pagerank-értékét úgy kapjuk meg, ha a rá hivatkozó oldalak Pagerank-értékeit elosztjuk az adott oldalon található linkek számával, és eze- ket a hányadosokat összegezzük. Ehhez jön még egy tényező, amely fontos szere- pet kap a további folyamatokban. A Pagerank működését most egy olyan példán mutatjuk be, amely feltéte- lezi, hogy az egész világháló csak négy website-ból áll – ezek legyenek A, B, C és D. Mindegyiknek alapból 1 a Pagerankje, ezek összeadva ki is adják a négy oldal- ból álló hálózathoz tartozó értéket. Pél- dánk első részében az A oldalra mutató link található a B, C és D oldalakon – más link nincs. Ha egyelőre most más szempontokat még nem veszünk figyelembe, a Pagerank értékének kiszámítására a következő egyenlet adódik: PR(A) = 1/1 + 1/1 + 1/1 Az A oldal Pagerank értéke tehát három- nak adódik. Vessünk most egy pillantást a 61. soldalon található kicsit bonyolul- tabb kapcsolati rendszerre: az A oldalra mutató linkeket a B és C oldalon is talá- lunk, míg B-re irányuló hivatkozások csak az A oldalon vannak. C-re az A, B és D, míg D-re csak a B oldal hivatkozik. Így képletünk az A oldal esetében a követ- kezőképpen néz ki: PR(A) = 1/1+1/3 A B-ről érkező hivatkozást 1-nek, a C-ről érkezőt 0,33-nak vesszük, mivel ott három linket is találunk. Így a végső pontszám 1,33-nak adódik. B-re ugyanez: PR(B) = 1/2 + 1/3 + 1/1 Ez kerekítve 1,83-at ér. Ezzel ellentétben a C oldalnál PR(C) = 1/2 azaz 0,5, és végül a D-nél: PR(D) = 1/3 azaz kerekítve 0,33. Összegezve a pontszámokat az oldalak számát kell kapnunk: 1,33 + 1,83 + 0,5 + 0,33 = 3,99 ami a kerekítéseket figyelembe véve helyes eredményt ad. Ebből a számításból azonban egyva- lami hiányzik: a hivatkozásokat tartal- mazó weboldalak Pagerank-értékeit nem vettük figyelembe – ezt most a B esetében példaképpen korrigáljuk, és az eredeti, PR(B) = 1/2 + 1/3 + 1/1 képletünket így módosítjuk: PR(B) = 1,33/2 + 0,5/3 + 0,33/1 Ekkor már a végeredmény kerekítve 1,62-nek adódik. Természetesen ez az új érték megváltoztatja a többi oldal értékét, ami visszahat B eredményére, és így tovább – a számítás igen sok lépésig folytatható. Ennek megfelelően a Google többlépcsős iterálással állapítja meg az oldalak Pagerank-értékeit – a Page-től és Brintől származó információk alapján körülbelül 100 lépés kell a Google számítógépeinek ahhoz, hogy a többmilliárd oldalhoz mind kiszámítsák a megfelelő értékeket. Kiegészítés: A felhasználó is számít A Pagerank annak a valószínűségét fejezi ki, hogy egy felhasználó véletlenszerűen szörfölve egy adott weboldalra érkezzen. A valós életben azonban a felhasználók nem klikkelgetnek a végtelenségig, hanem egy idő után megunják ezt. A végső algoritmusban tehát ezt is figye- lembe kell vennünk. Ez a „csillapítás” a már kiszámolt összeget befolyásolja majd, és a Google-univerzumban értékét 0,85- nek határozták meg. A Pagerank végső értéke tehát egy való- színűségi mérőszám, ami a „valódi” hálón 0 és 1 közé esik. Például egy 0,01-es pont- számú oldalnak 1 százalék esélye van arra, hogy a felhasználó véletlenül odatéved. Felmerülhet a kérdés, hogy ha a Pagerank 0 és 1 között van, miért mutat például a Google toolbar is (http://toolbar.google. com) 1 és 10 közé eső értékeket? Nos, a Google a Pagerank eredményét átszámítja – de hogy pontosan hogyan, azt nem sike- rült megtudnunk. A szakértők véleménye szerint a konverzió logaritmikus, azaz pél- dául egyről kettőre jutni sokkal egysze- rűbb, mint kilencről tízre. Szűrők: A Pagerank segítői A Pagerank algoritmus segítségével tehát a Google tényleg hatásosan rendezi sorba a találatokat – ám a weboldalak készítőit is érdekelni kezdte a formula, és hamar kidolgoztak olyan módszereket, amelyek- kel a listában előrébb lehetett jutni. Mind- azonáltal sokan még mindig valamiféle pénzként tekintenek rá: „ha adsz nekem két linket egy PR4-es oldalon, akkor én cserébe adok neked egy linket egy PR5-ös oldalon”. Ez a módszer ma már nem sokat ér: egy kutyás oldalról egy használtautós oldalra mutató link aligha érdekli az olva- sókat, és a Google sem foglalkozik vele, mivel az egymáshoz kapcsolódó témájú oldalak közötti linkek többet érnek a vélet- lenszerű hivatkozásoknál. Ha tehát ilyen üzleti ajánlatot kapnánk levélben, akkor először érdemes ellenőriznünk az adott oldal tartalmát is, hiszen a Pagerankon kívül még milliónyi szűrő és algoritmus segít a sorrend létrehozásában. SEO: Search Engine Optimization A keresőre való optimalizálás (search engine optimization) vezérelve: korrekt kód és egyedi tartalom. Ha ezt be tudjuk tartani, jó esélyünk van arra, hogy honla- punk a lista élén landoljon. A „korrekt kód” jelen esetben webla- punk HTML-kódjának két tulajdonságát jelenti: egyrészt szintaktikailag is helyes- nek kell lennie, másrészt viszont az elter- jedt formázási opciókat kell használnia. A Google számára különösen a <title>, <p> és a <h1>-től <h6>-ig terjedő tagek az érdekesek. A <title>-ben a dokumentum rövid leírása található, a bekezdéseket a <p> jelzi, míg a <hx> tagokkal tagolhatjuk a szöveget. Természetesen fontos, hogy a <h1> taget csak egyszer használjuk, a többit lehet többször is – legalábbis ismert web- oldalakkal végzett keresések adta találatok vizsgálata után ez tűnik az optimálisnak. A jó helyezésnek egy másik szükséges fel- tétele a türelem: ahogy telik az idő, ha megfelelő tartalom van oldalunkon, egyre többen hivatkoznak rá, és így a Pagerank- értéke is növekszik majd. Tuning: saját linkek készítése Nem mindenkinek van azonban meg a türelme kivárni ezt – és nem is feltétlenül muszáj. Fórumokban vagy blogbejegyzé- sekben például helyezhetünk el bőven a saját oldalunkra mutató linkeket. Ezeknek azonban az adott fórum olvasói rendsze- rint nem igazán örülnek, úgyhogy Egy egyszerű egyenlet dönt weboldalunk sikeréről vagy bukásá- ról: a Google-féle Pagerank dönthet jövőnkről. A CHIP megmu- tatja, hogyan működik ez a rendszer. k

A Google egyenlet megoldása

Embed Size (px)

Citation preview

Page 1: A Google egyenlet megoldása

60 | CHIP | 2008 október

TeszTek, Technológiák Így működik a Google

2008 október | CHIP | 61

A Google-egyenlet megoldása

10-es Pagerank-értékű oldalakPagerank 10 – ez az érték csak az internet isteneinek jár: csak a legnépszerűbb oldalak kapnak ekkora számot. Az alábbi listában a legmagasabb pontszámot elért oldalakat soroltuk fel, a rájuk mutató hivatkozások szerint rendezve. Magyar oldalakat felesle-ges is keresgélnünk – még a legnépszerűbb hazai internetes helyek sem érnek el 7-nél többet. És ez igaz a google.hu oldalra is, amely csak 6-ot érdemelt.

1. helyezett: www.google.com/ 2. helyezett: www.firstgov.gov/ 3. helyezett: web.mit.edu/ 4. helyezett: www.nasa.gov/ 5. helyezett: www.real.com/ 6. helyezett: www.energy.gov/ 7. helyezett: www.whitehouse.gov/ 8. helyezett: www.adobe.com/ 9. helyezett: www.nsf.gov/ 10. helyezett: www.w3.org/Ebben a cikkben

Tények és elmélet

A képlet leírása

Hogyan nyerhetünk?

Tippek és trükkök a magas pontszámhoz

kezdjük először is pár tény ismerteté-sével: amíg az internet hatalmas, addig hozzá képest egy weboldal

kicsi. Ráadásul nehéz egyedi weboldalt lét-rehozni: bármit is találunk ki, nagy az esély rá, hogy már több hasonló témájú oldal található a világhálón. A felhasználó rend-szerint az alapján választ az egyes honlapok közül, hogy melyik áll előrébb a Google találati listájában.

Sokakat érdekelhet tehát, hogy miként került egy tetszőleges weboldal a lista ele-jére. A választ a Google alapítói, Larry Page és Sergey Brin egy egyszerű képlettel adják meg, a Pagerank-egyenlettel (az elnevezés Larry Page nevéből, és nem az angol page – oldal – szóból származik). Aki ismeri, és tudja is, hogyan működik, az előre kerülhet a listában – aki pedig rosszul használja, az büntetésre számíthat.

Pagerank: alapelvekA rangsor mögött egy egyszerű, de haté-kony formula áll:1. Minden weboldalhoz tartoznak olyan oldalak, amelyek az adott honlapra hivat-kozó linket tartalmaznak.

2. Ezeknek a hivatkozásokat tartalmazó weboldalaknak van Page rankje.3. A B oldalról A oldalra mutató linket egy a B oldal által A-ra leadott szavazatnak vehetünk.4. A „szavazatot” leadó B oldal már meg-lévő Pagerankje a szavazat súlyát hatá-rozza meg. Minél magasabb az érték, annál többet ér a link.5. Még egy jellemzőt figyelembe kell ven-nünk, mégpedig a B oldalon található lin-kek számát. Ez minél kisebb, annál többet ér az adott link.6. Fontos, hogy egy website esetében a PageRanket minden oldalra külön kiszá-mítják, így előfordulhat, hogy egy adott cikk a főoldalnál magasabb helyre kerül a listában.

Képletként leírva ez a Pagerank-számí-tás az alábbi módon néz ki:PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn)Kiolvasva pedig: A oldal Pagerank-értékét úgy kapjuk meg, ha a rá hivatkozó oldalak Pagerank-értékeit elosztjuk az adott oldalon található linkek számával, és eze-ket a hányadosokat összegezzük. Ehhez jön még egy tényező, amely fontos szere-pet kap a további folyamatokban.

A Pagerank működését most egy olyan példán mutatjuk be, amely feltéte-lezi, hogy az egész világháló csak négy website-ból áll – ezek legyenek A, B, C és D. Mindegyiknek alapból 1 a Pagerankje, ezek összeadva ki is adják a négy oldal-

ból álló hálózathoz tartozó értéket. Pél-dánk első részében az A oldalra mutató link található a B, C és D oldalakon – más link nincs.

Ha egyelőre most más szempontokat még nem veszünk figyelembe, a Pagerank értékének kiszámítására a következő egyenlet adódik:PR(A) = 1/1 + 1/1 + 1/1Az A oldal Pagerank értéke tehát három-nak adódik. Vessünk most egy pillantást a 61. soldalon található kicsit bonyolul-tabb kapcsolati rendszerre: az A oldalra mutató linkeket a B és C oldalon is talá-lunk, míg B-re irányuló hivatkozások csak az A oldalon vannak. C-re az A, B és D, míg D-re csak a B oldal hivatkozik.Így képletünk az A oldal esetében a követ-kezőképpen néz ki:PR(A) = 1/1+1/3A B-ről érkező hivatkozást 1-nek, a C-ről érkezőt 0,33-nak vesszük, mivel ott három linket is találunk. Így a végső pontszám 1,33-nak adódik. B-re ugyanez:PR(B) = 1/2 + 1/3 + 1/1Ez kerekítve 1,83-at ér. Ezzel ellentétben a C oldalnálPR(C) = 1/2azaz 0,5, és végül a D-nél:PR(D) = 1/3azaz kerekítve 0,33.Összegezve a pontszámokat az oldalak számát kell kapnunk:1,33 + 1,83 + 0,5 + 0,33 = 3,99ami a kerekítéseket figyelembe véve helyes eredményt ad.

Ebből a számításból azonban egyva-lami hiányzik: a hivatkozásokat tartal-mazó weboldalak Pagerank-értékeit nem vettük figyelembe – ezt most a B esetében példaképpen korrigáljuk, és az eredeti,PR(B) = 1/2 + 1/3 + 1/1 képletünket így módosítjuk:PR(B) = 1,33/2 + 0,5/3 + 0,33/1

Ekkor már a végeredmény kerekítve 1,62-nek adódik. Természetesen ez az új érték megváltoztatja a többi oldal értékét, ami visszahat B eredményére, és így tovább – a számítás igen sok lépésig folytatható. Ennek megfelelően a Google többlépcsős iterálással állapítja meg az oldalak Pagerank-értékeit – a Page-től és Brintől származó információk alapján körülbelül 100 lépés kell a Google számítógépeinek ahhoz, hogy a többmilliárd oldalhoz mind kiszámítsák a megfelelő értékeket.

Kiegészítés: A felhasználó is számítA Pagerank annak a valószínűségét fejezi ki, hogy egy felhasználó véletlenszerűen szörfölve egy adott weboldalra érkezzen. A valós életben azonban a felhasználók nem klikkelgetnek a végtelenségig, hanem egy idő után megunják ezt. A végső algoritmusban tehát ezt is figye-lembe kell vennünk. Ez a „csillapítás” a már kiszámolt összeget befolyásolja majd, és a Google-univerzumban értékét 0,85-nek határozták meg.

A Pagerank végső értéke tehát egy való-színűségi mérőszám, ami a „valódi” hálón 0 és 1 közé esik. Például egy 0,01-es pont-számú oldalnak 1 százalék esélye van arra, hogy a felhasználó véletlenül odatéved. Felmerülhet a kérdés, hogy ha a Pagerank 0 és 1 között van, miért mutat például a Google toolbar is (http://toolbar.google.com) 1 és 10 közé eső értékeket? Nos, a Google a Pagerank eredményét átszámítja – de hogy pontosan hogyan, azt nem sike-rült megtudnunk. A szakértők véleménye szerint a konverzió logaritmikus, azaz pél-dául egyről kettőre jutni sokkal egysze-rűbb, mint kilencről tízre.

Szűrők: A Pagerank segítőiA Pagerank algoritmus segítségével tehát a Google tényleg hatásosan rendezi sorba a találatokat – ám a weboldalak készítőit is érdekelni kezdte a formula, és hamar kidolgoztak olyan módszereket, amelyek-kel a listában előrébb lehetett jutni. Mind-azonáltal sokan még mindig valamiféle pénzként tekintenek rá: „ha adsz nekem két linket egy PR4-es oldalon, akkor én cserébe adok neked egy linket egy PR5-ös oldalon”. Ez a módszer ma már nem sokat ér: egy kutyás oldalról egy használtautós oldalra mutató link aligha érdekli az olva-sókat, és a Google sem foglalkozik vele, mivel az egymáshoz kapcsolódó témájú oldalak közötti linkek többet érnek a vélet-lenszerű hivatkozásoknál. Ha tehát ilyen üzleti ajánlatot kapnánk levélben, akkor először érdemes ellenőriznünk az adott oldal tartalmát is, hiszen a Pagerankon kívül még milliónyi szűrő és algoritmus segít a sorrend létrehozásában.

SEO: Search Engine OptimizationA keresőre való optimalizálás (search engine optimization) vezérelve: korrekt kód és egyedi tartalom. Ha ezt be tudjuk

tartani, jó esélyünk van arra, hogy honla-punk a lista élén landoljon.

A „korrekt kód” jelen esetben webla-punk HTML-kódjának két tulajdonságát jelenti: egyrészt szintaktikailag is helyes-nek kell lennie, másrészt viszont az elter-jedt formázási opciókat kell használnia. A Google számára különösen a <title>, <p> és a <h1>-től <h6>-ig terjedő tagek az érdekesek. A <title>-ben a dokumentum rövid leírása található, a bekezdéseket a <p> jelzi, míg a <hx> tagokkal tagolhatjuk a szöveget.

Természetesen fontos, hogy a <h1> taget csak egyszer használjuk, a többit lehet többször is – legalábbis ismert web-oldalakkal végzett keresések adta találatok vizsgálata után ez tűnik az optimálisnak. A jó helyezésnek egy másik szükséges fel-tétele a türelem: ahogy telik az idő, ha megfelelő tartalom van oldalunkon, egyre többen hivatkoznak rá, és így a Pagerank-értéke is növekszik majd.

Tuning: saját linkek készítéseNem mindenkinek van azonban meg a türelme kivárni ezt – és nem is feltétlenül muszáj. Fórumokban vagy blogbejegyzé-sekben például helyezhetünk el bőven a saját oldalunkra mutató linkeket. Ezeknek azonban az adott fórum olvasói rendsze-rint nem igazán örülnek, úgyhogy

Egy egyszerű egyenlet dönt weboldalunk sikeréről vagy bukásá-ról: a Google-féle Pagerank dönthet jövőnkről. A CHIP megmu-tatja, hogyan működik ez a rendszer.

k

Page 2: A Google egyenlet megoldása

62 | CHIP | 2008 október

TeszTek, Technológiák Így működik a Google

2008 október | CHIP | 63

tartalom, amellyel több oldalon is találkozhatunk.

Ilyen többszö-rös tartalom több-féle módon is létre-jöhet: például úgy, hogy egy adott cikk kétszer is a weboldalra kerül, egyszer a képer-nyőre, egyszer pedig kinyom-tatásra szánt formában. A Google nem díjazza a duplikátumokat, és a büntetés a Pagerank csökkenése. Azonban két-három ugyanolyan szövegű cikk még nem okoz ilyen veszélyt (www.mattcutts.com/blog/duplicate-content-question/).

Az URL másik lehetőség a kettős bejegy-zésre: ha például egyetlen oldal több domai-nen keresztül is elérhető, akkor ebből egy idő után könnyen problémák lehetnek, mint ahogy az is ide vezethet, ha több elérési útvo-nal is ugyanarra a fájlra mutat. Erre példa, amikor egy adott cikk a www.sajatoldal.hu/artikel php?id=1 és a www.sajatoldal.hu/tar-talom1/ linkről is elérhető, a Google ezeket ugyanis külön dokumentumoknak veszi majd, amelyek azonban másolatok, így rög-tön lejjebb is kerülnek a listában. E problé-mák ellen átirányítással védekezhetünk: ha például a felhasználó a www.sajatkedvencol-dalam.hu címet írja be, akkor is automatiku-san a www.sajatoldalam.hu oldalra kerül.

Apache szerveren ezt a mod_rewrite modullal oldhatjuk meg, amely automati-kusan átírja az URL-eket a megadott sza-bályok szerint. A szükséges kódot (ha csak egy adott könyvtárról van szó) a gyökér-ben elhelyezett .htaccess fájlban lehet meg-adni. Ehhez csak három sor szükséges:

RewriteEngine=on

RewriteCond•%{HTTP_HOST}•!^www\.sajatoldal\.hu$

RewriteRule•^(.*)$•http://www.sajatoldal.hu/$1•[R=permanent]

Pagerank kiszámítása Példánkban négy, egymáshoz az ábrán látható módon kapcsolódó weboldal szerepel. A hivatkozá-sok számának és azok fontosságának függvé-nyében más és más Pagerank-értéket (PR) kapnak

ehhez a módszerhez csak akkor érdemes folyamodni, ha az adott témához kapcso-lódó weboldalunk van.

Ráadásul ez az út ma már nem is igazán járható, mivel a legtöbb fórumon és blo-gon a beírt linkekhez automatikusan a >>rel=nofollow<< paraméterrel látják el, amely a Google keresőrobotjának számára annyit tesz, hogy nem kell követnie ezt a hivatkozást – így persze a Pagerank kiszá-mításához sem szükséges.

Ezen paraméterek megjelenéséért egyéb-ként túlnyomórészt a fórumokat teleszeme-telő spammerek felelősek, akik régebben botokkal próbáltak minél több, az oldalukra mutató linket elhelyezni a világhálón.

Linkkövetés: szavazás kattintássalElég ostoba lenne a Google, ha nem hasz-nálná ki a rendelkezésére álló adatokat a felhasználói szokásokról, hiszen az úgyne-vezett linkkövetéssel megállapíthatja, hogy mely találatok tetszenek és melyek nem a szörfölőknek. A Google adatvédelmi irány-elvei szerint: „Adott esetben elképzelhető, hogy a Google olyan módon jelenít meg linkeket, amely lehetővé teszi számunkra az ezekre történő ugrások megtörténtének nyomon követését” (http://www.google.hu/intl/hu/privacypolicy.html). Ennek a mód-szernek a keresőóriás számára az az előnye, hogy kívülről nehéz befolyásolni az ered-ményét – az egyetlen lehetőségünk, hogy olyan weboldalt készítünk, amely sok embert érdekel, sokan kattintanak rá, és az oldalak címei is jók.

Oldalcímként a Google általában a <ti tel> taghez tartozó információt vá laszt ja – ennek tehát valami figyelemfelkeltő, meg ragadó szöveget kell tartalmaznia, amelyre nagy valószínűséggel rákattintanak majd a fel-használók. Az alábbi Google-találatban

például a méltatlanul elfeledett <head> mezőben használható meta-tag bizonyítja hasznosságát:

<meta-name=”description” content=”xyz”•/>

A webmester feladata, hogy az xyz helyére valami figyelemfelkeltő leírást adjon az adott oldalról, amellyel ráveheti a netezőt arra, hogy pont az ő oldalára kat-tintson. Ha nincs ilyen meta-tag, akkor a Google saját maga választ ki egy neki szimpatikus szövegrészt – ez pedig nem mindig a legjobb megoldás.

Black-Hat-Seo: átverni a Google-tMinden program és minden rendszer fel-törhető – és ez igaz a Google-re is. Amióta csak keresőmotorok léteznek, mindig akadtak olyan felhasználók, akik megpró-bálták befolyásolni a találati listák sor-rendjét. Ebből persze a szokásos verseny alakult ki a hackerek és a keresőmotorok használói között – az egyikük pénzt sze-retne látni, a másikuk inkább jól használ-ható találatokat szeretne látni. A fekete bárányok ma viszonylag ritkán használ-nak a keresőmotorokban talált programo-zási hibákat, inkább a tartalommal és a linkekkel való trükközést alkalmazzák. Ezek a találati listát használó böngészőt veszik célba: mivel a Google listájában csak a hacker által kiválasztott szövegrész (ami gyakorlatilag az egyetlen értelmes mondat az egész oldalon) jelenik meg, mi boldogan kattintunk a hivatkozásra, abban a reményben, hogy ezzel érdekes informá-ciókhoz jutunk – de csak a hackerek pénz-tárcáját hizlaljuk fel.

A tartalommal való trükközésnek sok módszere van – a legegyszerűbb, ha az

oldalt feltöltjük gyakran keresett kifejezésekkel. Ez ma már nem igazán hatá-sos, mert a keresőrobotok azt is figyelik, hogy egy oldalon milyen gyakori a kulcsszavak előfordulása (egész pontosan a szöveg hosszának és a kulcsszavak számának az arányát figye-lik, ez az úgynevezett kulcs-szó-sűrűség, azaz keyword density). Ha ez túl nagy, akkor a kérdéses oldal köny-

nyen kikerülhet a listából (http://www.google.com/sup port/webmasters/bin/ans-wer. py?answer=66358).

Egy másik módszer a Google becsapá-sára a rejtett szöveg: a hackerek ilyenkor a háttérrel megegyező színű karaktereket használva helyezik el a kulcsszavakat (HTML vagy CSS kóddal ez nem okoz gondot egyetlen webszerkesztőnek sem). A „közönséges” olvasók persze nem lát-nak majd semmit, de a keresőoldalakra néha így is fel lehet kerülni. Bár ennek némileg ellentmond Matt Cutts, a Google ehhez hasonló trükkökkel foglalkozó nem hivatalos szóvivőjének blogja, amely sze-rint például a fehér háttérre halványszür-kével írt szöveggel nem jutunk sehova (http://www.mattcutts.com/blog/seo-mis-takes-nearly-hidden-text/).

A mások sikeres weboldalainak „lenyúlá-sára” alapuló módszer (scraping) még min-dig igen népszerű, ilyenkor egyszerűen csak a mások által már megírt szöveget másolják át saját weblapjuk megtöltésére. Pénzszerzésre a Google AdSense szolgál, amely kattintások után fizet. A Google Antispam csapat már jó ideje küzd ez ellen a módszer ellen (http://www.mattcutts.com/blog/step-into%20my-shoes/). A módszer leginkább a szöveget tar-talmazó eredeti oldal számára lehet bosz-szantó, hiszen előfordulhat, hogy a másolt oldal a listában az eredeti elé kerül.

Linkspam: szemét a bejegyzésekbenA blogok és fórumok olvasóinak is meg kell küzdeniük azokkal, akik a keresők átveré-sére készülnek. Mivel a hagyományos mód-szerek egyre kevésbé működnek, a spam-merek most a fórumokat vették célba, és azokat kezdték teleszemetelni az oldalaikra mutató hivatkozásokkal. A hackerek szá-mára ennek az az előnye, hogy a teleszeme-telt oldalnak hozzájuk nincsen köze, a Google tehát őket nehezen tudja büntetni azzal, hogy a linkhegyeket tartalmazó olda-lakat kiveszi a találati listából – de ha így tesz is, a blogbejegyzések és fórumok száma folyamatosan növekszik, így könnyű min-dig új helyeket találni.

Egy jó védekezés ez ellen a rejtett „nofol-low” jelző használata, amelyet a Google robotja úgy értelmez, hogy az így megjelölt hivatkozást nem kell figyelembe vennie és követnie sem. A WordPress nevű blogszer-kesztő ezt a taget automatikusan minden link mögé odabiggyeszti, bár ezzel a spamet

még nem tünteti el, legfeljebb hatástalanná teszi. A spammerek igazából nem is foglal-koznak ezzel, ugyanúgy küldözgetik min-den oldalra a szemétbejegyzéseket, abban a reményben, hogy lesz olyan, amelyik nem kap „nofollow” bejegyzést. A szemetelés elleni védekezés egyelőre csak az Akismet-hez hasonló külön rendszerekkel lehetséges.

Más hackerek saját fórumot vagy blo-got indítanak, csak azért, hogy a Google aztán rábukkanjon ezekre – ez az eljárás azonban sokban nem különbözik a klasz-szikus hivatkozáshalmozástól, amikor egy oldalon csak értelmetlen szöveg, és renge-teg hivatkozás van.

Cloacking: az új szerelemJelenleg a cloackingnek nevezett technika a hackerek új kedvence: ilyenkor a keresőoldal felé a weboldal nem azt az arcát mutatja, amit az olvasók látnának. Ez azért lehetsé-ges, mert például a Google által használt keresőrobot is mindig azonosítja magát, és a biztonság kedvéért a Janus-arcú weboldalt létrehozó szerkesztő még a lekérést indító szerver IP-címét is ellenőrizheti.

Ha az így megírt weboldal keresőrobotot érzékel, akkor speciálisan összeállított tartal-mat „mutat” neki – ez lehet akár több száz, egy adott témához kapcsolódó hasonló értelmű mondat, vagy kifejezés. Ha viszont egy közönséges böngésző érkezik, ő már egy másik oldalt fog látni, általában a kereséshez nem is kapcsolódó tartalommal.

Ehhez hasonlóan működik az átirányítás: egy meta-tag vagy kis JavaScript segítségével a weboldal betöltése után a böngészőnk már nyitja is meg az újabb webhelyet. A Google keresőrobotja azonban nem foglalkozik a Javacripttel, így számára csak az első, csalo-gató szövegeket és hivatkozást tartalmazó oldal látható. Ennek az eljárásnak köszön-hette egyébként a BMW azt, hogy 2005 feb-ruárjában a cég weboldalát a Google törölte az indexelt lapok közül (www.mattcutts.com/blog/ramping-up-on-international-webs-pam/). Az autógyártó pontosan azzal próbál-kozott, hogy a keresőrobot által látott első oldalon kulcsszavak és kifejezések voltak, az átirányított oldalon viszont az autómodelle-ket tartalmazó galériába jutottak az olvasók.

Dupla tartalom: kéretlen szemétElőfordulhat az is, hogy a weboldal gaz-dája csak jót akart, mégis a Google fekete-listájára került – ilyen például a duplikált

Az első sor bekapcsolja az URL-eket átíró szolgáltatást, utána a RewriteCond ellenőrzi a lekért URL-t. Amennyiben ez nem www.sajatoldal.hu, akkor a harmadik oldal auto-matikusan átirányítja a kérést a www.sajatol-dal.hu címre. Mivel az átirányítás „Perma-nent”, a keresőrobotok az új címet is mindig érvényes címnek fogják látni.

Ez az átirányítgatás elég körülményes, ám szükséges a weboldalak tulajdonosai, készítői számára, és ez a belátható jövőben nem is fog változni. Amíg ugyanis a ha ckerek a lista átírásával próbálkoznak, addig a Google kénytelen harcolni elle-nük, és emiatt a becsületes webmesterek-nek is kicsit nehezebb a dolguk. n

Profi tiPPek Matt Cutt, a Google webspam-csapatának főnö-ke saját blogjában ad tippeket a weboldalak optimalizálásához

FORRÁSOK

Google Webmaster Guidelines: www.google.com/support/webmasters/bin/answer.py?answer=35769Matt Cutts Blog: www.mattcutts.com/blogGoogle-Blog for topic Meta-Tags: http://google-webmastercentral.blogspot.com/2007/12/answe-ring-more-popular-picks-meta-tags.htmlGoogle Spam Report: www.google.com/contact/spamreport.htmlWikipedia for Spam in search engines: http://en.wikipedia.org/wiki/SpamdexingGoogle News by WebmasterWorld: www.web-masterworld.com/forum30/