IPRO - PC Magazine Romania, 2002
Comunitatea experților și a cititorilor PC Magazine
- Internet PRO
Secretele motoarelor de căutare
Emanuel Baruch
Oricine și oriunde poate publica orice dorește pe internet. Astfel, numărul
paginilor web a crescut continuu în ultimii ani (și se află încă în creștere)
iar întreg spațiul web a devenit o adevărată junglă informațională.
Acești roboți, odată ce au vizitat un sit, nu îl vor uita, ci se vor întoarce
periodic la el, astfel încât conținutul indexat va fi reactualizat.
Motoarele de căutare care sunt în același timp și directoare web, vor acorda
de obicei prioritate paginilor înscrise manual în
director.
Implicit, roboții care ajung pe o pagină web o vor indexa și vor urmări toate
link-urile din ea.
În aceste condiții, publicarea unui sit este similară cu aruncarea unui ac
într-un car cu fân.
Doar
voi, care cunoașteți adresa sitului vostru - adică știți exact unde ați pus
acul ;) - și alții, care au auzit pe diverse căi de locația voastră web, vor
avea acces la informațiile respective. Bineînțeles că mai există posibilitatea
ca situl să fie găsit accidental, dar probabilitatea ca vizitatorul acela să
fie într-adevăr interesat de el este minimă. Majoritatea internauților găsesc
paginile pe care le vizitează cu ajutorul unor situri specializate în acest
sens, așa-numitele motoare de căutare și directoare web. Cum ajunge însă un
sit să fie indexat de acestea și - mai ales - care sunt secretele care vor face
ca un anume sit să apară în capul unei liste de rezultate? Din păcate, trebuie
să vă dezamăgesc de la bun început. Nu există secrete ale motoarelor de căutare
și nu există o rețetă sigură prin care se poate garanta că un sit va fi reținut
de motoarele de căutare. Criteriile de indexare sunt diferite de la unul la
altul și sunt cunoscute în general numai de cei care au proiectat motorul respectiv.
Însă există o serie de chestiuni de care trebuie să țineți seama atunci când
construiți o pagină web, astfel încât aceasta să fie optimizată și pentru motoarele
de căutare. Pe scurt, o pagină web conține și diverse informații invizibile
pentru un vizitator obișnuit și care vor fi înțelese fără probleme de motoarele
de căutare.
Mai întâi însă, haideți să vedem care este diferența dintre un motor de căutare
și un director web.
Un motor de căutare este un server ale cărui programe speciale navighează automat
pe internet și indexează toate paginile găsite, în funcție de anumite criterii.
Aceste programe se numesc robots, spiders sau crawlers. În fiecare pagină înregistrată
sunt urmărite toate link-urile, iar paginile care se găsesc acolo sunt și ele
indexate imediat sau ajung într-o listă de așteptare pentru a fi vizitate mai
târziu. Astfel, teoretic, aceste motoare de căutare vor ajunge să indexeze întreg
spațiul web. Vă dați seama că volumul informațiilor din baza de date a motorului
de căutare este enorm. În plus, acești roboți,
odată ce au vizitat un sit, nu îl vor uita, ci se vor întoarce periodic la el,
astfel încât conținutul indexat va fi reactualizat. Cei care se află în căutarea
unor informații, vor specifica anumite cuvinte cheie iar baza de date a motorului
de căutare va returna toate rezultatele care coincid cu înregistrările sale.
Cel mai cunoscut (și, după părerea mea, cel mai bun) motor de căutare este Google
(www.google.com). Acesta
indexează, pe lângă paginile web normale, și fișierele PDF publicate în cadrul
diverselor situri și chiar și imagini.
Un director web este o colecție de link-uri însoțite de anumite explicații
și împărțite pe categorii și subcategorii. Astfel, vizitatorul va putea naviga
prin această structură arborescentă, alegând acele adrese web care îl interesează.
De cele mai multe ori, aceste directoare sunt alcătuite manual. Aceasta înseamnă
că siturile sunt verificate de către o persoană, după care sunt înscrise în
anumite categorii/subcategorii. Siturile care urmează să fie indexate sunt la
rândul lor propuse sau găsite de diverse persoane. De aceea, informațiile din
directoarele web sunt mai puțin voluminoase, însă mult mai valoroase. Majoritatea
directoarelor oferă și posibilitatea de căutare directă în baza lor de date
(a nu se confunda această opțiune cu un motor de căutare veritabil). Cele mai
complete directoare web sunt - după părerea mea - Yahoo (www.yahoo.com)
și Dmoz (www.dmoz.org).
Există
și situri care sunt pe de-o parte motoare de căutare, iar pe de altă parte directoare
web. Acestea au - de obicei - două opțiuni de căutare: pe web și în director.
Înainte de a intra în detalii mai trebuie precizat că multe motoare de căutare
și directoare web fac schimb reciproc de informații sau cumpără conținut. Probabil
ați observat că atunci când căutați ceva pe Yahoo, unele rezultate găsite sunt
identice cu cele de pe Google. Aceasta din cauză că Yahoo este "powered by Google"
;).
Să trecem la treabă. După cum știți, codul sursă al unei pagini web este împărțit
în două mari secțiuni: Head și Body. Ceea ce se află în Head nu este vizibil
pentru vizitatorul unei pagini web (cu excepția titlului paginii).
<html>
<head>
<title>Titlul paginii</title>
</head>
<body> ... </body>
</html>
Aici se află însă informațiile care vor fi citite de motoarele de căutare.
Meta
Tag-ul meta poate fi folosit pentru a publica informații "ascunse" despre pagina
web în cauză. Forma sa generală este:
<meta name="..." content="...">
Name reprezintă tipul de informație la care se referă expresia respectivă, iar
content va cuprinde informațiile concrete. Pentru a exemplifica cele mai importante
expresii de tip meta vom presupune că realizăm o pagină web pentru Ministerul
Finanțelor.
Cuvinte cheie:
<meta name="keywords" content="minister, ministerul, finanțe, finanțelor,
românia, informație, informații, agent, agenți, economic, economice, economici,
bilanț, contabil>
Această listă de cuvinte cheie va cuprinde termeni care se potrivesc cu conținutul
paginii voastre. Atunci când o alcătuiți, trebuie să vă puneți în locul celor
care vor căuta informațiile respective, să vă gândiți cum vor încerca aceștia
să exprime obiectul căutării lor în câteva cuvinte. Observați, din exemplul
dat, că am folosit și diverse variante gramaticale. Întrebarea cea mai frecventă
este cât de lungă poate fi această listă.
Majoritatea motoarelor de căutare acceptă între 874 și 1000 de caractere. Ceea
ce este în plus, este de obicei ignorat. Totuși, anumite situri pot fi penalizate
dacă lista de cuvinte cheie este prea lungă, considerându-se că se încearcă
un spamming. Am auzit și zvonuri conform cărora introducerea unor cuvinte cheie
uzuale ar îmbunătăți poziția unui sit într-o listă de rezultate. Astfel de cuvinte
ar fi sex sau free. Nu pot să spun decât că sunt zvonuri... Căutați pe Google
după aceste două cuvinte. Veți obține nu mai puțin de 3.170.000 de rezultate...
Dar să revenim la subiect. Virgulele sunt opționale, ele fiind de cele mai multe
ori ignorate de roboți. Totuși, vă sfătuiesc să le folosiți pentru o mai bună
lizibilitate.
Descriere
<meta name="description" content="Ministerul Finanțelor din România. Informații
actuale pentru și despre agenții economici">
De multe ori, conținutul acestui tag meta va fi afișat în lista de rezultate,
alături de URL. Vă sfătuiesc să nu folosiți descrieri de genul "Pagina web a
..." sau expresii asemănătoare, ci încercați mai bine să oferiți cât mai multe
informații despre sit. Gândiți-vă că apariția sitului vostru într-o listă de
rezultate nu înseamnă că va fi și accesat, deoarece vizitatorul trebuie mai
întâi convins că acesta conține într-adevăr ceea ce caută. În ceea ce privește
lungimea maximă a acestei descrieri, ea este între 150 și 250 de caractere.
Vă sfătuiesc să nu depășiți 150.
Roboți
Implicit, roboții care ajung pe o pagină web o vor indexa și vor urmări toate
link-urile din ea.
Există însă posibilitatea controlării exacte a activității roboților cu ajutorul
următoarelor tag-uri meta:
<meta name="robots" content="noindex">
<meta name="robots" content="nofollow">
Noindex va determina robotul să nu indexeze pagina iar nofollow îl va împiedica
să urmărească link-urile pe care le găsește în pagina respectivă.
Pentru a avea certitudinea că pagina nu va fi ignorată de roboți, este însă
bine să specificăm în fiecare dintre acestea:
<meta name="robots" content="index, follow">
Expresiile pot fi folosite și împreună, în diferite combinații:
<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="index, nofollow">
<meta name="robots" content="index, follow">
O comandă specială, recunoscută numai de Google, este noarchive / archive.
Implicit, roboții Google realizează o copie a fiecărei pagini, astfel încât
acestea să poată fi accesate rapid sau în eventualitatea că serverul respectiv
nu este disponibil pentru moment. Dacă nu doriți acest lucru, va trebui doar
să specificați în head:
<meta name="robots" content="noarchive">
Nu toate motoarele de căutare recunosc însă aceste comenzi meta care se referă
la roboți. O soluție alternativă este utilizarea unui fișier robots.txt în directorul
rădăcină al paginii web. Cu alte cuvinte, dacă adresa noastră este www.mfinante.ro,
atunci fișierul text respectiv trebuie să fie la www.mfinante.ro/robots.txt.
Toți roboții îl vor căuta aici, atunci când accesează pagina. Atenție, dacă
URL-ul sitului este de genul www.domeniu.com/mfinante, fișierul respectiv trebuie
să fie la adresa www.domeniu.com/robots.txt. Iată cum va arăta acest fișier:
User-agent: *
Disallow: /director_secret
Disallow: /pagina_secreta.html
Aceasta înseamnă că întreg directorul pe care l-am numit director_secret și,
în plus, pagina pagina_secreta.html vor fi ignorate de roboți.
Iată un exemplu în care doar un anumit robot (numit, de exemplu cyberbot) va
indexa paginile ascunse:
User-agent: *
Disallow: /director_secret
Disallow: /pagina_secreta.html
User-agent: cyberbot
Disallow:
Dacă doriți ca situl vostru să nu mai fie vizitat de roboți, specificați următoarea
expresie:
User-agent: *
Disallow: /
Vă sfătuiesc să folosiți atât tag-urile meta, cât și fișierul robots.txt atunci
când aveți pagini care nu doriți să fie indexate. Cel mai plauzibil caz ar fi
acela în care situl vostru sau numai anumite părți din acesta se află încă în
construcție.
- Alte tipuri de tag-uri meta sunt:
Autor:
<meta name="author" content="date despre autor">
- Copyright:
<meta name="copyright" content="date despre copyright">
- Editor folosit:
<meta name="generator" content="date despre editorul HTML folosit">
- Data publicării:
<meta name="creation_date" content=" 1/02/2002">
Practic puteți să creați orice fel de informații cu ajutorul acestui tag, dacă
credeți că acestea își au rostul în pagina voastră.
Titlul
Titlul paginii joacă un rol esențial în plasarea ei într-o listă de rezultate.
Majoritatea motoarelor de căutare indexează conținutul acestuia, adică a ceea
ce se află între tag-urile <title> și </title>. În plus, acesta
va putea fi văzut și de cei ce accesează pagina respectivă. Alegerea titlului
unei pagini este asemănătoare cu stabilirea unei descrieri adecvate din meta
- description. Evitați expresii de genul "Home Page" sau "Bun venit" și încercați
să găsiți o sintagmă cât mai sugestivă. Am observat că nenumărate pagini poartă
titlul "Untitled Document" sau "Page 1". Acestea sunt expresiile implicite folosite
de editoarele HTML Dreamweaver și Front Page și se pare că realizatorii paginilor
respective au uitat sau nu știu cum să seteze acest titlu.
Textul Alt
Atunci când folosiți imagini, este întotdeauna bine să includeți și o descriere
a acesteia în tag-ul alt, special creat în acest sens:
<img src="grafic.gif" alt="Descriere a graficului">
Pe lângă faptul că furnizați vizitatorilor un plus de informații, conținutul
acestor descrieri este indexat de multe dintre motoarele de căutare.
Acestea ar fi informațiile pe care trebuie să le introduceți în antetul unei
pagini, pentru ca aceasta să devină inteligibilă și pentru roboții trimiși de
motoarele de căutare.
Conținutul paginii
Majoritatea motoarelor de căutare vor indexa și conținutul paginii web, adică
a textului care apare în ea. Din acest motiv nu este recomandată folosirea cu
insistență a imaginilor în locul textului. De asemenea, conținutul publicat
cu ajutorul unor tehnologii mai avansate (Flash, applet-uri Java, scripturi
JavaScript) nu va fi indexat. Tot aici trebuie atras atenția asupra faptului
că motoarele de căutare nu pot urmări link-uri generate de scripturi DHTML.
Utilizarea cadrelor (frames) poate de asemenea genera probleme anumitor roboți.
Atunci când se efectuează o căutare în baza de date, rezultatele vor fi ordonate
în funcție de semnificația pe care motorul o dă paginii respective. Criteriile
de ordonare nu sunt însă întotdeauna destul de clare. Totuși, în general, cea
mai mare prioritate o au paginile în care se găsesc cele mai multe corespondențe
cu cuvintele cheie căutate. Dacă acestea apar în același timp în titlu, în tag-urile
meta și în conținutul paginii, sunt șanse foarte mari ca pagina respectivă să
ocupe un loc de frunte în lista rezultatelor. Contează, de asemenea, frecvența
cu care apar aceste cuvinte în cadrul documentului și distanța lor față de începutul
acestuia.
În cazul directoarelor web, paginile sunt ordonate uneori alfabetic.
Unele motoare de căutare iau în considerare și popularitatea paginii respective,
analizând numărul de link-uri care duc la ea. Raționamentul este simplu: un
sit popular și de mare interes va fi întotdeauna menționat pe alte locații web.
Motoarele de căutare care sunt în același timp și directoare web, vor acorda
de obicei prioritate paginilor înscrise manual în director.
Chiar și URL-ul este luat în considerare uneori. Astfel, sitului hotelului
XYZ care se găsește la adresa www.hotel-xyz.com va fi mai semnificativ decât
www.xyz.com, atunci când se caută după cuvântul "hotel".
Toți acești factori fac imposibilă aprecierea prealabilă a poziției pe care
o va ocupa un sit în rezultatele unei căutări. Mai mult, aceasta va diferi de
la un motor la altul. Ținta fiecărui webmaster este de a-și vedea situl printre
primele rezultate afișate, deoarece, cel mai probabil, o persoană care caută
ceva nu va accesa mai mult de 10-20 de pagini dintr-o listă. Așa că mulți încearcă
să păcălească motoarele de căutare prin diverse trucuri. Unul dintre ele l-am
amintit deja - includerea unor cuvinte cheie populare care nu au nimic de-a
face cu conținutul sitului. O altă modalitate grosolană de a "fenta" roboții
este includerea pe sit a unei lungi liste de cuvinte cheie, care însă sunt ascunse
de ochii vizitatorului, fiind de aceeași culoare cu cea a fundalului. Rezultatele
nu sunt însă întotdeauna cele așteptate... Dacă țineți cu tot dinadinsul să ajungeți
în top atunci când este vorba de anumite cuvinte cheie, puteți să cumpărați
acest loc. De exemplu, de câte ori cineva va căuta cuvântul "Romania" într-un
motor, situl vostru va apărea primul. Sumele plătite pentru astfel de servicii
pot fi însă destul de mari.
În concluzie, vă sfătuiesc să vă ocupați temeinic și de partea nevăzută a sitului
vostru, înainte de a-l lansa. Astfel, acesta va deveni accesibil pentru un public
mult mai larg.
|