IPRO - PC Magazine Romania, 2002
Comunitatea experţilor şi a cititorilor PC Magazine
- Internet PRO
Secretele motoarelor de căutare
Emanuel Baruch
Oricine şi oriunde poate publica orice doreşte pe internet. Astfel, numărul
paginilor web a crescut continuu în ultimii ani (şi se află încă în creştere)
iar întreg spaţiul web a devenit o adevărată junglă informaţională.
Aceşti roboţi, odată ce au vizitat un sit, nu îl vor uita, ci se vor întoarce
periodic la el, astfel încât conţinutul indexat va fi reactualizat.
Motoarele de căutare care sunt în acelaşi timp şi directoare web, vor acorda
de obicei prioritate paginilor înscrise manual în
director.
Implicit, roboţii care ajung pe o pagină web o vor indexa şi vor urmări toate
link-urile din ea.
În aceste condiţii, publicarea unui sit este similară cu aruncarea unui ac
într-un car cu fân.
Doar
voi, care cunoaşteţi adresa sitului vostru - adică ştiţi exact unde aţi pus
acul ;) - şi alţii, care au auzit pe diverse căi de locaţia voastră web, vor
avea acces la informaţiile respective. Bineînţeles că mai există posibilitatea
ca situl să fie găsit accidental, dar probabilitatea ca vizitatorul acela să
fie într-adevăr interesat de el este minimă. Majoritatea internauţilor găsesc
paginile pe care le vizitează cu ajutorul unor situri specializate în acest
sens, aşa-numitele motoare de căutare şi directoare web. Cum ajunge însă un
sit să fie indexat de acestea şi - mai ales - care sunt secretele care vor face
ca un anume sit să apară în capul unei liste de rezultate? Din păcate, trebuie
să vă dezamăgesc de la bun început. Nu există secrete ale motoarelor de căutare
şi nu există o reţetă sigură prin care se poate garanta că un sit va fi reţinut
de motoarele de căutare. Criteriile de indexare sunt diferite de la unul la
altul şi sunt cunoscute în general numai de cei care au proiectat motorul respectiv.
Însă există o serie de chestiuni de care trebuie să ţineţi seama atunci când
construiţi o pagină web, astfel încât aceasta să fie optimizată şi pentru motoarele
de căutare. Pe scurt, o pagină web conţine şi diverse informaţii invizibile
pentru un vizitator obişnuit şi care vor fi înţelese fără probleme de motoarele
de căutare.
Mai întâi însă, haideţi să vedem care este diferenţa dintre un motor de căutare
şi un director web.
Un motor de căutare este un server ale cărui programe speciale navighează automat
pe internet şi indexează toate paginile găsite, în funcţie de anumite criterii.
Aceste programe se numesc robots, spiders sau crawlers. În fiecare pagină înregistrată
sunt urmărite toate link-urile, iar paginile care se găsesc acolo sunt şi ele
indexate imediat sau ajung într-o listă de aşteptare pentru a fi vizitate mai
târziu. Astfel, teoretic, aceste motoare de căutare vor ajunge să indexeze întreg
spaţiul web. Vă daţi seama că volumul informaţiilor din baza de date a motorului
de căutare este enorm. În plus, aceşti roboţi,
odată ce au vizitat un sit, nu îl vor uita, ci se vor întoarce periodic la el,
astfel încât conţinutul indexat va fi reactualizat. Cei care se află în căutarea
unor informaţii, vor specifica anumite cuvinte cheie iar baza de date a motorului
de căutare va returna toate rezultatele care coincid cu înregistrările sale.
Cel mai cunoscut (şi, după părerea mea, cel mai bun) motor de căutare este Google
(www.google.com). Acesta
indexează, pe lângă paginile web normale, şi fişierele PDF publicate în cadrul
diverselor situri şi chiar şi imagini.
Un director web este o colecţie de link-uri însoţite de anumite explicaţii
şi împărţite pe categorii şi subcategorii. Astfel, vizitatorul va putea naviga
prin această structură arborescentă, alegând acele adrese web care îl interesează.
De cele mai multe ori, aceste directoare sunt alcătuite manual. Aceasta înseamnă
că siturile sunt verificate de către o persoană, după care sunt înscrise în
anumite categorii/subcategorii. Siturile care urmează să fie indexate sunt la
rândul lor propuse sau găsite de diverse persoane. De aceea, informaţiile din
directoarele web sunt mai puţin voluminoase, însă mult mai valoroase. Majoritatea
directoarelor oferă şi posibilitatea de căutare directă în baza lor de date
(a nu se confunda această opţiune cu un motor de căutare veritabil). Cele mai
complete directoare web sunt - după părerea mea - Yahoo (www.yahoo.com)
şi Dmoz (www.dmoz.org).
Există
şi situri care sunt pe de-o parte motoare de căutare, iar pe de altă parte directoare
web. Acestea au - de obicei - două opţiuni de căutare: pe web şi în director.
Înainte de a intra în detalii mai trebuie precizat că multe motoare de căutare
şi directoare web fac schimb reciproc de informaţii sau cumpără conţinut. Probabil
aţi observat că atunci când căutaţi ceva pe Yahoo, unele rezultate găsite sunt
identice cu cele de pe Google. Aceasta din cauză că Yahoo este "powered by Google"
;).
Să trecem la treabă. După cum ştiţi, codul sursă al unei pagini web este împărţit
în două mari secţiuni: Head şi Body. Ceea ce se află în Head nu este vizibil
pentru vizitatorul unei pagini web (cu excepţia titlului paginii).
<html>
<head>
<title>Titlul paginii</title>
</head>
<body> ... </body>
</html>
Aici se află însă informaţiile care vor fi citite de motoarele de căutare.
Meta
Tag-ul meta poate fi folosit pentru a publica informaţii "ascunse" despre pagina
web în cauză. Forma sa generală este:
<meta name="..." content="...">
Name reprezintă tipul de informaţie la care se referă expresia respectivă, iar
content va cuprinde informaţiile concrete. Pentru a exemplifica cele mai importante
expresii de tip meta vom presupune că realizăm o pagină web pentru Ministerul
Finanţelor.
Cuvinte cheie:
<meta name="keywords" content="minister, ministerul, finanţe, finanţelor,
românia, informaţie, informaţii, agent, agenţi, economic, economice, economici,
bilanţ, contabil>
Această listă de cuvinte cheie va cuprinde termeni care se potrivesc cu conţinutul
paginii voastre. Atunci când o alcătuiţi, trebuie să vă puneţi în locul celor
care vor căuta informaţiile respective, să vă gândiţi cum vor încerca aceştia
să exprime obiectul căutării lor în câteva cuvinte. Observaţi, din exemplul
dat, că am folosit şi diverse variante gramaticale. Întrebarea cea mai frecventă
este cât de lungă poate fi această listă.
Majoritatea motoarelor de căutare acceptă între 874 şi 1000 de caractere. Ceea
ce este în plus, este de obicei ignorat. Totuşi, anumite situri pot fi penalizate
dacă lista de cuvinte cheie este prea lungă, considerându-se că se încearcă
un spamming. Am auzit şi zvonuri conform cărora introducerea unor cuvinte cheie
uzuale ar îmbunătăţi poziţia unui sit într-o listă de rezultate. Astfel de cuvinte
ar fi sex sau free. Nu pot să spun decât că sunt zvonuri... Căutaţi pe Google
după aceste două cuvinte. Veţi obţine nu mai puţin de 3.170.000 de rezultate...
Dar să revenim la subiect. Virgulele sunt opţionale, ele fiind de cele mai multe
ori ignorate de roboţi. Totuşi, vă sfătuiesc să le folosiţi pentru o mai bună
lizibilitate.
Descriere
<meta name="description" content="Ministerul Finanţelor din România. Informaţii
actuale pentru şi despre agenţii economici">
De multe ori, conţinutul acestui tag meta va fi afişat în lista de rezultate,
alături de URL. Vă sfătuiesc să nu folosiţi descrieri de genul "Pagina web a
..." sau expresii asemănătoare, ci încercaţi mai bine să oferiţi cât mai multe
informaţii despre sit. Gândiţi-vă că apariţia sitului vostru într-o listă de
rezultate nu înseamnă că va fi şi accesat, deoarece vizitatorul trebuie mai
întâi convins că acesta conţine într-adevăr ceea ce caută. În ceea ce priveşte
lungimea maximă a acestei descrieri, ea este între 150 şi 250 de caractere.
Vă sfătuiesc să nu depăşiţi 150.
Roboţi
Implicit, roboţii care ajung pe o pagină web o vor indexa şi vor urmări toate
link-urile din ea.
Există însă posibilitatea controlării exacte a activităţii roboţilor cu ajutorul
următoarelor tag-uri meta:
<meta name="robots" content="noindex">
<meta name="robots" content="nofollow">
Noindex va determina robotul să nu indexeze pagina iar nofollow îl va împiedica
să urmărească link-urile pe care le găseşte în pagina respectivă.
Pentru a avea certitudinea că pagina nu va fi ignorată de roboţi, este însă
bine să specificăm în fiecare dintre acestea:
<meta name="robots" content="index, follow">
Expresiile pot fi folosite şi împreună, în diferite combinaţii:
<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="index, nofollow">
<meta name="robots" content="index, follow">
O comandă specială, recunoscută numai de Google, este noarchive / archive.
Implicit, roboţii Google realizează o copie a fiecărei pagini, astfel încât
acestea să poată fi accesate rapid sau în eventualitatea că serverul respectiv
nu este disponibil pentru moment. Dacă nu doriţi acest lucru, va trebui doar
să specificaţi în head:
<meta name="robots" content="noarchive">
Nu toate motoarele de căutare recunosc însă aceste comenzi meta care se referă
la roboţi. O soluţie alternativă este utilizarea unui fişier robots.txt în directorul
rădăcină al paginii web. Cu alte cuvinte, dacă adresa noastră este www.mfinante.ro,
atunci fişierul text respectiv trebuie să fie la www.mfinante.ro/robots.txt.
Toţi roboţii îl vor căuta aici, atunci când accesează pagina. Atenţie, dacă
URL-ul sitului este de genul www.domeniu.com/mfinante, fişierul respectiv trebuie
să fie la adresa www.domeniu.com/robots.txt. Iată cum va arăta acest fişier:
User-agent: *
Disallow: /director_secret
Disallow: /pagina_secreta.html
Aceasta înseamnă că întreg directorul pe care l-am numit director_secret şi,
în plus, pagina pagina_secreta.html vor fi ignorate de roboţi.
Iată un exemplu în care doar un anumit robot (numit, de exemplu cyberbot) va
indexa paginile ascunse:
User-agent: *
Disallow: /director_secret
Disallow: /pagina_secreta.html
User-agent: cyberbot
Disallow:
Dacă doriţi ca situl vostru să nu mai fie vizitat de roboţi, specificaţi următoarea
expresie:
User-agent: *
Disallow: /
Vă sfătuiesc să folosiţi atât tag-urile meta, cât şi fişierul robots.txt atunci
când aveţi pagini care nu doriţi să fie indexate. Cel mai plauzibil caz ar fi
acela în care situl vostru sau numai anumite părţi din acesta se află încă în
construcţie.
- Alte tipuri de tag-uri meta sunt:
Autor:
<meta name="author" content="date despre autor">
- Copyright:
<meta name="copyright" content="date despre copyright">
- Editor folosit:
<meta name="generator" content="date despre editorul HTML folosit">
- Data publicării:
<meta name="creation_date" content=" 1/02/2002">
Practic puteţi să creaţi orice fel de informaţii cu ajutorul acestui tag, dacă
credeţi că acestea îşi au rostul în pagina voastră.
Titlul
Titlul paginii joacă un rol esenţial în plasarea ei într-o listă de rezultate.
Majoritatea motoarelor de căutare indexează conţinutul acestuia, adică a ceea
ce se află între tag-urile <title> şi </title>. În plus, acesta
va putea fi văzut şi de cei ce accesează pagina respectivă. Alegerea titlului
unei pagini este asemănătoare cu stabilirea unei descrieri adecvate din meta
- description. Evitaţi expresii de genul "Home Page" sau "Bun venit" şi încercaţi
să găsiţi o sintagmă cât mai sugestivă. Am observat că nenumărate pagini poartă
titlul "Untitled Document" sau "Page 1". Acestea sunt expresiile implicite folosite
de editoarele HTML Dreamweaver şi Front Page şi se pare că realizatorii paginilor
respective au uitat sau nu ştiu cum să seteze acest titlu.
Textul Alt
Atunci când folosiţi imagini, este întotdeauna bine să includeţi şi o descriere
a acesteia în tag-ul alt, special creat în acest sens:
<img src="grafic.gif" alt="Descriere a graficului">
Pe lângă faptul că furnizaţi vizitatorilor un plus de informaţii, conţinutul
acestor descrieri este indexat de multe dintre motoarele de căutare.
Acestea ar fi informaţiile pe care trebuie să le introduceţi în antetul unei
pagini, pentru ca aceasta să devină inteligibilă şi pentru roboţii trimişi de
motoarele de căutare.
Conţinutul paginii
Majoritatea motoarelor de căutare vor indexa şi conţinutul paginii web, adică
a textului care apare în ea. Din acest motiv nu este recomandată folosirea cu
insistenţă a imaginilor în locul textului. De asemenea, conţinutul publicat
cu ajutorul unor tehnologii mai avansate (Flash, applet-uri Java, scripturi
JavaScript) nu va fi indexat. Tot aici trebuie atras atenţia asupra faptului
că motoarele de căutare nu pot urmări link-uri generate de scripturi DHTML.
Utilizarea cadrelor (frames) poate de asemenea genera probleme anumitor roboţi.
Atunci când se efectuează o căutare în baza de date, rezultatele vor fi ordonate
în funcţie de semnificaţia pe care motorul o dă paginii respective. Criteriile
de ordonare nu sunt însă întotdeauna destul de clare. Totuşi, în general, cea
mai mare prioritate o au paginile în care se găsesc cele mai multe corespondenţe
cu cuvintele cheie căutate. Dacă acestea apar în acelaşi timp în titlu, în tag-urile
meta şi în conţinutul paginii, sunt şanse foarte mari ca pagina respectivă să
ocupe un loc de frunte în lista rezultatelor. Contează, de asemenea, frecvenţa
cu care apar aceste cuvinte în cadrul documentului şi distanţa lor faţă de începutul
acestuia.
În cazul directoarelor web, paginile sunt ordonate uneori alfabetic.
Unele motoare de căutare iau în considerare şi popularitatea paginii respective,
analizând numărul de link-uri care duc la ea. Raţionamentul este simplu: un
sit popular şi de mare interes va fi întotdeauna menţionat pe alte locaţii web.
Motoarele de căutare care sunt în acelaşi timp şi directoare web, vor acorda
de obicei prioritate paginilor înscrise manual în director.
Chiar şi URL-ul este luat în considerare uneori. Astfel, sitului hotelului
XYZ care se găseşte la adresa www.hotel-xyz.com va fi mai semnificativ decât
www.xyz.com, atunci când se caută după cuvântul "hotel".
Toţi aceşti factori fac imposibilă aprecierea prealabilă a poziţiei pe care
o va ocupa un sit în rezultatele unei căutări. Mai mult, aceasta va diferi de
la un motor la altul. Ţinta fiecărui webmaster este de a-şi vedea situl printre
primele rezultate afişate, deoarece, cel mai probabil, o persoană care caută
ceva nu va accesa mai mult de 10-20 de pagini dintr-o listă. Aşa că mulţi încearcă
să păcălească motoarele de căutare prin diverse trucuri. Unul dintre ele l-am
amintit deja - includerea unor cuvinte cheie populare care nu au nimic de-a
face cu conţinutul sitului. O altă modalitate grosolană de a "fenta" roboţii
este includerea pe sit a unei lungi liste de cuvinte cheie, care însă sunt ascunse
de ochii vizitatorului, fiind de aceeaşi culoare cu cea a fundalului. Rezultatele
nu sunt însă întotdeauna cele aşteptate... Dacă ţineţi cu tot dinadinsul să ajungeţi
în top atunci când este vorba de anumite cuvinte cheie, puteţi să cumpăraţi
acest loc. De exemplu, de câte ori cineva va căuta cuvântul "Romania" într-un
motor, situl vostru va apărea primul. Sumele plătite pentru astfel de servicii
pot fi însă destul de mari.
În concluzie, vă sfătuiesc să vă ocupaţi temeinic şi de partea nevăzută a sitului
vostru, înainte de a-l lansa. Astfel, acesta va deveni accesibil pentru un public
mult mai larg.
|