PC Magazine Romania - IPRO - Secretele motoarelor de căutare

AgoraNews

PC Magazine Ro

NET Report

Ginfo

agora ON line

PC Concrete

Liste de discuţii

Cartea de oaspeţi

Mesaje

Agora

Clic aici

IPRO - PC Magazine Romania, 2002
Comunitatea experţilor şi a cititorilor PC Magazine - Internet PRO

Secretele motoarelor de căutare

Emanuel Baruch

Oricine şi oriunde poate publica orice doreşte pe internet. Astfel, numărul paginilor web a crescut continuu în ultimii ani (şi se află încă în creştere) iar întreg spaţiul web a devenit o adevărată junglă informaţională.

Aceşti roboţi, odată ce au vizitat un sit, nu îl vor uita, ci se vor întoarce periodic la el, astfel încât conţinutul indexat va fi reactualizat.

Motoarele de căutare care sunt în acelaşi timp şi directoare web, vor acorda de obicei prioritate paginilor înscrise manual în
director.

Implicit, roboţii care ajung pe o pagină web o vor indexa şi vor urmări toate link-urile din ea.

În aceste condiţii, publicarea unui sit este similară cu aruncarea unui ac într-un car cu fân.

Doar voi, care cunoaşteţi adresa sitului vostru - adică ştiţi exact unde aţi pus acul ;) - şi alţii, care au auzit pe diverse căi de locaţia voastră web, vor avea acces la informaţiile respective. Bineînţeles că mai există posibilitatea ca situl să fie găsit accidental, dar probabilitatea ca vizitatorul acela să fie într-adevăr interesat de el este minimă. Majoritatea internauţilor găsesc paginile pe care le vizitează cu ajutorul unor situri specializate în acest sens, aşa-numitele motoare de căutare şi directoare web. Cum ajunge însă un sit să fie indexat de acestea şi - mai ales - care sunt secretele care vor face ca un anume sit să apară în capul unei liste de rezultate? Din păcate, trebuie să vă dezamăgesc de la bun început. Nu există secrete ale motoarelor de căutare şi nu există o reţetă sigură prin care se poate garanta că un sit va fi reţinut de motoarele de căutare. Criteriile de indexare sunt diferite de la unul la altul şi sunt cunoscute în general numai de cei care au proiectat motorul respectiv. Însă există o serie de chestiuni de care trebuie să ţineţi seama atunci când construiţi o pagină web, astfel încât aceasta să fie optimizată şi pentru motoarele de căutare. Pe scurt, o pagină web conţine şi diverse informaţii invizibile pentru un vizitator obişnuit şi care vor fi înţelese fără probleme de motoarele de căutare.

Mai întâi însă, haideţi să vedem care este diferenţa dintre un motor de căutare şi un director web.

Un motor de căutare este un server ale cărui programe speciale navighează automat pe internet şi indexează toate paginile găsite, în funcţie de anumite criterii. Aceste programe se numesc robots, spiders sau crawlers. În fiecare pagină înregistrată sunt urmărite toate link-urile, iar paginile care se găsesc acolo sunt şi ele indexate imediat sau ajung într-o listă de aşteptare pentru a fi vizitate mai târziu. Astfel, teoretic, aceste motoare de căutare vor ajunge să indexeze întreg spaţiul web. Vă daţi seama că volumul informaţiilor din baza de date a motorului de căutare este enorm. În plus, aceşti roboţi, odată ce au vizitat un sit, nu îl vor uita, ci se vor întoarce periodic la el, astfel încât conţinutul indexat va fi reactualizat. Cei care se află în căutarea unor informaţii, vor specifica anumite cuvinte cheie iar baza de date a motorului de căutare va returna toate rezultatele care coincid cu înregistrările sale. Cel mai cunoscut (şi, după părerea mea, cel mai bun) motor de căutare este Google (www.google.com). Acesta indexează, pe lângă paginile web normale, şi fişierele PDF publicate în cadrul diverselor situri şi chiar şi imagini.

Un director web este o colecţie de link-uri însoţite de anumite explicaţii şi împărţite pe categorii şi subcategorii. Astfel, vizitatorul va putea naviga prin această structură arborescentă, alegând acele adrese web care îl interesează. De cele mai multe ori, aceste directoare sunt alcătuite manual. Aceasta înseamnă că siturile sunt verificate de către o persoană, după care sunt înscrise în anumite categorii/subcategorii. Siturile care urmează să fie indexate sunt la rândul lor propuse sau găsite de diverse persoane. De aceea, informaţiile din directoarele web sunt mai puţin voluminoase, însă mult mai valoroase. Majoritatea directoarelor oferă şi posibilitatea de căutare directă în baza lor de date (a nu se confunda această opţiune cu un motor de căutare veritabil). Cele mai complete directoare web sunt - după părerea mea - Yahoo (www.yahoo.com) şi Dmoz (www.dmoz.org).
Există şi situri care sunt pe de-o parte motoare de căutare, iar pe de altă parte directoare web. Acestea au - de obicei - două opţiuni de căutare: pe web şi în director. Înainte de a intra în detalii mai trebuie precizat că multe motoare de căutare şi directoare web fac schimb reciproc de informaţii sau cumpără conţinut. Probabil aţi observat că atunci când căutaţi ceva pe Yahoo, unele rezultate găsite sunt identice cu cele de pe Google. Aceasta din cauză că Yahoo este "powered by Google" ;).

Să trecem la treabă. După cum ştiţi, codul sursă al unei pagini web este împărţit în două mari secţiuni: Head şi Body. Ceea ce se află în Head nu este vizibil pentru vizitatorul unei pagini web (cu excepţia titlului paginii).
<html>
<head>
<title>Titlul paginii</title>
</head>
<body> ... </body>
</html>
Aici se află însă informaţiile care vor fi citite de motoarele de căutare.

Meta
Tag-ul meta poate fi folosit pentru a publica informaţii "ascunse" despre pagina web în cauză. Forma sa generală este:
<meta name="..." content="...">
Name reprezintă tipul de informaţie la care se referă expresia respectivă, iar content va cuprinde informaţiile concrete. Pentru a exemplifica cele mai importante expresii de tip meta vom presupune că realizăm o pagină web pentru Ministerul Finanţelor.

Cuvinte cheie:
<meta name="keywords" content="minister, ministerul, finanţe, finanţelor, românia, informaţie, informaţii, agent, agenţi, economic, economice, economici, bilanţ, contabil>
Această listă de cuvinte cheie va cuprinde termeni care se potrivesc cu conţinutul paginii voastre. Atunci când o alcătuiţi, trebuie să vă puneţi în locul celor care vor căuta informaţiile respective, să vă gândiţi cum vor încerca aceştia să exprime obiectul căutării lor în câteva cuvinte. Observaţi, din exemplul dat, că am folosit şi diverse variante gramaticale. Întrebarea cea mai frecventă este cât de lungă poate fi această listă.

Majoritatea motoarelor de căutare acceptă între 874 şi 1000 de caractere. Ceea ce este în plus, este de obicei ignorat. Totuşi, anumite situri pot fi penalizate dacă lista de cuvinte cheie este prea lungă, considerându-se că se încearcă un spamming. Am auzit şi zvonuri conform cărora introducerea unor cuvinte cheie uzuale ar îmbunătăţi poziţia unui sit într-o listă de rezultate. Astfel de cuvinte ar fi sex sau free. Nu pot să spun decât că sunt zvonuri... Căutaţi pe Google după aceste două cuvinte. Veţi obţine nu mai puţin de 3.170.000 de rezultate... Dar să revenim la subiect. Virgulele sunt opţionale, ele fiind de cele mai multe ori ignorate de roboţi. Totuşi, vă sfătuiesc să le folosiţi pentru o mai bună lizibilitate.

Descriere
<meta name="description" content="Ministerul Finanţelor din România. Informaţii actuale pentru şi despre agenţii economici">

De multe ori, conţinutul acestui tag meta va fi afişat în lista de rezultate, alături de URL. Vă sfătuiesc să nu folosiţi descrieri de genul "Pagina web a ..." sau expresii asemănătoare, ci încercaţi mai bine să oferiţi cât mai multe informaţii despre sit. Gândiţi-vă că apariţia sitului vostru într-o listă de rezultate nu înseamnă că va fi şi accesat, deoarece vizitatorul trebuie mai întâi convins că acesta conţine într-adevăr ceea ce caută. În ceea ce priveşte lungimea maximă a acestei descrieri, ea este între 150 şi 250 de caractere. Vă sfătuiesc să nu depăşiţi 150.

Roboţi
Implicit, roboţii care ajung pe o pagină web o vor indexa şi vor urmări toate link-urile din ea.

Există însă posibilitatea controlării exacte a activităţii roboţilor cu ajutorul următoarelor tag-uri meta:

O comandă specială, recunoscută numai de Google, este noarchive / archive. Implicit, roboţii Google realizează o copie a fiecărei pagini, astfel încât acestea să poată fi accesate rapid sau în eventualitatea că serverul respectiv nu este disponibil pentru moment. Dacă nu doriţi acest lucru, va trebui doar să specificaţi în head:

User-agent: *
Disallow: /director_secret
Disallow: /pagina_secreta.html

Aceasta înseamnă că întreg directorul pe care l-am numit director_secret şi, în plus, pagina pagina_secreta.html vor fi ignorate de roboţi.

Iată un exemplu în care doar un anumit robot (numit, de exemplu cyberbot) va indexa paginile ascunse:

User-agent: *
Disallow: /director_secret
Disallow: /pagina_secreta.html

User-agent: cyberbot
Disallow:

Dacă doriţi ca situl vostru să nu mai fie vizitat de roboţi, specificaţi următoarea expresie:

User-agent: *
Disallow: /

Vă sfătuiesc să folosiţi atât tag-urile meta, cât şi fişierul robots.txt atunci când aveţi pagini care nu doriţi să fie indexate. Cel mai plauzibil caz ar fi acela în care situl vostru sau numai anumite părţi din acesta se află încă în construcţie.

Alte tipuri de tag-uri meta sunt:
Autor:
<meta name="author" content="date despre autor">
Copyright:
<meta name="copyright" content="date despre copyright">
Editor folosit:
<meta name="generator" content="date despre editorul HTML folosit">
Data publicării:
<meta name="creation_date" content=" 1/02/2002">

Practic puteţi să creaţi orice fel de informaţii cu ajutorul acestui tag, dacă credeţi că acestea îşi au rostul în pagina voastră.

Titlul
Titlul paginii joacă un rol esenţial în plasarea ei într-o listă de rezultate. Majoritatea motoarelor de căutare indexează conţinutul acestuia, adică a ceea ce se află între tag-urile <title> şi </title>. În plus, acesta va putea fi văzut şi de cei ce accesează pagina respectivă. Alegerea titlului unei pagini este asemănătoare cu stabilirea unei descrieri adecvate din meta - description. Evitaţi expresii de genul "Home Page" sau "Bun venit" şi încercaţi să găsiţi o sintagmă cât mai sugestivă. Am observat că nenumărate pagini poartă titlul "Untitled Document" sau "Page 1". Acestea sunt expresiile implicite folosite de editoarele HTML Dreamweaver şi Front Page şi se pare că realizatorii paginilor respective au uitat sau nu ştiu cum să seteze acest titlu.

Textul Alt
Atunci când folosiţi imagini, este întotdeauna bine să includeţi şi o descriere a acesteia în tag-ul alt, special creat în acest sens:

<img src="grafic.gif" alt="Descriere a graficului">
Pe lângă faptul că furnizaţi vizitatorilor un plus de informaţii, conţinutul acestor descrieri este indexat de multe dintre motoarele de căutare.

Acestea ar fi informaţiile pe care trebuie să le introduceţi în antetul unei pagini, pentru ca aceasta să devină inteligibilă şi pentru roboţii trimişi de motoarele de căutare.

Conţinutul paginii
Majoritatea motoarelor de căutare vor indexa şi conţinutul paginii web, adică a textului care apare în ea. Din acest motiv nu este recomandată folosirea cu insistenţă a imaginilor în locul textului. De asemenea, conţinutul publicat cu ajutorul unor tehnologii mai avansate (Flash, applet-uri Java, scripturi JavaScript) nu va fi indexat. Tot aici trebuie atras atenţia asupra faptului că motoarele de căutare nu pot urmări link-uri generate de scripturi DHTML. Utilizarea cadrelor (frames) poate de asemenea genera probleme anumitor roboţi.

Atunci când se efectuează o căutare în baza de date, rezultatele vor fi ordonate în funcţie de semnificaţia pe care motorul o dă paginii respective. Criteriile de ordonare nu sunt însă întotdeauna destul de clare. Totuşi, în general, cea mai mare prioritate o au paginile în care se găsesc cele mai multe corespondenţe cu cuvintele cheie căutate. Dacă acestea apar în acelaşi timp în titlu, în tag-urile meta şi în conţinutul paginii, sunt şanse foarte mari ca pagina respectivă să ocupe un loc de frunte în lista rezultatelor. Contează, de asemenea, frecvenţa cu care apar aceste cuvinte în cadrul documentului şi distanţa lor faţă de începutul acestuia.

În cazul directoarelor web, paginile sunt ordonate uneori alfabetic.

Unele motoare de căutare iau în considerare şi popularitatea paginii respective, analizând numărul de link-uri care duc la ea. Raţionamentul este simplu: un sit popular şi de mare interes va fi întotdeauna menţionat pe alte locaţii web.

Motoarele de căutare care sunt în acelaşi timp şi directoare web, vor acorda de obicei prioritate paginilor înscrise manual în director.

Chiar şi URL-ul este luat în considerare uneori. Astfel, sitului hotelului XYZ care se găseşte la adresa www.hotel-xyz.com va fi mai semnificativ decât www.xyz.com, atunci când se caută după cuvântul "hotel".

Toţi aceşti factori fac imposibilă aprecierea prealabilă a poziţiei pe care o va ocupa un sit în rezultatele unei căutări. Mai mult, aceasta va diferi de la un motor la altul. Ţinta fiecărui webmaster este de a-şi vedea situl printre primele rezultate afişate, deoarece, cel mai probabil, o persoană care caută ceva nu va accesa mai mult de 10-20 de pagini dintr-o listă. Aşa că mulţi încearcă să păcălească motoarele de căutare prin diverse trucuri. Unul dintre ele l-am amintit deja - includerea unor cuvinte cheie populare care nu au nimic de-a face cu conţinutul sitului. O altă modalitate grosolană de a "fenta" roboţii este includerea pe sit a unei lungi liste de cuvinte cheie, care însă sunt ascunse de ochii vizitatorului, fiind de aceeaşi culoare cu cea a fundalului. Rezultatele nu sunt însă întotdeauna cele aşteptate... Dacă ţineţi cu tot dinadinsul să ajungeţi în top atunci când este vorba de anumite cuvinte cheie, puteţi să cumpăraţi acest loc. De exemplu, de câte ori cineva va căuta cuvântul "Romania" într-un motor, situl vostru va apărea primul. Sumele plătite pentru astfel de servicii pot fi însă destul de mari.

În concluzie, vă sfătuiesc să vă ocupaţi temeinic şi de partea nevăzută a sitului vostru, înainte de a-l lansa. Astfel, acesta va deveni accesibil pentru un public mult mai larg.

IPRO - PC Magazine Romania, 2002 Comunitatea experţilor şi a cititorilor PC Magazine - Internet PRO Secretele motoarelor de căutare

IPRO - PC Magazine Romania, 2002
Comunitatea experţilor şi a cititorilor PC Magazine - Internet PRO

Secretele motoarelor de căutare